Storage für Big Data

Alluxio - Open Source Memory Speed Virtual Distributed Storage

| Autor: Thomas Joos

Rechenzentren effektiv betreiben (Bild: Pixabay)
Rechenzentren effektiv betreiben (Bild: Pixabay) (Rechenzentren effektiv betreiben (Bild: Pixabay))

Bei Alluxio (https://www.alluxio.io) handelt es sich um ein virtuelles Dateisystem, an das sich verschiedene Speichertechnologien anbinden lassen. Anwendungen, die Daten analysieren, zum Beispiel Hadoop, können mit einer einzigen Speicherschnittstelle auf eine Vielzahl an verschiedenen Speichersysteme zugreifen, auch in der Cloud und in Hybrid-Umgebungen.

Das System wird unter der Apache 2.0-Lizenz bereitgestellt. Es gibt daher eine kostenlose Community Edition. Im Fokus des Systems steht die Anbindung von Big-Data-Lösungen, wie zum Beispiel Hadoop oder anderen Systemen, die große Datenmengen verarbeiten müssen. Dazu verbindet sich die Lösung, mit der Daten verarbeitet werden, mit Alluxio. An Alluxio sind wiederum die verschiedenen Datenquellen angebunden. Alluxio kann diese Daten aus verschiedenen Quellen anschließend für die jeweilige Anwendung bereitstellen.

Alluxio unterstützt zahlreiche Storage-Systeme. Diese müssen nicht unbedingt mit HDFS betrieben werden. Auch Amazon S3 oder Swift werden uneingeschränkt unterstützt. Neben der Anbindung von lokalen Dateisystemen, die Daten für Alluxio zur Verfügung stellen, können parallel auch Clouddienste angebunden werden.

Alluxio hilft dabei Probleme bei der Extraktion von Daten zu lösen. Dazu stellt das Tool eine Brücke zwischen Anwendungen und Speichersystemen bereit, auf denen Daten gespeichert sind. Alluxio vereinfacht die Vorgehensweise für den Datenzugriff und unterstützt Anwendungen dabei unabhängig von Format und Standort auf Daten zuzugreifen.

In vielen Unternehmen wird die Objektspeicherung als wichige Datenquelle für Datenanalyseanwendungen wie Spark, Presto, Hadoop oder Machine Learning/AI-Workloads wie Tensorflow genutzt. Bei der Objektspeicherung kann es sich um Clouddienste wie AWS S3, Azure Blob Storage, Google Cloud Storage, Aliyun OSS, Tencent COS oder um lokale Objektspeicher wie Ceph oder Swift handeln.