Suchen

Dateisysteme für riesige Datenmengen, Teil 2 Quantum Stornext FS, HDFS, HPE MapR, Qumulo QF2, Microsoft ReFS speichern Petabyte

| Autor / Redakteur: Thomas Joos / Dr. Jürgen Ehneß

Immer mehr Unternehmen aller Größenordnung benötigen Speicherplatz im Petabyte-Umfang. Hier sind standardmäßige Dateisysteme nicht mehr geeignet, da bei ihnen die Leistung für das Schreiben und Lesen nicht zur Verfügung steht.

Firmen zum Thema

Zum Speichern von Big Data benötigt man entsprechend dimensionierte Dateisysteme.
Zum Speichern von Big Data benötigt man entsprechend dimensionierte Dateisysteme.
(Bild: © garrykillian - AdobeStock)

Im ersten Teil dieser Artikelserie „Dateisysteme für riesige Datenmengen, Teil 1“ ist bereits IBM General Parallel File System, GlusterFS, Isilon OneFS Distributed Filesystem und Operating System, CephFS und ZFS behandelt worden.

Dateisysteme wie diese sind dafür optimiert, vor allem große Datenmengen effektiv speichern zu können und auch eine hohe Leistung beim Zugriff zu ermöglichen. Die Dateisysteme werden auf den entsprechenden Storage-Devices betrieben und ermöglichen über das Netzwerk den Zugriff von Client-Betriebssystemen wie Windows, Linux, MacOS, Unix und anderen.

Quantum Stornext FS

Das „Stornext File System von Quantum“ ist ein weiteres Dateisystem, das für das Speichern großer Datenmengen optimiert ist. Das parallele Dateisystem verfügt über eine integrierte Datenverwaltungs-Software, die dafür optimiert wurde, auch unstrukturierte Daten zu verwalten. Quantum ist bekannt für Scale-Out Storage und Storage-Lösungen für das Speichern von großen Datenmengen.

Stornext kann durch seine parallele Struktur auch in Rechenzentren eingesetzt werden, bei denen Speicher-Cluster über mehrere Rechenzentren geographisch verteilt sind. Das hilft Teams aus verschiedenen Standorten, an großen Dateien gemeinsam zu arbeiten. Das protokollübergreifende Sperren für gemeinsam genutzte Dateien über SAN, NFS und SMB ist eine Funktion von Stornext, wenn Daten auf Systemen sowohl via Fibre Channel als auch über Ethernet angebunden sind.

Stornext kann Daten automatisiert über mehrere Speicherebenen und Richtlinien verschieben, ähnlich wie die anderen Systeme in dieser Artikelreihe. Das Verschieben erfolgt transparent, und die Anwender können ohne Unterbrechung dauerhaft auf die Dateien zugreifen.

Dieses Storage-Tiering ermöglicht es, Daten mit weniger häufigem Zugriff (Cold Data) auf kostengünstigsten Speicher zu verschieben. Häufig verwendete Dateien (Hot Data) werden wiederum auf sehr schnellen Datenspeichern abgelegt, zum Beispiel auf Flash-Speichern (SSD). Alle Speicher werden dadurch effektiv genutzt.

Hadoop File System – HDFS

Das Dateisystem „HDFS“ wurde als verteiltes Dateisystem vor allem aus dem Big-Data-Bereich bekannt und wird häufig bei der Big-Data-Plattform „Hadoop“ eingesetzt. HDFS hat den Vorteil, dass es zum Beispiel auch gemeinsam mit SQL Server 2019 eingesetzt werden kann. Die meisten Analyselösungen, die große Datenmengen nutzen, unterstützen auch HDFS.

Auch in „Microsoft Azure“ kann HDFS genutzt werden. „Azure Data Lake“ ist zum Beispiel kompatibel mit dem Hadoop File System (HDFS). Beim Betrieb eigener Hadoop-Cluster können Unternehmen auf Azure Data Lake als Datenspeicher zugreifen und hier HDFS anbinden.

Neben den großen Speichermöglichkeiten ist auch der Datendurchsatz entsprechend hoch. HDFS kann aber auch auf älterer Standard-Hardware eingesetzt werden. Dadurch lassen sich auch mit vorhandener Hardware schnelle Datenspeicher zur Verfügung stellen. Das System verfügt über eine integrierte Hochverfügbarkeit. Da gespeicherte Daten auf mehreren Knoten gespeichert werden, kann der Ausfall einzelner Knoten kompensiert werden.

HPE MapR XD Distributed File and Object Store mit MapR FS

MapR FS/XD“ ist ein verteiltes Dateisystem für Cluster, das von HPE vertrieben wird. MapR FS/XD steht im Big-Data-Bereich natürlich im direkten Mitbewerb zu HDFS.

Das Dateisystem der MapR-Distribution ermöglicht das Aktualisieren von Dateien. Im Vergleich dazu kann HDFS im Grunde genommen nur Daten an eine Datei anhängen, während MapR FS/XD eine Datei mit jedem beliebigen Offset schreiben kann. Auch Datenbanksysteme können auf MapR FS/XD setzen.

Qumulo QF2

Das relative neue Unternehmen Qumulo bietet mit „File Fabric 2“ (QF2) ein Dateisystem, das ebenfalls in der Lage ist, sehr große Datenmengen zu speichern. Ähnlich wie HDFS unterstützt auch QF2 die Installation auf eigener Hardware und ist hier bezüglich der Kompatibilität sehr flexibel. QF2 ist auch in der Lage, Quotas einzubinden, und kann Cluster in verteilten Rechenzentren zur Verfügung stellen.

Der generelle (vermeintliche) Nachteil von QF2 ist sicherlich das geringe Alter des Unternehmens und des Systems. Hier können andere Hersteller wesentlich mehr Erfahrung in die Waagschale werfen. Auf der anderen Seite setzen bereits die bekanntesten Filmstudios für Animationsfilme auf Qumulo.

Storage Spaces Direct mit ReFS

Generell ist auch das „Microsoft Resilent File System“ (ReFS) dazu in der Lage, mehrere Petabyte an Daten zu speichern. ReFS für sich alleine stellt kein verteiltes Dateisystem dar. Zusammen mit Windows Server 2016/2019 kann über „Storage Spaces Direct“ aber ein virtueller Speicher gebildet werden, der auch über verteilte Rechenzentren betrieben werden kann.

Der Vorteil von Storage Spaces Direct (S2D) besteht zum Beispiel auch darin, dass sich das System nahtlos in Microsoft-Netzwerke integriert, mit Microsoft-Technologien verwalten lässt und kostenlos zu den Bordmitteln von Windows Server 2016 und Windows Server 2019 in den Datacenter-Editionen gehört. Unternehmen wie zum Beispiel Thomas-Krenn bieten vorgefertigte Systeme an, mit denen auch kleine Unternehmen auf solche Systeme setzen können.

*Thomas Joos ist freier Autor und schreibt auf DataCenter-Insider seinen eignen Blog mit Tipps und Tricks für Administratoren: Toms Admin Blog.

(ID:46730624)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist