Suchen

Dateisysteme für riesige Datenmengen, Teil 3 MooseFS, BeeGFS, Lustre, Google File System, XtreemFS speichern Petabyte

| Autor / Redakteur: Thomas Joos / Dr. Jürgen Ehneß

Um Datenmengen im großen Umfang zu speichern, werden häufig Dateisysteme eingesetzt, die sich über mehrere Computer ausdehnen.Der Autor Thomas Joos stellt nachfolgend einige vor.

Firma zum Thema

Die Datenmengen steigen – und mit ihnen der Bedarf an geeigneten Dateisystemen.
Die Datenmengen steigen – und mit ihnen der Bedarf an geeigneten Dateisystemen.
(Bild: © garrykillian - adobe.stock.com)

Es gibt zahlreiche Dateisysteme, die in der Lage sind, Daten im Petabyte-Umfang nicht nur zu speichern, sondern Anwendern auch leistungsstark und effektiv zur Verfügung zu stellen. Vor allem, wenn hauptsächlich sehr große Dateien oder unstrukturierte Daten gespeichert werden sollen, sind verteilte Dateisysteme eine gute Grundlage.

MooseFS – Open-Source-POSIX-kompatibles verteiltes Dateisystem

Bei „MooseFS“ handelt es sich um ein fehlertolerantes, verteiltes Dateisystem. Mit diesem lassen sich die Daten auf mehrere Server und auch Rechenzentren in einem Cluster verteilen.

MooseFS verhält sich wie jedes andere Unix-ähnliche Dateisystem. Es ist also problemlos möglich, Arbeitsstationen, Workloads und Server an das Dateisystem anzubinden. MooseFS unterstützt POSIX-Datei-Attribute, zum Beispiel Berechtigungen, den letzten Zugriff und Änderungszeiten. Links und Verknüpfungen werden in MooseFS ebenfalls unterstützt.

Der Zugriff auf das Dateisystem kann auf Basis von IP-Adressen und -Bereichen oder mit Berechtigungen erfolgen. Das Dateisystem legt mehrere Kopien der Daten auf getrennten physischen Computern ab. Das erhöht die Verfügbarkeit und beschleunigt die Zugriffe.

Die Kapazität des Speichersystems ist durch das Hinzufügen neuer Knoten oder neuer Festplatten skalierbar. Das Dateisystem verfügt auch über einen Papierkorb, aus dem gelöschte Dateien wiederhergestellt werden können. Schnappschüsse von Dateien sind mit MooseFS auch während des Schreibens oder Lesens auf Dateien möglich.

BeeGFS – Dateisystem für Hochleistungsrechner

Das „BeeGFS-Dateisystem“ steht kostenlos zur Verfügung. Wer das System produktiv einsetzt, kann professionellen Support lizenzieren.

In den meisten Fällen wird BeeGFS als fertige Storage-Lösung von Partnern des Systems geliefert. BeeGFS verteilt Daten transparent für Benutzer und Workloads über mehrere Server, die zu einem Storage-Cluster zusammengefasst werden.

Auch BeeGFS zeichnet sich dadurch aus, dass die Erhöhung der Anzahl von Knoten im Cluster und der Platten auf den Knoten die Leistung und Kapazität des Dateisystems auf das benötigte Niveau skalieren kann. Das ist ein Bereich, der für nahezu alle parallelen Dateisysteme gilt.

Genau hier ist es für Unternehmen sinnvoll zu testen, ob das entsprechende Dateisystem für das eigene Netzwerk sinnvoll skaliert werden kann. Systeme wie BeeGFS können von kleinen Clustern bis hin zu Systemen mit Tausenden von Knoten skaliert werden.

Lustre – Dateisystem der Supercomputer

Lustre ist ein weiteres paralleles Dateisystem, das vor allem für große Cluster mit extrem großen Datenmengen optimiert ist (High-Performance-Computing, HPC). Im Fokus des Dateisystems steht eine extrem hohe Leistungsfähigkeit. Einige der schnellsten Supercomputer der Welt setzen auf Lustre. Aber das System ist auch für kleine Netzwerke und mittelgroße oder kleine Cluster nutzbar. Das Dateisystem steht als Open Source (GPL2) zur Verfügung.

Seit Dezember 2019 ist die neue Version 2.13.0 erhältlich, die über einige Neuerungen verfügt, mit denen die Leistung des Dateisystems weiter ansteigt. Mit Persistent Client Cache kann Luste lokalen Datenspeicher von Clients als Cache nutzen. Sinnvoll ist das, wenn hier zum Beispiel schneller Flash-Speicher verbaut ist. Der Sinn dahin ist, dass Clients Daten lokal speichern, zum Beispiel auf Datenträgern mit dem Dateisystem ext4. Das erhöht weiter die Leistung des Systems, da dieser Speicher direkt in das Dateisystem integriert wird. Dadurch können auch andere Clients im Netzwerk auf die Daten zugreifen, die auf dem entsprechenden entfernten Client gespeichert sind.

Google File System – Dateisystem der Google-Websuche

Das „Google File System“ (GFS, GoogleFS) ist ein Linux-basiertes, verteiltes Dateisystem, das von Google 2003 veröffentlicht wurde. Das System wird auch intern von Google genutzt, zum Beispiel bei der Web-Suche. Das Dateisystem kann somit sehr große Dateien und Datenmengen speichern und ist für einen hohen Datendurchsatz optimiert.

Wie bei anderen verteilten Dateisystemen besteht ein Storage-System, das auf GFS setzt, aus verschiedenen Cluster-Knoten. Ein Knoten wird zum Master, die anderen Knoten stellen die Chunk-Server dar. Auf den Chunk-Servern werden die Daten gespeichert.

Insgesamt lassen sich mehrere Tausend Knoten zusammenfassen. Auf dem Master-Server werden die Metadaten gespeichert. Der Server steuert darüber hinaus die Zugriffe auf die Daten. Generell stellt so eine Struktur ein Problem dar, weil die Skalierbarkeit und die Verfügbarkeit des Clusters vom Master-Knoten abhängen. Google hat diesbezüglich allerdings noch keine Probleme festgestellt.

Einige Google-Mitarbeiter, die bei der Entwicklung von GFS mitgearbeitet haben, sind auch an der Entwicklung von „Nutanix Distributed Filesystem“ beteiligt. Das System orientiert sich generell an GFS, entspricht vom Funktionsumfang aber eher „VMware vSAN“.

XtreemFS – Open-Source-Dateisystem für Big Data

Ein weiterer Vertreter verteilter Dateisysteme ist das Open-Source-Dateisystem „XtreemFS“. XtreemFS erfordert keine spezielle Hardware oder Kernel-Module. Das System kann auf Linux, Windows und MacOS eingesetzt werden. Der Vorteil des Systems ist, dass es sehr schnell einsatzbereit ist, wie die Quickstart-Anleitung für Linux zeigt.

XtreemFS repliziert Daten über mehrere Server, die auch auf verschiedenen Rechenzentren weltweit verteilt sein können. Für jede replizierte Datei führt XtreemFS eine Liste von Replikaten, die Administratoren die Kontrolle darüber gibt, wo die Replikate gespeichert werden sollen.

Dadurch lassen sich eigene Richtlinien erstellen. Wenn eine replizierte Datei geöffnet wird, wählt XtreemFS automatisch eine primäre Replik für diese Datei aus. Fällt die primäre Replik aus, übernimmt nach einer kurzen Failover-Periode automatisch eines der Backup-Replikate.

Zusätzlich bietet XtreemFS eine schreibgeschützte Replikation. Dieser Replikationsmodus arbeitet mit unveränderlichen Dateien und unterstützt eine große Anzahl von Replikaten. Eine XtreemFS-Installation kann auf Tausende von Speicher- und Metadaten-Servern skaliert werden. Unternehmen können mit XtreemFS eine eigene Speicher-Cloud aufbauen oder XtreemFS aus der Cloud heraus für den Zugriff auf externe Speicherressourcen nutzen.

* Thomas Joos ist freier Autor und schreibt auf DataCenter-Insider seinen eignen Blog mit Tipps und Tricks für Administratoren: Toms Admin Blog

(ID:46732420)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist