Suchen

Dateisysteme für riesige Datenmengen, Teil 1 Datenspeicher für Petabyte-Umfänge

Autor / Redakteur: Thomas Joos / Dr. Jürgen Ehneß

Die Datenmenge, die Unternehmen speichern müssen, steigt immer weiter an. Herkömmliche Dateisysteme wie extX, NTFS oder ReFS sind kaum mehr in der Lage, Das zu leisten. Autor Thomas Joos gibt einen Überblick, welche Dateisysteme das besser können.

Big Data zu speichern, übersteigt die Fähigkeiten herkömmlicher Dateisysteme.
Big Data zu speichern, übersteigt die Fähigkeiten herkömmlicher Dateisysteme.
(Bild: © garrykillian - adobe.stock.com)

Für die Speicherung großer Datenmengen gibt es spezielle Dateisysteme, die unabhängig von der eingesetzten Hardware funktionieren. Vor allem in den Bereichen zur Speicherung von Bildern, Videos, Big Data, aber auch für die Speicherung virtueller Server spielen Dateisysteme wie „GPFS“ oder „GlusterFS“ eine wichtige Rolle. Auch Backup- und Archivdaten sowie Informationen aus maschinell erstellten Systemen wie dem Internet of Things (IoT) erreichen schnell eine große Datenmenge, bei denen herkömmliche Dateisysteme nicht mehr ausreichen.

IBM General Parallel File System

Das „General Parallel File System“ (GPFS) von IBM wird vor allem auf den Betriebssystemen AIX und Linux eingesetzt. Es gibt aber auch die Möglichkeit, GPFS in Windows zu nutzen.

Das System ist mittlerweile über 20 Jahre alt und funktioniert ähnlich wie das „Hadoop Distributed File System (HDFS)“. Diese Dateisysteme verteilen die Daten auf mehrere Cluster-Knoten und fassen verschiedene Server und Speicher-Hardware zu einem virtuellen, kompletten System zusammen.

GPFS ist in der Lage, Tausende Knoten zu einem Cluster zusammenzufassen. Der Zugriff auf die Daten erfolgt daher nicht nur auf lokaler Hardware, sondern das Dateisystem kann auch Netzwerkverbindungen nutzen.

Wichtig ist für eine hohe Leistung, dass die Verbindungen zwischen den Servern sehr leistungsstark sind. Das System ermöglicht außerdem, dass Knoten im Cluster parallel auf andere Knoten zugreifen können, auch simultan.

GPFS verteilt die Daten auf mehrere Datenträger und bietet einen sehr hohen Datendurchsatz. Da das System parallel funktioniert, werden große Datenmengen auf mehreren Servern parallel gelesen und geschrieben. Damit die Daten kontrolliert auf den beteiligten Cluster-Knoten gespeichert werden, kümmert sich ein Knoten im Cluster um die Steuerung der Speicher- und Lesezugriffe.

Da GPFS die Speicherung auf mehrere Knoten umfasst, sind durch die parallelen Zugriffe nicht nur schnelle Schreib- und Lesezugriffe möglich, sondern der Ausfall eines Servers kann kompensiert werden, ähnlich wie der Ausfall einer Festplatte in einem RAID-System. Die Datenträger, die in den beteiligten Servern verbaut sind, müssen beim Einsatz von GPFS nicht identisch sein. Das Dateisystem erkennt verschiedene Techniken und speichert Daten, die oft verwendet werden (Hot Data) auf Datenträger, die besonders leistungsstark sind.

GlusterFS – Datenspeicherung mit Open Source

Auch bei „GlusterFS“ handelt es sich um ein verteiltes Dateisystem, auf Basis von Open Source. Das System wird vor allem für Linux entwickelt, kann aber auch in BSD, MacOS und OpenSolaris genutzt werden. Für Windows ist derzeit keine offizielle Unterstützung integriert, aber geplant.

Auch dieses Dateisystem kann mehrere Petabyte Daten speichern. Über GlusterFS werden mehrere Storage-Server zusammengefasst. Die Kommunikation erfolgt über TCP/IP oder Infiniband.

Ein Vorteil von GlusterFS ist die Möglichkeit, günstigere Hardware verwenden zu können. Neben der kostenlosen Open-Source-Version stellt Red Hat als einer der größten Sponsoren zudem eine kostenpflichtige Version zur Verfügung, die unter anderem Support bietet. Red Hat liefert GlusterFS mit „Red Hat Storage Server“ aus.

Storage-Systeme von Dell EMC mit OneFS.
Storage-Systeme von Dell EMC mit OneFS.
(Bild: Dell)

Isilon OneFS Distributed Filesystem und Operating System

„OneFS“ ist ein verteiltes Dateisystem, das von Isilon Systems entwickelt wurde. Das Unternehmen gehört Dell. Genutzt wird das Dateisystem von OneFS Operating System; dabei handelt es sich um ein Derivat von FreeBSD. Wer also das verteilte Dateisystem OneFS nutzen will, muss auch auf OneFS Operating System setzen.

Auch hier lassen sich die Cluster-Knoten mit TCP/IP oder Infiband verknüpfen. Das Dateisystem wird vor allem auch auf speziellen Speichersystemen von Dell EMC eingesetzt. Der Zugriff auf das System ist auch von extern möglich.

Ceph wird vor allem auf Linux-Rechnern eingesetzt.
Ceph wird vor allem auf Linux-Rechnern eingesetzt.
(Bild: Thomas Joos)

CephFS

Auch CephFS stellt ein Dateisystem dar, das in der Lage ist, große Datenmengen zu speichern. Beim Einsatz von CephFS werden ebenfalls Cluster erstellt, bei denen die Daten auf mehrere Knoten verteilt werden.

Ceph wird häufig auch in virtuellen Umgebungen eingesetzt, um Images von virtuellen Servern zu speichern. CephFS wird vor allem auf Computern mit Linux und FreeBSD eingesetzt.

ZFS

ZFS wird vor allem für Solaris, Linux und FreeBSD entwickelt und kann theoretisch auch eine riesige Datenmenge speichern. Das System ist in der Hand von Oracle und wurde ursprünglich für Solaris entwickelt. Einfach ausgedrückt, ist der Einsatz von ZFS vor allem dann sinnvoll, wenn die enorme Leistung und Speicherfähigkeit von GlusterFS oder GPFS noch nicht notwendig und zu aufwendig ist.

Auch ZFS fasst Datenspeicher zu Pools zusammen und ist durchaus in der Lage, auch große Datenmengen zu speichern, wie sie häufig auf NAS-Systemen gespeichert werden. Aus diesem Grund wird ZFS vor allem von Anbietern unterstützt, die NAS-Systeme zur Verfügung stellen oder mit denen auf vorhandener Hardware NAS-Systeme installiert werden können.

Fazit

Im Gegensatz zu herkömmlichen Dateisystemen wie ext3, ext4, APFS, NTFS oder ReFS und vielen anderen haben Dateisysteme für große Datenmengen nicht einzelne Datenträger oder einen Verbund von Datensystemen im Fokus. Systeme wie GPFS, GlusterFS und OneFS fassen die Datenträger von mehreren Computern zusammen und bilden ein intelligentes System, das parallel Daten auf den angebundenen Cluster-Knoten schreiben und lesen kann.

Dateisysteme im Petabyte-Bereich bilden also vor allem Cluster-Systeme ab, bei denen die Knoten zu einem gemeinsamen Dateisystem zusammengefasst werden. Die Kommunikation erfolgt in diesem Fall meistens über TCP/IP oder Infiniband. Es spielt für die Dateisysteme also eine wichtige Rolle, dass nicht nur die Schnittstellen der angeschlossenen Datenträger schnell genug sind, um parallele Schreib- und Lesevorgänge abzubilden, sondern auch die verbundenen Cluster-Knoten müssen leistungsstark miteinander verbunden sein.

*Thomas Joos ist freier Autor und schreibt auf DataCenter-Insider seinen eignen Blog mit Tipps und Tricks für Administratoren: Toms Admin Blog.

(ID:46732350)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist