Datenspeicher für Petabyte-Umfänge

Dateisysteme für riesige Datenmengen, Teil 1 Datenspeicher für Petabyte-Umfänge

27.07.2020 Von Thomas Joos

Anbieter zum Thema

Die Datenmenge, die Unternehmen speichern müssen, steigt immer weiter an. Herkömmliche Dateisysteme wie extX, NTFS oder ReFS sind kaum mehr in der Lage, Das zu leisten. Autor Thomas Joos gibt einen Überblick, welche Dateisysteme das besser können.

Big Data zu speichern, übersteigt die Fähigkeiten herkömmlicher Dateisysteme.(Bild: © garrykillian - adobe.stock.com) — Big Data zu speichern, übersteigt die Fähigkeiten herkömmlicher Dateisysteme.
(Bild: © garrykillian - adobe.stock.com)

Für die Speicherung großer Datenmengen gibt es spezielle Dateisysteme, die unabhängig von der eingesetzten Hardware funktionieren. Vor allem in den Bereichen zur Speicherung von Bildern, Videos, Big Data, aber auch für die Speicherung virtueller Server spielen Dateisysteme wie „GPFS“ oder „GlusterFS“ eine wichtige Rolle. Auch Backup- und Archivdaten sowie Informationen aus maschinell erstellten Systemen wie dem Internet of Things (IoT) erreichen schnell eine große Datenmenge, bei denen herkömmliche Dateisysteme nicht mehr ausreichen.

IBM General Parallel File System

Das „General Parallel File System“ (GPFS) von IBM wird vor allem auf den Betriebssystemen AIX und Linux eingesetzt. Es gibt aber auch die Möglichkeit, GPFS in Windows zu nutzen.

Das System ist mittlerweile über 20 Jahre alt und funktioniert ähnlich wie das „Hadoop Distributed File System (HDFS)“. Diese Dateisysteme verteilen die Daten auf mehrere Cluster-Knoten und fassen verschiedene Server und Speicher-Hardware zu einem virtuellen, kompletten System zusammen.

GPFS ist in der Lage, Tausende Knoten zu einem Cluster zusammenzufassen. Der Zugriff auf die Daten erfolgt daher nicht nur auf lokaler Hardware, sondern das Dateisystem kann auch Netzwerkverbindungen nutzen.

Wichtig ist für eine hohe Leistung, dass die Verbindungen zwischen den Servern sehr leistungsstark sind. Das System ermöglicht außerdem, dass Knoten im Cluster parallel auf andere Knoten zugreifen können, auch simultan.

GPFS verteilt die Daten auf mehrere Datenträger und bietet einen sehr hohen Datendurchsatz. Da das System parallel funktioniert, werden große Datenmengen auf mehreren Servern parallel gelesen und geschrieben. Damit die Daten kontrolliert auf den beteiligten Cluster-Knoten gespeichert werden, kümmert sich ein Knoten im Cluster um die Steuerung der Speicher- und Lesezugriffe.

Da GPFS die Speicherung auf mehrere Knoten umfasst, sind durch die parallelen Zugriffe nicht nur schnelle Schreib- und Lesezugriffe möglich, sondern der Ausfall eines Servers kann kompensiert werden, ähnlich wie der Ausfall einer Festplatte in einem RAID-System. Die Datenträger, die in den beteiligten Servern verbaut sind, müssen beim Einsatz von GPFS nicht identisch sein. Das Dateisystem erkennt verschiedene Techniken und speichert Daten, die oft verwendet werden (Hot Data) auf Datenträger, die besonders leistungsstark sind.

GlusterFS – Datenspeicherung mit Open Source

Auch bei „GlusterFS“ handelt es sich um ein verteiltes Dateisystem, auf Basis von Open Source. Das System wird vor allem für Linux entwickelt, kann aber auch in BSD, MacOS und OpenSolaris genutzt werden. Für Windows ist derzeit keine offizielle Unterstützung integriert, aber geplant.

Auch dieses Dateisystem kann mehrere Petabyte Daten speichern. Über GlusterFS werden mehrere Storage-Server zusammengefasst. Die Kommunikation erfolgt über TCP/IP oder Infiniband.

Ein Vorteil von GlusterFS ist die Möglichkeit, günstigere Hardware verwenden zu können. Neben der kostenlosen Open-Source-Version stellt Red Hat als einer der größten Sponsoren zudem eine kostenpflichtige Version zur Verfügung, die unter anderem Support bietet. Red Hat liefert GlusterFS mit „Red Hat Storage Server“ aus.

Storage-Systeme von Dell EMC mit OneFS.(Bild: Dell) — Storage-Systeme von Dell EMC mit OneFS.
(Bild: Dell)

Isilon OneFS Distributed Filesystem und Operating System

„OneFS“ ist ein verteiltes Dateisystem, das von Isilon Systems entwickelt wurde. Das Unternehmen gehört Dell. Genutzt wird das Dateisystem von OneFS Operating System; dabei handelt es sich um ein Derivat von FreeBSD. Wer also das verteilte Dateisystem OneFS nutzen will, muss auch auf OneFS Operating System setzen.

Auch hier lassen sich die Cluster-Knoten mit TCP/IP oder Infiband verknüpfen. Das Dateisystem wird vor allem auch auf speziellen Speichersystemen von Dell EMC eingesetzt. Der Zugriff auf das System ist auch von extern möglich.

Ceph wird vor allem auf Linux-Rechnern eingesetzt.(Bild: Thomas Joos) — Ceph wird vor allem auf Linux-Rechnern eingesetzt.
(Bild: Thomas Joos)

CephFS

Auch CephFS stellt ein Dateisystem dar, das in der Lage ist, große Datenmengen zu speichern. Beim Einsatz von CephFS werden ebenfalls Cluster erstellt, bei denen die Daten auf mehrere Knoten verteilt werden.

Ceph wird häufig auch in virtuellen Umgebungen eingesetzt, um Images von virtuellen Servern zu speichern. CephFS wird vor allem auf Computern mit Linux und FreeBSD eingesetzt.

ZFS

ZFS wird vor allem für Solaris, Linux und FreeBSD entwickelt und kann theoretisch auch eine riesige Datenmenge speichern. Das System ist in der Hand von Oracle und wurde ursprünglich für Solaris entwickelt. Einfach ausgedrückt, ist der Einsatz von ZFS vor allem dann sinnvoll, wenn die enorme Leistung und Speicherfähigkeit von GlusterFS oder GPFS noch nicht notwendig und zu aufwendig ist.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Auch ZFS fasst Datenspeicher zu Pools zusammen und ist durchaus in der Lage, auch große Datenmengen zu speichern, wie sie häufig auf NAS-Systemen gespeichert werden. Aus diesem Grund wird ZFS vor allem von Anbietern unterstützt, die NAS-Systeme zur Verfügung stellen oder mit denen auf vorhandener Hardware NAS-Systeme installiert werden können.

Fazit

Im Gegensatz zu herkömmlichen Dateisystemen wie ext3, ext4, APFS, NTFS oder ReFS und vielen anderen haben Dateisysteme für große Datenmengen nicht einzelne Datenträger oder einen Verbund von Datensystemen im Fokus. Systeme wie GPFS, GlusterFS und OneFS fassen die Datenträger von mehreren Computern zusammen und bilden ein intelligentes System, das parallel Daten auf den angebundenen Cluster-Knoten schreiben und lesen kann.

Dateisysteme im Petabyte-Bereich bilden also vor allem Cluster-Systeme ab, bei denen die Knoten zu einem gemeinsamen Dateisystem zusammengefasst werden. Die Kommunikation erfolgt in diesem Fall meistens über TCP/IP oder Infiniband. Es spielt für die Dateisysteme also eine wichtige Rolle, dass nicht nur die Schnittstellen der angeschlossenen Datenträger schnell genug sind, um parallele Schreib- und Lesevorgänge abzubilden, sondern auch die verbundenen Cluster-Knoten müssen leistungsstark miteinander verbunden sein.

*Thomas Joos ist freier Autor und schreibt auf DataCenter-Insider seinen eignen Blog mit Tipps und Tricks für Administratoren: Toms Admin Blog.

(ID:46732350)