Lustre und Co.

Im HPC-Cluster müssen Filesysteme parallel arbeiten

< zurück

Seite: 3/3

Anbieter zum Thema

Alternativen zu Lustre

Aber im Bereich der parallelisierten Filesysteme ist der Markt noch ein gutes Stück davon entfernt, ebenfalls von Intel beherrscht zu werden. Vielmehr gibt es eine große Vielfalt von PFS, unter denen der Anwender wählen kann. Eines der jüngsten PFS kommt aus Deutschland: Das von der Fraunhofer-Gesellschaft entwickelte, kostenlose BeeGFS ist ein Parallel Cluster File System, das sich sehr leicht installieren lassen soll (siehe: Abbildung 5 und 6) Ein weiteres PFS stammt von der US-Firma Panasas und wurde für Enterprise Storage-Umgebungen optimiert.

Bildergalerie
Bildergalerie mit 6 Bildern

Das neben Lustre verbreitetste PFS für Cluster ist das seit 1998 existierende General Parallel File System von IBM. Es lässt sich auf AIX, Linux und Windows Server einsetzen. Das proprietäre und für Firmen kostenpflichtige Produkt wird generell als GPFS abgekürzt, und IBM verkauft es standalone als das Software-Defined Storage-Produkt „Spectrum Scale“. Während es wie Lustre in vielen der Top-500-Supercomputern seinen Dienst versieht, genießt es bereits große Verbreitung in kommerziellen Umgebungen.

„GPFS ist ein Allround-Filesystem, das bei Großunternehmen wie Banken, Autoherstellern und der Pharma-Industrie eingesetzt wird“, erläutert Ingolf Wittmann, Technischer Direktor für den Bereich Systems und Software bei IBM Deutschland. „Es dient dazu, große Dateimengen mit hoher Geschwindigkeit zu bewegen.“

GPFS und Big-Data-Analysen

Im Sinne von Big Blues „Data-centric Computing“-Strategie erlaubt es GPFS, die Daten zu den Anwendungen zu bringen. „Mit Hilfe des File Placement Optimizers kann man die Daten in einem Cluster optimiert dorthin verlegen, wo eine Anwendung sie benötigt“, erläutert Klaus Gottschalk, HPC-Experte bei IBM Deutschland . „Daher unterstützt GPFS auch direkt Data Analytics, in Deutschland etwa bei Anwendungsgebieten in der Saatgut-Analyse oder in der Suche nach Krebs begünstigenden Genen.“

Klaus Gottschalk, HPC-Experte bei IBM Deutschland(Bild:  IBM)
Klaus Gottschalk, HPC-Experte bei IBM Deutschland
(Bild: IBM)

Die Verfügbarkeit und Skalierbarkeit hat oberste Priorität. Das GPFS lässt sich in den Cluster-Modi Shared-Disk oder Shared-Nothing implementieren. „GPFS hat sein eigenes RAID-System“, erläutert Wittmann. „Das RAID-Feature hat zwei Vorteile: Es verkraftet a) einen Ausfall von bis zu drei Disks in einem RAID-Verbund und b) ist die Wiederanlaufzeit nach dem Ausfall mit weit geringerem Effekt auf das System verbunden. Der Rebuild bei der Disaster Recovery dauert bei herkömmlichen RAID-Systemen länger.“ Remote Replication von Filesets und der Aufbau eines Hierarchischen Storage Managements durch Datenmigration sind laut Gottschalk ebenfalls realisierbar.

Sicherheitsmerkmale wie Zugriffslisten mit Kerberos-PKI-Schutz sind in GPFS ebenso realisiert wie verschiedene Authentifizierungsmethoden. „GPFS ist Teil unseres Software-defined Networking“, sagt Wittmann. Im Unterschied zu der „unklaren Produktpolitik“ von Oracle, das „SunFS“ besitzt, verfüge IBM über eine klare SDN- und PFS-Strategie. „Wir unterstützen Migrationen von anderen PFS wie etwa Sun-FS und geben der Opensource-Community entsprechenden Code. Viele Petabyte-System-Nutzer wechseln von einem SAN-File-System zu einem Parallel Filesystem.“

* Michael Matzer ist freier Fachautor in Stuttgart.

(ID:43545262)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung