Lustre und Co.

Im HPC-Cluster müssen Filesysteme parallel arbeiten

| Autor / Redakteur: Michael Matzer / Ulrike Ostler

Intel HPC Scalable System Framework vereint die Disziplinen Compute, Memory/Storage, Fabric und Software.
Intel HPC Scalable System Framework vereint die Disziplinen Compute, Memory/Storage, Fabric und Software. (Bild: Intel)

Intel hat neue Versionen des „Lustre“-File-Systems angekündigt und baut damit sein „HPC Scalable System Framework“ erheblich aus. Parallele File-Systeme wie Apache Lustre sind entscheidend für die Performance von Clustern. An Alternativen zu Lustre fehlt es zum Glück nicht – gute Beispiele sind „IBM Spectrum Scale/GPFS“ und „BeeGFS“.

Intel hat mittlerweile eine dominierende Stellung im Prozessormarkt für High Performance Computing (HPC) erlangt. In diesem exklusiven Markt heißen laut IDC 98 von 100 CPUs mittlerweile „Xeon“, und unter den Top 500-Supercomputern kommt kaum einer ohne Intel-CPU aus. Nun schickt sich der Prozessorhersteller an, mit einer neuen Initiative seine Leistungsfähigkeit auch bei den Parallelen File-Systeme unter Beweis zu stellen.

Das HPC Scalable System Framework vereint das kommende Intel-Fabric unter der Bezeichnung „Omnipath Architecture“ mit den Funktionen Compute, Storage/Memory und Software. Lustre erweist sich als paralleles, verteiltes Filesystem (PFS) in diesem Rahmen von entscheidender Bedeutung für die Skalierbarkeit und Performance eines Systems. Die Leistung beruht vor allem dem hohen Datendurchsatz und wie viele Datenobjekte (Ordner, Files, Namespaces) wie schnell für eine Anwendung bereitgestellt werden können.

Daraus ergibt sich, dass das File-System eng mit der Storage-Ebene zusammenarbeiten muss. Um Datenobjekte schnell finden und durchsuchen zu können, werden von jeher Metadaten-Server (MDS) verwendet, in denen die Verweise zu den Objekten abgelegt sind. Die Suche in diesen umfangreichen Verzeichnissen erfolgt durch die Parallelisierung schneller.

Backup und Data Recovery für Lustre

Damit es keine Inkonsistenzen oder gar Ausfälle gibt, muss das parallele Filesystem RAID-ähnliche Leistungsmerkmale aufweisen. So lassen sich etwa Datenobjekte im Object-Storage-Verfahren über globale Netzwerke hinweg redundant verteilen und hochverfügbar halten.

Backup und Data Recovery ist unabdingbar für solche Systeme, war aber bei dem Opensource-File-System Apache Lustre nicht von Anfang vorhanden. Das gilt auch für die Technik des Hierarchischen Storage Managements (HSM), das erst im Oktober 2013 Eingang in die Lustre-Version 2.5 fand.

Anno 2012 erwarb Intel die Firma Whamcloud, die von jeher stark mit der Lustre-Entwicklung involviert ist. Whamcloud hatte einen Regierungsauftrag vom Energieministerium gewonnen, der die Entwicklung eines File-Systems für Exascale-Systeme zum Ziel hat, also für Systeme, die die tausendfache Leistung eines Supercomputers mit 1 Billiarde Gleitkomma-Operationen pro Sekunde (Peta-FLOP/s). Zurzeit werden Supercomputer mit einer Leistung von über 100 Pflops gebaut; Exascale ist wohl noch Jahre entfernt (siehe: Kasten)

Ergänzendes zum Thema
 
Exascale kommt - irgendwann

Inhalt des Artikels:

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43545262 / High Performance Computing in Unternehmen)