Eine Software für 100 Milliarden Objekte

Scality Object Storage für speicherhungrigen Superstar

| Autor / Redakteur: Michael Matzer / Ulrike Ostler

Wissenschaftler am Los Alamos National Laboratory haben den „BURST” Computer Code entwickelt, mit dessen Hilfe sie mit bisher unerreichter Genauigkeit die Lichtmenge berechnet haben, die in Atomkernen beim Big Bang generiert wird.
Wissenschaftler am Los Alamos National Laboratory haben den „BURST” Computer Code entwickelt, mit dessen Hilfe sie mit bisher unerreichter Genauigkeit die Lichtmenge berechnet haben, die in Atomkernen beim Big Bang generiert wird. (Bild: LANL)

Das Kernforschungszentrum Los Alamos National Laboratory (LANL) betreibt einen der schnellsten Supercomputer der Welt. Um schnelle Analysen auf 30 Petabyte an Langzeitdaten ausführen zu können, setzt es auf „Scality Ring“, ein Software-defined Storage-System für Object Storage. Dieses liefert einen Datendurchsatz von 28,5 Gigabit pro Sekunde.

Der Cray-Supercomputer „Trinity“ erlaubt der Behörde National Nuclear Security Administration (NNSA), die als Teil des Energieministeriums unter anderem für die Verwaltung des Atomwaffenarsenals der USA zuständig ist, eine Fülle von Simulationsmöglichkeiten. Die Leistung, die Trinity bietet, erlaubt erstmals auch feingranulare Berechnungen in drei Dimensionen.

Dementsprechend große Datenmengen müssen in kürzester Zeit verarbeitet werden. Der HPC-Cluster selbst verfügt über 2 Petabyte allein an Hauptspeicher mit internem Pufferspeicher, 200 CPUs und eine Rechenleistung von 40 Petaflops (Billiarden Gleitkommaoperationen pro Sekunde).

Vier Speicherebenen

Der Speicherhunger dieser Supermaschine ist nicht weniger anspruchsvoll. 48 Speicherknoten à 750 Terabyte stellen zudem Dateiübertragungsleistung bereit. So genannte File Transfer Agents sorgen im Speichersystem für schnelle und zuverlässige Datenübertragung.

Die Speicherarchitektur am Los Alamos National Laboratory (LANL) umfasst vier Ebenen der Datenspeicherung. Auf Ebene 3 wird der Scality Ring auf MarFS eingesetzt.
Die Speicherarchitektur am Los Alamos National Laboratory (LANL) umfasst vier Ebenen der Datenspeicherung. Auf Ebene 3 wird der Scality Ring auf MarFS eingesetzt. (Bild: LANL und Scality)

Der schnellste Speicher besteht aus 3,7 Petabyte (PB) Flash-Memory mit einem I/O von 3 PB/s, aber die Daten werden nur für etwa einen Tag behalten. Der zweitschnellste Speicher stellt in einem „Lustre“ Parallel Filesystem 78 PB an Speicher auf Festplatten bereit. Sein Datendurchsatz liegt bei maximal 1,4 PB/s. Diese Daten werden im Schnitt etwa eine Woche vorgehalten.

Ergänzendes zum Thema
 
Über Scality

Worauf es wirklich ankommt, sind die Langzeitdaten im dritten Ring, denn dies ist der Object Storage Speicher, der für Kampagnen genutzt wird, also für Simulationen. Derzeit sind hier 3 PB gespeichert, aber die Endausbaustufe soll 30 PB umfassen.

Die Speicherdauer beträgt hierzwischen drei und sechs Monaten bis drei Jahren. Die Lösung dafür lieferte Scality, ein kalifornischer Spezialist für Software-defined Storage. Diese Lösung wurde vor rund neun Monaten mit dem separaten Trinity-Cluster gekoppelt.

Auf einer vierten Speicherebene legt das LANL bis zu 50 PB an Langzeitdaten ab, doch jedes Jahr kommen 30 bis 40 PB hinzu. Das Medium dafür sind Tape Librarys. Da diese Daten nicht kritisch sind und nie gelöscht werden, reicht ein Datendurchsatz von 1 bis 10 GB pro Sekunde.

Die Herausforderungen

Doch es gibt ein Problem, wie Kyle Lamb, stellvertretender Gruppenleiter für HPC-Infrastruktur am LANL, berichtet: „Wir mussten uns auf zwei Extreme an Speicherdurchsatz (I/O) einstellen. Manche Datasets umfassen Dutzende von Terabyte, andere wiederum Dutzende von Millionen Datasets in Kilobyte-Größe.“ Diese außergewöhnliche Variabilität führte zur Einführung mehrerer spezieller Technologien.

„Zunächst einmal brauchten wir wegen der Langzeitspeicherung ein hohes Maß an Zuverlässigkeit gegen versehentliches Löschen oder Überschreiben“, fährt Lamb fort. „Dafür wählten wir Object Storage, der uns Erasure Coding in unbegrenztem Speicherumfang bieten konnte. Die Wahl fiel deshalb auf die Ring-Software Lösung von Scality.“

Der Rebuild-Zyklus am LANL nutzt Erasure Coding
Der Rebuild-Zyklus am LANL nutzt Erasure Coding (Bild: LANL)

Erasure Coding, einVerfahren zur Fehlerkorrektur beziehungsweise -vermeidung, das dafür sorgt, dass sich fragmentierte und verteilte Dateiobjekte wieder fehlerlos zusammenführen lassen. „Das Verfahren ähnelt RAID, ist aber viel schneller“, so Lamb. Die Fehlerkorrektur-Kalkulation erledigen die erwähnten File Transfer Agents.

Diese Zuverlässigkeit und Schnelligkeit bedeutet, dass der Rebuild solcher verteilten Datenobjekte performanter ist. „Ein Rebuild von 30 Terabyte Daten dauert nun nicht mehr 30 Stunden, sondern erfolgt in wesentlich kürzerer Zeit – und das bei höherer Persistenz und Dauerhaftigkeit der Speicherdaten“, freut sich Lamb. Eine Wiederherstellung von mehreren Petabyte hätte Wochen gedauert. „Mit Scality Ring geht das in zwölf bis 24 Stunden.“

Eine Simulation kann immerhin bis zu 1 PByte an Daten erfordern. Deshalb gab es eine neue Herausforderung: Das Filesystem konnte sich als Flaschenhals erweisen. Gebraucht wurde eine Lösung, die einen Datendurchsatz von an die 30 GB/s lieferte. Die Lösung: LANL und Scality entwickelten zusammen ein neues Filesystem.

Simulation einer Galaxie.
Simulation einer Galaxie. (Bild: LANL)

Das Filesystem MarFS

„`MarFS´ ist ein virtuelles, paralleles Filesystem mit einer `Posix´-Programmierschnittstelle, das von IBMs GPFS abgeleitet ist“, erläutert Lamb. „Wir haben mehrere GPFS zusammengefügt, so dass in jedem Metadaten-Server 16 Millionen Objekte verwaltet werden können“, so Lamb. „Die Kapazität von Ring ist theoretisch unbegrenzt“, ergänzt Leo Leung, der Marketingleiter bei Scality. „Manche unserer Kunden in der Industrie verwalten damit 100 Milliarden Objekte.“

MarFS organisiert den Zugriff auf Objekt-Metadaten , indem es Instanzen als Dateien in GPFS anzeigt. Diese Metadaten wiederum verweisen auf viele Instanzen kleiner 1 GB großer Teilstücke einer Datei, die aber in Ring als Objekte gehalten werden. „Das Schöne an MarFS und RING ist die Möglichkeit, viele kleine Dateien zu Paketen zusammenzufassen, aber große Dateien aufteilen zu können“, sagt Lamb. So bekommt man eine gleichbleibend hohe Performance pro Knoten, die das Netz nicht über- oder unterfordert.

Das Compouter-Basissystem genannt "Roadrunner".
Das Compouter-Basissystem genannt "Roadrunner". (Bild: LANL)

Der Name MarFS ist von „mar“, dem spanischen Wort für Meer abgeleitet, denn mit diesem quelloffenen Filesystem wird ein Data-Lake verwaltet. Ein Data Lake ist ein großes Speicher-Repository auf Object-Storage-Basis. Es verwaltet Daten in deren Ursprungsformat, bis sie benötigt werden, und verarbeitet sie mit hoher Leistung. Dabei verarbeitet das System „nahezu unbegrenzt viele“ gleichzeitige Aufgaben. Ein Beispiel dafür ist Apache Hadoop. MarFS auf Scality RING verwaltet also einen Data Lake auf Object Storage Basis.

MarFS bietet dem Anwender eine virtualisierte Sicht auf seine Speicherumgebung sowie einen globalen Namespace für POSIX- und Non-POSIX-Daten-Repositorys, inklusive des Scality RING. „MarFS liefert uns zwei Vorteile“, erläutert Lamb. „Während die mit POSIX ((Portable Operating System Interface vertrauten Anwender leicht damit umgehen können und ihre Anwendungen nicht umschreiben müssen, erhalten wir eine skalierbare Infrastruktur, die über Persistenz und Dauerhaftigkeit verfügt.“ Leo Leung ergänzt: „Die mehrschichtige Speicherstruktur beim LANL belegt ein großes Knowhow bei den Technikern.“

* Michael Matzer ist freier Fachautor in Stuttgart.

Was meinen Sie zu diesem Thema?
Ich denke es ist erst der Anfang. Jedoch wie kann PRC eingeholt werden ( nur ein Segment) , mit...  lesen
posted am 13.06.2016 um 11:28 von Weser


Mitdiskutieren
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44095713 / Software)