Klimadaten und Automatisierung für die Private Cloud Fishos von Sardina stützt die DKRZ-Cloud aus Atos-Rechnern
Anbieter zum Thema
Das OpenStack- und „Ceph“-basierte Cloud-System am DKRZ, dem Deutschen Klimarechenzentrum, dient der Klimaforschung und läuft auf der Enterprise-Cloud-Management-Plattform „Fishos“ des Anbieters Sardina Systems sowie auf Atos-Systemen.

Als nationales HPC-Zentrum speziell für die Erdsystemforschung bietet das DKRZ Forschern in Deutschland Computing-Plattformen, ein hochkapazitives Daten-Management und Service für die Klimawissenschaft. Klimawissenschaft ist in erster Linie Grundlagenforschung mit dem Ziel, die statistischen Eigenschaften des Klimas zu verstehen und über lange Zeiträume möglichst realistisch zu berechnen.
Seit März dieses Jahres verfügt das DKRZ über einen neuen Hochleistungsrechner. Neben vielen anderen neuen Anwendungen mit verschiedenen Modellen und -auflösungen wird nun das Ziel erreichbar, mit den oben beschrieben hochaufgelösten Modellen mögliche Klima-Änderungen für den Verlauf dieses Jahrhunderts zu projizieren und für verschiedene Szenarien zu untersuchen. Bisher waren Simulationen mit solchen hochauflösenden Klimamodellen nur für sehr kurze Zeiträume von wenigen Monaten möglich. Längere Simulationszeiträume erfordern deutlich mehr Rechenzeit und Speichervolumen – welche das DKRZ nun durch „Levante“ zur Verfügung stellen kann.
Technische Spezifikationen von Levante
Levante basiert auf „Bull Sequana XH2000“ von Atos. Die CPU-Partition umfasst 2.832 Rechnerknoten mit jeweils zwei Prozessoren, die zusammen eine Spitzenrechenleistung von 14 PetaFlops liefern. Das sind 14 Billiarden mathematische Operationen pro Sekunde.
Das System ist mit der dritten Generation von Prozessoren des „Typs AMD Epyc“ ausgestattet, die jeweils über 64 Prozessorkerne verfügen. Der gesamte Hauptspeicher des Systems umfasst mehr als 800 Terabyte; das entspricht dem Hauptspeicher von etwa 100.000 Laptops. Um unterschiedliche Anforderungsklassen abzudecken, verfügen die Einzelsysteme, aus denen der Supercomputer zusammengesetzt ist, über Hauptspeichergrößen zwischen 256 und 1.024 Gigabyte.
Zusätzlich erhält Levante im Sommer eine Partition mit 60 GPU-Knoten, die gemeinsam eine Spitzenrechenleistung von 2,8 PetaFlops haben. Jeder GPU-Knoten ist mit zwei „AMD-Epyc“-Prozessoren sowie vier „Nvidia-A100“-Grafikprozessoren (GPUs) ausgestattet, wobei 56 GPU-Knoten über GPUs mit 80 Gigabyte, und vier Knoten über GPUs mit 40 Gigabyte Grafikspeicher verfügen.
Herausforderung der Technik
Diese zunehmend heterogene Hardware-Architektur stellt die wissenschaftliche Software-Entwicklung vor sehr große Herausforderungen. Das DKRZ wird seine Nutzerinnen und Nutzer darin unterstützen, ihre Arbeitsmethoden, zum Beispiel die Portierung von Programmcodes oder der Einsatz Künstlicher Intelligenz, so anzupassen, dass sie diese Entwicklung im Bereich des Hochleistungsrechnens nutzen können.
Zur Datenübertragung zwischen den Rechnerknoten und den Speicherkomponenten nutzt Levante „Mellanox-Infiniband“-HDR-200G-Technologie von Nvidia, mit der eine Datenübertragungsrate von bis zu 200 Gigabit pro Sekunde (GBit/s) erzielt werden kann.
Für die Speicherung der berechneten Simulationsergebnisse ist Levante mit einem etwa 130 Petabyte großen Speichersystem der Firma DDN ausgerüstet. Damit steht nun mehr als das Doppelte des bisherigen Speicherplatzes zur Verfügung. Im Vergleich zu einem herkömmlichen Laptop mit 1 Terabyte Festplattenplatz erreicht der Supercomputer etwa das 130.000-fache von dessen Speicherkapazität.
Das Vorgängersystem „Mistral“ (HLRE-3), ebenfalls ein Supercomputer von Atos, wurde 2015 in Betrieb genommen Mit diesem Cluster wurde beispielsweise der überwiegende Teil der deutschen CMIP6-Simulationen, die im Hinblick auf den neuen, sechsten Weltklimastatusbericht durchgeführt wurden, gerechnet.
Ergänzung für den Cloud-Betrieb
Um das HPC-System und das Archiv des DKRZ mit Cloud-Diensten zu ergänzen, hat Sardina Systems eine Fishos-Lösung implementiert. Diese soll es dem Unternehmen ermöglichen, das Cloud-System mit automatischen, flexiblen, zuverlässigen und skalierbaren Operationen und Upgrades ohne Ausfallzeiten zu verwalten. Der Anbieter hat zudem die Migration des Cloud-Systems von einer anderen Open-Source-Plattform sichergestellt.
Die Daten aus den am DKRZ durchgeführten Simulationen müssen vor ihrer Archivierung oder wissenschaftlichen Auswertung aufbereitet und qualitätsgesichert werden. Bei der Entwicklung der Klimamodelle greifen viele Arbeitsschritte ineinander: von der Anpassung der Modelle über die Vorbereitung der Experimente bis hin zur Analyse der Daten. In diesem Schritt müssen frühere Modelle konsultiert werden oder es muss auf notwendige Daten zugegriffen werden, um die geplanten Ergebnisse zu erzielen.
Skalierung erforderlich
Die verarbeiteten Daten werden über Web-Portale wie das „World Data Center for Climate“, die in der Cloud-Infrastruktur gehostet werden, an die Klimagemeinschaft verteilt. Fishos soll standardmäßig für eine hohe Verfügbarkeit sorgen und einen kontinuierlichen Fluss von Klimadaten und einen schnellen Zugriff auf diese Daten gewährleisten.
So bietet das DKRZ Dienste an, die darauf ausgerichtet sind, Klimaforscher bei ihrer Arbeit mit hochkomplexen Simulationsmodellen rund um die Arbeitsabläufe der Modellentwicklung und Datenproduktion zu unterstützen. Dabei können die Arbeitsbelastungen unterschiedlich stark sein und verschiedene Skalierungsstufen erfordern.
Wenn die Arbeitsbelastung hoch ist, lässt sich das Fishos-System automatisiert auf Tausende von Servern skalieren. Und wenn die Routine weniger intensiv ist, reguliert das System die Server auf die gleiche automatisierte Weise herunter.
Ulf Garternicht, Leiter der Systemabteilung am DKRZ, zeigt sich zufrieden: „Die von Sardina Systems bereitgestellte Implementierung macht den Betrieb von OpenStack on-premise zu einer einfachen Aufgabe. Der Betrieb unserer Cloud auf dem DKRZ-Gelände hilft uns bei der Verarbeitung und Analyse riesiger Datenmengen, die vom Supercomputer ´Levante` erzeugt werden, und erlaubt die Übertragung dieser in die ganze Welt. In Kompetenz und Kosteneffizienz sind wir der Konkurrenz weit voraus.“
(ID:48420489)