Klimadaten und Automatisierung für die Private Cloud Fishos von Sardina stützt die DKRZ-Cloud aus Atos-Rechnern

Von Ulrike Ostler |

Anbieter zum Thema

Das OpenStack- und „Ceph“-basierte Cloud-System am DKRZ, dem Deutschen Klimarechenzentrum, dient der Klimaforschung und läuft auf der Enterprise-Cloud-Management-Plattform „Fishos“ des Anbieters Sardina Systems sowie auf Atos-Systemen.

Der Supercomputer „Levante“ des DKRZ besteht aus rund 2900 vernetzten Computern.
Der Supercomputer „Levante“ des DKRZ besteht aus rund 2900 vernetzten Computern.
(Bild: DKRZ)

Als nationales HPC-Zentrum speziell für die Erdsystemforschung bietet das DKRZ Forschern in Deutschland Computing-Plattformen, ein hochkapazitives Daten-Management und Service für die Klimawissenschaft. Klimawissenschaft ist in erster Linie Grundlagenforschung mit dem Ziel, die statistischen Eigenschaften des Klimas zu verstehen und über lange Zeiträume möglichst realistisch zu berechnen.

Seit März dieses Jahres verfügt das DKRZ über einen neuen Hochleistungsrechner. Neben vielen anderen neuen Anwendungen mit verschiedenen Modellen und -auflösungen wird nun das Ziel erreichbar, mit den oben beschrieben hochaufgelösten Modellen mögliche Klima-Änderungen für den Verlauf dieses Jahrhunderts zu projizieren und für verschiedene Szenarien zu untersuchen. Bisher waren Simulationen mit solchen hochauflösenden Klimamodellen nur für sehr kurze Zeiträume von wenigen Monaten möglich. Längere Simulationszeiträume erfordern deutlich mehr Rechenzeit und Speichervolumen – welche das DKRZ nun durch „Levante“ zur Verfügung stellen kann.

Das Bild zeigt Wolken an einem Februartag in Simulationen mit der bei CMIP6-Simulationen (hier: MPI-ESM HR) verbreiteten Auflösung von zirka 80 Kolometer  (links) und in der mit Hilfe von „ESiWACE“ ermöglichten Auflösung von 2,5 km (hier: ICON R2B10, rechts). Das CMIP6-Modell erfasst zwar großräumige Wolkenformation in der Karibik, die hochauflösende „ICON“-Simulation stellt aber zusätzlich auch die Details der Wolkenstrukturen und damit das Verhalten verschiedener Wolkentypen dar. Mit der wesentlich detailreicheren Darstellung der atmosphärischen Zirkulation werden drastisch verbesserte Klimavorhersagen erwartet, sobald hinreichend lange Zeiträume simuliert werden können. Die Wettersituation beider Simulationen unterscheiden sich, da die Modelle mit unterschiedlichen Startdaten initialisiert wurden.
Das Bild zeigt Wolken an einem Februartag in Simulationen mit der bei CMIP6-Simulationen (hier: MPI-ESM HR) verbreiteten Auflösung von zirka 80 Kolometer (links) und in der mit Hilfe von „ESiWACE“ ermöglichten Auflösung von 2,5 km (hier: ICON R2B10, rechts). Das CMIP6-Modell erfasst zwar großräumige Wolkenformation in der Karibik, die hochauflösende „ICON“-Simulation stellt aber zusätzlich auch die Details der Wolkenstrukturen und damit das Verhalten verschiedener Wolkentypen dar. Mit der wesentlich detailreicheren Darstellung der atmosphärischen Zirkulation werden drastisch verbesserte Klimavorhersagen erwartet, sobald hinreichend lange Zeiträume simuliert werden können. Die Wettersituation beider Simulationen unterscheiden sich, da die Modelle mit unterschiedlichen Startdaten initialisiert wurden.
(Bild: © Deutsches Klimarechenzentrum GmbH)

Technische Spezifikationen von Levante

Levante basiert auf „Bull Sequana XH2000“ von Atos. Die CPU-Partition umfasst 2.832 Rechnerknoten mit jeweils zwei Prozessoren, die zusammen eine Spitzenrechenleistung von 14 PetaFlops liefern. Das sind 14 Billiarden mathematische Operationen pro Sekunde.

Das System ist mit der dritten Generation von Prozessoren des „Typs AMD Epyc“ ausgestattet, die jeweils über 64 Prozessorkerne verfügen. Der gesamte Hauptspeicher des Systems umfasst mehr als 800 Terabyte; das entspricht dem Hauptspeicher von etwa 100.000 Laptops. Um unterschiedliche Anforderungsklassen abzudecken, verfügen die Einzelsysteme, aus denen der Supercomputer zusammengesetzt ist, über Hauptspeichergrößen zwischen 256 und 1.024 Gigabyte.

Zusätzlich erhält Levante im Sommer eine Partition mit 60 GPU-Knoten, die gemeinsam eine Spitzenrechenleistung von 2,8 PetaFlops haben. Jeder GPU-Knoten ist mit zwei „AMD-Epyc“-Prozessoren sowie vier „Nvidia-A100“-Grafikprozessoren (GPUs) ausgestattet, wobei 56 GPU-Knoten über GPUs mit 80 Gigabyte, und vier Knoten über GPUs mit 40 Gigabyte Grafikspeicher verfügen.

Herausforderung der Technik

Diese zunehmend heterogene Hardware-Architektur stellt die wissenschaftliche Software-Entwicklung vor sehr große Herausforderungen. Das DKRZ wird seine Nutzerinnen und Nutzer darin unterstützen, ihre Arbeitsmethoden, zum Beispiel die Portierung von Programmcodes oder der Einsatz Künstlicher Intelligenz, so anzupassen, dass sie diese Entwicklung im Bereich des Hochleistungsrechnens nutzen können.

Zur Datenübertragung zwischen den Rechnerknoten und den Speicherkomponenten nutzt Levante „Mellanox-Infiniband“-HDR-200G-Technologie von Nvidia, mit der eine Datenübertragungsrate von bis zu 200 Gigabit pro Sekunde (GBit/s) erzielt werden kann.

„HLRE-4 Levante“: Im Vordergrund befindet sich das 130 Petabyte umfassende Speichersystem.
„HLRE-4 Levante“: Im Vordergrund befindet sich das 130 Petabyte umfassende Speichersystem.
(Bild: DKRZ)

Für die Speicherung der berechneten Simulationsergebnisse ist Levante mit einem etwa 130 Petabyte großen Speichersystem der Firma DDN ausgerüstet. Damit steht nun mehr als das Doppelte des bisherigen Speicherplatzes zur Verfügung. Im Vergleich zu einem herkömmlichen Laptop mit 1 Terabyte Festplattenplatz erreicht der Supercomputer etwa das 130.000-fache von dessen Speicherkapazität.

Das Vorgängersystem „Mistral“ (HLRE-3), ebenfalls ein Supercomputer von Atos, wurde 2015 in Betrieb genommen Mit diesem Cluster wurde beispielsweise der überwiegende Teil der deutschen CMIP6-Simulationen, die im Hinblick auf den neuen, sechsten Weltklimastatusbericht durchgeführt wurden, gerechnet.

Ergänzung für den Cloud-Betrieb

Um das HPC-System und das Archiv des DKRZ mit Cloud-Diensten zu ergänzen, hat Sardina Systems eine Fishos-Lösung implementiert. Diese soll es dem Unternehmen ermöglichen, das Cloud-System mit automatischen, flexiblen, zuverlässigen und skalierbaren Operationen und Upgrades ohne Ausfallzeiten zu verwalten. Der Anbieter hat zudem die Migration des Cloud-Systems von einer anderen Open-Source-Plattform sichergestellt.

Die Daten aus den am DKRZ durchgeführten Simulationen müssen vor ihrer Archivierung oder wissenschaftlichen Auswertung aufbereitet und qualitätsgesichert werden. Bei der Entwicklung der Klimamodelle greifen viele Arbeitsschritte ineinander: von der Anpassung der Modelle über die Vorbereitung der Experimente bis hin zur Analyse der Daten. In diesem Schritt müssen frühere Modelle konsultiert werden oder es muss auf notwendige Daten zugegriffen werden, um die geplanten Ergebnisse zu erzielen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Skalierung erforderlich

Die verarbeiteten Daten werden über Web-Portale wie das „World Data Center for Climate“, die in der Cloud-Infrastruktur gehostet werden, an die Klimagemeinschaft verteilt. Fishos soll standardmäßig für eine hohe Verfügbarkeit sorgen und einen kontinuierlichen Fluss von Klimadaten und einen schnellen Zugriff auf diese Daten gewährleisten.

So bietet das DKRZ Dienste an, die darauf ausgerichtet sind, Klimaforscher bei ihrer Arbeit mit hochkomplexen Simulationsmodellen rund um die Arbeitsabläufe der Modellentwicklung und Datenproduktion zu unterstützen. Dabei können die Arbeitsbelastungen unterschiedlich stark sein und verschiedene Skalierungsstufen erfordern.

„Levante“ lautet die Bezeichnung des neuen, vierten Hochleistungsrechnersystems für die Erdsystemforschung (HLRE-V). Dieses hat offiziell am 3. März 2022 in der ersten Ausbaustufe seinen Betrieb am Deutschen Klimarechenzentrum (DKRZ) aufgenommen. Die Bereitstellung der Mittel erfolgt auf der Basis des im November 2017 geschlossenen Finanzierungsabkommens zwischen der Helmholtz-Gemeinschaft, der Max-Planck-Gesellschaft und der Freien und Hansestadt Hamburg. Insgesamt steht für das Projekt HLRE-4 ein Betrag von 45 Millionen Euro bereit.
„Levante“ lautet die Bezeichnung des neuen, vierten Hochleistungsrechnersystems für die Erdsystemforschung (HLRE-V). Dieses hat offiziell am 3. März 2022 in der ersten Ausbaustufe seinen Betrieb am Deutschen Klimarechenzentrum (DKRZ) aufgenommen. Die Bereitstellung der Mittel erfolgt auf der Basis des im November 2017 geschlossenen Finanzierungsabkommens zwischen der Helmholtz-Gemeinschaft, der Max-Planck-Gesellschaft und der Freien und Hansestadt Hamburg. Insgesamt steht für das Projekt HLRE-4 ein Betrag von 45 Millionen Euro bereit.
(Bild: DKRZ)

Wenn die Arbeitsbelastung hoch ist, lässt sich das Fishos-System automatisiert auf Tausende von Servern skalieren. Und wenn die Routine weniger intensiv ist, reguliert das System die Server auf die gleiche automatisierte Weise herunter.

Ulf Garternicht, Leiter der Systemabteilung am DKRZ, zeigt sich zufrieden: „Die von Sardina Systems bereitgestellte Implementierung macht den Betrieb von OpenStack on-premise zu einer einfachen Aufgabe. Der Betrieb unserer Cloud auf dem DKRZ-Gelände hilft uns bei der Verarbeitung und Analyse riesiger Datenmengen, die vom Supercomputer ´Levante` erzeugt werden, und erlaubt die Übertragung dieser in die ganze Welt. In Kompetenz und Kosteneffizienz sind wir der Konkurrenz weit voraus.“

Ergänzendes zum Thema
Über das DKRZ und Sardina Systems

Das Deutsche Klimarechenzentrum (DKRZ) ist ein zentrales Dienstleistungszentrum für die deutsche Klima- und Erdsystemforschung. Seine Hochleistungsrechner, Datenspeicher und Dienstleistungen bilden die zentrale Forschungsinfrastruktur für die simulationsbasierte Klimawissenschaft.

Das DKRZ bietet seinen wissenschaftlichen Nutzern ein umfangreiches Portfolio an maßgeschneiderten Dienstleistungen. Es pflegt und entwickelt für die Klimaforschung relevante Anwendungssoftware und unterstützt seine Nutzer in Fragen der Datenverarbeitung. Schließlich beteiligt sich das DKRZ auch an nationalen und internationalen Verbundprojekten und Kooperationen mit dem Ziel, die Infrastruktur für die Klimamodellierung zu verbessern.

Sardina Systems mit Hauptsitz in Großbritannien und Niederlassungen in Deutschland, Luxemburg und der Ukraine entwickelt und vermarktet Betriebs-Management-Software. Fishos ist eine Suite aus Betriebs-Management-Tools sowie Dienstleistungen und Support, mit denen Kunden die Herausforderungen großer Rechenzentren meistern können. Es ist eine Softwareplattform für das Management privater Clouds, die es Unternehmen ermöglicht, schnell den Wert skalierbarer, agiler und flexibler OpenStack- und Kubernetes-Clouds zu ermöglichen und gleichzeitig den Nutzen ihrer Ressourcen durch einen Betrieb ohne Ausfallzeiten zu maximieren.

(ID:48420489)