Das HPC der „Exaklasse“ Die Exascale-Hürde ist genommen; schon sind neue Rekorde in Sicht

Von Anna Kobylinska und Filipe Martins*

Anbieter zum Thema

Der Supercomputer „Frontier“ von HPE und AMD hat als erster, jedenfalls als erster in der westlichen Hemisphäre anerkannt, die Exascale-Grenze durchbrochen. Bald könnten andere Systeme den Rekord um den Faktor Zehn oder mehr schlagen… Exascale ist jetzt endlich da. Einfach so.

Ein wichtiger Baustein des deziet einzigen Exascale-Systems „Frontier“  ist die AMD-GPU „Instinct“, die HPE als Beschleuniger in seinen „Cray EX“-Servern verbaut hat. Der Supercomputer am  Oak Ridge National Laboratory und besteht aus 74 Supercomputing-Schränken mit den HPE-Rechnern.
Ein wichtiger Baustein des deziet einzigen Exascale-Systems „Frontier“ ist die AMD-GPU „Instinct“, die HPE als Beschleuniger in seinen „Cray EX“-Servern verbaut hat. Der Supercomputer am Oak Ridge National Laboratory und besteht aus 74 Supercomputing-Schränken mit den HPE-Rechnern.
(Bild: AMD)

Schneller als die nächsten sieben Supercomputer zusammengerechnet (knapp, aber immerhin): Frontier ist dafür da, um die Grenzen der Machbarkeit zu überwinden. Es ist der erste Exascale-Supercomputer der Welt und rühmt sich nebenbei der Energie-effizientesten Architektur. Er steht in der Leadership Computing Facility (OLCF) des Oak Ridge National Laboratory (ORNL) im U.S.-Bundesstaat Tennessee auf einer Fläche von gerade einmal 372 Quadratmeter.

Den Durchbruch hat die Industrie auf der „International Supercomputing Conference 2022“ in Hamburg, die im Mai 2022 stattfand, gefeiert.

Das Fazit des Autorenduos

Was lange währt, ist plötzlich da. Das muss man sich jetzt auf der Zunge zergehen lassen: Die Exascale-Ära hat begonnen.

Geschafft! Und jetzt?

Auf der ISC 2022 in Hamburg, die im Mai 2022 stattfand, konnte Frontier eine Gesamtleistung von 1,1 ExaFlops nachweisen. Das sind 1,1 Billiarden (in Englisch: 1.1 quintillion) Fließkommaoperationen pro Sekunde (Flops). Dieser Rekord katapultierte Frontier an die Spitze der Top500-Liste der weltweit leistungsstärksten Supercomputer.

Die theoretische Spitzenleistung liegt mit 2 ExaFlops noch deutlich über diesem Wert. Gerade noch im Jahre 2018 war die gesamte Top500-Liste weniger als ein ExaFlops stark.

Frontier besteht aus 74 Supercomputing-Schränken des „HPE Cray EX“. Jede wiegt so um die 3.600 Kilogramm oder ungefähr so viel wie ein „VW Käfer“ und ein „2023 BMW X5“ zusammen. Gemeinsam bringen sie es auf 9.472 Knoten.

Das „Bauchgefühl“ in Silizium: Hardwarebeschleuniger aus der „Instinct“-Reihe von AMD haben es in sich.
Das „Bauchgefühl“ in Silizium: Hardwarebeschleuniger aus der „Instinct“-Reihe von AMD haben es in sich.
(Bild: AMD)

In jedem dieser Rechenknoten tickt eine „aufgebohrte“ CPU der Serie „Epyc 7003“ von AMD mit 64 Kernen und einer Basistaktfrequenz von 2 Gigahertz (GHz) - auf der Basis der „Zen 3“-Architektur, Codename „Trento“. Er gilt derzeit als der schnellste x86-Serverprozessor. Jede CPU kann hochparalleles Supercomputing und KI-Operationen auf vier GPUs vom Typ „AMD Instinct MI250X“ GPU, Codename „Aldebaran” auslagern. Frontier verfügt über insgesamt 37.888 dieser Beschleuniger.

Frontier verfügt über insgesamt 9,2 Petabyte Speicher (4,6 Petabyte DDR4 und 4,6 Petabyte HBM2e). Der lokale Speicher der Knoten bietet eine Kapazität von 37 Petabytes und ist mittels PCIe Gen4 angebunden. So erzielt dieser Datenspeicher eine Spitzenleistung von 75 Terabytes pro Sekunde bei Lese- und 35 Terabytes pro Sekunde bei Schreibzugriffen.

Speicher und Connections

Darüber hinaus haben die Rechenknoten Zugriff auf noch weitere 716 Petabytes an „zentralweitem“ Speicher, der auf „Cray Clusterstor E1000“ und dem massiv parallelen Dateisystem Orion aufsetzt.

Verbunden sind die Rechenknoten über ein 200 Gbit/s schnelles „Slingshot“-Interconnect, das einzige hochperformante Netzwerkgewebe für HPC- und KI-Arbeitslasten, das auf Ethernet basiert. Zum Einsatz kommen hier unter anderem Switch-ASICs vom Typ „Rosetta“, NICs vom Typ „Cassini“, und 145 Kilometer an Netzwerkkabeln – knapp die halbe Flugstrecke zwischen Frankfurt und München.

Massiver Gegenwert: Jeder der insgesamt 74 Supercomputing-Schränke von Frontier wiegt 3.600 Kilogramm oder ungefähr so viel wie ein „VW Beetle“ und ein „2023 BMW X5“ zusammen.
Massiver Gegenwert: Jeder der insgesamt 74 Supercomputing-Schränke von Frontier wiegt 3.600 Kilogramm oder ungefähr so viel wie ein „VW Beetle“ und ein „2023 BMW X5“ zusammen.
(Bild: Oak Ridge National Laboratory)

So kommt Frontier auf die siebenfache Leistung von Summit, seines Vorgängers, der sich mit gerade einmal 148,6 Petaflops an Rechenleistung von nun an mit dem vierten Platz auf der Top500-Liste begnügen muss.

Neue Maßstäbe

Mit seiner Energie-Effizienz setzt Frontier neue Maßstäbe. Die Architektur konnte im Ranking Green500 der energieeffizientesten Supercomputer unter den Top500 den ersten und zweiten Platz erklettern.

Eine Energie-Aufnahme von gerade einmal 21,1 Megawatt für die bemerkenswerte Rechenleistung beschert dem Frontier eine Energie-Effizienz von 52,227 GigaFlops pro Watt und positioniert das System auf Platz zwei auf Green500, direkt hinter dem Test- und Entwicklungssystem „Frontier TDS“, einer wesentlich kleineren Ausführung, die mit einem Wert von 62,684 GigaFlops pro Watt punktet. Frontier TDS rangiert auf Platz 29 der Top500-Liste.

Auch die nächsten beiden Plätze im Ranking Green500 belegen verwandte Systeme: „Lumi“ und „Adastra“.

Ein „Tesla Model S“ könnte mit der Energie von einer Stunde Rechenzeit von Frontier eine Distanz von über hunderttausend Kilometern zurücklegen (natürlich nicht in einer Stunde). Das ist immerhin aber rund weniger als der Energiebedarf von „Fujitsu Fugaku“, des zweitstärksten Supercomputers der Welt. Mit den knapp 30 MW kommt Fugaku auf eine Rechenleistung von „gerade einmal“ 442 PetaFlops.

Ein großer Wurf

Den Unternehmen HPE und AMD ist mit Frontier ein großer Wurf gelungen. Jetzt wollen andere nachziehen und auch zum Exascale-Club aufschließen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Mit „Jupiter“ ist Exascale bald auch in Deutschland angekommen. EuroHPC JU (The European High Performance Computing Joint Undertaking), eine Kooperation zwischen nationalen Regierungen, der Europäischen Union und der privaten Wirtschaft, hat für das Projekt im Juni ganz offiziell den Startschuss gegeben.

Der erste europäische Supercomputer der „Exaklasse“ kommt nach Jülich: Jupiter soll im Jahre 2023 in einem eigens dafür errichteten Gebäude auf dem Campus des Forschungszentrums Jülich installiert werden.

„Schick es `mal eben auf den «Jupiter»“: Das Forschungszentrum Jülich bekommt mit „Jupiter“ den ersten europäischen Supercomputer der Exascale-Klasse.
„Schick es `mal eben auf den «Jupiter»“: Das Forschungszentrum Jülich bekommt mit „Jupiter“ den ersten europäischen Supercomputer der Exascale-Klasse.
(Bild: Filipe Pereira Martins, Anna Kobylinska)

Jupiter ist ein Akronym für „Joint Undertaking Pioneer for Innovative and Transformative Exascale Research“ Der Name bringt die Zielsetzung treffend auf den Punkt.

Als Betreiber wird das Jülich Supercomputing Centre (JSC) in die Pflicht genommen. Die zwei Superrechner des JSC, „Juwels“ und „Jureca“, gehören bereits zu den leistungsfähigsten der Welt.

Wie auch schon der aktuelle Jülicher Spitzenrechner Juwels basiert Jupiter auf einer dynamischen modularen Supercomputer-Architektur, die das Forschungszentrum Jülich gemeinsam mit Partnerorganisationen in den europäischen DEEP-Forschungsprojekten entwickelt hat. Diese Architektur erlaubt die Kopplung unterschiedlicher Rechenmodule miteinander, damit Programmteile mit unterschiedlichen Anforderungen jeweils auf Hardware-Modulen ausgeführt werden, die sich dafür optimal eignen. Aufgrund dieser Bauweise ist das System auf Zukunftstechnologien wie Quantencomputer-Module oder neuromorphe KI-Beschleuniger bestens vorbereitet.

Die Gesamtkosten für das System in der ersten Ausbaustufe belaufen sich auf 500 Millionen Euro. Die Hälfte der Investition trägt EuroHPC JU, die andere Hälfte finanzieren zu gleichen Teilen das Bundesministerium für Bildung und Forschung (BMBF) und das Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen (MKW NRW).

Auf zu 10 ExaFlops mit Leonardo

EuroHPC JU gab grünes Licht auch unter anderem für „Leonardo“, einen europäischen Exascale-Supercomputer für wissenschaftliche Forschung, der in das italienische Innovationscenter Tecnopolo Bologna CNR einziehen soll. Den Betrieb übernimmt Cineca, ein Konsortium aus 112 italienischen Universitäten und anderen Institutionen der öffentlichen Hand. Die Maschine soll bei FP16-Fließkommaoperationen bis zu 10 ExaFlops an Spitzenleistung im Falle von KI-Arbeitslasten und 250 PetaFlops HPL AN Linpack-Leistung (Rmax) an den Tag legen.

Das Herzstück von Leonardo bildet „Bull Sequana XH2000“, eine hybride Supercomputing-Plattform von Atos, die mit direkter Flüssigkeitskühlung trumpft. Ein besonderes Highlight ist die Integration mit der Cluster-Software „Parastation Modulo“ der HPC-Spezialistin Partec AG aus München. (

Am Puls der Wissenschaft: Die Münchener Spezialistin für HPC-Integrationen Partec AG hat unter anderem ein Büro auf dem Campus des FZJ, des Forschungszentrums Jülich.
Am Puls der Wissenschaft: Die Münchener Spezialistin für HPC-Integrationen Partec AG hat unter anderem ein Büro auf dem Campus des FZJ, des Forschungszentrums Jülich.
(Bild: Partec AG)

Für Leonardo sind insgesamt 5000 Compute-Knoten mit mehr als 3 Petabyte an RAM und 136 Racks geplant. Eine Stellfläche von knapp über 1500 Quadratmetern soll dafür ausreichen – immerhin vier Mal mehr als bei Frontier.

3.456 Server werden mit „Intel Xeon Ice Lake“- CPUs ausgestattet und mit knapp 14,000 GPU-Beschleunigern verschaltet. Weitere 1.536 Server erhalten Prozessoren der „Intel Xeon Sapphire“-Reihe. Außerdem bekommt Leonardo fünf Petabyte eines hochperformanten und 100 Petabyte eines langsameren Datenspeichers.

GPU-Beschleuniger von Nvidia basieren auf der „Ampere“-Architektur. Sie kann über 1.800 Anwendungen einen bis zu 70-fachen Leistungssprung verleihen. Zu den Nutznießern zählen in erster Linie Softwarepakete wie „Quantum Espresso“, eine quelloffene Sammlung von Tools für die Materialwissenschaft, „SPECFEM3D“, ein Werkzeug für Geowissenschaften und „MILC“, eine Lösung für die Quantenphysik.

Schnell und effizient

Die eine oder andere große Rechenaufgabe dürfte sich in dieser Systemkonfiguration auf Leonardo in nahezu Echtzeit erledigen lassen. Für die Konnektivität kommt „Nvidia Mellanox HDR Infiniband“ mit 200 GB/s zum Tragen.

Sollte Leonardo mit der geplanten Leistungsaufnahme von gerade einmal 9 MW auskommen und tatsächlich den anvisierten PUE-Wert von 1,08 erreichen, dürfte daneben selbst Frontiers kleine Schwester Frontier TDS blass aussehen.

Die Rechenleistung soll der italienischen Forschung zugutekommen, voraussichtlich in den Bereichen Arzneimittelforschung, Weltraum und Wettermodellierung. Wissenschaftler erhoffen sich Zugang zu Leonardo, um Proteine zu identifizieren, die sich mit spezifischen Medikamenten adressieren lassen, um extreme Wetterbedingungen vorherzusagen oder um Daten von elektromagnetischen Wellen, Gravitationswellen und das Verhalten von Neutrinos zu erforschen.

Aurora und darüber hinaus

EuroHPC hat neben Leonardo noch zwei weitere HPC-Systeme genehmigt, die sich ebenfalls an die Exascale-Klasse heranwagen sollen. Sie sollen in Finnland und Spanien eingerichtet werden.

„Aurora“, die Exascale-Maschine des Argonne National Laboratory aus dem U.S.-Bundesstaat Illinois, sollte eigentlich vor vier Jahren hochgefahren sein; mit seinen zwei ExaFlops an Leistung hätte er seither die Top500-Liste dominieren können. Doch das Projekt hat sich wiederholt verzögert, zuletzt auf Grund von Problemen mit Intels hausbackenem GPU-Beschleuniger „Ponte Vecchio“.

Das SoC sollte in Aurora den Xeon Scalable-Prozessoren Sapphire Rapids bei KI-Arbeitslasten unter die Arme greifen. Stattdessen hat er die Fertigstellung von Aurora verzögert und legte damit etliche Forschungsprojekte auf Eis.

Im Gleichtakt: Die „AMD Instinct“-Beschleuniger nutzen die AMD-Technik „Infinity Fabric“ für eine direkte Verbindung zwischen CPU und GPU mit Cache-Kohärenz.
Im Gleichtakt: Die „AMD Instinct“-Beschleuniger nutzen die AMD-Technik „Infinity Fabric“ für eine direkte Verbindung zwischen CPU und GPU mit Cache-Kohärenz.
(Bild: AMD)

Anfang des Jahres machte sich Unmut breit. Der technische Projektleiter und leitender Forscher bei Intel für Aurora hat im April den Halbleiterriesen verlassen, um eine neue HPC-Funktion in der Forschungs- und Entwicklungsabteilung von Samsung zu übernehmen. Intel will jetzt mit einem neuen Team das Exascale-Projekt doch noch dieses Jahr unter Dach und Fach bringen.

Das Argonne National Laboratory hat in der Zwischenzeit ein „Sprungbrett“ zu Exascale eingerichtet: einen 44 PetaFlops starken „Testbed-Supercomputer“ mit der Bezeichnung „Polaris“ auf der Basis von „HPE Apollo Gen10 Plus“. Polaris soll die Vorbereitung kritischer Arbeitslasten im Vorfeld der Bereitstellung von Aurora ermöglichen. Ab sofort können mehrere Forschungsteams mit ihrer Arbeit beginnen.

Auf dem Weg zu Exascale: Installation von „Nvidia DGX A100“-Server im Argonne National Laboratory.
Auf dem Weg zu Exascale: Installation von „Nvidia DGX A100“-Server im Argonne National Laboratory.
(Bild: Argonne National Laboratory)

Polaris setzt sich aus bloß 560 Rechenknoten zusammen, die miteinander via Slingshot, HPEs Ethernet-basiertes Interconnect verbunden sind. Das System nutzt „AMD Epyc Milan“ anstelle von Intel-Prozessoren und Nvidia A100 GPU-Beschleuniger als Alternative zu Intel Ponte Vecchio (oder AMDs Instinct MI200).

Für Ponte Vecchio hat Intel einen Nachfolger verkündet: „Rialto Bridge“. Der flüssiggekühlte GPU-Beschleuniger soll zwischen Ponte Vecchio und der „Falcon Shores XPU“ eine Brücke schlagen.

Bei Falcon Shores XPU handelt es sich um einen vielversprechenden „hybriden“ Nachfolger von Ponte Vecchio und der HBM-Variante von Sapphire Rapids. Seiner Architektur liegen die so genannten Chiplets zu Grunde.

Falcon Shores XPU kombiniert x86-CPU-Kerne mit Xe-GPU-Kernen und gemeinsamem Arbeitsspeicher von „extremer Bandbreite“. Intel will die XPU in einem Fertigungsverfahren der „Angstrom-Ära“ ab etwa dem Jahre 2024 herstellen.

Der Aufbruch zu Exascale: El Capitan

Ein direkter Nachfolger von Sapphire Rapids steht bei Intel für „2023 oder später“ auf dem Programm. In der Zwischenzeit schießen immer mehr Exascale-Systeme wie die sprichwörtlichen Pilze aus dem Boden.

„Ampere“ in Aktion: Die 80GB-Edition der „Nvidia A100 Tensor Core“ GPU hat eine Speicherbandbreite von zwei Terabyte pro Sekunde.
„Ampere“ in Aktion: Die 80GB-Edition der „Nvidia A100 Tensor Core“ GPU hat eine Speicherbandbreite von zwei Terabyte pro Sekunde.
(Bild: Nvidia)

HPE und AMD arbeiten gemeinsam unter anderem an einem HPC-System der „Exaklasse“ für das kalifornische Lawrence Livermore National Laboratory: „El Capitan“.

El Capitan wird von AMD EPYC-Prozessoren der nächsten Generation, Codename „Genoa“, mit dem Prozessorkern Zen 4 angetrieben. Als KI-Beschleuniger kommen AMD Radeon Instinct-Grafikprozessoren der nächsten Generation mit einer neuen Compute-optimierten HPC-Architektur und ROCm, der offenen Softwareplattform für GPU-beschleunigtes HPC und UltraScale-Computing von AMD zum Einsatz.

(ID:48598636)