Die Nr. 1 der Supercomputer Von Petascale zu Exascale: Fugaku

Autor / Redakteur: Anna Kobylinska und Filipe Martins* / Ulrike Ostler

Der schnellste Supercomputer der Welt hat endlich die Exascale-Barriere durchbrochen: „ Fugaku“. Eine Variante der Maschine steht seit Juli 2020 den Wissenschaftlern an der Universität Regensburg für Simulationen der Quantenchromodynamik zur Verfügung. Mit der neuen Systemarchitektur schreibt Fujitsu Geschichte.

Firmen zum Thema

Mount Fuji ist der Namensvetter von „Fujitsu Fugaku“.
Mount Fuji ist der Namensvetter von „Fujitsu Fugaku“.
(Bild: Michael Sum auf Unsplash)

Fugaku entstand in Partnerschaft mit dem RIKEN Center for Computational Science, Japans größtem Forschungsinstitut (siehe: Abbildung 4). Das System ist der offizielle Nachfolger des „K“ Computers, welcher den Spitzenplatz auf der TOP500-Liste der schnellsten Supercomputer der Welt seinerzeit im Jahre 2011 gleich zwei Mal besetzte.

Im aktuellen Ranking der TOP500 schnellsten Supercomputer konnte Fugaku bereits den ersten Platz einheimsen. Zum ersten Mal in der Geschichte bricht der schnellste Supercomputer auf der TOP500-Liste gleichzeitig auch Leistungsrekorde in drei weiteren Benchmarks: HPCG, HPL-AI und Graph500. Der HPCG (High Performance Conjugate Gradient) gilt als ein Maßstab für die Rechenleistung in realen Anwendungen. HPL-AI (kurz für High Performance LINPACK Artificial Intelligence) misst die Leistung in KI-Anwendungen. Graph500 gilt als ein Maßstab für die Geschwindigkeit bei der Informationssuche in Graphen.

Leistungswunder in Exascale

Gemessen an den Benchmarks GENESIS und NICAM+LETKF ist Fugaku bereits heute mehr als 100 mal schneller als der K Computer, obwohl er noch nicht die geplante finale Ausbaustufe erreichen konnte. Bei den bisherigen Benchmarks musste das neue Leistungswunder noch mit angezogener Handbremse arbeiten.

Für das LINPACK-Benchmark konnte RIKEN erst 152,064 Kerne, also rund 96 Prozent der geplanten Kapazität von 158,976 Kernen einspannen. Im HPCG-Benchmark (High Performance Conjugate Gradients) kamen 138,240 Knoten auf eine Gesamtleistung von 13,400 TeraFlops. Im HPL-AI-Benchmark konnte Fugaku bereits mageren 126,720 Knoten (79 Prozent der geplanten Kapazität) satte 1,421 ExaFlops an Leistung entlocken und hat damit als erstes System der Geschichte die Exabyte-Barriere durchbrochen.

„Der Supercomputer Fugaku illustriert einen dramatischen Wandel der Architektur von Compute, die traditionell in diesen leistungsstarken Maschinen zum Einsatz kam, und beweist die Innovationskraft flexibler Compute-Lösungen eines starken Ökosystems", kommentierte Rene Haas, Präsident, IP Products Group bei ARM. „Fugaku stellt eine neue Generation von Supercomputern dar,“ bestätigt Professor Jack Dongarra von der Universität Tennessee, dem Oak Ridge National Laboratory und der Universität Manchester.

Im Hinblick auf die Systemarchitektur hat Fugaku mit seinem Vorläufer, dem K Computer, den Fujitsu ebenfalls bestückte, tatsächlich nur wenig gemeinsam, und zwar den völligen Verzicht auf GPU-Beschleuniger. Alles andere, von der CPU-Architektur bis hin zum Interconnect, wurde von Grund auf neu konzipiert.

Unter der Haube

Die überwiegende Mehrheit der Supercomputer auf der TOP500-Liste nutzt Prozessoren von Intel (471) oder IBM (immerhin 12 Systeme). Fujitsu setzt beim Fugaku auf einen ARM-Chip ohne Beschleuniger.

Das Herzstück von Fugaku bildet der „A64FX“ SoC, ein speziell optimierter ARM v8-A-Chip, die bisher einzige Implementierung der ISA v8.2-A SVE von ARM mit Unterstützung für skalierbare Vektorerweiterungen (SVE).

Die Gesamtkonfiguration verwendet 158.976 dieser Compute-Karten mit je 48 Haupt- und 4 Zusatzkernen bei einer Taktfrequenz von bis zu 2,2 GHz und einer Gesamtspeicherbandbreite von 163 PetaBytes pro Sekunde. Diese Architektur zeichnet unter anderem für sehr bemerkenswerte Rpeak-Werte in Höhe von 537 PetaFlops bei Fließkommaoperationen in 64-Bit verantwortlich. Insgesamt verfügt Fugaku über 7,3 Millionen CPU-Kerne, jedoch keine GPU-Beschleuniger.

Eine besondere Stärke des A64FX-Prozessors von Fujitsu ist die Unterstützung für quantisierte Modelle mit reduzierter Präzision, die ebenfalls sehr erstaunliche Leistung insbesondere in Anwendungen wie Deep Learning zu Tage fördern:

  • 0,54 ExaFLOPs bei FP64
  • 1,07 ExaOPs bei FP32
  • 2.15 ExaOPs bei FP16
  • 4.30 ExaOPs bei INT8

Jede SVE-fähige Software kann unabhängig von der Größe der SVE-Ausführungseinheit des Prozessors automatisch skalieren (die SVE-Einheit kann im Übrigen zwischen 128 Bit und 2048 Bit variieren). Mit seinen 48 Rechenkernen pro Chip verwendet der A64FX zwei 512 Bit breite Pipes pro Kern. Um die verfügbare Leistung ausreizen zu können stehen jedem Chip außerdem vier 8-GiB-starke HBM2-Verbindungen zur Verfügung, welche bis zu 1 TiB pro Sekunde an Gesamtbandbreite liefern.

Zum Vergleich: Der zweitschnellste Supercomputer auf der TOP500-Liste, Summit, beim Oak Ridge National Laboratory, verfügt über 2,4 Millionen Kerne in „IBM Power9“-Architektur zu je 22 Kernen pro Socket und 2,2 Millionen „Nvidia Volta GV100“-Beschleuniger. Die Knoten sind via Dual-rail „Mellanox EDR Infiniband“ verbunden (inzwischen ebenfalls eine Nvidia-Technologie). Die GPUs kommunizieren direkt über den „NVLink“ Interconnect. Nichts davon gibt es bei Fugaku.

Bildergalerie
Bildergalerie mit 6 Bildern

Laut Toshiyuki Shimizu (siehe: Abbildung 6), dem Fugaku-Chefentwickler bei Fujitsu, bestand die größte Herausforderung darin, aus jeder CPU wirklich die ganze Performance herauszuholen. Hierfür mussten alle CPUs ein Ganzes bilden – keine leichte Aufgabe. Es war ein performantes Interconnect vonnöten. Der Verzicht auf GPUs soll die Implementierung eines leistungsstarken Interconnects erleichtert haben und den Energieverbrauch im Zaun halten.

Die CPUs sind über ein Fujitsu-eigenes 6.8-GBps-starkes Netzwerk, den „Tofu D“ Interconnect, verbunden (sihe: Abbildung 2). Die sechsdimensionale Mesh-Torus-Verbindung von Tofu D ermöglicht massive Parallelisierbarkeit in Exascale auch jenseits von 10 Petaflops. Der Prozessor greift auf HBM2-Arbeitsspeicher (High Bandwidth Memory) zurück.

Eine relevante Einschränkung bestand darin, den Energiebedarf von 40 Megawatt (MW) nicht zu überschreiten. Fugaku kommt mit 28 MW aus. Zum Vergleich: Summit verbraucht nur 10 MW. Fugaku ist mindestens 2,8 Mal schneller. Im Hinblick auf die Energie-Effizienz tun sich die beiden Systeme erstaunlicherweise nichts.

„Fugaku“ ist der aktuell schnellste Supercomputer der Welt.
„Fugaku“ ist der aktuell schnellste Supercomputer der Welt.
(Bild: Fujitsu)

Dafür trumpft Fugaku mit seinem bemerkenswert kleinen Fußabdruck. Die Leistung von 1 PetaFlops erfordert beim Fugaku 384 Compute-Knoten. Die sind alle in einem einzigen Rack einschließlich SSD-Storage untergebracht und belegen so eine Stellfläche von je 1,1 Quadratmetern (0.8 Meter x 1.4 Meter). Dieselbe Leistungseinheit des K Computers erfordert 80 Racks mit Compute-Einheiten und 20 Racks mit Storage; die Konfiguration besteht so aus 8,160 Knoten und belegt eine Stellfläche von 128 Quadratmetern (4 m x 32 m).

Auch im Vergleich mit topaktuellen Systemen wie dem Summit schneidet Fugaku gut ab. Mit 1,1 Quadratmetern pro PetaFlops nimmt Fugaku nur 42 Prozent der Stellfläche von Summit (2,6 Quadratmeter pro PetaFlops Leistung) in Anspruch. Insgesamt passt Fujitsus neues Leistungswunder ganz locker auf einen Tennisspielplatz. Summit braucht davon zwei.

Auf die Plätze, fertig, los

Die Top500-Liste legt zwei Mal pro Jahr das Ranking für die weltweit schnellsten Supercomputer auf der Basis des HPL-Benchmarks fest (High-Performance Linpack). Am 22. Juni 2020 brachte es Fugaku auf einen stolzen 2,8-fachen Abstand zu Summit: 415,5 Petaflops für Fugaku gegenüber den eher mageren 148,8 PetaFlops für Summit.

Bildergalerie
Bildergalerie mit 6 Bildern

Die Gesamtleistung der Liste beträgt aktuell 2,21 ExaFlops gegenüber den 1,65 ExaFlops am vorigen Stichtag vor nur sechs Monaten. Der größte Teil dieses Anstiegs lässt sich auf den Neuzugang Fugaku zurückführen.

Die TOP500-Liste in Bezug auf die Systemanzahl dominiert China mit ihren 226 Supercomputern. Die USA sind mit 114 Systemen die Nummer zwei; Japan schaffte es mit nur 29 Maschinen bereits auf Platz Drei. Deutschland bringt es mit 16 Maschinen auf den begehrten Platz 5.

In Bezug auf die aggregierte Gesamtperformance erreichen die USA mit 622 Petaflops weiterhin Platz 1. Mit seiner aggregierten Gesamtperformance von 565 Petaflops belegt China Platz 2. Zwar hat Japan nur insgesamt 29 Supercomputer auf der TOP500-Liste, doch erreichen diese stolze 527 PetaFlops Leistung, nur knapp weniger als Chinas. Drei von diesen Systemen setzen bereits auf den neuen Fujitsu A64FX-Prozessor.

Angebunden: Der schnellste Supercomputer Deutschlands, der „SuperMUC-NG“ des Leibniz Rechenzentrums, belegt den begehrten Platz 13 auf der TOP500-Liste.
Angebunden: Der schnellste Supercomputer Deutschlands, der „SuperMUC-NG“ des Leibniz Rechenzentrums, belegt den begehrten Platz 13 auf der TOP500-Liste.
(Bild: Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften)

Der schnellste Supercomputer Deutschlands, der „SuperMUC-NG“ des Leibniz Rechenzentrums (auf Platz 13 der Liste), nutzt den „Intel Skylake“.

Insgesamt 144 Systeme auf der TOP500-Liste verwenden Beschleuniger oder Co-Prozessoren (vor sechs Monaten waren es 145). Satte 135 von diesen Systemen (135/144, also 93,75 Prozent) setzen hierbei auf GPUs von Nvidia.

Die dominierende Prozessorarchitektur stellen weiterhin x86-CPUs dar; sie sind in 481 der 500 Systeme (96,2 Prozent) vorzufinden. Mit 471 Systemen (94,2 Prozent) hat Intel im Hinblick auf die Anzahl der belegten Rangplätze auf der Liste nach wie vor die unangefochtene Führungsposition inne. IBM Power ist mit 12 Installationen und AMD mit elf vertreten - Hygon ist ein Lizenznehmer von AMD. SPARC taucht nur noch ein einziges Mal auf, im „Fujitsu PrimeHPC FX100“ mit SPARC64 aus dem Jahre 2015. Seither setzte Fujitsu auf Intel Xeon-CPUs bis zur Vorstellung des A64FX-Prototypen in 2019.

ARM-Prozessoren sind derzeit in gerade einmal vier Systemen auf der TOP500-Liste vertreten, drei davon verwenden bereits den neuen Fujitsu A64FX-Prozessor - das vierte System nutzt die „Marvell ThunderX2“-CPU vom Typ „CN9975-2000 28C“ 2GHz, stammt aber aus dem Jahre 2018.

Im Hinblick auf die Gesamtleistung schlägt ARM seine Mitbewerber um Längen. Die gerade einmal vier Supercomputer in ARM-Architektur unter den schnellsten 500 (ein Anteil von 8 Promille) kommen zusammen auf knapp 20 Prozent der Rmax-Leistung.

In dem eigenen Chip, dem A64FX, machte Fujitsu bei SPARC64 reichlich Anleihen, unter anderem im Hinblick auf superskalare und out-of-order-Berechnungen sowie Verzweigungsvorhersage und die verbesserten SIMD- und Prädikatoperationen. An der Implementierung war die HPE-Tochter Cray aktiv beteiligt.

'Mal ein nicht-elitärer Supercomputer

Auf Fugaku läuft „Red Hat Enterprise Linux 8.x“ (RHEL) in einer Edition für ARM. Das quelloffene Betriebssystem bildet den Unterbau eines Open-Source-Software-Stack. So werden Supercomputing-Ressourcen für eine verteilte Community von Wissenschaftlern zugänglich und verwaltbar. RHEL erleichtere die Entwicklung und Bereitstellung eines breiteren Spektrums von Workloads und Anwendungen, resümiert Professor Jack Dongarra. Die Fertigstellung von Fugaku ist für den Zeitraum zwischen dem 1. April 2021 und Ende März 2022 geplant.

Anteile der führenden Hersteller an der Leistung der TOP500-Liste.
Anteile der führenden Hersteller an der Leistung der TOP500-Liste.
(Bild: Prometeus GmbH)

Die Architektur von Fugaku bildet inzwischen den Unterbau von Fujitsu PrimeHPC FX1000 und PrimeHPC FX700. Fujitsus nutzt in diesen Systemen die gleiche A64FX-CPU wie in dem Fugaku: den ARM-basiertem Fujitsu-A64FX-Prozessor.

Eine solche Maschine steht den Wissenschaftlern an der Universität Regensburg als dem ersten Nutzer der Architektur in Europa ab Juli 2020 für Simulationen der Quantenchromodynamik zur Verfügung. „Einmal mehr hat uns Fujitsu mit der ultimativen Technik ausgestattet“, kommentierte Professor Tilo Wettig, Physikprofessor an der Universität Regensburg. Die Partnerschaft habe sich in den vergangenen Jahren mehr als bewährt.

Fujitsu habe die Forscher insbesondere durch das Engagement zur Maximierung der Rechenleistung und Minimierung des Energieverbrauchs beeindruckt sowie durch „die Flexibilität und Reaktionsfähigkeit von Fujitsu gegenüber uns als Kunden“. Auch die Zeitspanne für die Lieferung, Installation, Konfigurierung und Inbetriebnahme sei vorbildlich gewesen.

Bildergalerie
Bildergalerie mit 6 Bildern

Auch HPE-Tochter Cray hat mit dem CS500 ein eigenes System auf der Basis von Fujitsu A64FX im Sortiment.

Ein gemeinsames HPC-Projekt von 27 Industriepartnern und Forschungseinrichtungen aus zehn EU-Ländern, der unter dem Namen European Processor Initiative aus Horizon 2020 hervorging, entwickelt optimierte Chips auf der Basis von ARM, RISC-V und FPGAs. Eine Exascale-fähige Maschine soll bis 2023 entstehen. Das Projekt wird von der EU-Kommission gefördert. Zu den Teilnehmern zählen unter anderem Infineon Technologies AG, die ETH Zürich, das Forschungszentrum Jülich, die Fraunhofer Gesellschaft zur Förderung der Angewandten Forschung e.V., die BMW-Gruppe, Elektrobit und das Karlsruher Institut für Technologie (KIT).

* Das Autorenduo Anna Kobylinska und Filipe Pereira Martins arbeitet für McKinley Denali Inc. (USA).

(ID:46798465)