Suchen

Die Top500 ist da und Nvidia ist f a s t überall dabei ISC 2020 Digital: Der erste Exascale-Computer

| Redakteur: Ulrike Ostler

Nach Aussagen von Nvidia-Manager Paresh Kharya, gibt es nicht einen Grund, der gegen die Ausstattung eines Supercomputers mit GPUs als Akzeleratoren spricht. Mellanox-Infiniband sei ohnehin das Non-Plus-Ultra. Tatsächlich verwenden aktuell acht der schnellsten Supercomputer Nvidia-GPUs, Infiniband oder beides. Auch die Green500-Liste wartet mit einer neuen Rangfolge auf; mit darunter: „Selene“, das HPC-System aus Nvidia-Technik. Doch die Topp-Überraschung ist „Fugaku“, ausgestattet mit ARM-Prozessoren, kommt der Cluster ohne GPUs aus.

Firmen zum Thema

Keine x8er Architektur: Der derzeit leistungsfähigste Supercomputer basiert auf ARM-Prozessoren von Fujitsu.
Keine x8er Architektur: Der derzeit leistungsfähigste Supercomputer basiert auf ARM-Prozessoren von Fujitsu.
(Bild: Riken Center for Computational Science)

Seit Jahren darf gewettet werden: In welchem Land steht der erste Exascale-Computer? China oder USA? Doch der erste Supercomputer, der sich als Exascale-System bezeichnen lässt, kommt gar nicht aus China oder den USA, sondern aus Japan und ist von Fujitsu gebaut.

Fugaku kommt auf 415 PetaFlops (PFlops ) im Linpack-Benchmark. Damit ist das System gut 2,8 mal so schnell wie der bisherige Spitzenreiter, der amerikanische „Summit“, ein System, das auf „IBM Power9“ basiert und mit den Nvidia-GPUs „Tesla V100“ bestückt ist.

Beim speicherlastigen HPCG-Benchmark, zeigt sich die Dominanz noch deutlicher: Mit 13,4 PFlops ist er über viermal so schnell wie Summit. In einfacher Genauigkeit kommt die theoretische Spitzenleistung des Fugaku auf über 1 Exaflops. Es ist also tatsächlich das erste Exascale-System.

Der Gewinner

Die Grundlage bildet der „Fujitsu-A64FX“-Prozessor mit 48 CPU-Kernen. Darüber hinaus kommt das System ohne Beschleuniger aus. Stattdessen nutzt das System eine integrierte „Scalable Vector Extension“ (SVE), die derzeit mit 512 Bit Breite, 32 Registern und Predication-Registern aufwartet – ähnlich wie der Intel-Chip „AVX512“. SVE soll bei späteren Implementierungen mit 1024 oder 2048 Bit Breite ohne Software-Änderungen automatisch skalieren.

Der neue schnellste Rechner in Europa, der italienische „HPC5“ des Mineralölkonzerns ENI auf der Basis von Dell-Rechnern und „Intel Cascade-Lake“-Prozessoren und „Nvidia Tesla-V100“-GPUs, zieht mit 51,7 PFlops neu in die Top 10 der Supercomputing-Liste ein und landet auf dem neunten Rang.

Außerdem steht in Italien hat nun mit 21,6 PetaFlops auch der zweitschnellste Rechner in Europa: „Marconi100“ des italienischen Forschungsverbundes Cineca beruht auf IBM-Power9-CPUs und Tesla V100. Die bisherige EU-Nr.2 „Piz Daint“ des schweizerischen Supercomputerzentrums in Lugano mit 21,2 PFlops rutscht auf Platz 10.

„Selene“ wurde innerhalb von nur vier Wochen gebaut. Trotzdem eroberte der Nvidia-Supercomputer auf Anhieb einen Spitzenplatz. Der Cluster kann anderen als Referenz-Design dienen.
„Selene“ wurde innerhalb von nur vier Wochen gebaut. Trotzdem eroberte der Nvidia-Supercomputer auf Anhieb einen Spitzenplatz. Der Cluster kann anderen als Referenz-Design dienen.
(Bild: Nvidia)

Nvidia wollte mit „Selene“ vor allem in der Energie-Effizienz und damit in den Green500 ganz oben landen. Mit 20,5 GigaFlops/Watt sah das auch sehr gut aus. Doch die Firma Preferred Networks hat mit dem Matrix-Beschleuniger „MAU“, der zusammen mit Low-Power-„Xeon“-Chips von Intel auf PCIe-Karten sitzt, ein hocheffizientes System entwickelt, das gerade einmal auf 21,1 GigaFlops/Watt kommt. Fugaku liegt mit 14,6 GFlops/Watt auf Platz 9 der Green500.

Trotzdem ist Selene bemerkenswert. Mit 27,5 Petaflops auf dem Linpack-Benchmark ist Selene mit 20,5 Gigaflops/Watt nur einen Bruchteil eines Punktes vom Spitzenplatz auf der Green500-Liste entfernt, der von einem viel kleineren System eingenommen wird, das nach Leistung Platz 394 belegte. Nvidia betont: „Selene ist das einzige Top-100-System, das die 20-Gigaflops/Watt-Marke knackt.“

Über Selene

Im Gegensatz zu Erstellung anderer Supercomputer, deren Technik bei Fertigstellung schon fast überholt ist, hat der Bau weniger als vier Wochen gedauert. Der Grund ist nach Angaben von Nvidia-Manager Kharya die modulare Referenzarchitektur seines Unternehmens, die die Ingenieure verwendet hätten. Ein entsprechender Leitfaden definiert das, was das Unternehmen „DGX-Superpod“ nennt. Grundlage ist der Nvidia-Server „DGX A100“, der im Wesentlichen acht „A100“-GPUs in einem 6U-Server, „AMD Epyc“-CPUs (Rome) sowie Mellanox HDR Infiniband-Technik enthält.

Nach Angaben von Director of Product Management for Accelerated Computing Kharya kann jede Organisation mit dem Referenzdesign schnell einen Rechen-Cluster von Weltklasse einrichten. Betreiber könnten in nur einer Stunde mit 20 DGX A100-Systemen im Rack ein 2-PFlops-System bauen und so einen Cluster schaffen, der leistungsstark genug ist, um auf der Top500-Liste zu erscheinen.

Selene verfügt über eine zusätzlichen Schicht von Mellanox Infiniband-Switches die 14 von 20-Systemeinheiten zu dem Selene-System verknüpfen, das folgende Eigenschaften aufweist:

  • 280 DGX A100
  • 2.240 Nvidia A100 GPUs
  • 494 Mellanox Quantum 200G Infiniband Switches
  • 56 Terabit pro Sekunde Netzwerkstruktur
  • 7 Petabyte All-Flash-Speicher

Eine der wichtigsten Spezifikationen von Selene ist zudem, dass der Cluster mehr als 1 ExaFlops an KI-Leistung liefern kann.

Platz
Veränderung System Standort Rechenleistung (Rmax) Prozessoren
1 - Fugaku Japan 415,53 PetaFLOPS A64FX (48C, 2,2 GHz)
2 -1
Summit USA 148,60 PetaFLOPS IBM Power9 (22C, 3,07 GHz)
Nvidia Volta GV100
3 -1 Sierra USA 94,64 PetaFLOPS IBM Power9 (22C, 3,1 GHz)
Nvidia Volta GV100
4 -1 Sunway TaihuLight China 93,01 PetaFLOPS Sunway SW26010 (260C, 1,45 GHz)
5 -1 Tianhe-2A China 61,44 PetaFLOPS Intel Xeon E5-2692v2 (12C, 2,2 GHz)
6 - HPC5 Italien 35,45 PetaFLOPS Intel Xeon Gold 6252 (24C, 2,1 GHz)
Nvidia Tesla V100
7 - Selene USA 27,58 PetaFLOPS AMD Epyc 7742 (64C, 2,25 GHz)
Nvidia A100
8 -3 Frontera USA 23,52 PetaFLOPS Intel Xeon Platinum 8280 (28C, 2,7 GHz)
9 - Marconi-100 Italien 21,64 PetaFLOPS IBM Power9 (16C, 3,0 GHz)
Nvidia Volta V100
10 -4
Piz Daint Schweiz 21,23 PetaFLOPS Intel Xeon E5-2690v3 (12C, 2,6 GHz)
Nvidia Tesla P100

Weitere Höchstleistungen

Insgesamt ist diesmal die Gesamtleistung der auf der Liste platzierten Supercomputer deutlich gestiegen: um 35 Prozent auf 2,22 ExaFlops. Das ist insofern bemerkenswert als der Anstieg zuvor vergleichsweise flach war: 5,5 Prozent. Um auf der Liste zu landen, müssen die Cluster mindestens 1,23 PetaFlops leisten.

Die meisten Systeme auf der Top500 zählt mit 226 China (zuvor waren es 228). Es folgen die USA mit 114 (117) und Japan mit 29 (29). Dahinter kommen Frankreich 19 (18), Deutschland 16 (16) und die Niederlande 15 (15).

Bezogen auf die Leistung pro Land und Performance führen die USA mit 639 PetaFlops vor China (566 PFlops) und Japan (528 PFlops). Italien schließt mit 87,2 PFlops vor Frankreich (79,9 PFlops) und Deutschland (68,8 PFlops) an.

Die Supercomputerhersteller

Bei den Herstellern dominieren Lenovo (180 Systeme), Sugon (68) und Inspur (64), vor allem mit anonymen Industriesystemen. HPE und die HPE-Company Cray sind mit 38 beziehungsweise 36 Systemen dabei.

Artikelfiles und Artikellinks

(ID:46665151)