ISC 2020 Digital: Der erste Exascale-Computer

Die Top500 ist da und Nvidia ist f a s t überall dabei ISC 2020 Digital: Der erste Exascale-Computer

23.06.2020Redakteur: Ulrike Ostler

Nach Aussagen von Nvidia-Manager Paresh Kharya, gibt es nicht einen Grund, der gegen die Ausstattung eines Supercomputers mit GPUs als Akzeleratoren spricht. Mellanox-Infiniband sei ohnehin das Non-Plus-Ultra. Tatsächlich verwenden aktuell acht der schnellsten Supercomputer Nvidia-GPUs, Infiniband oder beides. Auch die Green500-Liste wartet mit einer neuen Rangfolge auf; mit darunter: „Selene“, das HPC-System aus Nvidia-Technik. Doch die Topp-Überraschung ist „Fugaku“, ausgestattet mit ARM-Prozessoren, kommt der Cluster ohne GPUs aus.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

dtm Datentechnik Moll GmbH

Dell GmbH

NVIDIA GmbH

Keine x8er Architektur: Der derzeit leistungsfähigste Supercomputer basiert auf ARM-Prozessoren von Fujitsu.
(Bild: Riken Center for Computational Science)

Seit Jahren darf gewettet werden: In welchem Land steht der erste Exascale-Computer? China oder USA? Doch der erste Supercomputer, der sich als Exascale-System bezeichnen lässt, kommt gar nicht aus China oder den USA, sondern aus Japan und ist von Fujitsu gebaut.

Fugaku kommt auf 415 PetaFlops (PFlops ) im Linpack-Benchmark. Damit ist das System gut 2,8 mal so schnell wie der bisherige Spitzenreiter, der amerikanische „Summit“, ein System, das auf „IBM Power9“ basiert und mit den Nvidia-GPUs „Tesla V100“ bestückt ist.

Beim speicherlastigen HPCG-Benchmark, zeigt sich die Dominanz noch deutlicher: Mit 13,4 PFlops ist er über viermal so schnell wie Summit. In einfacher Genauigkeit kommt die theoretische Spitzenleistung des Fugaku auf über 1 Exaflops. Es ist also tatsächlich das erste Exascale-System.

Der Gewinner

Die Grundlage bildet der „Fujitsu-A64FX“-Prozessor mit 48 CPU-Kernen. Darüber hinaus kommt das System ohne Beschleuniger aus. Stattdessen nutzt das System eine integrierte „Scalable Vector Extension“ (SVE), die derzeit mit 512 Bit Breite, 32 Registern und Predication-Registern aufwartet – ähnlich wie der Intel-Chip „AVX512“. SVE soll bei späteren Implementierungen mit 1024 oder 2048 Bit Breite ohne Software-Änderungen automatisch skalieren.

Der neue schnellste Rechner in Europa, der italienische „HPC5“ des Mineralölkonzerns ENI auf der Basis von Dell-Rechnern und „Intel Cascade-Lake“-Prozessoren und „Nvidia Tesla-V100“-GPUs, zieht mit 51,7 PFlops neu in die Top 10 der Supercomputing-Liste ein und landet auf dem neunten Rang.

Außerdem steht in Italien hat nun mit 21,6 PetaFlops auch der zweitschnellste Rechner in Europa: „Marconi100“ des italienischen Forschungsverbundes Cineca beruht auf IBM-Power9-CPUs und Tesla V100. Die bisherige EU-Nr.2 „Piz Daint“ des schweizerischen Supercomputerzentrums in Lugano mit 21,2 PFlops rutscht auf Platz 10.

„Selene“ wurde innerhalb von nur vier Wochen gebaut. Trotzdem eroberte der Nvidia-Supercomputer auf Anhieb einen Spitzenplatz. Der Cluster kann anderen als Referenz-Design dienen.
(Bild: Nvidia)

Nvidia wollte mit „Selene“ vor allem in der Energie-Effizienz und damit in den Green500 ganz oben landen. Mit 20,5 GigaFlops/Watt sah das auch sehr gut aus. Doch die Firma Preferred Networks hat mit dem Matrix-Beschleuniger „MAU“, der zusammen mit Low-Power-„Xeon“-Chips von Intel auf PCIe-Karten sitzt, ein hocheffizientes System entwickelt, das gerade einmal auf 21,1 GigaFlops/Watt kommt. Fugaku liegt mit 14,6 GFlops/Watt auf Platz 9 der Green500.

Trotzdem ist Selene bemerkenswert. Mit 27,5 Petaflops auf dem Linpack-Benchmark ist Selene mit 20,5 Gigaflops/Watt nur einen Bruchteil eines Punktes vom Spitzenplatz auf der Green500-Liste entfernt, der von einem viel kleineren System eingenommen wird, das nach Leistung Platz 394 belegte. Nvidia betont: „Selene ist das einzige Top-100-System, das die 20-Gigaflops/Watt-Marke knackt.“

Über Selene

Im Gegensatz zu Erstellung anderer Supercomputer, deren Technik bei Fertigstellung schon fast überholt ist, hat der Bau weniger als vier Wochen gedauert. Der Grund ist nach Angaben von Nvidia-Manager Kharya die modulare Referenzarchitektur seines Unternehmens, die die Ingenieure verwendet hätten. Ein entsprechender Leitfaden definiert das, was das Unternehmen „DGX-Superpod“ nennt. Grundlage ist der Nvidia-Server „DGX A100“, der im Wesentlichen acht „A100“-GPUs in einem 6U-Server, „AMD Epyc“-CPUs (Rome) sowie Mellanox HDR Infiniband-Technik enthält.

Nach Angaben von Director of Product Management for Accelerated Computing Kharya kann jede Organisation mit dem Referenzdesign schnell einen Rechen-Cluster von Weltklasse einrichten. Betreiber könnten in nur einer Stunde mit 20 DGX A100-Systemen im Rack ein 2-PFlops-System bauen und so einen Cluster schaffen, der leistungsstark genug ist, um auf der Top500-Liste zu erscheinen.

Selene verfügt über eine zusätzlichen Schicht von Mellanox Infiniband-Switches die 14 von 20-Systemeinheiten zu dem Selene-System verknüpfen, das folgende Eigenschaften aufweist:

280 DGX A100

2.240 Nvidia A100 GPUs

494 Mellanox Quantum 200G Infiniband Switches

56 Terabit pro Sekunde Netzwerkstruktur

7 Petabyte All-Flash-Speicher

Eine der wichtigsten Spezifikationen von Selene ist zudem, dass der Cluster mehr als 1 ExaFlops an KI-Leistung liefern kann.

Platz	Veränderung	System	Standort	Rechenleistung (Rmax)	Prozessoren
1	-	Fugaku	Japan	415,53 PetaFLOPS	A64FX (48C, 2,2 GHz)
2	-1	Summit	USA	148,60 PetaFLOPS	IBM Power9 (22C, 3,07 GHz) Nvidia Volta GV100
3	-1	Sierra	USA	94,64 PetaFLOPS	IBM Power9 (22C, 3,1 GHz) Nvidia Volta GV100
4	-1	Sunway TaihuLight	China	93,01 PetaFLOPS	Sunway SW26010 (260C, 1,45 GHz)
5	-1	Tianhe-2A	China	61,44 PetaFLOPS	Intel Xeon E5-2692v2 (12C, 2,2 GHz)
6	-	HPC5	Italien	35,45 PetaFLOPS	Intel Xeon Gold 6252 (24C, 2,1 GHz) Nvidia Tesla V100
7	-	Selene	USA	27,58 PetaFLOPS	AMD Epyc 7742 (64C, 2,25 GHz) Nvidia A100
8	-3	Frontera	USA	23,52 PetaFLOPS	Intel Xeon Platinum 8280 (28C, 2,7 GHz)
9	-	Marconi-100	Italien	21,64 PetaFLOPS	IBM Power9 (16C, 3,0 GHz) Nvidia Volta V100
10	-4	Piz Daint	Schweiz	21,23 PetaFLOPS	Intel Xeon E5-2690v3 (12C, 2,6 GHz) Nvidia Tesla P100

Weitere Höchstleistungen

Insgesamt ist diesmal die Gesamtleistung der auf der Liste platzierten Supercomputer deutlich gestiegen: um 35 Prozent auf 2,22 ExaFlops. Das ist insofern bemerkenswert als der Anstieg zuvor vergleichsweise flach war: 5,5 Prozent. Um auf der Liste zu landen, müssen die Cluster mindestens 1,23 PetaFlops leisten.

Die meisten Systeme auf der Top500 zählt mit 226 China (zuvor waren es 228). Es folgen die USA mit 114 (117) und Japan mit 29 (29). Dahinter kommen Frankreich 19 (18), Deutschland 16 (16) und die Niederlande 15 (15).

Bezogen auf die Leistung pro Land und Performance führen die USA mit 639 PetaFlops vor China (566 PFlops) und Japan (528 PFlops). Italien schließt mit 87,2 PFlops vor Frankreich (79,9 PFlops) und Deutschland (68,8 PFlops) an.

Ergänzendes zum Thema

Messergebnisse von Fugaku

Das Fugaku-System auf dem ersten Platz der Top500-Liste besteht aus 396 Racks (152.064 Knoten, etwa 95,6 Prozent des gesamten Systems). Die LINPACK-Leistung beträgt 415,53 PetaFlops mit einer Recheneffizienz von 80,87 Prozent.

Es ist das erste Mal, dass ein japanischer Supercomputer den ersten Platz in den Top500 belegt, seit der „K“-Computer im November 2011 die Nummer 1 beanspruchte; heute befindet er sich auf Platz 38 der Top500.

Die Leistung von Fugaku ist etwa 2,8 Mal so hoch wie die des Supercomputers, der mit 148,6 PFlops den zweiten Platz in der TOP500-Liste einnimmt. Hier gibt es ein paar weitere Benchmarks, die das Fujitsu-System anführt:

HPCG

Für diesen Benchmark wurden 360 Racks (138.240 Knoten), rund 87 Prozent des gesamten Systems von Fugaku verwendet, um die Punktzahl von 13.400 Teraflops zu erreichen. Darüber hinaus übertrifft der Cluster die Leistung des Supercomputers Nr. 2 (2.925,75 TFlops) um etwa das 4,6-fache.

HPL-AI

Im Gegensatz zu den herkömmlichen Auflistungen von TOP500 und HPCG, die die Leistung von Recheneinheiten mit doppelter Genauigkeit messen, ist HPL-AI ein Benchmark, der im November 2019 als Index zur Bewertung der Rechenleistung eingeführt wurde und die Fähigkeiten der in der künstlichen Intelligenz verwendeten Recheneinheiten mit einfacher und halber Genauigkeit berücksichtigt.

Für diese Messung wurde ein Wert von 1.421 ExaFlops unter Verwendung von 330 Racks (126.720 Knoten), etwa 79,7 Prozent des gesamten Systems von Fugaku aufgezeichnet. Dies ist zugleich ein historischer Rekord; denn Fugaku erreichte 1 exa (10 hoch 18) in einem der HPL-Benchmarks zum ersten Mal weltweit.

Die Supercomputerhersteller

Bei den Herstellern dominieren Lenovo (180 Systeme), Sugon (68) und Inspur (64), vor allem mit anonymen Industriesystemen. HPE und die HPE-Company Cray sind mit 38 beziehungsweise 36 Systemen dabei.

Artikelfiles und Artikellinks

Link: Top500

Link: Neue Prozessoren erlauben Höchstleistung bei Niedrigverbrauch, Supercomputer Fugaku: maximale Energieeffizienz mit ARM-Prozessoren von Fujitsu

(ID:46665151)