Der nächste Performance-Sprung bei 80 Milliarden Transistoren Nvidia-Hopper ist eine neue Akzeleratorarchitektur und die H100-GPU nutzt sie

Von Robert Brunner*

Nvidia hat am Dienstag auf der noch laufenden „GTC“-Konferenz eine ganze Reihe an Branchen-Milestones gezeigt. Der GPU-Produzent legte den Schwerpunkt auf die riesigen Möglichkeiten und Einsatzfelder, die Grafikprozessoren in den Bereichen Künstliche Intelligenz haben werden. Highlight war die Vorstellung der GPU-Architektur „Hopper“, welche die nächsten Rechnergenerationen von Inferenz-Systemen bis Supercomputer antreiben soll.

Anbieter zum Thema

Nvidia stellt mit „Hopper“ eine neue GPU-Architektur vor. KI-Workloads lassen sich damit massiv beschleunigt verarbeiten.
Nvidia stellt mit „Hopper“ eine neue GPU-Architektur vor. KI-Workloads lassen sich damit massiv beschleunigt verarbeiten.
(Bild: Nvidia)

Rund eine Billion Dollar soll laut Nvidia-CEO Jensen Huang der adressierbare Markt des US-Konzerns umfassen. Alleine 300 Milliarden Dollar sollten dabei auf die Autoindustrie entfallen, 300 Milliarden Dollar aus dem Datacenter stammen, 150 Milliarden jeweils bei Business-Software und „Omniverse“-Dienste möglich sein. Das heutige Kerngeschäft mit Videospielen solle dagegen nur 100 Milliarden Dollar umfassen. Der Fokus für Nvidia sei damit klar.

Die GTC-Keynote von Jensen Huang zeichnete mit ihren Neuvorstellungen ein beeindruckendes Bild, wohin die Reise von Nvidia gehen werde. Die Beschleunigung von KI, die sowohl für das Training selbstfahrender Autos oder Omniverse-Simulationen grundlegend ist, war auf der GTC 2022 die größte Ankündigung: der Beschleunigungstechnologie Hopper beziehungsweise die erste GPU mit der Bezeichnung „H100“.

Das Debüt von Hopper, der Multi-Instance-GPU-Technologie, die Nvidia mit „Ampere“ eingeführt hatte, um jede GPU in zu viele Instanzen zu unterteilen und diese isolieren zu können, erfolgt mit dem für Rechenzentren konzipierten Grafikprozessor „Nvidia H100“, der 80 Milliarden Transistoren mit HBM3-Speicher paart. Die für KI-Berechnungen gebaute GPU ist der direkte Nachfolger von „A100“ und setzt auf dem TSMC 4N-Prozess auf.

Dyamik und Präzision

Hopper führt ein neues 8-Bit-Tensor-Verarbeitungsformat ein, „FP8“ und die Hopper-Transformer-Engine kombiniert den neuen Tensorkern und Software, die 8-Bit- und 16-Bit-Zahlenformate verwendet, um die Schichten des Transformer-Netzwerks dynamisch zu verarbeiten. Die Herausforderung besteht, wie immer bei gemischter Präzision, darin, die Präzision für die Leistung intelligent zu verwalten und gleichzeitig zu erhalten.

Die Transformator-Engine erfüllt laut Paresh Kharya, Senior Director of Product Management and Marketing bei Nvidia, genau diese Aufgabe mit einer von angepassten Statistik, die dynamisch zwischen 8-Bit- und 16-Bit-Berechnungen wählt und automatisch ein Re-Casting und die Skalierung vornimmt, die zwischen den 16-Bit- und den 8-Bit-Berechnungen in jeder Schicht erforderlich sind, um die enormen Geschwindigkeitssteigerungen ohne Genauigkeitsverluste zu erzielen.

I/O-Virtualisierung und Sicherheit

Nicht alle Anwendungen benötigen die volle Leistung einer einzelnen GPU. Mit der Multicast-Technologie, die Nvidia mit der Ampere-Generation eingeführt hat, kann jede GPU fraktioniert und gemeinsam genutzt werden. Hopper fügt dieser Grundlage eine vollständige Isolierung pro Instanz und eine IO-Virtualisierung pro Instanz hinzu, insbesondere um die Mehrmandantenfähigkeit in der Cloud zu unterstützen.

Laut Kharya kann jeder H100 nativ sieben Cloud-Mandanten hosten, die mit IO-Virtualisierung vollständig isoliert und unabhängig mit vertraulichen Datenverarbeitungsfunktionen gesichert sind. Jede 100er-Multi-Instanz verfügt außerdem über dedizierte Bild- und Videodecoder für die Vor- und Nachverarbeitung von Anwendungen.

Verbindung per NVLink

Bei der Skalierung von Rechenaufgaben auf mehrere GPUs wird bisher die Kommunikationsbandbreite zwischen den GPUs zum Engpass. Nvidia bietet mittlerweile die vierte Generation von NV Link an und diese könne diese Herausforderung meisten. Sie stellt die siebenfache Bandbreite von PCIe Gen Five in einem Serverknoten bereit. Doch nicht nur das; jetzt skaliert sie in Kombination mit dem neuen externen „NVSwitch“.

NVLink von Nvidia ist eine Energie-effiziente Die-to-Die- und Chip-to-Chip-Verbindung für die GPUs, DPUs und künftig CPUs des Unternehmens.
NVLink von Nvidia ist eine Energie-effiziente Die-to-Die- und Chip-to-Chip-Verbindung für die GPUs, DPUs und künftig CPUs des Unternehmens.
(Bild: Nvidia)

Der Hersteller hat auf der Konferenz die Version „NVLink-C2C“ angekündigt, eine neue Generation der Integration auf Systemebene in Rechenzentren. Im Vergleich zu bisheriger Technologie bietet diese Version ein ultraschnelles Chip-to-Chip- und Die-to-Die-Interconnect, mit dem GPUs, DPUs, NICs und SOCs sowie künftige Nvidia-CPUs, verbunden werden können, als auch kundenspezifische Chips, die Nvidia ermöglichen will.

Mit fortschrittlichem Packaging kann NVLink-C2C Interconnect eine bis zu 25-mal höhere Energie-Effizienz und eine 90-mal höhere Flächeneffizienz als PCIe Gen 5 auf Nvidia-Chips bieten und eine kohärente Interconnect-Bandbreite von 900 Gigabyte pro Sekunde oder mehr ermöglichen. Ian Buck, Vice President of Hyperscale Computing bei Nvidia, verdeutlicht, warum eine solche Technik gefragt sein wird: „Chiplets und heterogenes Computing sind notwendig, um der Verlangsamung des Mooreschen Gesetzes entgegenzuwirken.“

Die Version C2C basiert auf der „Serdes“- und „Link“-Designtechnologie vonNvidia und ist von PCB-Level-Integrationen und Multichip-Modulen bis hin zu Silizium-Interposer- und Wafer-Level-Verbindungen erweiterbar, bietet hohe Bandbreiten bei gleichzeitiger Optimierung der Energie- und Die-Flächeneffizienz.

Auch für Grace geeignet

Laut Nvidia-Chef Huang wird auch NVLink-C2C auch für die Verbindung zur 'Superchip-Familie' „Grace“ geeignet sein. Die erste CPU von Nvidia hatte er im vergangenen Jahr angekündigt.

NVLink-C2C unterstützt das Protokoll „ARM Amba Coherent Hub Interface“ (AMBA CHI).Nvidia und Chipdesigner ARM, dessen Übernahme vor Kurzem gescheitert war, arbeiten eng zusammen, um AMBA CHI so zu verbessern, dass vollständig kohärente und sichere Beschleuniger mit anderen vernetzten Prozessoren unterstützt werden.

Chris Bergey, Senior Vice President und General Manager der Infrastructure Line of Business bei ARM, erläutert: „Da die Zukunft des CPU-Designs zunehmend beschleunigt ist und aus mehreren Chips besteht, ist es wichtig, Chiplet-basierte SoCs im gesamten Ökosystem zu unterstützen. “ sagte. ARm unterstützt aber eine breite Palette von Konnektivitätsstandards und entwickele sein AMBA CHI-Protokoll weiter, um diese zukünftigen Technologien zu unterstützen, einschließlich NVLink-C2C, um Anwendungsfälle wie kohärente Konnektivität zwischen CPUs, GPUs und DPUs zu adressieren.

Der Einsatz von „NVLink-Switch“ im Vergleich bei einer Skalierung von bis zu 256 „H100“-GPUs.
Der Einsatz von „NVLink-Switch“ im Vergleich bei einer Skalierung von bis zu 256 „H100“-GPUs.
(Bild: Nvidia)

Das schafft NVLink-C2C

NVLink-Switches können derzeit bereits bis zu 256 H100GPUs unterstützen und bieten dabei eine 9-mal höhere Bandbreite als die „Quantum“-Infiniband-Technologie zwischen den Knoten. Darüber hinaus verfügt der neue NV-Link-Switch sowohl innerhalb des Knotens als auch über den Knoten hinweg nun über die „Sharp“-Technologie, die für die Quantum-Switches beziehungsweise für eine Netzwerk-Computing eingeführt wurden.

Ergänzendes zum Thema
Grace kommt mit Grazie und viel Power

Der „Grace“-Superchip stellt eine Memory-Bandbreite von 1 Terabyte pro Sekunde zur Verfügung stellen und soll im 1. Halbjahr 2023 ausgeliefert werden.
Der „Grace“-Superchip stellt eine Memory-Bandbreite von 1 Terabyte pro Sekunde zur Verfügung stellen und soll im 1. Halbjahr 2023 ausgeliefert werden.
( Bild: Nvidia )

Zwar wurde „Grace“ bereits im vergangenen Herbst angekündigt, doch am Dienstag dieser Woche hat Nvidia-Chef Jensen Hang den 'Superchip", der auf „ARM Neoverse“ basiert mit ersten Details vorgestellt. Grace ist die erste diskrete Rechenzentrums-CPU von Nvidia und sie ist für KI-Infrastrukturen und High-Performance-Computing entwickelt worden.

Nach eigenen Angaben verfügt sie im Vergleich zu den derzeit führenden Server-Chips über die höchste Leistung, die doppelte Speicherbandbreite und Energie-Effizienz. Superchip besteht aus zwei CPUs, die kohärent über „NVLink-C2C“ verbunden sind.

Den Einsatz von Grace und den Hopper-GPUs sieht Huang vor folgenden Hintergrund: „Es ist eine neue Art von Rechenzentrum entstanden. Es sind KI-Fabriken, die Berge von Daten verarbeiten und veredeln, um Intelligenz zu produzieren.“

Mehr Speicher, weniger Strom

Grace besitzt 144 ARM-Kerne in einem einzigen Sockel, die beim Benchmark „SPECrate2017_int_base“ eine geschätzte Leistung von 740 erreichen.Das ist Nvidia-Messungen mehr als das 1,5-fache im Vergleich zur Dual-CPU, die heute mit dem Nvidia-System „DGX" ausgeliefert wird, die mit den GPUs „A100“ bestückt ist.

Das Speichersubsystem besteht aus LPDDR5x-Speichern mit Error Correction Code und bietet mit 1 Terabyte pro Sekunde eine doppelt so hohe Bandbreite wie herkömmliche DDR5-Designs. Zugleich benötigt die Konstruktion deutlich weniger Strom - für die gesamte CPU einschließlich Speicher 500 Watt.

Zudem kombiniere Grace die höchste Single-Thread-Core-Leistung mit der Unterstützung von den Vektorerweiterungen, die ARM v9 mitbringt. Die Grace-CPU lässt sich mit der Hopper-GPU zu 900 Gigabyte pro Sekunde verbinden. Das bedeutet eine 30-mal höhere Systemspeicherbandbreite als mit dem heutigen DGX A100.

Grace und Hopper: Aus Sicht von Nvidia-Chef Jensen Huang, das Traum-Duo für KI- und HPC-Anwendungen.
Grace und Hopper: Aus Sicht von Nvidia-Chef Jensen Huang, das Traum-Duo für KI- und HPC-Anwendungen.
( Bild: Nvidia )

Auf dem Grace CPU Superchip laufen alle Computing Software Stacks von Nvidia, einschließlich „RTX“, HPC, AI und „Omniverse“. Grace und „ConnectX-7“-NICs bieten die Flexibilität, in Servern als eigenständige CPU-Systeme oder als GPU-beschleunigte Server mit einer, zwei, vier oder acht Hopper-basierten GPUs konfiguriert zu werden. Sowohl die Grace CPU als auch der „Grace Hopper Superchip“ werden voraussichtlich in der ersten Hälfte des Jahres 2023 verfügbar sein.

Der Performance-Sprung

Hopper ist „unser bisher größter Generationssprung“,sagt Nvidia-Chef Huang. Aktuelle KI-Modelle soll die neue GPU bis zu 30-fach schneller ausführen können als das Vorgängermodell. Beim KI-Training soll die H100-GPU etwa dreimal schneller sein als die A100-GPU. Für FP32 liefert die H100-GPU 1.000 TeraFlops Leistung, für FP16 2.000 TeraFlops.

Die H100-GPUs werden wie die A100-GPUs als einzelne Karte, in „HGX“ und „DGX“-Systemen, in Pods und in Superpods verbaut. Die H100 CNX liefert eine H100-GPU mit schneller Datenverbindung für Server, das HGX/DGX-H100-System besteht aus acht H100-GPUs mit 640 Gigabyte HBM3-Speicher mit 24 Petabyte pro Sekunde Speicherbandbreite. Laut Huang lassen sich bis zu 32 HGX/DGX-H100-Systeme als DGX-Pods mit NVLink-Switch zusammenschalten (s.u).

Somit werde Hopper auch die Entwicklung neuer KI-Modelle ermöglichen. Bei HPC-Anwendungen wie 3D-FPS steigt die Leistung um das 6-fache. Große 3D-F-TSUs erfordern große Mengen an Kommunikationsbandbreite, werden aber in einer Vielzahl von Anwendungen wie seismischer Kartierung oder sogar Deep Learning für neuronale Netze zur Klima- und Wettermodellierung eingesetzt.

Das Computerinnere ist laut Nvidia-Chef Jensen Huang eine Simulation
Das Computerinnere ist laut Nvidia-Chef Jensen Huang eine Simulation
(Bild: Nvidia)

Beispielsweise lasse sich ein GPT-3 sechsfach schneller und ein Mixture-of-Experts-Modell bis zu 9-fach schneller trainieren. Die GPU unterstützt außerdem DGX Instructions, eine Methode, mit der sich dynamische Programmieraufgaben etwa für das Traveling-Salesman-Problem um den Faktor sieben beschleunigen lassen sollen. Sie ließen sich heute Quanten-Comuting-Anwendungen für die zukünftigen Quantenrechner entwickeln. Schließlich können wichtige Anwendungen wie die genomische Sequenzierung mit Hilfe von oder DPX-Befehlen um das Siebenfache beschleunigt werden, verglichen mit einem A100-System.

Doch nicht nur im Training ist die Performance-Steigerung essentiell. Die Modelle werden schließlich in Inferenz-Systeme umgesetzt. Jede H100er GPU biete einen unglaublichen 30-fachen Durchsatz, wie im Fall von „Megatron“, dem Sprach-KI-System von Nvidia, der für Echtzeit-Chatbots verwendet wird. Hier wird eine Latenzschwelle von einer Sekunde benötigt.

Die ersten H100-Computer

Fassbarer wird die Leistung der Hopper-Systeme mit den Eigenschaften, die die Architektur in der neuen Hardware entwickelt. So hat Huang nun die vierte Generation des „DGX“ Systems angekündigt, die erste KI-Plattform, die mit den H100 Tensor Core GPUs gebaut wird. Mit acht H100 Grafikprozessoren pro System, die über NVLink miteinander verbunden sind, bietet jeder DGX H100 eine KI-Leistung von 32 Petaflops bei neuer FP8-Präzision - 6-mal mehr als die vorherige Generation.

Die DGX-H100-Systeme sind die Bausteine der nächsten Generation von DGX-Pod- und - Superpod Infrastrukturplattformen. Im Superpod-System lassen sich per NVLink-Switch bis zu 32 Knoten mit insgesamt 256 H100 GPUs verbinden. Eine solche Plattform bietet 1 Exaflops FP8 KI-Leistung, ebenfalls 6-mal mehr als der Vorgänger, und erweitert die Grenzen der KI mit der Möglichkeit, massive LLM-Workloads mit Billionen von Parametern auszuführen.

In Kombination mit dem „NVLink Switch“-System liefert jeder „DGX Superpod“ eine KI-Leistung von 1 ExaFlops; der neue Nvidia-Supercomputer „Eos" wird voraussichtlich das schnellste KI-System der Welt sein.
In Kombination mit dem „NVLink Switch“-System liefert jeder „DGX Superpod“ eine KI-Leistung von 1 ExaFlops; der neue Nvidia-Supercomputer „Eos" wird voraussichtlich das schnellste KI-System der Welt sein.
(Bild: Nvidia)

Die enorme Leistungssteigerung werde es Nvidia voraussichtlich ermöglichen, den schnellsten Supercomputer der Welt zu bauen, kündigt Huang an. „Eos“ gehört Nvidia und wird vermutlich später in diesem Jahr in Betrieb genommen. Er verfügt über insgesamt 576 DGX H100 Systeme mit 4.608 DGX H100 GPUs.

Das Unternehmen erwartet, dass der Supercomputer eine KI-Rechenleistung von 18,4 ExaFlops bietet und damit die KI-Verarbeitung um das Vierfache schneller macht als der japanische Supercomputer „Fugaku“, der derzeit das schnellste System der Welt ist (siehe: „Fugaku ist noch immer die Nummer 1 und Intel verliert; Die aktuelle Top500-Liste der Superrechner“. Für herkömmliche wissenschaftliche Berechnungen soll Eos eine Leistung von 275 Petaflops bieten. Das System wird als Blaupause für KI-Infrastrukturen von Nvidia sowie seinen OEM- und Cloud-Partnern dienen.

Für Enterprises soll es einfach sein, mit DGX H100 Systemen, DGX Pod und DGX Superpod zu skalieren. Zusätzlich zu den acht H100-Grafikprozessoren mit insgesamt 640 Milliarden Transistoren enthält jedes DGX-H100-System zwei “Bluefield-3“ DPUs zur Auslagerung, Beschleunigung und Isolierung von erweiterten Netzwerk-, Speicher- und Sicherheitsdiensten.

Acht ConnectX-7 Quantum-2 Infiniband Netzwerkadapter sorgen für einen Datendurchsatz von 400 Gigabit pro Sekunde für die Verbindung mit Rechnern und Speichern - doppelt so schnell wie bei der vorherigen Systemgeneration. DGX-H100-Systeme nutzen duale x86 CPUs und können mit Nvidia-Netzwerken und Speicher von Partnern kombiniert werden.

DGX Superpod bietet ein skalierbares KI-Kompetenzzentrum. Die DGX-H100-Knoten und H100-GPUs sind über ein NVLink-Switch und Quantum-2 Infiniband miteinander verbunden. Sie bieten eine Bandbreite von insgesamt 70 Terabyte pro Sekunde. Das sei 11-mal mehr als bei der vorherigen Generation, teilt Nvidia mit. Speicher von Nvidia-Partnern werden getestet und zertifiziert. Außerdem lassen sich mehrere DGX Superpod-Einheiten kombinieren werden.

Wer sich kein eigenes Superpod-System anschaffen möchte, kann sich per „DGX Foundry“ der KI-Computing-Infrastruktur bedienen. Nvidie richtet neue Standorte in Europa, Nordamerika und Asien ein.

* Robert Brunner ist freier Autor und lebt in Augsburg.

(ID:48118655)