Der nächste Performance-Sprung bei 80 Milliarden Transistoren Nvidia-Hopper ist eine neue Akzeleratorarchitektur und die H100-GPU nutzt sie
Anbieter zum Thema
Nvidia hat am Dienstag auf der noch laufenden „GTC“-Konferenz eine ganze Reihe an Branchen-Milestones gezeigt. Der GPU-Produzent legte den Schwerpunkt auf die riesigen Möglichkeiten und Einsatzfelder, die Grafikprozessoren in den Bereichen Künstliche Intelligenz haben werden. Highlight war die Vorstellung der GPU-Architektur „Hopper“, welche die nächsten Rechnergenerationen von Inferenz-Systemen bis Supercomputer antreiben soll.

Rund eine Billion Dollar soll laut Nvidia-CEO Jensen Huang der adressierbare Markt des US-Konzerns umfassen. Alleine 300 Milliarden Dollar sollten dabei auf die Autoindustrie entfallen, 300 Milliarden Dollar aus dem Datacenter stammen, 150 Milliarden jeweils bei Business-Software und „Omniverse“-Dienste möglich sein. Das heutige Kerngeschäft mit Videospielen solle dagegen nur 100 Milliarden Dollar umfassen. Der Fokus für Nvidia sei damit klar.
Die GTC-Keynote von Jensen Huang zeichnete mit ihren Neuvorstellungen ein beeindruckendes Bild, wohin die Reise von Nvidia gehen werde. Die Beschleunigung von KI, die sowohl für das Training selbstfahrender Autos oder Omniverse-Simulationen grundlegend ist, war auf der GTC 2022 die größte Ankündigung: der Beschleunigungstechnologie Hopper beziehungsweise die erste GPU mit der Bezeichnung „H100“.
Das Debüt von Hopper, der Multi-Instance-GPU-Technologie, die Nvidia mit „Ampere“ eingeführt hatte, um jede GPU in zu viele Instanzen zu unterteilen und diese isolieren zu können, erfolgt mit dem für Rechenzentren konzipierten Grafikprozessor „Nvidia H100“, der 80 Milliarden Transistoren mit HBM3-Speicher paart. Die für KI-Berechnungen gebaute GPU ist der direkte Nachfolger von „A100“ und setzt auf dem TSMC 4N-Prozess auf.
Dyamik und Präzision
Hopper führt ein neues 8-Bit-Tensor-Verarbeitungsformat ein, „FP8“ und die Hopper-Transformer-Engine kombiniert den neuen Tensorkern und Software, die 8-Bit- und 16-Bit-Zahlenformate verwendet, um die Schichten des Transformer-Netzwerks dynamisch zu verarbeiten. Die Herausforderung besteht, wie immer bei gemischter Präzision, darin, die Präzision für die Leistung intelligent zu verwalten und gleichzeitig zu erhalten.
Die Transformator-Engine erfüllt laut Paresh Kharya, Senior Director of Product Management and Marketing bei Nvidia, genau diese Aufgabe mit einer von angepassten Statistik, die dynamisch zwischen 8-Bit- und 16-Bit-Berechnungen wählt und automatisch ein Re-Casting und die Skalierung vornimmt, die zwischen den 16-Bit- und den 8-Bit-Berechnungen in jeder Schicht erforderlich sind, um die enormen Geschwindigkeitssteigerungen ohne Genauigkeitsverluste zu erzielen.
I/O-Virtualisierung und Sicherheit
Nicht alle Anwendungen benötigen die volle Leistung einer einzelnen GPU. Mit der Multicast-Technologie, die Nvidia mit der Ampere-Generation eingeführt hat, kann jede GPU fraktioniert und gemeinsam genutzt werden. Hopper fügt dieser Grundlage eine vollständige Isolierung pro Instanz und eine IO-Virtualisierung pro Instanz hinzu, insbesondere um die Mehrmandantenfähigkeit in der Cloud zu unterstützen.
Laut Kharya kann jeder H100 nativ sieben Cloud-Mandanten hosten, die mit IO-Virtualisierung vollständig isoliert und unabhängig mit vertraulichen Datenverarbeitungsfunktionen gesichert sind. Jede 100er-Multi-Instanz verfügt außerdem über dedizierte Bild- und Videodecoder für die Vor- und Nachverarbeitung von Anwendungen.
Verbindung per NVLink
Bei der Skalierung von Rechenaufgaben auf mehrere GPUs wird bisher die Kommunikationsbandbreite zwischen den GPUs zum Engpass. Nvidia bietet mittlerweile die vierte Generation von NV Link an und diese könne diese Herausforderung meisten. Sie stellt die siebenfache Bandbreite von PCIe Gen Five in einem Serverknoten bereit. Doch nicht nur das; jetzt skaliert sie in Kombination mit dem neuen externen „NVSwitch“.
Der Hersteller hat auf der Konferenz die Version „NVLink-C2C“ angekündigt, eine neue Generation der Integration auf Systemebene in Rechenzentren. Im Vergleich zu bisheriger Technologie bietet diese Version ein ultraschnelles Chip-to-Chip- und Die-to-Die-Interconnect, mit dem GPUs, DPUs, NICs und SOCs sowie künftige Nvidia-CPUs, verbunden werden können, als auch kundenspezifische Chips, die Nvidia ermöglichen will.
Mit fortschrittlichem Packaging kann NVLink-C2C Interconnect eine bis zu 25-mal höhere Energie-Effizienz und eine 90-mal höhere Flächeneffizienz als PCIe Gen 5 auf Nvidia-Chips bieten und eine kohärente Interconnect-Bandbreite von 900 Gigabyte pro Sekunde oder mehr ermöglichen. Ian Buck, Vice President of Hyperscale Computing bei Nvidia, verdeutlicht, warum eine solche Technik gefragt sein wird: „Chiplets und heterogenes Computing sind notwendig, um der Verlangsamung des Mooreschen Gesetzes entgegenzuwirken.“
Die Version C2C basiert auf der „Serdes“- und „Link“-Designtechnologie vonNvidia und ist von PCB-Level-Integrationen und Multichip-Modulen bis hin zu Silizium-Interposer- und Wafer-Level-Verbindungen erweiterbar, bietet hohe Bandbreiten bei gleichzeitiger Optimierung der Energie- und Die-Flächeneffizienz.
Auch für Grace geeignet
Laut Nvidia-Chef Huang wird auch NVLink-C2C auch für die Verbindung zur 'Superchip-Familie' „Grace“ geeignet sein. Die erste CPU von Nvidia hatte er im vergangenen Jahr angekündigt.
NVLink-C2C unterstützt das Protokoll „ARM Amba Coherent Hub Interface“ (AMBA CHI).Nvidia und Chipdesigner ARM, dessen Übernahme vor Kurzem gescheitert war, arbeiten eng zusammen, um AMBA CHI so zu verbessern, dass vollständig kohärente und sichere Beschleuniger mit anderen vernetzten Prozessoren unterstützt werden.
Chris Bergey, Senior Vice President und General Manager der Infrastructure Line of Business bei ARM, erläutert: „Da die Zukunft des CPU-Designs zunehmend beschleunigt ist und aus mehreren Chips besteht, ist es wichtig, Chiplet-basierte SoCs im gesamten Ökosystem zu unterstützen. “ sagte. ARm unterstützt aber eine breite Palette von Konnektivitätsstandards und entwickele sein AMBA CHI-Protokoll weiter, um diese zukünftigen Technologien zu unterstützen, einschließlich NVLink-C2C, um Anwendungsfälle wie kohärente Konnektivität zwischen CPUs, GPUs und DPUs zu adressieren.
Das schafft NVLink-C2C
NVLink-Switches können derzeit bereits bis zu 256 H100GPUs unterstützen und bieten dabei eine 9-mal höhere Bandbreite als die „Quantum“-Infiniband-Technologie zwischen den Knoten. Darüber hinaus verfügt der neue NV-Link-Switch sowohl innerhalb des Knotens als auch über den Knoten hinweg nun über die „Sharp“-Technologie, die für die Quantum-Switches beziehungsweise für eine Netzwerk-Computing eingeführt wurden.
Der Performance-Sprung
Hopper ist „unser bisher größter Generationssprung“,sagt Nvidia-Chef Huang. Aktuelle KI-Modelle soll die neue GPU bis zu 30-fach schneller ausführen können als das Vorgängermodell. Beim KI-Training soll die H100-GPU etwa dreimal schneller sein als die A100-GPU. Für FP32 liefert die H100-GPU 1.000 TeraFlops Leistung, für FP16 2.000 TeraFlops.
Die H100-GPUs werden wie die A100-GPUs als einzelne Karte, in „HGX“ und „DGX“-Systemen, in Pods und in Superpods verbaut. Die H100 CNX liefert eine H100-GPU mit schneller Datenverbindung für Server, das HGX/DGX-H100-System besteht aus acht H100-GPUs mit 640 Gigabyte HBM3-Speicher mit 24 Petabyte pro Sekunde Speicherbandbreite. Laut Huang lassen sich bis zu 32 HGX/DGX-H100-Systeme als DGX-Pods mit NVLink-Switch zusammenschalten (s.u).
Somit werde Hopper auch die Entwicklung neuer KI-Modelle ermöglichen. Bei HPC-Anwendungen wie 3D-FPS steigt die Leistung um das 6-fache. Große 3D-F-TSUs erfordern große Mengen an Kommunikationsbandbreite, werden aber in einer Vielzahl von Anwendungen wie seismischer Kartierung oder sogar Deep Learning für neuronale Netze zur Klima- und Wettermodellierung eingesetzt.
Beispielsweise lasse sich ein GPT-3 sechsfach schneller und ein Mixture-of-Experts-Modell bis zu 9-fach schneller trainieren. Die GPU unterstützt außerdem DGX Instructions, eine Methode, mit der sich dynamische Programmieraufgaben etwa für das Traveling-Salesman-Problem um den Faktor sieben beschleunigen lassen sollen. Sie ließen sich heute Quanten-Comuting-Anwendungen für die zukünftigen Quantenrechner entwickeln. Schließlich können wichtige Anwendungen wie die genomische Sequenzierung mit Hilfe von oder DPX-Befehlen um das Siebenfache beschleunigt werden, verglichen mit einem A100-System.
Doch nicht nur im Training ist die Performance-Steigerung essentiell. Die Modelle werden schließlich in Inferenz-Systeme umgesetzt. Jede H100er GPU biete einen unglaublichen 30-fachen Durchsatz, wie im Fall von „Megatron“, dem Sprach-KI-System von Nvidia, der für Echtzeit-Chatbots verwendet wird. Hier wird eine Latenzschwelle von einer Sekunde benötigt.
Die ersten H100-Computer
Fassbarer wird die Leistung der Hopper-Systeme mit den Eigenschaften, die die Architektur in der neuen Hardware entwickelt. So hat Huang nun die vierte Generation des „DGX“ Systems angekündigt, die erste KI-Plattform, die mit den H100 Tensor Core GPUs gebaut wird. Mit acht H100 Grafikprozessoren pro System, die über NVLink miteinander verbunden sind, bietet jeder DGX H100 eine KI-Leistung von 32 Petaflops bei neuer FP8-Präzision - 6-mal mehr als die vorherige Generation.
Die DGX-H100-Systeme sind die Bausteine der nächsten Generation von DGX-Pod- und - Superpod Infrastrukturplattformen. Im Superpod-System lassen sich per NVLink-Switch bis zu 32 Knoten mit insgesamt 256 H100 GPUs verbinden. Eine solche Plattform bietet 1 Exaflops FP8 KI-Leistung, ebenfalls 6-mal mehr als der Vorgänger, und erweitert die Grenzen der KI mit der Möglichkeit, massive LLM-Workloads mit Billionen von Parametern auszuführen.
Die enorme Leistungssteigerung werde es Nvidia voraussichtlich ermöglichen, den schnellsten Supercomputer der Welt zu bauen, kündigt Huang an. „Eos“ gehört Nvidia und wird vermutlich später in diesem Jahr in Betrieb genommen. Er verfügt über insgesamt 576 DGX H100 Systeme mit 4.608 DGX H100 GPUs.
Das Unternehmen erwartet, dass der Supercomputer eine KI-Rechenleistung von 18,4 ExaFlops bietet und damit die KI-Verarbeitung um das Vierfache schneller macht als der japanische Supercomputer „Fugaku“, der derzeit das schnellste System der Welt ist (siehe: „Fugaku ist noch immer die Nummer 1 und Intel verliert; Die aktuelle Top500-Liste der Superrechner“. Für herkömmliche wissenschaftliche Berechnungen soll Eos eine Leistung von 275 Petaflops bieten. Das System wird als Blaupause für KI-Infrastrukturen von Nvidia sowie seinen OEM- und Cloud-Partnern dienen.
:quality(80)/images.vogel.de/vogelonline/bdb/1926800/1926867/original.jpg)
Nvidia, Penguin und Pure Storage liefern Komponenten
Meta plant den weltweit schnellsten KI-Supercomputer
Für Enterprises soll es einfach sein, mit DGX H100 Systemen, DGX Pod und DGX Superpod zu skalieren. Zusätzlich zu den acht H100-Grafikprozessoren mit insgesamt 640 Milliarden Transistoren enthält jedes DGX-H100-System zwei “Bluefield-3“ DPUs zur Auslagerung, Beschleunigung und Isolierung von erweiterten Netzwerk-, Speicher- und Sicherheitsdiensten.
Acht ConnectX-7 Quantum-2 Infiniband Netzwerkadapter sorgen für einen Datendurchsatz von 400 Gigabit pro Sekunde für die Verbindung mit Rechnern und Speichern - doppelt so schnell wie bei der vorherigen Systemgeneration. DGX-H100-Systeme nutzen duale x86 CPUs und können mit Nvidia-Netzwerken und Speicher von Partnern kombiniert werden.
DGX Superpod bietet ein skalierbares KI-Kompetenzzentrum. Die DGX-H100-Knoten und H100-GPUs sind über ein NVLink-Switch und Quantum-2 Infiniband miteinander verbunden. Sie bieten eine Bandbreite von insgesamt 70 Terabyte pro Sekunde. Das sei 11-mal mehr als bei der vorherigen Generation, teilt Nvidia mit. Speicher von Nvidia-Partnern werden getestet und zertifiziert. Außerdem lassen sich mehrere DGX Superpod-Einheiten kombinieren werden.
Wer sich kein eigenes Superpod-System anschaffen möchte, kann sich per „DGX Foundry“ der KI-Computing-Infrastruktur bedienen. Nvidie richtet neue Standorte in Europa, Nordamerika und Asien ein.
* Robert Brunner ist freier Autor und lebt in Augsburg.
(ID:48118655)