Blackwell, die GPU mit 208 Milliarden Transistoren Nvidia bringt Superchip für KI-Computer

Von Dr. Dietmar Müller 5 min Lesedauer

Anbieter zum Thema

Auf seiner „GTC“-Konferenz in Kalifornien hat Nvidia eine neue Chip-Architektur vorgestellt, die der künstlichen Intelligenz (KI) Beine machen soll. Branchengrößen aller Art wollen an dem Hype partizipieren.

Nvidias CEO Jensen Huang hat auf der GTC in San José mit "Blackwell" eine neue "Super GPU" enthüllt.(Bild:  Nvidia)
Nvidias CEO Jensen Huang hat auf der GTC in San José mit "Blackwell" eine neue "Super GPU" enthüllt.
(Bild: Nvidia)

Man fühlt sich an den Hype um „Windows 95“ oder das erste „iPhone“ erinnert – Nvidia-CEO Jensen Huang hat auf der konzerneigenen GTC-Konferenz in San José mit „Blackwell“ eine neue 'Super GPU' enthüllt, die die aktuelle Generation an KI-Chips um das Tausendfache überflügeln soll.

Nvidias CEO Jensen Huang(Bild:  Nvidia)
Nvidias CEO Jensen Huang
(Bild: Nvidia)

Die nach dem Mathematiker David Harold Blackwell benannte GPU-Architektur ersetzt die zwei Jahre alte Hopper-Architektur und besteht aus sechs verschiedenen Technologien, allen voran der „GB200 Grace Blackwell“ Superchip mit 208 Milliarden Transistoren, gefertigt in einem speziell entwickelten 4NP-TSMC-Prozess. Streng genommen handelt es sich um ein Design mit zwei identischen „B200“- Tensor Core GPUs, gekoppelt über eine stromsparende „NVLink“-Chip-zu-Chip-Verbindung mit 900 Gigabit pro Sekunde (GB/s), die wiederum über einen Die-to-Die-Link mit 10 TB/s kommunizieren und so als eine einzelne GPU auftreten.

„Gb200 NVL 72“ Compute- und Interconnect-Knoten(Bild:  Nvidia)
„Gb200 NVL 72“ Compute- und Interconnect-Knoten
(Bild: Nvidia)

Für KI-Anwendungen kann GB200 mit den ebenfalls neu vorgestellten „Nvidia Quantum-X800“ Infiniband- und „Spectrum-X800“-Ethernet-Plattformen verbunden werden, die Netzwerke mit Geschwindigkeiten von bis zu 800 Gbit/s unterstützen. Der GB200 ist auch eine Schlüsselkomponente des flüssigkeitsgekühlten Rack-Scale-Systems „GB200 NVL72“.

Es kombiniert 36 Grace Blackwell Superchips, darunter 72 Blackwell GPUs und 36 Grace CPUs, die durch NVLink der fünften Generation miteinander verbunden sind. Darüber hinaus verfügt der GB200 NVL72 über die DPU „Bluefield-3“ - Datenverarbeitungseinheiten für Hyperscale-KI-Clouds.

Das flüssigkeitsgekühlte Rack-Scale-Systems GB200 NVL72(Bild:  Nvidia)
Das flüssigkeitsgekühlte Rack-Scale-Systems GB200 NVL72
(Bild: Nvidia)

KI-Supercomputer für das Rechenzentrum

Die GB200 NVL72-Plattform fungiert als einzelne GPU mit 1,4 ExaFlops KI-Leistung und 30 TB schnellem Speicher und stellt einen Baustein für den KI-Supercomputer im Rechenzentrumsmaßstab „DGX Superpod“ dar. Er kann laut Unternehmensgründer Huang Billionen-Parameter-Modelle mit konstanter Betriebszeit für generative KI-Trainings- und Inferenz-Workloads verarbeiten. Dafür benötigt er eine flüssigkeitsgekühlte Rack-Scale-Architektur und bietet 11,5 ExaFlops KI-Supercomputing mit FP4-Präzision und 240 Terabyte schnellen Speicher (siehe: Kasten).

Der DGX Superpod verfügt zusätzlich über die „Bluefield-Fabric“ und unterstützt neue Quantum-X800 Infiniband-Netzwerke. Diese Architektur stellt jeder GPU der Plattform eine Bandbreite von bis zu 1.800 Gigabyte pro Sekunde zur Verfügung. Darüber hinaus bietet die „Nvidia Scalable Hierarchical Aggregation and Reduction Protocol“ (SHARP)-Technologie der vierten Generation 14,4 TeraFlops In-Network Computing, eine vierfache Steigerung der DGX Superpod-Architektur im Vergleich zur vorherigen Generation.

Die Nvidia-GPU-Evolution

Nvidia hat auf der GPU Technical Conference 2024 in San Jose mit „Blackwell“ seine siebte GPU der Rechenzentrumsklasse vorgestellt. Seit 2012 haben die Bemühungen von Nvidia zu Recheneinheiten geführt, die das 4.367-fache der rohen Fließkomma-Leistung des ursprünglichen „K10“ mit zwei „GK104“-GPUs liefern, die vor zwölf Jahren erreicht wurde.

Die Leistungssteigerung von einer GPU-Generation beziehungsweise -Architektur zur nächsten(Bild:  Nvidia)
Die Leistungssteigerung von einer GPU-Generation beziehungsweise -Architektur zur nächsten
(Bild: Nvidia)

Hier die verschiedenen Generationen:

  • Kepler"-Series: K10, K20, K40, K80
  • „Maxwell“; M40
  • „Pascal“; GP100
  • „Volta"“: G100
  • „Ampere“: GA100
  • „Hopper“: GH100
  • „Hopper-Next"“: H200
  • „Blackwell“: GB100
  • „Xavier“: GX100

Ein erheblicher Teil dieser Leistungssteigerung resultiert aus der Verringerung der Genauigkeit von FP32 (einfache Genauigkeit) auf FP4 (achte Genauigkeit), wodurch sich die Leistung des Chips bei konstanter Genauigkeit um das 546-fache erhöht.

Der Blackwell-GPU-Komplex verfügt über 208 Milliarden Transistoren und verwendet einen 4-Nanometer-Prozess mit der Bezeichng „4NP“. Er besteht aus zwei fadenkreuzgroßen GPU-Chips mit jeweils 104 Millionen Transistoren, die über NVLink 5.0 Interconnects verbunden sind.

Die Tatsache, dass der 3N-Prozess von TSMC nicht verwendet werden kann, hat zu etwas prominenteren und heißeren Chips geführt, die trotz potenziell niedrigerer Taktraten etwa 25 Prozent mehr Fließkommafähigkeit pro Die bieten, was insgesamt zu einer 2,5-fachen Leistungssteigerung führt. Durch die Umstellung auf FP4-Präzision verdoppelt sich die Leistung jedoch noch weiter.

Stromschlucker

Der B100-Grafikprozessor zeigt eine FP4-Spitzenleistung von 14 Petaflops und behält dabei das 700-Watt-Wärmedesign seines Vorgängers, des H100, bei. Im Gegensatz dazu steigert das B200-Modell die Leistung auf 18 Petaflops bei FP4-Präzision, allerdings bei einer Leistungsaufnahme von 1.000 Watt. Deswegen: die Flüssigkühlung.

Die Rechenleistung des GB200 ist in einem Tray, einer Art Tablett - Cold Plates für die Flüssigkeitskühlung, untergebracht. Der GB200-Compute-Tray kann 80 Petaflops an KI ausführen und verfügt über 1,7 TB schnellen Speicher.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

DGX Superpod soll bis zu 30 mal mehr Leistung bieten als die gleiche Anzahl von „Nvidia H100 Tensor Core“-GPUs für LLM-Inferenz-Workloads. Das reduziert laut Huang die Kosten und den Energieverbrauch um das bis zu 25-fache.

Die „Superpods“ von Nvidia ekommen auch ein „Gb299“-Update.(Bild:  Nvidia)
Die „Superpods“ von Nvidia ekommen auch ein „Gb299“-Update.
(Bild: Nvidia)

„Nvidia DGX KI-Supercomputer sind die Fabriken der industriellen KI-Revolution“, so Huang. „Der neue DGX Superpod kombiniert die neuesten Fortschritte in den Bereichen 'Accelerated Computing', Networking und Software, um es jedem Unternehmen, jeder Branche und jedem Land zu ermöglichen, seine eigene KI zu verfeinern und zu generieren.“

Blackwell wird von fünf Technologien flankiert:

  • Mikrotensor-Skalierung und Dynamic Range Management-Algorithmen innerhalb des „Nvidia TensorRT“-LLM- und „Nemo Megatron“-Framework
  • „VLink“ der fünften Generation für eine Hochgeschwindigkeitskommunikation zwischen maximal 576 GPUs mit einem bidirektionalen Durchsatz von 1,8 TB/s pro GPU.
  • Eine RAS-Engine soll Blackwell- GPUs wartungsfreundlich machen und sie monatelang ununterbrochen laufen lassen
  • Neue native Verschlüsselungsprotokolle für Schnittstellen
  • Eine spezielle Dekomprimierungs-Engine, um Datenbankabfragen zu beschleunigen

Ein ebenfalls neu vorgestelltes Server-Board mit der Bezeichnung „HGX B200“ verbindet acht B200-GPUs über NVLink. Über die Nvidia Quantum-2 Infiniband- und Spectrum-X-Ethernet-Netzwerkplattformen unterstützt es Netzwerkgeschwindigkeiten von bis zu 400 Gbit/s.

Nvidia hat darüber hinaus das End-to-End-Betriebssystem „Nvidia AI Enterprise“ auf das Blackwell-Produktportfolio zugeschnitten und bietet dafür neu NIM-Inferenz-Microservices und KI-Frameworks, -Bibliotheken und -Tools.

Globales Netzwerk von Blackwell-Partnern

Im Jahresverlauf werden wir viele Systeme auf Blackwell-Basis erleben: Microsoft, AWS, Google und Oracle haben umgehend angekündigt, Grace -Blackwell-basierte Instanzen zu hosten, genau wie Applied Digital, Coreweave, Crusoe, IBM und Lambda. GB200 werde auch in der Nvidia DGX Cloud genutzt.

„Nvidia DGX“ in der Cloud - die Vorstellungen bisher(Bild:  Nvidia)
„Nvidia DGX“ in der Cloud - die Vorstellungen bisher
(Bild: Nvidia)

Blackwell-Server soll es unter anderem von Cisco, Dell, Hewlett Packard Enterprise, Lenovo, Supermicro, Aivres, ASRock Rack, Asus, Eviden, Foxconn, Gigabyte, Inventec, Pegatron, QCT, Wistron, Wiwynn und ZT Systems geben.

Darüber hinaus haben jede Menge Softwarehersteller angekündigt, Blackwell-basierte Prozessoren zu verwenden, darunter Ansys, Cadence und Synopsys. Sie sollen ihre Software für die Entwicklung und Simulation von elektrischen, mechanischen und Fertigungssystemen beschleunigen.

„Seit drei Jahrzehnten beschleunigen wir das Computing. Unser Ziel ist es, transformative Durchbrüche wie Deep Learning und KI zu ermöglichen“, so Huang in seiner Keynote. „Generative KI ist die prägende Technologie unserer Zeit. Blackwell ist der Motor dieser neuen industriellen Revolution. Durch die Zusammenarbeit mit den dynamischsten Unternehmen der Welt werden wir das Versprechen von KI für jede Branche verwirklichen.“

(ID:49968178)