Das distributed Enterprise auf dem Vormarsch ins Metaversum Verteilte ist doppelte Freude mit dem Nvidia-Superchip Grace Hopper & Co.

Von Anna Kobylinska und Filipe Martins* 10 min Lesedauer

Anbieter zum Thema

Auf das KI-Rechenzentrum eines verteilten Enterprise kommt neue Technik zu. Mit „Spectrum-X“, einem „Ethernet für KI“, und Superchips will der GPU-Spezialist Nvidia jedes Rechenzentrum in eine generative KI-Engine transformieren. An der Edge sollen neue SoCs und Software das industrielle Metaversum vorantreiben.

Eine der bedeutsamsten Nvidia-Ankündigungen auf der Computermesse „Computex“ war „Spectrum-X“. Das soll eine 'Ethenet für KI' sein und Flaschenhälse bei der Communication der Hardwarekomponenten beseitigen. (Bild:  @Nvidia)
Eine der bedeutsamsten Nvidia-Ankündigungen auf der Computermesse „Computex“ war „Spectrum-X“. Das soll eine 'Ethenet für KI' sein und Flaschenhälse bei der Communication der Hardwarekomponenten beseitigen.
(Bild: @Nvidia)

Viele Anbieter köcheln ihr eigenes Gebräu vor sich hin, aber kaum ein Unternehmen heizt der Branche momentan so intensiv ein wie Nvidia. Der CEO des kalifornischen Technologieausrüsters Jensen Huang ließ gerade auf der Computermesse „Computex“ in Taipei einmal wieder „die Kinnladen fallen“: Mit einem neuen Ethernet will Nvidia jedes Rechenzentrum in ein KI-Kraftwerk verwandeln und kartet noch mit einem KI-Superchip nach.

Spectrum-X, hyperskalierbares Ethernet für generative KI

Der Bedarf nach autarker, latenzfreier Agilität der Unternehmens-IT und -OT begünstigt eine verteilte Anwendungsbereitstellung. Einziges Problem: Bestehende Technik nach altbewährten Standards kommt deutlich zu kurz; so auch die Konnektivität im Rechenzentrum.

Das Ethernet ist nicht schnell genug für die Anforderungen des verteilten Enterprise, geschweige denn für eines mit KI-Ambitionen für das Kern-Datacenter, glaubt man bei Nvidia. Also schickt man seine Ingenieure hin, um ein solches 'mal eben zu erfinden. (Nicht ganz uneigennützig, versteht sich; die Wall Street sitzt ja Huang im Nacken.)

Nvidia-CEO Jensen Huang präsentiert die erste Iteration von „Spectrum-X“, dem Spectrum-4-Chip, mit hundert Milliarden Transistoren auf einer 90x90-Millimeter-Die, auf der Computermesse „Computex“ in Taipei.(Bild:  @Nvidia)
Nvidia-CEO Jensen Huang präsentiert die erste Iteration von „Spectrum-X“, dem Spectrum-4-Chip, mit hundert Milliarden Transistoren auf einer 90x90-Millimeter-Die, auf der Computermesse „Computex“ in Taipei.
(Bild: @Nvidia)

Mit Spectrum-X will Nvidia „das weltweit erste Hochleistungs-Ethernet für KI" konzipiert haben. Nvidias neue Netzwerkplattform für KI verwendet vollständig standardbasiertes Ethernet und ist interoperabel mit Ethernet-basierten Technologie-Stacks.

Transformative Technologien wie generative Künstliche Intelligenz (KI) zwängen „jedes Unternehmen, die Grenzen der Leistung von Rechenzentren zu erweitern“, glaubt Gilad Shainer, Senior Vice President für Netzwerklösungen bei Nvidia. Spectrum-X sei „eine neue Klasse von Ethernet-Netzwerken“, die die Barrieren für KI-Workloads der nächsten Generation „beseitigen“ könne.

Die erste Ausführung

Die Geheimzutat von Nvidia Spectrum-X bildet in der ersten Iterationsstufe der Technologie die enge Kopplung der Ethernet-Switches „Nvidia Spectrum-4“ mit der „Bluefield-3“-DPU von Nvidia. Mit Spectrum-4 hat Nvidia den weltweit ersten-Ethernet-Switch mit 51 Terabyte pro Sekunde (TB/s) der speziell für KI-Netzwerke konzipiert wurde, im Portfolio. Ein besonderes Highlight der Technologie sei ihre Fähigkeit, „keine Pakete zu verlieren“, so Shainer.

In Spectrum-X kommen fortgeschrittene RoCE-Erweiterungen (RDMA over Converged Ethernet) ins Spiel, um ein durchgängig 400 GbE-fähiges (GbE = Gigabit Ethernet) Netzwerk für KI-Clouds zu schaffen. Die RoCE-Erweiterungen arbeiten hierzu mit den Spectrum-4-Switches, Bluefield-3-DPUs und „Linx, Nvidias hochleistungsfähigen Glasfaser-Verbindungsmodulen.

Die Integration von Spectrum-4 mit der Bluefield-3 DPU soll eine um 1,7-fach bessere Gesamtleistung und Energie-Effizienz bei der Ausführung verteilter KI-Anwendungen sowie dank fortgeschrittener Isolation der Mandanten eine konsistente und vorhersehbare Leistung in Multi-Tenant-Umgebungen ermöglichen. Die Technologie bietet nebenbei eine bessere Sichtbarkeit der KI-Performance und soll über eine vollständig automatisierte Fabric-Validierung verfügen.

Nvidia-GPUs getapelt auf einem wassergekühlten Server von Dell Technologies „Poweredge XE9640" der für KI- und HPC-Rechnereien im Rechenzentrum gedacht ist - gesehen auf der diesjährigen „Dell Technologies World". Die GPUs benötigen bis zu 700 Watt. (Bild:  Vogel IT-Medien GmbH)
Nvidia-GPUs getapelt auf einem wassergekühlten Server von Dell Technologies „Poweredge XE9640" der für KI- und HPC-Rechnereien im Rechenzentrum gedacht ist - gesehen auf der diesjährigen „Dell Technologies World". Die GPUs benötigen bis zu 700 Watt.
(Bild: Vogel IT-Medien GmbH)

Nvidias Beschleunigungssoftware und SDKs runden den Leistungsumfang ab. Die Bereitstellung von End-to-End-Funktionen in Spectrum-X zielt darauf ab, die Runtimes massiver generativer KI-Modelle auf Basis von Transformern zu reduzieren.

Das Netzwerk wird „transformiert“

Bei KI-Transformern handelt es sich um eine fortschrittliche Art von KI-Modellen, die speziell für die Verarbeitung von Sequenzdaten entwickelt wurden. Sie kommen häufig in natürlicher Sprachverarbeitung (NLP) und bei maschinellem Übersetzen zu tragen. Der Transformer-Ansatz hat insbesondere die Verarbeitung von Sequenzdaten revolutioniert, da er im Gegensatz zu traditionellen sequenziellen Modellen wie rekurrenten neuronalen Netzwerken (RNN) eine effiziente Parallelisierung ermöglicht.

Ein zentrales Konzept in der Architektur der Transformer-NNS (Neuronalen Netze) ist ein so genannter Aufmerksamkeitsmechanismus. Gemeint ist hierbei eine spezielle Herangehensweise, die sich numerische Gewichtungen zu Nutze macht, um die Bedeutung von Elementen einer Sequenz für die Transformation der Eingabe zu ermitteln, um die Verarbeitung der Elemente zu priorisieren.

Die Architektur eines Transformer-Netzes besteht aus gestapelten Aufmerksamkeits- und Feedforward-Schichten. Die Aufmerksamkeitsschichten bewerten die Relevanz von Elementen, während die Feedforward-Schichten komplexe nichtlineare Transformationen durchführen. Die resultierenden Modelle können komplexe Zusammenhänge erfassen und den Grad der Parallelisierung maximieren.

Das Überwinden der Engpässe

Die KI-Transformer-Modelle haben bedeutende Fortschritte in Anwendungen wie maschinellem Übersetzen, Textgenerierung, Chatbots, Frage-Antwort-Systemen und Textklassifikation ermöglicht. Die kontinuierliche Weiterentwicklung von KI-Transformern stößt bisher jedoch auf Engpässe der Konnektivität.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die Möglichkeiten von Spectrum-X soll ein neuer „hyperskalierender Supercomputer für generative KI“ namens „Israel-1“ ausloten, den das Nvidia-Mellanox-Team gerade in Israel in einem seiner Rechenzentren baut. Die Maschine basiert auf „Dell Poweredge XE9680“-Servern mit Nvidias „HGX H100 8“-GPU-Plattform, Bluefield-3 DPUs und den Spectrum-4 Switches von Spectrum-X.

Die HGX H100 8-GPU-Plattform verfügt über acht „H100 Tensor Core“ GPUs und stellt den zentralen Baustein von „Hopper“ dar. Die Maschine soll bis zu acht ExaFlops an KI-Leistung erreichen und partiell bereits in diesem Jahr Betrieb aufnehmen.

Neue Supercomputer

In seiner Computex-Keynote stellte Huang mit dem „DGX GH200“ einen neuen KI-Supercomputer auf der Basis von „Grace Hopper“ vor. Im Gegensatz zu anderen DGX-Systemen handelt es sich bei dieser Maschine nicht um einen einzelnen Knoten, sondern um ein mehrere Racks umfassendes schlüsselfertiges Rechen-Cluster.

Das Cluster belegt 24 Racks und umfasst 256 GH200-Chips, also 256 Grace-CPUs und 256 H100-GPUs, sowie die hierzu erforderliche Netzwerkhardware. Insgesamt bietet ein DGX GH200-Cluster 120 TB an CPU-angebundenem und weitere 24 TB an GPU-angebundenem Speicher und eine Gesamtdurchsatzleistung von einem ExaFlop (1 EFLOP) bei FP8-Berechnungen (mit Sparsität).

Der neue KI-Supercluster von Nvidia „DGX GH200“ dürfte ungefähr so aussehen.(Bild:  @Nvidia)
Der neue KI-Supercluster von Nvidia „DGX GH200“ dürfte ungefähr so aussehen.
(Bild: @Nvidia)

Mit einer Leistung von einem ExaFlop und insgesamt 144 Terabytes an Speicher übertrifft der DGX GH200 seine Vorgänger um fast das 500-fache. Entwickler können damit komplexe Sprachmodelle für GenAI-Chatbots, fortschrittliche Algorithmen für Empfehlungssysteme und anspruchsvolle Graph-Neural-Netzwerke für Aufgaben wie Betrugserkennung und Datenanalyse erstellen. Hyperscaler wie Google Cloud, Meta und Microsoft seien schon dabei, die Möglichkeiten des DGX GH200 für ihre generativen KI-Workloads zu erkunden, so Huang.

Superchip Grace Hopper geht in Serienproduktion

Auf der Computex in Taiwan enthüllte Huang auch neue Systeme, Partnerschaften und weitere Details zum Superchip „GH200 Grace Hopper“ – nicht zu verwechseln mit dem texanischen Supercomputer „Grace“, den Dell Technologies entwickelte. Grace wurde zu Ehren von Vize-Admiral Grace Hopper benannt, einer Mathematikerin und Pionierin der Software-Entwicklung, „der Königin von Code“.

Vize-Admiral Grace Hopper, eine Mathematikerin und Pionierin der Software-Entwicklung.(Bild:  Encyclopædia Britannica Inc.)
Vize-Admiral Grace Hopper, eine Mathematikerin und Pionierin der Software-Entwicklung.
(Bild: Encyclopædia Britannica Inc.)

Das neue Technikwunder von Nvidia erweist dem Namen erst recht alle Ehre. Das System vereint die ARM-basierte Monster-CPU „Grace“ mit der GPU-Architektur „Hopper“ mithilfe des hauseigenen C2C-Interconnects „NVLink“ (C2C steht für Chip-to-Chip).

Die Grace-CPU verbindet mit NVLink sagenhafte 144„ ARM Neoverse V2“-Kerne. Mit ihrem weltweit ersten ECC-fähigen LPDDR5X-Speicher erreicht sie eine Speicherbandbreite von 1 Terabyte pro Sekunde.

Die Hopper-Architektur (ein Nachfolger von „Ampere“) stützt sich auf mehr als 80 Milliarden Transistoren im 4-nm-Prozess der TSMC für eine 30x-Beschleunigung generativer KI gegenüber ihrem Vorgänger. Hopper, Nvidias vielversprechender Hoffnungsträger für KI-Anwendungen, HPC und andere rechenintensive Arbeitslasten, punktet nicht zuletzt mit der Transformer-Engine von Nvidia.

Der ‚Superchip' „Grace Hopper“ von Nvidia.(Bild:  @Nvidia)
Der ‚Superchip' „Grace Hopper“ von Nvidia.
(Bild: @Nvidia)

Dank der Integration von Grace mit Hopper erreicht der Superchip eine Gesamtbandbreite von bis zu 900 GBps. Das ist das Siebenfache der gewöhnlichen Leistung von PCIe-Gen5-Lanes in herkömmlichen beschleunigten Systemen. Nvidia schickt sich damit an, den Markt für die anspruchsvollsten generativen KI- und HPC-Anwendungen umzuwälzen.

Die Grace-Hopper-Superchips sind bereits in Produktion. Europäische HPC-Zentren zählen zu den ersten Käufern neben den Hyperscalern. Die ersten Systeme auf der Basis dieser Chips sollen von Anbietern wie Aaeon, Advantech, Aetina, Asrock Rack, Asus, Gigabyte, Ingrasys, Inventec, Pegatron, QCT, Tyan, Wistron und Wiwynn stammen.

Das industrielle Metaversum

Nvidia will unter anderem die Umsetzung digitaler Zwillinge im industriellen Metaversum vorantreiben. Dem Vorhaben steht neben schwacher Konnektivität unter anderem auch die noch unzureichende Rechenleistung verteilter Rechenknoten im Wege.

Ende März hat Nvidia eine Zusammenarbeit mit Microsoft angekündigt, um 'Metaverse' als einen Dienst auf der Basis von Nvidias Hard- und Software in Hyperscale auf „Microsoft Azure“ verfügbar zu machen. Microsoft Azure wird Nvidia DGX Cloud für KI-Supercomputing und „Nvidia Omniverse Cloud“, eine Full-Stack-Plattform im as-a-Service-Modell für industrielle Metaverse-Anwendungen, hosten, um den Aufbau und Betrieb von 3D-Welten zu ermöglichen. Bei Nvidias DGX Cloud handelt es sich um einen AI-Supercomputing-Dienst, der Unternehmen sofortigen Zugriff auf Infrastruktur und Software bietet, um fortschrittliche Modelle für generative KI und andere bahnbrechende Anwendungen zu trainieren.

Darüber hinaus bringen die Unternehmen ihre Produktivitäts- und 3D-Collaboration-Plattformen zusammen, indem sie „Microsoft 365“-Anwendungen wie „Teams“, „Onedrive“ und „Sharepoint“ mit Nvidia Omniverse verbinden, um eine nahtlose Integration und Zusammenarbeit der Nutzer auch im geschäftlichen Umfeld zu ermöglichen.

Das Omniverse

Omniverse, Nvidias Plattform für die virtuelle Zusammenarbeit im Metaversum, ist das Flaggschiff im Softwareportfolio des Anbieters. Omniverse ermöglicht es verteilten Benutzern, unabhängig von ihrem Standort in einem gemeinsamen virtuellen Arbeitsbereich in 3D und in Echtzeit an 3D-Inhalten mitzuwirken, Ideen auszutauschen und zu visualisieren. Die Plattform ermöglicht auch die Simulation und das Testen von Szenarien in Echtzeit, was besonders in den Bereichen Architektur, Design, Filmproduktion und Automobilindustrie Anwendung findet.

Die Erstellung realistischer digitaler Zwillinge physischer Objekte aus der gelebten Realität erfordert unter anderem eine umfassende 3D-Modellierung. Nvidia hat für diese Aufgabe Tools wie „Diffcollage“ und „Neuralangelo“ entwickelt. Neuralangelo verwandelt 2D-Videos von beliebigen Objekten, von kleinen Gegenständen bis hin zu ganzen Fabrikhallen, automatisch in 3D-Objekte mit detaillierten Texturen. Diffcollage kann aus 2D-Videos 3D-Szenen komponieren.

Nvidias Partnerschaft mit Microsoft soll nicht zuletzt auch die Entwicklung von Tools, Frameworks und Treibern vorantreiben, die den KI-Entwicklungs- und Bereitstellungsprozess auf PC-Workstations optimieren. Die Zusammenarbeit zielt darauf ab, die installierte Basis von über 100 Millionen PCs, die mit „RTX“-GPUs bestückt sind und über Tensor Cores verfügen, für die Nutzung von über 400 KI-beschleunigten Windows-Anwendungen besser zu unterstützen.

Mit generativer KI will Nvidia in Zusammenarbeit mit dem Marketing-Dienstleister WPP die digitale Werbebranche aufmischen. Gemeinsam haben die Unternehmen eine generative Engine auf der Basis der Omniverse-Plattform entwickelt.

Diese Engine ermöglicht es kreativen Teams, Digitale Zwillinge von Produkten ihrer Kunden in 3D-Design-Tools wie „Adobe Substance 3D“ in Nvidias Omniverse Cloud zu erstellen. Dieses Setup soll es WPP-Kunden ermöglichen, eine Vielzahl von individualisierten Anzeigen, Videos und 3D-Erlebnissen für globale Märkte und alle Geräte zu generieren.

Das „Helios-zentrische” Enterprise?

Nvidia enthüllte in Taipei auch noch eine weitere Überraschung: einen KI-Supercomputer auf der Basis von DGX GH200 mit der Bezeichnung „Helios“ für das Training von groß angelegten KI-Modellen. Vier miteinander verbundene DGX GH200-Systeme mit Nvidias Infiniband-Netzwerktechnologie „Quantum-2“ mit einer Bandbreite von bis zu 400 Gbps kommen in dieser imposanten Maschine zum Tragen. Vor Jahresende dürfte das System einsatzbereit sein.

Die DGX GH200-Supercomputer umfassen Nvidia-Software, um eine schlüsselfertige Komplettlösung für die größten KI- und Datenanalyse-Workloads bereitzustellen. Die „Nvidia Base Command“-Software bietet KI-Workflow-Management, Cluster-basiertes Management auf Unternehmensebene, Bibliotheken zur Beschleunigung von Berechnungen, Speicher- und Netzwerkinfrastruktur sowie Systemsoftware, die für die Ausführung von KI-Workloads optimiert ist.

Ebenfalls enthalten ist „Nvidia AI Enterprise“, die Software-Ebene der „Nvidia AI-Plattform“. Sie bietet über 100 Frameworks, vortrainierte Modelle und Entwicklungs-Tools zur Vereinfachung der Entwicklung und Bereitstellung von KI-Anwendungen in der Produktion, einschließlich generativer KI, Computer Vision, Sprach-KI und mehr.

„MGX“ ist eine Referenzarchitektur von Nvidia für Hersteller von Computersystemen.(Bild:  @Nvidia)
„MGX“ ist eine Referenzarchitektur von Nvidia für Hersteller von Computersystemen.
(Bild: @Nvidia)

Eine modulare Referenzarchitektur namens „Nvidia MGX“ soll Systemherstellern ermöglichen, effizient und kostengünstig verschiedene Serverkonfigurationen für KI, HPC und Nvidia Omniverse-Anwendungen zu erstellen. Mit der MGX-Architektur können Hardwarehersteller standardisierte CPUs und beschleunigte Server mit modularen Komponenten entwickeln. Diese Konfigurationen unterstützen eine Vielzahl von GPUs, CPUs, Datenverarbeitungseinheiten (DPUs) und Netzwerkadaptern, einschließlich x86- und Arm-Prozessoren.

MGX-Systeme lassen sich sowohl in luft- als auch in flüssigkeitsgekühlten Gehäusen unterbringen. Die ersten Designs von Anbieter wie QCT und Supermicro sind für August geplant. Weitere namhafte Unternehmen wie Asrock Rack, Asus, Gigabyte und Pegatron sollen auch bereits ihr Interesse bekundet haben.

Die KI-Edge

Wenn es nach Nvidia geht, dürfte auch die Edge – in Vorfreude auf das industrielle Metaversum – bald noch schlauer und schneller werden. Auf der Computex 2023 hat Nvidia außerdem auch das neue Modul „Jetson AGX Orin Industrial“ angekündigt, das „die nächste Stufe des Computing“ in rauen Edge-Umgebungen ermöglichen soll. Dieses erweitert die Fähigkeiten des „Jetson AGX Xavier Industrial“ der vorherigen Generation und der kommerziellen „Jetson AGX Orin“-Module, indem es „Leistung der Serverklasse“ in robuste Systeme in den Bereichen Robotik, autonomes Fahren, Qualitätssicherung, industrielle Automatisierung und IoT-Anwendungen bringen soll.

Das Jetson AGX Orin Industrial Modul bietet eine AI-Leistung von bis zu 248 Tops (Tera Operations per Second) und eine konfigurierbare Leistungsaufnahme zwischen 15 und 75 Watt. Es ist im Formfaktor und den Pin-Belegungen kompatibel mit dem Jetson AGX Orin und bietet mehr als die achtfache Leistung des Jetson AGX Xavier Industrial.

Für Rechnereien an der Edge hat Nvidua das Modul „Jetson AGX Orin Industrial“ angekündigt.(Bild:  @Nvidia)
Für Rechnereien an der Edge hat Nvidua das Modul „Jetson AGX Orin Industrial“ angekündigt.
(Bild: @Nvidia)

Der Orin-SoC unterstützt mehrere gleichzeitige AI-Anwendungspipelines mit einer Ampere-basierten GPU, Deep Learning- und Vision-Beschleunigern, Hochgeschwindigkeits-I/O-Schnittstellen und schneller Speicherbandbreite. Es verfügt über einen erweiterten Temperaturbereich, eine lange Betriebsdauer sowie Schock- und Vibrationsbeständigkeit und unterstützt Fehlerkorrekturcode-fähigen Speicher (ECC).

Industrielle Anwendungen unter extremen Hitze- oder Kältebedingungen erfordern eine erweiterte Temperaturunterstützung sowie Unterfüllung und Eckbindung, um das Modul in diesen harten Umgebungen zu schützen. „Inline“-DRAM ECC wird in solchen Anwendungen zur Gewährleistung von Datenintegrität und Systemzuverlässigkeit benötigt.

Industrielle Umgebungen umfassen kritische Operationen und die Verarbeitung sensibler Daten. ECC hilft dabei, die Datenintegrität durch Echtzeit-Erkennung und -Korrektur von Fehlern sicherzustellen.

Das Autorenduo und sein Fazit

Das Autorenduo Anna Kobylinska und Filipe Pereia Martins arbeitet für McKinley Denali Inc. (USA)

Ihr Fazit: Zwischen der Edge und dem Rechenzentrum sprudeln reichlich neue Innovationen. Nvidias neueste Bemühungen zielen darauf ab, autarke Entscheidungsfindung cyber-physischer Edge-Systeme zu stärken und KI/ML im Rechenzentrum zu beschleunigen, um das verteilte Enterprise noch schlauer zu machen.

Artikelfiles und Artikellinks

(ID:49535487)