Alles hat sich auf der Frühjahrs-„GTC“, die „GPU Technology Conference“ von Nvidia“, die vom 16 bis zum 19. März im kalifornischen San José stattgefunden hat, um neue Leistungshorizonte und eine agentengetriebene Welt gedreht. Provider und Kunden wurde mit erweiterten Umsatzchancen der Mund wässrig gemacht.
Rasante Fortschritte bei KI-Hardware und -Agenten hat Nvidia auf der diesjährigen Hausmesse Nvidia GTC“ in San José präsentiert.
„Mit Vera Rubin können Sie fünfmal mehr Umsatz erzielen!“, hat Nvidia-CEO Jensen Huang vollmundig den begeisterten Zuschauern seiner Performance auf der großen Bühne der Nvidia GTC versprochen. Dazu haben wie üblich Roboter vorgeturnt, was sie können.
Im Mittelpunkt von Huangs Ausführungen hat der immense Bedarf an Rechenleistung gestanden, den Agenten-Systeme wegen ihres Echtzeit-Inferenzbedarfs verschlingen und der sich, so Huang, nur durch immer leistungsfähigere und, in Relation zu ihrer Leistung, immer effizienter arbeitende Systeme befriedigen lasse. Der jährliche Innovationszyklus bei GPUs und den sie umlagernden Systemen, den Nvidia vorlegt, schaffe die Voraussetzungen für vollkommen neue ökonomische Möglichkeiten.
Der Nvidia-CEO betont zudem, dass das Unternehmen Skalierung für immens wichtig halte. "Wir skalieren in jede Richtung!", sagt er mehrfach, „und dies in rasanter Geschwindigkeit“.
AI Factories als neue Provider-Klasse
Deshalb brauche es reihenweise KI-Fabriken. Provider, die solche auf KI-Verarbeitung spezialisierte Rechenzentren bauen, können so Huangs Zukunftsentwurf, einerseits sehr schnelle Systeme etwa fürs Training bereitstellen, die dann eher günstig angeboten werden, oder aber sie bieten immense Inferenzleistungen für Aufgaben mit mehr Genauigkeitsbedarf an, die den Bedürfnissen auch der qualitätshungrigsten Kunden entsprechen.
Diese Angabote kommen dann für entsprechend teures Geld. Das betreffe beispielsweise Umgebungen, in denen es um Coding und andere anspruchsvolle Aufgaben gehe.
„Fünfmal mehr Umsatz durch Vera-Rubin-Plattform", verspricht Nvidia-CEO Jensen Huang auf der Nvidia GTC.
(Bild: Rüdiger/Nvidia)
Dazwischen könnten alle möglichen Preisstufen eingezogen werden. Hier liege ein profitables Geschäftsmodell.
Das Marketing an Hyperscaler ist für Nvidia immens wichtig. Rund 60 Prozent der Implementierungen seiner Produkte erfolgen dort.
'Gestreamlinte' Hardware in KI-Fabriken
Um unterschiedlichen Bedarfen gerecht zu werden, so Huang, könnten Provider ihre Systeme 'streamlinen', also optimieren, straffen, rationalisieren oder vereinfachen. Während für etwa drei Viertel der Infrastruktur beim Hyperscaler oder sonstigen Bereitstellern von KI-Rechenleistung eine normale „Vera Rubin“-Installation reichen dürfte, lohne es sich, für das oberste Viertel des Inferenzbedarfs zusätzlich eine „Groq“-Installation einzubeziehen.
Neue Chips, neue Racks und neue Leistungshorizonte bringt die „Vera-Rubin“-Plattform von Nvidia hervor.
(Bild: Rüdiger/Nvidia)
Die auf der Veranstaltung von Huang vorgestellte Vera-Rubin-Plattform umfasst mehrere Komponenten, die allesamt entweder neu oder runderneuert sind. Zudem kündigten im Umfeld der Messe die großen Infrastrukturlieferanten, etwa Dell und HPE, bereits die ersten Implementierungen von Vera Rubin in eigenen Systemen an. Basis ist die nächste GPU-Generation, Vera Rubin mit weiteren Beschleunigungschips.
Vera-Rubin-Plattform: Supercomputer aus Nvidia-Komponenten
Zu den Komponenten gehören mit der superschnellen Verbindungstechnik „NVL“ (Nvidia Link) 72 ausgerüstete neu gestaltete GPU-Racks, Vera Rubin GPUs, das „Vera“-CPU-Rack, ein ebenfalls massiv beschleunigter „NVLink 6“-Switch, ein „Nvidia Spectrum-6“-Ethernet Switch, der „Nvidia Connectx SuperNIC“ als Netzwerkadapter, als Speichereinheit die „Nvidia Blufield -4“-DPU und das „Groq 3 LPU“-Rack samt gleichnamigem Prozessor (LPU steht für Language Processing Unit). Alle Komponenten gemeinsam sollen als gigantischer Supercomputer funktionieren.
Mit „Groq“ , im Bild der am weitesten reichende Teil der hellgrünen Kurve, können Hyperscaler teure, weil sehr leistungsfähige und hochqualitative Inferenzsysteme realisieren.
(Bild: Rüdiger/Nvidia)
Das Kernstück, das NVL-72-GPU-Rack Es fasst 72 dieser neuen GPUs, und 36 Vera-CPUs, verbunden durch NVLink 6. Dazu kommen Connextx-9 SuperNICs und Bluefield-4-DPUs. Verglichen mit der Vorläuferplattform auf „Blackwell“-Basis leistet diese Plattform mit einem Viertel der GPUs zehnmal so viel.
Wassergekühltes, kabelfreies Vera-CPU-Rack
Das separate Vera-CPU-Rack Rack ist wassergekühlt und fasst insgesamt bis zu 256 Vera-CPUs. Basis ist Nvidias modulares Serverdesign „MGX“. Es dient vor allem zu Test und Validierung der Ergebnisse von Modellen, die auf den GPU-Systemen laufen.
Erweiterte Leistungshorizonte eröffnen das Rack „Nvidia Groq 3 LPX“ und der dazugehörige Prozessor, Nvidia Groq 3 LPU. Das Rack fasst bis zu 256 Groq 3-LPUs. Jeder dieser Prozessoren hat 128 GByte On-Chip-SRAM und 640 TByte/s Bandbreite, die sich hochskalieren lässt.
Mit Groq-Subsystem: 35fache Leistung
Die Komponente ist der aktuelle Inferenzbeschleuniger von Nvidia für Vera-Rubin-Systeme. Das Groq-Subsystem soll vor allem inferenzintensive Agentensysteme unterstützen, wie sie etwa beim automatisierten Coding oder anderern sehr anspruchsvollen Aufgaben verwendet werden.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Das Rack für das „Groq“-Subsystem „Groq 3 LPX“
(Bild: Rüdiger/Nvidia)
Zusammen mit Vera Rubin schafft Groq die 35fache Leistung bisheriger Systemgenerationen. Mehrere LPUs funktionieren als ein riesiger Prozessor. Das System ist für Modelle mit Billionen von Parametern und Kontexten, die Millionen Tokens umfassen, gebaut.
Der Stromverbrauch per Token ist vergleichsweise gering. Auch im Groq-Rack kommt die modulare MGX-Infrastruktur zum Einsatz (MGX steht für Modular Generation Architecture).
Bluefield-4 entlastet den Host-Prozessor
Neu ist auch das Storage Rack „Bluefield STX“, eine AI-native Storage-Infrastruktur. Sie dehnt das GPU-Memory nahtlos auf den gesamten Pod aus. Darin steckt der Bluefield-4-Prozessor mit seinen Subkomponenten „Grace“ und Connectx 9 SuperNIC.
Der Durchsatz des Connectx-9 SuperNIC liegt bei maximal 800 Gigabit pro Sekunde (GBit/s) Infiniband statt zweimal 400 GBit/s. Dadurch wird statt zweier aggregierter ein einheitlicher Datenstrom ermöglicht, der den Anforderungen in KI-Umgebungen mit ihren massiven Transportanforderungen besser entgegenkommt.
In der Komponente stecken Grace-CPUs. Der Prozessor in der Lage, Post-Quanten-Verschlüsselungsalgorithmen zu verarbeiten.
Neues Rack für die Connectivity
Das Rack Spectrum-6 SPX für die Verbindungen zwischen Racks fasst entweder Ethernet- (Spectrum-X) oder Infiniband („Quantum-X800„)-Switches. Dabei wird Ethernet mittels photonischer Mechanismen durch integrierte optische Module verarbeitet.
Mit der „Vera-Rubin“-Plattform lassen sich 35mal mehr Tokens zum selben Preis wie mit der „Blackwell“-Grundlage erzeugen.
(Bild: Rüdiger/Nvidia)
Das bedeutet eine fünffach erhöhte Energie-Effizienz und eine verzehnfachte Resilienz gegenüber traditionellen steckbaren Transceivern. Dazu gab Nvidia ein Referenzdesign für AI-Factories frei, das die Tokens pro Watt maximiert.
Speed für neue Softwareservices
Doch bei Nvidia geht es längst nicht mehr ausschließlich um Hardwarekompomenten. Neu ist das DOCA-Framework „Memos“. DOCA ist ein Hilfsmittel bei der Administration von KI-Fabriken. Es ermöglicht, sehr schnell Applikationen für das Verlagern, Beschleunigen und Isolieren von DatacenterWorkloads.
Provider können so schneller als bisher neue softwaredefinierte Services unter Nutzung von DPUs zu entwickeln (die Abkürzung DPU steht für Data Processing Unit), beispielsweise für Sicherheitszwecke. Das ist angesichts der sich rasant verändernden Herausforderungen wichtig, um schnell reagieren zu können.
Nemoclaw entwickelt sich aus Open Source
Besonders wichtig ist in Anbetracht der Agentenflut, dass Nvidia mit „NemoClaw“ eine „Openclaw“-Version entwickelt hat, die alle für Unternehmensimplementierungen notwendigen Sicherheitsfunktionen mitbringt. Openclaw ist ein Open-Source-Tool zur Entwicklung von Agenten.
Um einen Agenten zu bauen, werden die Anforderungen in natürlicher Sprache an das Tool 'gepromptet'. Openclaw, das über vielfältige Schnittstellen verfügt, sucht sich die Komponenten, Modelle und Systeme zusammen, die nötig sind, um die Aufgabe zu erfüllen und erledigt sie selbsttätig.
Mit „Nemoclaw“ können Anwender laut Nvidia von den Möglichkeiten des natürlichsprachigen Agenten-BauTool „Openclaw“ profitieren, ohne Sicherheitsrisiken einzugehen, so Nvidia.
(Bild: Rüdiger/Nvidia)
Die Download-Raten für das Opnen-Source-Werkzeug sind geradezu explodiert. „Das ist das Betriebssystem für Agenten“, frohlockte Huang. Dieses stehe nun auch Enterprise-Kunden zur Verfügung, ohne dass sie um ihre Sicherheit fürchten müssen.
Die Vera-Rubin-Implementierung von HPE
Implementierungen stellten beispielsweise Dell, HPE und Gigabyte vor. HPE präsentiert etwa ein neues Supercomputer-Blade mit bis zu 1.408 Vera-Rubin-Cores und bis zu 640 Vera-CPUs pro „HPE Cray Supercomputing GX5000“-Rack. In dieses Rack ipassen vierzig Blades.
Dazu kommt ein mit HPE gelabeltes NvidiaVera Rubin NVL72-System. Es kommt auf bis zu 1.584 TByte/s Speicherbandbreite.