„Dem Ingeniör ist nix zu schwör!“ Das macht Nvidia richtig (und falsch)

Von Anna Kobylinska und Filipe MArtins* 9 min Lesedauer

Anbieter zum Thema

Das „Wunderkind“ der KI-Revolution lässt die Mitbewerber echt alt aussehen. Über 70 Prozent aller KI-Chips und 80 Prozent aller GPUs stammen von NVIDIA. Worin besteht das Erfolgsrezept? Was macht Nvidia richtig?

Ein Vorzeigeprojekt zum Angeben: Das immersive Unterhaltungszentrum „Sphere“ in Las Vegas betreibt zwei größte LED-Displays der Welt – knapp 15.000 Quadratmeter groß im Inneren und knapp 54.000 Quadratmeter groß auf der Außenseite – 150 Nvidia GPUs vom Typ „RTX A6000“ machen es möglich. (Bild:  MSG Entertainment)
Ein Vorzeigeprojekt zum Angeben: Das immersive Unterhaltungszentrum „Sphere“ in Las Vegas betreibt zwei größte LED-Displays der Welt – knapp 15.000 Quadratmeter groß im Inneren und knapp 54.000 Quadratmeter groß auf der Außenseite – 150 Nvidia GPUs vom Typ „RTX A6000“ machen es möglich.
(Bild: MSG Entertainment)

Offenbar eine ganze Menge; denn das Unternehmen konnte seinen Umsatz und den Börsenwert in nur einem Jahr verdreifachen, während AMD seine Einnahmen nur moderat steigern konnte und Intel sogar geschrumpft ist.

Nvidia innoviert unter Volllast. Das Resultat war eine Reihe bahnbrechender Neuigkeiten in kurzer Abfolge. Sogar der Börse war es fast schon zu viel des Guten.

Umsatzanteile im Markt für Rechenzentrumschips: Seit dem Aufkommen von GenAI-Arbeitslasten räumt Nvidia im Rechenzentrum ab und hat den Rivalen die Show gestohlen. (Bild:  10Qs via SeekingAlpha)
Umsatzanteile im Markt für Rechenzentrumschips: Seit dem Aufkommen von GenAI-Arbeitslasten räumt Nvidia im Rechenzentrum ab und hat den Rivalen die Show gestohlen.
(Bild: 10Qs via SeekingAlpha)

Jensen Huang, Mitgründer und CEO von Nvidia, forciert das Konzept der KI-Fabriken, also Rechenzentren der nächsten Generation, die anhand von Daten handlungsfähige Erkenntnisse – sprich „Intelligenz“ – im großen Maßstab produzieren sollen. Das Grundgerüst bildet hierzu Nvidias modulare Referenzarchitektur MGX.

KI-Fabriken, fast schon zu viel des Guten

MGX ermöglicht es OEM- und ODM-Partnern, aus Bausteinen, die Nvidia liefert, maßgeschneiderte Lösungen für verschiedene Rechenzentrumsanwendungen zu entwickeln. (siehe hierzu: „Ein Rechenzentrum, das sich »gewaschen« hat“)

Spezifische Konfigurationen von GPUs, CPUs und DPUs sollen verschiedene Workloads unterstützen (siehe hierzu: „Techniken, die Rechenzentren «verflüssigen». Ein Tropfen auf das heiße Silizium“. Nvidias Ökosystempartner können dann ihren direkten Draht zum Kunden nutzen, um auf spezifische Kundenanforderungen besser einzugehen, als es Nvidia selbst könnte. Man will halt in Santa Clara möglichst ungestört weiter innovieren.

Auf der Nvidia-Konferenz „GTC 2024“ stellte Nvidia eine neue GPU-Architektur mit der Bezeichnung „Blackwell“ vor. Sie umfasst die KI-Beschleuniger B100 und B200. Zwei GB200-GPUs im Verbund mit einer Grace-CPU bilden einen Grace-Blackwell SuperChip, dessen aggregierte Speicherbandbreite von 16 TB/s die Handhabung von großen Sprachmodellen mit einer Billion Parametern in Echtzeit ermöglichen soll.

„Blackwell ist nicht ein Chip,“ stellte Jensen Huang auf der GTC 2024 klar: „Blackwell ist der Name einer Plattform“.

Dann legte Huang noch einen drauf: „DGX GB200 NVL72“ von Nvidia sei das erste Exascale-System in einem Rack.Es besteht aus bis zu 576 GPUs, die über die fünfte Generation von „NVLink“ miteinander verschaltet sind, und erreicht eine Leistung von 720 Petaflops beim Training und 1,44 ExaFlops bei der Inferenz. (siehe zur Inferenz: „Wie macht man jetzt *Inferrrenzzzen scchnellerr*? Inferenz ohne Latenz“).

Das NVLink-Spine auf der Rückseite des Racks bietet eine Bandbreite von 130 Terabytes pro Sekunde. „Das ist mehr als die aggregierte Bandbreite des Internet“, freute sich Huang. Das System nutzt hierfür über 5000 NVLink-Kabel mit einer aggregierten Länge von zwei Meilen pro Rack.

„Hätten wir Glasfaser verwendet, bräuchten wir Transceiver und Retimer; das hätte so um die 2kW an Energie geschluckt, nur um die Spine zu betreiben“ erklärte Huang. NVLink Switch erledigt diese Aufgabe „für lau“. Der ganze Rack kommt mit gerade einmal 120kW aus. Es kühlt sich flüssig. Zwei Liter durchfließen das System pro Sekunde.

'Mal eben im Maßstab des Internets: Das „NVLink“-Spine des „DGX“-Systems von Nvidia erreicht eine Bandbreite von 130 Terabyte pro Sekunde.(Bild:  Nvidia)
'Mal eben im Maßstab des Internets: Das „NVLink“-Spine des „DGX“-Systems von Nvidia erreicht eine Bandbreite von 130 Terabyte pro Sekunde.
(Bild: Nvidia)

Zum Trainieren eines LLM mit 1,8 Trillionen Parametern bräuchte man rund 8.000 GPUs in Hopper-Architektur, 90 Tage Zeit und 15 Megawatt (MW) an Energie. In Blackwell-Architektur mit „GB200 NVL72“ würde dasselbe Modell in derselben Zeit nur 2.000 GPUs in Anspruch nehmen und nur 4 MW verbrauchen, also nur ein Viertel der Energie des Vorgängers.

Doch die größten Vorteile ergeben sich in der Inferenzphase: Blackwell übertrifft die Leistung von Hopper um den Faktor 30x.

Die 600.000 Bauteile bringen es auf ein Gewicht von 3.000 Pfund - ungefähr so viel wie ein Ferrari mit Karosserie aus Kohlenfaser.

So schnell geht das: „Blackwell“ schlägt „Hopper“ in Sachen Inferenz um den Faktor 30x. (Bild:  Nvidia)
So schnell geht das: „Blackwell“ schlägt „Hopper“ in Sachen Inferenz um den Faktor 30x.
(Bild: Nvidia)

Kaum hat sich der Staub von der GTX 2024 etwas gelegt, machte Nvidia auf der „Computex 2024“ in Taipei, Taiwan, wieder von sich reden. Hier stellte Huang mit „Spectrum-X“ die weltweit erste Ethernet-Netzwerkplattform für KI-Workloads vor. (siehe zu „exponentiell wachsenden KI-Modellen“ auch: „Wo Silizium und Quanten die Grenzen verschieben“). Diese Plattform verbessert die GPU-zu-GPU-Konnektivität, um höhere Bandbreiten, intelligentere Lastverteilung und Echtzeit-Optimierung von KI-Anwendungen zu ermöglichen.

DoeÖkosystempartner von Nvidia – von Dell Technologies über Hewlett Packard Enterprise bis hin zu Lenovo – konnten ihre Lösungen für KI-Fabriken und generative KI-Clouds nicht schnell genug mit Spectrum-X ausstatten. Nvidias bevorstehende Roadmap sieht mindestens genauso spannend aus wie die Produktvorstellungen dieses Jahres.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Für Ende 2024 ist die Markteinführung der GPU „Blackwell Ultra“ mit 12-Hi HBM3e-Kompatibilität geplant. Im Jahr 2026 will das Unternehmen mit „Rubin“ und „Rubin Ultra“ mit HBM4-Speicher nachkarten. Die Blackwell-Architektur fertigt TSMC im 4NP-Prozess. Die Rubin-Architektur wird von TSMC im 3-nm-Prozess hergestellt. Nvidia selbst ist „fabless“.

Kurs auf das Rechenzentrum

Als die Akquisition von ARM Anfang 2022 am Widerstand der Regulierungsbehörden scheiterte, hatten viele Investoren Nvidia als ein Unternehmen ohne Konzept und ohne Richtung abgeschrieben. Huang, der Geschäftsführer von Nvidia, hat die Schlappe offenbar angespornt, das Unternehmen neu auszurichten. Er hat den Schwerpunkt auf KI verschoben und nahm den Datencenter-Markt ins Visier. Seither ist der Siegeszug scheinbar nicht aufzuhalten.

Nvidia habe seither „eine massive Änderung in seiner Kundenstruktur vorgenommen“, beobachtet Sandeep Rao, ein Senior-Forscher bei Leverage Shares, einer Investment-Management-Firma, die für ihre innovativen Finanzinstrumente anerkannt ist. „Von einem Favoriten der Krypto-Miner und Gaming-Enthusiasten“ habe sich Nvidia „zu einem Schwergewicht der Unternehmens-IT gewandelt, der massiv in den Ausbau von Rechenzentren und KI-getriebenes Computing investiert; beeindruckende 87 Prozent seiner Umsätze erwirtschaftet Nvidia mit reinen Datencenter-Lösungen.“

Der Quartalsbericht, der am 22. Mai dieses Jahres veröffentlicht wurde, enthält erstaunliche Zahlen, die alle optimistischen Erwartungen übertreffen. Nvidia erzielte einen Anstieg des Quartalsumsatzes in Höhe von atemberaubenden 262 Prozent im Jahresvergleich und demonstrierte damit seine Fähigkeit, von der explodierenden Nachfrage nach KI-Lösungen für Rechenzentren zu profitieren.

Nvidia hat sich dafür neu erfinden müssen und zentral in den Kreislauf des technischen Fortschritts eingegriffen. Statt sich auf die launischen Krypto-Trends oder die volatilen Bedürfnisse der Gamer zu besinnen, hat Huang erkannt, dass die wahre Macht in den Strukturen liegt, die die digitale Ökonomie tragen und vorantreiben: in der Rechenzentrums-IT. Einfach war es nicht.

Leben und leben lassen

Was macht Nvidia richtig? Kurz auf den Punkt gebracht: Das Unternehmen hat um seine Lösungen ein Partnerökosystem aufgebaut, frei nach dem Motto: „Leben und leben lassen“: Hardware, Software und Cloud-APIs von Nvidia plus komplementäre Partnerlösungen schaffen gemeinsam einen Mehrwert.

Auf der „Cisco Live“, die Anfang Juli 2024 in Las Vegas stattfand, war das ganz offensichtlich. So stellte der Namensvetter der Konferenz unter anderem die KI-Cluster-Infrastruktur „Nexus Hyperfabric“ für generative KI im Rechenzentrum vor; im Inneren steckt Technik von Nvidia. Nexus Hyperfabric von Cisco integriert „Nvidia Tensor Core“-GPUs, „Nvidia Bluefield-3-SuperNICs“ und -DPUs und macht sich die Softwareplattform „Nvidia AI Enterprise“ zur Bereitstellung von „Nvidia NIM“ Inferenz-Microservices zu Nutze.

Die Bluefield-3 DPUs können Sicherheitsdienste wie „Cisco Hypershield“ ausführen; so entsteht eine KI-native, hyperverteilte Sicherheitsarchitektur nahe an schutzbedürftigen Workloads. Bang, Boom und schon vertreibt Cisco Nvidia-Technologie über die eigenen Vertriebskanäle an die eigenen Unternehmenskunden.

Das „Omniverse“-Ökosystem von Nvidia stützt sich auf anwendungsfallzentrierte Partnerschaften.(Bild:  Nvidia)
Das „Omniverse“-Ökosystem von Nvidia stützt sich auf anwendungsfallzentrierte Partnerschaften.
(Bild: Nvidia)

Der Ansatz erwies sich auch in anderen Geschäftsbereichen als erfolgreich. So gelang es Nvidia, die „Omniverse“-Plattform für den Aufbau und Steuerung digitaler Zwillinge für das industrielle Metaversum zum Eckpfeiler eines lebhaften Ökosystems aufzubauen. Industrielle Schwergewichte wie die Siemens Gruppe entwickeln in Partnerschaft mit Nvidia generative KI-Lösungen auf der Basis von Omniverse.

Die Verbindung von „Siemens Xcelerator“ mit Nvidia Omniverse Cloud APIs ermöglicht immersive Visualisierung digitaler Zwillinge in Echtzeit. Beide Ökosystempartner ergänzen sich mit ihrer Expertise.

Nvidia versucht jedoch nicht, sich auf Kosten seiner Ökosystempartner „gesundzustoßen“ (Anm. d. Autoren:Apple könnte es ruhig auch üben). Die Devise lautet: „Leben und leben lassen“. Im Nvidias Ökosystem darf sich jeder Teilnehmer auf die eigenen Kernkompetenzen besinnen.

Nvidias Profitabilitätskennzahlen malen ein Bild der finanziellen Gesundheit. Das Unternehmen weist eine Nettomarge von 53,40 Prozent, eine Eigenkapitalrendite von 110,60 Prozent und ein gesundes Verhältnis von Schulden zu Eigenkapital in Höhe von 0,17 auf, was auf effiziente Betriebsabläufe und umsichtiges Finanzmanagement hindeutet.

Mit diesen starken Ergebnissen ging Huang dann prompt auf Einkaufstour. Im April 2024 gab Nvidia die Übernahme des israelischen Startups Run:ai bekannt und schlägt damit ein neues Kapitel auf.

Der GPU-Orchestrator von Run:ai

Run:ai hat einen Kubernetes-basierten GPU-Orchestrierer entwickelt, der die Effizienz der GPU-Ressourcennutzung mit K8s-Arbeitslasten um den Faktor 10x verbessern kann. Die massiv parallele Architektur von GPUs (siehe auch: „GPU-Wahnsinn… und (A)KI-Tollheiten“) wirft nämlich zahlreiche Herausforderungen auf, was die Fragmentierung „kubernetisierter“ Arbeitslasten und die interaktiven Phasen der ML-Entwicklung angeht.

Abgefahren: Der Run:ai-Stack für Nvidia.(Bild:  Run:ai)
Abgefahren: Der Run:ai-Stack für Nvidia.
(Bild: Run:ai)

Die Anwendung von Run:ai erhöht die Rentabilität einer Investition in Rechenzentrums-GPUs. Die Plattform von Run:ai funktioniert mit jedem ML-Werkzeug und -Framework und mit jeder Kubernetes-Bereitstellung, ob On-Premises, in der Cloud oder „Air-Gapped“.

(Anm. d. Autoren: AMD hat es knapp verpasst. Und jetzt?)

Kubernetes setzt Geräte-Plugins ein, um Pods den Zugriff auf spezialisierte Hardware wie GPUs zu ermöglichen. Dabei müssen Administratoren GPU-Treiber und entsprechende Plugins installieren. Dieser Prozess ist komplex und resultiert in einer 1-zu-1-Zuweisung zwischen GPUs und Containern, was eine hohe Unterauslastung zur Folge hat. vGPUs können diese Einschränkungen überwinden.

Virtuelle GPUs

Eine physische GPU von Nvidia, die in einem Server steckt, lässt sich in vGPUs unterteilen und mehreren virtuellen Maschinen für virtuelle Desktops und Workstations zuweisen. Diese virtuellen GPUs werden von „Nvidia Tesla“-Beschleunigern betrieben.

Nvidias GPU-Virtualisierung kann so jede beliebige Arbeitslast von VDI bis hin zu KI mit einer Leistung bewältigen, die jener von Bare-Metal-Systemen gleicht. Doch die Virtualisierung von GPUs stellt eine erhebliche technische Herausforderung dar, insbesondere im Kubernetes-Umfeld und im Kontext von KI/ML-Arbeitslasten.

Eine weitere Herausforderung stellt die dynamische Ressourcenzuweisung dar, insbesondere in der KI-Modellierung. Die interaktive Entwicklung mit Tools wie „Jupyter Notebooks“ erfordert häufige Code-Iterationen und Experimente, die zu erheblichen Leerlaufzeiten führen. Diese statische Speicherzuweisung ist nicht kompatibel mit den dynamischen Anforderungen interaktiver Anwendungen.

Kurz auf den Punkt gebracht: Mit GPUs könnten Rechenzentren viel mehr anstellen. Darum hat sich Nvidia mit Run:ai die nötige Expertise ins Haus geholt.

Der Wert dieser strategischen Akquisition ist nicht öffentlich bekannt. Analysten zufolge dürfte sich die Transaktion im Bereich zwischen 700 Millionen und einer Milliarde US-Dollar bewegen. Sie dürfte Nvidia den Weg in eine reibungslos „containerisierte“ Zukunft ebnen.

Konsolidierung und Diversifizierung

Ein Großteil der Einnahmenbasis von Nvidia macht laut aktuellen Offenlegungen eine Handvoll Großkunden aus. Laut dem Zwischenbericht „Form 10-Q“, den Nvidia im März bei der SEC eingereicht hatte, war im ersten Quartal des Geschäftsjahres 2025 ein einzelner direkter Käufer für 13 Prozent des Gesamtumsatzes verantwortlich; der zweitgrößte direkte Abnehmer machte weitere 11 Prozent aus. Mit zwei weiteren indirekten Kunden habe man zusätzlich im selben Zeitraum jeweils mehr als 10 Prozent der Gesamtumsätze erwirtschaftet.

Zusammengerechnet liefert Nvidia also über 44 Prozent der eigenen Wertschöpfung an gerade einmal vier Endkunden. (Zu der „Marktübermacht und Abhängigkeit“ siehe auch den Bericht: „Hoffnungsschimmer: quelloffenes Chip-Design. Bieten Open-Source-Chips eine Alternative zu Liefer­engpässen“). Nvidias Umsatzstruktur reflektiert den Massenansturm von Mega-Cap-Technologieunternehmen auf Nvidias H100-KI-Chips und damit das Bestreben, generative KI-Fähigkeiten im Blitzverfahren auszubauen.

Jensen Huang, CEO von Nvidia, hat für „Blackwell“ einige vielversprechende Kunden gewonnen. Derzeit liefert das Unternehmen über 44 Prozent der eigenen Wertschöpfung an gerade einmal nicht mehr als vier Großabnehmer. (Bild:  Nvidia)
Jensen Huang, CEO von Nvidia, hat für „Blackwell“ einige vielversprechende Kunden gewonnen. Derzeit liefert das Unternehmen über 44 Prozent der eigenen Wertschöpfung an gerade einmal nicht mehr als vier Großabnehmer.
(Bild: Nvidia)

Bei Nvidias größtem Kunden dürfte es sich um Microsoft handeln, vermutet UBS-Analyst Timothy Arcuri. Basierend auf früheren Offenlegungen von Nvidia schätzt UBS, dass Microsoft im Geschäftsjahr 2024 rund 19 Prozent zum Gesamtumsatz von Nvidia beigetragen habe und immer noch der größte Kunde sei. Bloomberg beziffert Microsofts aktuellen Anteil am Umsatz von Nvidia auf 15 Prozent, gefolgt von Meta Platforms mit 13 Prozent, Amazon mit 6 Prozent und Alphabet mit ebenfalls etwa 6 Prozent.

Trotz seiner massiven Marktkapitalisierung ist Nvidia nach wie vor „fabless“; das Unternehmen lagert die Fertigung auf externe Auftragnehmer aus. Die Abhängigkeit von externen Anbietern birgt erhebliche Risiken für die Lieferkette. Schwankungen der globalen Versorgungssicherheit könnten Nvidia überraschend einen Strich durch die Rechnung ziehen.

*Das Autorenduo

Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.

Ihr Fazit lautet: In einer Welt, in der Rechenzentren die Drehscheiben der Informationsgesellschaft darstellen, zeigt Nvidia, wie eine erfolgreiche Neuorientierung aussehen kann. Nvidia positioniert sich als unverzichtbarer Ausrüster für die Architekten der digitalen Zukunft und demonstriert damit eine klare Vision: Es geht nicht nur darum, den Markt zu bedienen, sondern darum, den Markt zu gestalten.

Die Neuausrichtung des Unternehmens ist nicht eine hektische Kurskorrektur, sondern eine von langer Hand geplante und brillant umgesetzte Wachstumsstrategie. Nvidia hat die Karten in der Technologiebranche neu gemischt. Der größte Schwachpunkt stellt die Versorgungssicherheit dar.

(ID:50168263)