Geht das? Massiv parallele KI/ML- und HPC-Arbeitslasten auf heterogenen Beschleunigern ausführen? Hardware-agnostische Programmierschnittstellen nutzen? Offene Standards für GPUs, Nvidias größten Albtraum, verwirklichen? Es könnte schnell gehen.
Schach! Mithilfe des Framework „CUDA“ bringt Nvidia die Konkurrenz in Zugzwang; doch sie wehrt sich gegen ein Schachmatt.
(Bild: Yuliia - stock.adobe.com / KI-generiert)
Im Kampf um die Gnade der Software-Entwickler:innen und lukrative Marktanteile möchte AMD in einem Katzensprung zu Nvidia aufschließen. Intel war es schon lange zu bunt geworden; dank offener Standards und APIs wollte man, zumindest mit Pat Gelsinger an der Spitze, mit einer einheitlichen Codebasis nach Möglichkeit auf allen Chip-Architekturen rechnen. Ist also Schluss mit der Geheimniskrämerei?
AMD Unified DNA
AMD führt seine GPU-Architekturen CDNA (kurz für Compute DNA, die Architektur der „Instinct“-Reihe von Rechenzentrums-GPUs) und RDNA („Radeon DNA“ für GPUs der Verbraucherklasse) zu einer einheitlichen Mikro-Architektur zusammen, verkündete laut Jack Huynh, Senior Vice President und General Manager der Computing and Graphics Business Group von AMD, zum hundertjährigen Geburtstag der IFA Anfang September 2024 in Berlin.
Die neue Architektur trägt die Bezeichnung „UDNA“ – kurz für Unified DNA – und soll AMDs Position im Wettbewerb gegen „Nvidia CUDA“ stärken. Denn gerade beim Software-Stack zeigt das AMD-Ökosystem die größten Defizite.
Seit der Abkehr von der „GCN-Mikro“-Architektur im Jahr 2019 fährt AMD mit RDNA und CDNA zweigleisig. Der Ansatz habe zwar gewisse Optimierungen ermöglicht, sei aber unterm Strich hinderlich gewesen. Er soll optimierte Designs für unterschiedliche Anwendungsbereiche ermöglicht haben, führte jedoch zu einer Fragmentierung, die für die Entwicklergemeinde unnötig viele Herausforderungen mit sich brachte (Siehe hierzu den Bericht: „Einer Ingenieurin ist nix zu schwör! Was macht AMD richtig?“).
„Wir haben auf der RDNA-Seite Fehler gemacht“, gestand Huynh ganz offen. „Wann immer wir die Speicherhierarchie oder Subsysteme geändert haben, mussten wir die Optimierungen von Grund auf neu durchführen“, erklärte er weiter. Das möchte AMD in Zukunft vermeiden.
Daher denke man bei AMD jetzt nicht nur an RDNA 5, RDNA 6 oder RDNA 7, sondern an UDNA 6 und UDNA 7, so Huynh: „Wir planen bereits für die nächsten drei Generationen“, um sicherzustellen, dass die Speicherhierarchie stabil und die Optimierungen erhalten blieben. „Viele Entwickler/innen wünschen sich, wir hätten das früher getan.“
Ausführen von CUDA-Code auf AMD-Hardware mit „ZLUDA“ von Andrzej Janik.
(Bild: Phoronix)
In Unified DNA, wie auch schon zuvor, setzt AMD auf Offenheit. Die Herausforderung bestehe jetzt darin, die vollständige Vorwärts- und Rückwärtskompatibilität von UDNA sicherzustellen und ein ähnliches Maß an Einheitlichkeit und Entwicklerfreundlichkeit zu schaffen, wie es Nvidia mit CUDA vorgemacht hat.
Das GPU-Programmiermodell CUDA des Branchenprimus sucht in Sachen Leistung seines Gleichen. Das Unternehmen kann beeindruckende vier Millionen CUDA-Entwickler:innen vorweisen. Doch im Zeitalter heterogener Rechenarchitekturen ist der proprietäre Ansatz eine Achillesferse des Ökosystems.
Der Nvidia-KI-Stack
Mit CUDA (Compute Unified Device Architecture) hat Nvidia eine proprietäre Rechenplattform für massive Parallelisierung geschaffen, die den Vorstoß des GPU-Pioniers ins Rechenzentrum ermöglicht hatte und seine technologische Führerschaft zementierte ( Siehe hierzu: „UALink, CXL & Co. - eine Revolte gegen NVLink von Nvidia“. Das Rechen-Framework umfasst eine Reihe von Bibliotheken und Erweiterungen für die Programmiersprache C/C++ zur Ausführung auf Nvidia-GPUs. Es hat die Aufgabe, die Beschleuniger für komplexe Workloads wie KI, Deep Learning, Simulationen und wissenschaftliches Rechnen nutzbar zu machen.
CUDA durchdringt alle Ebenen des Technologie-Stacks von Nvidia, von der Hardwareschicht über spezialisierte Bibliotheken („cuDNN“, „NCCL“, „CUDA Math Libraries“ ....), Entwicklungs-Frameworks bis hin zu den Anwendungen und Workloads. CUDA übernimmt die Datenvorverarbeitung, parallelisiert das Modelltraining und optimiert die Inferenz – aber nur auf den Nvidia-eigenen GPUs.
Matrixmultiplikationen in CUDA in FP16/FP32 laufen auf „Tensor“-Kernen.
(Bild: Nvidia)
CUDA spielt eine tragende Rolle bei der Leistung, Skalierbarkeit und Flexibilität einer 'AI Factory' im Zusammenspiel mit Frameworks wie „Tensorflow“, „Pytorch“und „Mxnet“, die direkt auf CUDA-kompatiblen GPUs laufen. CUDA ist die proprietäre Geheimsauce von Nvidia – und ein Dorn im Auge seiner Mitbewerber.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Ein zentrales Merkmal der „Blackwell“-Architektur ist die Unterstützung der CUDA Compute Capability 10.0. Diese brachte mit sich eine Reihe von beachtlichen Verbesserungen. In der Blackwell-Architektur konnte der Hersteller die Anzahl von CUDA-Kernen pro Streaming-Multiprozessor (SM) erhöhen und eine höhere Parallelität realisieren, was zu einer signifikanten Leistungssteigerung führte.
„Nvidia Blackwell“ spricht von sich aus 'nur' CUDA.
(Bild: Nvidia)
SMs umfassen neben CUDA-Kernen für massive Parallelität auch Tensor-Kerne zur Beschleunigung von Matrixoperationen, Transformer-Engines zur optimierten Berechnung von Transformer-Modellen in reduzierter oder gemischter Genauigkeit und andere spezialisierte Recheneinheiten. AMD stehen viele dieser Innovationen ja noch bevor.
Die fünfte Generation der (erweiterten) Tensor Cores in Blackwell führt mit FP4 und FP6 neue Datentypen ein. Diese niedrigpräzisen Datentypen erfordern weniger Rechenleistung und Energie, eignen sich jedoch hervorragend für spezifische KI-Workloads wie Inferenz, ohne signifikante Einbußen bei der Genauigkeit zu verursachen.
Die Transformer-Engines in Blackwell arbeiten eng mit den Tensor-Kernen zusammen, um gemischte Präzision (Mixed Precision) zu ermöglichen. Diese Berechnungen werden vollständig innerhalb der SMs ausgeführt, ohne dass Daten zwischen verschiedenen GPU-Komponenten verschoben werden müssen. Die CUDA-Kerne innerhalb der SMs führen unterstützende Berechnungen aus, die nicht direkt auf Tensor-Kernen ausgeführt werden können, zum Beispiel kleinere Punktoperationen oder logische Operationen.
Flexibilität in der Parallelverarbeitung und den Speichern
CUDA beherrscht in Blackwell eine verbesserte Steuerung der Thread-Zuweisung für eine höhere Flexibilität in der Parallelverarbeitung. Erweiterte Instruktionssätze erlauben optimierte Operationen für Matrixberechnungen, Sparse-Linear-Algebra und KI-Inferenz in Echtzeit. Die Transformer-Engines optimieren die Nutzung der CUDA- und Tensor-Kerne innerhalb eines SMs, indem sie Workloads für Transformer-Modelle auf Threads zur Maximierung der Parallelität verteilen.
CUDA optimiert die Datenübertragung zwischen globalem Speicher, gemeinsamen Speicher (Shared Memory) und den CUDA-Kernen sowie das Caching in den erweiterten L1- und L2-Caches, um die Abhängigkeit vom globalen Speicher (und damit von der Kompression) zu reduzieren. Und die Technik verwaltet die Speicherzugriffe auf HBM3e. Das CUDA-Programmiermodell in Blackwell erlaubt eine erweiterte Nutzung von gemeinsam genutztem Arbeitsspeicher durch die CUDA-Kerne eines Streaming-Multiprozessors (SM). Transformer Engines nutzen die Shared-Memory eines SMs, um Zwischenergebnisse zwischen CUDA- und Tensor-Kernen auszutauschen.
Die Speicherkompression in Nvidia-GPUs ist hardwareseitig implementiert. CUDA selbst bietet Entwickler:innen lediglich die Möglichkeit, auf die zugrunde liegenden Hardware-Funktionen zuzugreifen.
CUDA-basierte Frameworks wie Tensorflow und Pytorch genauso wie vortrainierte Modelle und Pipelines von Hugging Face und Co. können Blackwell-spezifische Verbesserungen direkt nutzen. Mit CUDA-Tools wie „Nsight“ können Entwickler:innen die Speicherzugriffe und die Speicherkompression analysieren, um CUDA auf niedriger Ebene noch zusätzliche Leistung zu entlocken.
Die Connections
Blackwell setzt auf eine verbesserte Version von „NVLink“ für die Kommunikation zwischen den GPUs. NVLink wird hardwareseitig durch Nvidia-Komponenten wie „NVSwitch“ gesteuert. CUDA nutzt die NVLink-Verbindungen, um die Datenübertragung zwischen GPUs zu koordinieren, ist jedoch nicht direkt für die Steuerung der NVLink-Hardware verantwortlich.
Die verbesserte Implementierung von CUDA-Streams in Blackwell ermöglicht eine fein abgestimmte Synchronisation und Parallelisierung von Aufgaben über mehrere GPUs hinweg. Die Echtzeit-Inferenz in CUDA ist mit Blick auf Edge-Anwendungen konzipiert.
Jeder CUDA-Kern lässt sich in seiner Taktrate dynamisch an die betreffende Arbeitslast anpassen. Dies reduziert den Energieverbrauch in Leerlaufphasen oder bei weniger intensiven Berechnungen. Nicht aktive Bereiche eines Streaming-Multiprozessors (SM) lassen sich zeitweise abschalten, um Energie zu sparen (Stichwort: Fine-Grain Power Gating). Einzelne SMs können unabhängig voneinander in den Stromsparmodus wechseln.
Der Energiebedarf
CUDA nutzt Sensoren in der GPU, um Echtzeitdaten zum Energieverbrauch zu erfassen. Diese Daten fließen in das Power-Management ein und ermöglichen es, Lastspitzen auszugleichen. Trotzdem berichten einige Anwenderorganisationen von Problemen mit der Überhitzung von Blackwell-Hardware.
Blackwell-Hardware kann CUDA-Anwendungen während der Ausführung vor unerlaubten Zugriffen isolieren, ohne dass Änderungen am Code erforderlich sind. Die Blackwell-Architektur implementiert Confidential Computing des GPU-Giganten in Hardware, um sensible Daten und KI-Modelle vor unbefugtem Zugriff zu schützen. Dies macht Blackwell zur ersten GPU in der Branche, die Trusted Execution Environment Input/Output (TEE-I/O)-Funktionen bereitstellen kann (siehe auch den Bericht: „Confidential Computing mit Enclaive.io; Vertrauenswürdige Datenverarbeitung in der hybriden Multicloud“).
AMD HIP/ROCm
Doch nun zur Konkurrenz: AMD hat zwar in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch besteht ein gewisser Nachholbedarf zum Marktführer – vor allem im Hinblick auf den Software-Stack.
Die AMD-Technik ROCm unter der Haube
(Bild: AMD)
Das AMD-Gegenstück zu CUDA nennt sich ROCm (Radeon Open Compute). Es ist eine offene Softwareplattform für die Ausführung von AI-Workloads auf AMD-GPUs mit geeigneten Bibliotheken und einer umfassenden Toolchain für Hochleistungsrechnen.
Im Rahmen des ROCm-Ökosystems nutzt AMD unter anderem „OpenCL“ als eine plattformübergreifende, offene Alternative zu CUDA. OpenCL (Open Computing Language) ermöglicht es Entwickler:innen, Code zu schreiben, der sich auf verschiedenen Hardwareplattformen – , einschließlich CPUs, GPUs und anderen Prozessoren – ausführen lässt. Dies macht OpenCL zu einer flexiblen Option für Hochleistungsrechnen und parallele Verarbeitung.
AMD-Alternativen
Nach der Übernahme von Xilinx im Jahr 2022 hatte AMD dessen damaligen CEO, Victor Peng, beauftragt, ein einheitliches ROCm-Team aufzubauen, um das Projekt unter eine straffere Führung zu stellen. Trotz gewisser Fortschritte bleibt der Handlungsbedarf bisher aber immer noch recht offensichtlich.
Parallel zur Weiterentwicklung von ROCm sieht sich AMD auch mit der wachsenden Bedeutung der Unified Acceleration Foundation konfrontiert. Diese Initiative hat sich offenen Standards für Beschleuniger verschrieben und hat bereits die Unterstützung namhafter Player wie Qualcomm, Samsung, ARM und Intel gewonnen. Projekte wie „ZLUDA“ und „Intel oneAPI“ zielen darauf ab, CUDA-Code auf Beschleunigern anderer Hersteller nutzbar zu machen.
oneAPI für anbieteragnostische Parallelität
Intel hat mit oneAPI eine Programmierplattform für HPC (High Performance Computing) entwickelt, die auf Offenheit und Interoperabilität setzt. Das Ziel besteht darin, eine einheitliche plattformübergreifende Umgebung zu schaffen, die verschiedene Hardwaretypen wie CPUs, GPUs und FPGAs anbieteragnostisch unterstützt. oneAPI soll die Wiederverwendbarkeit von Code ermöglichen und den Aufwand der Optimierung für verschiedene Architekturen senken.
oneAPI ermöglicht die Portierung von Anwendungen über verschiedene Hardware-Architekturen hinweg – ein Ansatz, der insbesondere in heterogenen Rechenzentren an Relevanz zunimmt. Das Herzstück des „oneAPI Base Toolkits“ bildet „DPC++“ (Data Parallel C++), eine Implementierung der offenen SYCL-Sprache, die auf den industriellen Standard OpenCL aufbaut.
SYCL ist eine lizenzfreie, plattformübergreifende Abstraktionsschicht und Programmiersprache, die ISO C++ erweitert. SYCL-Code kann parallel – anbieteragnostisch – auf verschiedenen Hardwareplattformen laufen und lässt sich dennoch an spezifische Beschleuniger anpassen.
Es geht auch offen
Entwickler/innen schreiben ihren SYCL-Code unter Verwendung standardisierter Konzepte wie Speicherzuweisungen, Warteschlangenübermittlungen und Kerneln für leistungskritische Teile des Codes. Eine SYCL-Implementierung wie DPC++ fügt alle Teile zu einer Anwendung zusammen.
„Intel oneAPI“ ermöglicht es, CUDA-getriebene GPUs von Nvidia mit demselben C++/SYCL-Code anzusprechen, der sich auch auf anderen Beschleunigern ausführen lässt, darunter auf GPUs der „Instinct“-Reihe von AMD und auf FPGAs der AMD-Tochter Xilinx.
(Bild: Codeplay)
Diese lässt sich dann auf mehreren Systemen mit einem einzigen Compiler-Aufruf ausführen. All dies erfolgt nur mit standardmäßigem C++-Code und ohne proprietäre Syntax. SYCL basiert auf einem offenen Standard, der kollaborativ von branchenübergreifenden Arbeitsgruppen gepflegt wird.
Intel zählt neben Codeplay und ARM zu den Hauptakteuren hinter der Entwicklung von SYCL und dem DPC++-Compiler. Die AMD-Tochter Xilinx unterstützt SYCL für die eigenen FPGAs. AMD selbst unterstützt SYCL mit dem HIP-Backend.
Der Leistungsunterschied zwischen nativem CUDA und SYCL auf CUDA beim Ausführen von HECBench auf einer „Nvidia GeForce RTX 2060“, CUDA 11.7, optimiert durch das „Intel oneAPI Base Toolkit 2023.0“ und das oneAPI-Plugin für Nvidia-GPUs 2023.0, ist vernachlässigbar. Kürzer ist besser.
(Bild: Codeplay)
Intels Tochter Codeplay hat eine Reihe von Plug-Ins veröffentlicht, die die Ausführung von SYCL-Code mit oneAPI auf GPUs von AMD und NVIDIA ermöglichen. Codeplay ist als Anbieter von Tools für heterogenes Computing bekannt, bei dem verschiedene Prozessortypen wie CPUs, GPUs und FPGAs zusammenarbeiten. Mit der Übernahme von Codeplay in 2022 verlor Intel das Interesse an der Unterstützung von ZLUDA; der Hauptentwickler wechselte daraufhin zu AMD bis ihm dieses Unternehmen sein Backing entzog (wie das Ganze hinter den Kulissen ablief und was daraus wurde, beleuchtet der Bericht „Mafia-Taktiken im GPU-Lager“).
Das Codeplay-Plugin für Nvidia-GPUs nutzt die CUDA-Architektur, um die Ausführung von SYCL-Code auf Nvidia-GPUs zu ermöglichen. Die Edition des Plug-Ins für AMD-GPUs fügt dem DPC++-Compiler ein HIP-Backend hinzu, um die Ausführung von SYCL-Code auf AMD-GPUs zu ermöglichen. Die Leistung von SYCL-Code auf Nvidia- und AMD-GPUs gleicht beinahe nativer Leistung.
Im Juli 2024 hat Codeplay seine oneAPI-Plugins für AMD- und NVIDIA-GPUs mit zahlreichen Optimierungen angereichert (rund einen Monat später hat AMD den Hauptentwickler des quelloffenen ZLUDA die Genehmigung für die Veröffentlichung des Code entzogen.
Eine bemerkenswerte Neuerung ist die experimentelle Version von SYCL Graph für AMD-GPUs. Damit können Entwickler ihre Offload-Kernel in Graph-Befehle bündeln, was die CPU-Last reduziert und die Leistung steigert. Die Edition des Plug-Ins für Nvidia-GPUs brachte unter anderem die Unterstützung von „C++-Atomics“ mit sequenzieller Konsistenz, die Entwicklern eine feinere Kontrolle über die Ausführung ihres Codes ermöglicht.
Das Update brachte außerdem kommerzielle Unterstützung für die Edition des Plug-Ins für AMD-GPUs. Kommerzielle Unterstützung bietet Unternehmen die Sicherheit, dass sie bei Problemen oder Fragen auf professionelle Hilfe zurückgreifen können, was besonders in produktiven Umgebungen eine große Rolle spielt.
Codeplay ist bekannt für seine Expertise in der Entwicklung von Compilern, Laufzeitumgebungen, Debuggern und anderen spezialisierten Tools für beschleunigtes Computing. Mit oneAPI zielt Intel auf Anwenderorganisationen ab, die mehr Flexibilität und Zukunftssicherheit suchen.
*Über das Autoren-Duo
Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.
Ihr Fazit lautet: Im hart umkämpften Markt für die bessere GPU setzt Nvidia auf die proprietäre CUDA-Plattform, Intel auf die offene oneAPI. AMD hat mit RDNA (Radeon DNA) und CDNA (Compute DNA) zwei Grafikarchitekturen für unterschiedliche Anwendungsbereiche im Köcher. In UnifiedDNA sollen sie ineinanderfließen.
Der Wettbewerb um die API-Dominanz ist weit mehr als ein bloßes technologisches Kräftemessen: Er entscheidet nicht zuletzt darüber, welche Plattform die Standards für die nächste Generation von Anwendungen setzen wird.
Dabei sind die Ansätze der drei großen Akteure so unterschiedlich wie ihre Zielgruppen. Nvidia fokussiert auf kompromisslose Spitzenleistung seines proprietären Ökosystems, Intel setzt auf Offenheit und Interoperabilität. AMD will durch die Vereinheitlichung seiner GPU-Architekturen eine technologische Konsolidierung vollziehen.
Der Ausgang dieses Wettstreits wird maßgeblich davon abhängen, wie gut es den Unternehmen gelingt, die Entwicklergemeinde zu überzeugen.