Speicherzentrierte Interconnects für KI-Beschleuniger UALink, CXL & Co. - eine Revolte gegen NVLink von Nvidia

Von Anna Kobylinska und Filipe Martins* 9 min Lesedauer

Anbieter zum Thema

KI und HPC brauchen für massive Parallelität leistungsstarke Interconnects. Die Verfechter künstlich intelligenter Arbeitslasten fordern bessere Konnektivität. Nvidia hat „NVLink“, AMD hat mit „Infinity Fabric“ nachgekartet. Doch immer mehr Marktakteure wollen sich die Vorherrschaft proprietärer Speichergewebe nicht länger bieten lassen. Mit „UALink“ und „CXL“ macht die Industrie jetzt ernst.

Beschleuniger wie GPUs alleine ermöglichen nicht die Geschwindigkeiten, die KI-und HPC-Rechner benötigen. Nvidia hat „NVLink“. Und die anderen? (Bild:  frei lizenziert: Gerd Atmann /  Pixabay)
Beschleuniger wie GPUs alleine ermöglichen nicht die Geschwindigkeiten, die KI-und HPC-Rechner benötigen. Nvidia hat „NVLink“. Und die anderen?
(Bild: frei lizenziert: Gerd Atmann / Pixabay)

In KI-Arbeitslasten müssen Beschleuniger enorme Datenmengen in Echtzeit bewältigen, insbesondere beim Training großer neuronaler Netze. Interconnects haben zum Ziel, eine hohe Anzahl von Hardwarebeschleunigern miteinander zu verbinden, um komplexe Rechenaufgaben zu verteilen.

Nvidia hat mit NVLink einen enormen Vorsprung erlangt. Die übrige Industrie will sich die Vorherrschaft einer proprietären Technologie nicht länger bieten lassen. Es war 'mal an der Zeit.

Die offene Accelerator-Fabric UALink

Ultra Accelerator Link (UALink) ist ein offener Standard für Interconnects von einem Konsortium, das gerade noch im vergangenen Jahr gegründet wurde. Der Organisation gehören unter anderem AMD, Broadcom (ein Chip-Designer von Googles Beschleunigern), Intel, Google, Microsoft und weitere Unternehmen an.

Scale-Up: UALink verbindet Hardwarebeschleuniger über einen Ultra Accelerator Switch zu einem Pod. (Bild:  NAnd  Research)
Scale-Up: UALink verbindet Hardwarebeschleuniger über einen Ultra Accelerator Switch zu einem Pod.
(Bild: NAnd Research)

Das Ziel besteht darin, Nvidia mit dem NVLink mittels einer eine skalierbaren und effizienten Interconnect-Lösung für KI- und High-Performance-Computing (HPC)-Anwendungen in die Schranken zu weisen. Im besten Fall ließe sich ein quelloffenes KI-Ökosystem schaffen und die Nvidia-KI-Dominanz zu überwinden (siehe auch: „Was macht AMD richtig?“).

Forrest Norrod, Executive Vice President und General Manager, Data Center Solutions Group bei AMD, wird in einer Pressemitteilung wie folgt zitiert: „Die Arbeit, die von den Unternehmen im UALink [Konsortium] geleistet wird, um eine offene, leistungsstarke und skalierbare Accelerator Fabric zu schaffen“, sei „entscheidend für die Zukunft der KI.“

Die erste Generation des Standards soll Hochgeschwindigkeits- und Niedriglatenz-Verbindungen für bis zu 1.024 Beschleuniger oder andere Rechengeräte innerhalb eines einzelnen KI-Computing-Pods ermöglichen. Mehrere UALink-Pods werden über Ultra Ethernet miteinander verbunden.

Scale-Out: Einzelne UALink-Pods verbinden sich über Ultra Ethernet zu einem Netzwerk miteinander.  (Bild:  Nand Research)
Scale-Out: Einzelne UALink-Pods verbinden sich über Ultra Ethernet zu einem Netzwerk miteinander.
(Bild: Nand Research)

Ultra Ethernet ist eine spezialisierte Erweiterung des klassischen Ethernet-Protokolls, das für Hochleistungsnetzwerke entwickelt wurde. Es bietet eine extrem hohe Bandbreite und niedrige Latenzzeiten, um große Datenmengen zwischen verschiedenen Knoten oder Pods in einem Netzwerk effizient zu übertragen. So entsteht eine Fabric von KI-Beschleunigern für Rechenzentren und HPC-Umgebungen, die verschiedene Standorte zusammenschalten kann.

UALink erlaubt direkte Kommunikation zwischen dem Arbeitsspeicher von KI-Beschleunigern wie „AMD Instinct“ GPUs oder spezialisierter Prozessoren wie „Intel Gaudi“ (siehe auch: „Was Intel richtig macht“). Die finale Spezifikation von UALink Version 1.0 soll voraussichtlich Ende 2024 verfügbar sein.

Wenn UALink bis zu 1024 Endpunkte unterstützen sollte und diese über 8-Wege-Beschleunigerplattformen verteilt wären - das heißt: Jede Plattform hätte eine Konfiguration mit acht Beschleunigern -, würde ein solches Gewebe etwa 128 Plattformen verbinden (1024 ÷ 8 = 128). Diese Anzahl ist vergleichbar mit der Größe heutiger großer Systeme wie UBB (Universal Baseboard) oder der „HGX“-Systeme von Nvidia. Damit wäre das Ziel erreicht

Nvidia hat sich mit NVSwitch in Lösungen wie dem Nvidia DGX GB200 NVL72 nach vorne katapultiert. UALink ermöglicht es der Branche, mit Nvidia gleichzuziehen.

Während Intel dieses Jahr mit dem Verkauf von KI-Beschleunigern Hunderte von Millionen Dollar umsetzen wird, liegt AMD mit dem „MI300X“ bereits im Milliardenbereich, jedoch immer noch deutlich hinter den Nvidia-Maßstäben. So groß ist der Vorsprung von Nvidia.

Speicher- nicht Netz-zentriert

Im Kern nutzt UALink ein Memory Semantic Fabric (MSF), das einen effizienten Datenaustausch und -zugriff über ein Netzwerk von verbundenen Geräten ermöglichen soll. Im Gegensatz zu herkömmlichen Interconnects, die sich hauptsächlich auf den Datentransfer zwischen Geräten konzentrieren, arbeitet MSF speicherzentriert.

Diese Architektur ermöglicht einen nahtlosen und intelligenten Zugriff über ein Netzwerk von verbundenen Geräten und minimiert Leistungsengpässe. Sie ist besonders vorteilhaft in Systemen, die ihre Daten schnell über mehrere GPUs verteilen und verarbeiten müssen.

MSF schafft einen gemeinsamen Speicherraum, auf den alle verbundenen Geräte zugreifen können. Dies macht das ständige Verschieben von Daten zwischen verschiedenen Speicherpools, zum Beispiel zwischen GPU- und CPU-Speicher, überflüssig, was die Latenz verringert und den Datenzugriff effizienter gestaltet.

Viele Geräte, eine Semantik

Die Fabric verwendet Speicher-Semantiken, was bedeutet, dass die Geräte auf Daten zugreifen, als würden sie mit gemeinsam genutztem Speicher hantieren, anstatt nur Nachrichten oder Datenblöcke zu senden. Dadurch gestaltet sich das Daten-Management in Multi-Geräte-Umgebungen intelligenter und effizienter.

MSF kann über mehrere Geräte hinweg skalieren. Mehrere Prozessoren, GPUs und andere Beschleuniger können Daten gleichzeitig abrufen und verarbeiten. Dies ist ein entscheidender Vorteil für massivparallele HPC- und KI-Workloads. Das speicherzentrierte Design eliminiert viele der Engpässe, die durch die Notwendigkeit zum Übertragen von Daten zwischen Geräten in traditionellen Architekturen entstehen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

„UALink stellt einen wichtigen Meilenstein in der Weiterentwicklung der Künstlichen Intelligenz“, kommentierte Sachin Katti, SVP & GM, Network and Edge Group bei Intel. Als Gründungsmitglied dieses neuen Konsortiums sei Intel „stolz darauf, diese neue Technologie mit anzuführen“ und das eigene „Know-how bei der Schaffung eines offenen, dynamischen KI-Ökosystems einzubringen“. Diese Initiative erweitert Intels Engagement für offene Innovationen der KI-Konnektivität, das eine führende Rolle im Ultra Ethernet Consortium und anderen Standardisierungsgremien umfasst.

Das Ultra Ethernet Consortium

Die amtliche Eintragung des Konsortiums wird noch im dritten Quartal 2024 erwartet, was mit der Veröffentlichung der Spezifikation 1.0 übereinstimmt. Unternehmen, die dem Konsortium beitreten, erhalten Zugang zu der Spezifikation und können zu ihrer Weiterentwicklung beitragen.

Im Gegensatz zu proprietären Lösungen, die Anwenderorganisationen an bestimmte Technologien oder spezifische Anbieter binden, ist UALink ein offener Standard. Dieser Ansatz ermöglicht eine breitere Zusammenarbeit in der Branche und erleichtert die Integration. Verschiedene Hardware- und Softwareanbieter erhalten so die Flexibilität, die Technologie zu übernehmen und anzupassen, ohne durch restriktive Lizenzen oder Kompatibilitätsprobleme eingeschränkt zu werden.

Mit UALink bekommen Unternehmen wie Broadcom die Möglichkeit, eigene Switches zu entwickeln, die das Gewebe über Beschleuniger von mehreren Anbietern hinweg skalieren können. Broadcom arbeitet mit den so genannten Atlas-Switches, während AMD mit Infinity Fabric AFL an Konkurrenzprodukten zum Nvidia NVLink in PCIe Gen7 tüftelt.

Nvidia NVLink

Bemerkenswerte Implementierungen von Memory Fabric umfassen neben Nvidias proprietärem NVLink (dem aktuellen „Stein des Anstoßes“ der Industrie und dem Auslöser der Initiative) unter anderem die proprietäre Infinity Fabric von AMD, „Intel Omni-Path“, den offenen Standard „CCIX“ (Cache Coherent Interconnect for Accelerators) und den offenen Standard CXL (Compute Express Link).

NVLink ist ein proprietäres Hochgeschwindigkeits-Interconnect von Nvidia für die Kommunikation zwischen GPUs (Grafikprozessoren), CPUs und anderen Beschleunigern. Im Gegensatz zu herkömmlichen Verbindungen wie PCIe (Peripheral Component Interconnect Express), die oft Engpässe bei der Datenübertragung erzeugen, bietet NVLink eine Bandbreite und Latenz, die den Umgang mit KI-Modellen in Hochleistungs-KI-Anwendungen und HPC im großen Maßstab möglich macht.

Während PCIe 3.0 pro Lane bei etwa 1 GB/s und PCIe 4.0 bei etwa 2 GB/s an seine Grenzen stößt, kann ein NVLink-Verbindungspaar in der Ampere-Architektur mit Datenübertragungsraten von bis zu 600 GB/s auftrumpfen. Mit NVLink lassen sich auch mehrere GPUs zu einem GPU-Cluster verbinden, um ihre Rechenleistung und Speicherressourcen zusammenzuführen. Diese Konfiguration wird oft in KI-Trainingssystemen und Supercomputern eingesetzt, um große neuronale Netzwerke oder komplexe Simulationen zu verarbeiten. Speicherkohärenz macht es möglich.

AMD Infinity Fabric

AMD Infinity Fabric ist eine hochentwickelte Memory-Interconnect-Technologie, die in AMD-Prozessoren und GPUs zum Einsatz kommt. Im Gegensatz zu Nvidias NVLink verbindet sie CPUs mit GPUs und anderen Komponenten, um eine kohärente Speicherarchitektur zu schaffen. Besonders in Servern und Hochleistungsrechnern ermöglicht Infinity Fabric eine schnelle und skalierbare Datenübertragung.

Intel Omni-Path

Omni-Path ist ein Hochgeschwindigkeits-Interconnect von Intel für Rechenzentren und HPC-Systeme. Obwohl Omni-Path ursprünglich auf den Netzwerktransport zwischen Knoten ausgelegt war, bietet es ebenfalls Speicherintegration und hohe Bandbreite für den Datenfluss zwischen Prozessoren und Beschleunigern. Intel hat hierdurch eine flexible Technik geschaffen.

CCIX

CCIX (Cache Coherent Interconnect for Accelerators) ist ein offener Standard für Cache-kohärente Verbindungen zwischen Prozessoren und Beschleunigern wie GPUs, FPGAs und Smart NICs. CCIX ermöglicht den gemeinsamen Zugriff auf Speicher und ist darauf ausgelegt, die Effizienz bei der Datenverarbeitung in heterogenen Umgebungen zu verbessern.

CCIX wahrt die Kohärenz des Cache-Speichers über verschiedene Prozessoren hinweg, was die Leistung in speicherintensiven Workloads deutlich steigert. Während CCIX als wichtiger Schritt in der Evolution der Kommunikation zwischen CPUs und Beschleunigern angesehen werden kann, hat sich die Technologie mit der Einführung von CXL so weit weiterentwickelt, dass sogar das Gen-Z Konsortium das Tuch warf.

Gen-Z (aufgelöst, ging in CXL auf)

Gen-Z war ein offenes Speicher-Fabric für eine direkte Verbindung zwischen Prozessoren und anderen Komponenten, ohne Busse wie PCIe oder DDR-Speicherprotokolle. Das Gen-Z Konsortium hat im November 2021 beschlossen, alle seine Spezifikationen und sein geistiges Eigentum an das CXL-Konsortium zu übertragen. Seit Januar 2022 befindet sich das Gen-Z Konsortium im Prozess der Auflösung.

CXL

Bei CXL (Compute Express Link) handelt es sich um einen offenen Standard für Hochgeschwindigkeitsverbindungen zwischen Prozessoren und Geräten wie Beschleunigern, Speicherpuffern, intelligenten Netzwerkschnittstellen, persistentem Speicher und Solid-State-Laufwerken. CXL unterstützt sowohl volatile (RAM) als auch nicht-volatile Speichertechnologien (wie SSDs oder „Intel Optane“).

CXL wurde ursprünglich von Intel als Erweiterung des PCIe-Standards (Peripheral Component Interconnect Express) konzipiert und offengelegt. Im Laufe der Zeit hat sich eine Vielzahl von Unternehmen dem CXL-Konsortium angeschlossen. Große Akteure wie AMD, Dell Technologies, Google, HPE, Lenovo, Microsoft, Nvidia, Samsung, Siemens und viele andere forcieren CXL als Industriestandard für Speichererweiterungen und Cache-kohärente Beschleuniger. Obwohl PCIe kein dedizierter Interconnect wie NVLink ist, wird es immer noch häufig verwendet, um verschiedene Komponenten wie GPUs, Speicher oder Netzwerkkarten mit der CPU zu verbinden. Mit PCIe 6.0 und 7.0 steigt die Relevanz dieses Standards weiter.

CXL nutzt PCIe als Transportprotokoll und erweitert es um zusätzliche Funktionen wie Speicher-Kohärenz für eine effizientere Kommunikation zwischen verschiedenen Hardwarekomponenten. Dies macht es zu einer wichtigen Technologie für Workloads mit gemischten Prozessoren und für speicherzentrierte Architekturen.

CXL 3.1 ermöglicht es, in virtualisierungsbasierten Trusted Execution Environments (TEEs) vertrauliche Workloads zu hosten.(Bild:  CXL Consortium)
CXL 3.1 ermöglicht es, in virtualisierungsbasierten Trusted Execution Environments (TEEs) vertrauliche Workloads zu hosten.
(Bild: CXL Consortium)

CXL wahrt die Speicherkohärenz zwischen CPUs, GPUs, Speicher und anderen Beschleunigern. Die wichtigsten Vorteile von CXL sind geringe Latenzzeiten und eine hohe Bandbreite, wodurch der Engpass bei herkömmlichen Speicherarchitekturen überwunden wird.

Anil Godbole, Marketing Working Group Co-Chair für das CXL Consortium und Senior Marketing Manager für die „Xeon“ Product Planning and Marketing Group bei Intel, argumentiert: „PCIe konnte niemals kohärenten Speicher bieten. Wenn wir also auf heute vorspulen, ist die Erweiterung des Speicher-Footprint der größte Anwendungsfall für CXL“.

Unifabrix Max

Unifabrix“ nutzt CXL in „Max“, einer Memory Pooling-Lösung (nicht zu verwechseln mit „Meet Max“ von Memverge), die die Speicherressourcen von mehreren Servern oder Geräten zusammengeführt und dynamisch allokiert. Unifabrix Max ermöglicht die Zusammenführung von Speicherressourcen über verschiedene Server hinweg. So entsteht eine zentralisierte Speicherbank, auf die alle Knoten eines Netzwerks zugreifen können.

Auf diesen gemeinsamen Speicherpool, der auf mehreren physikalischen Geräten verteilt ist, können dann unterschiedliche Workloads zugreifen. Mit CXL und Unifabrix Max können Rechenzentren ihre Speicherarchitektur unabhängig von einzelnen Servern skalieren, um speicherintensive Workloads wie künstliche Intelligenz, Big Data und Hochleistungs-Computing (HPC) effizienter zu bewältigen.

In traditionellen Architekturen bleibt der Speicher zum Teil ungenutzt, da er an einzelne Server gebunden ist, die ihn zeitweise nicht benötigen. Mit CXL und Unifabrix Max aber lässt sich der Speicherbedarf in Echtzeit an die aktuellen Anforderungen anpassen. Unternehmen müssen nicht mehr überprovisionieren, um mögliche Speicherengpässe auf einzelnen Servern zu vermeiden, da alle Server aus einem zentralen Speicherpool schöpfen können. So können Rechenzentrumsbetreiber die Kapital- und Betriebskosten senken.

Host-zu-Host-Kommunikation via Global Integrated Memory (GIM).(Bild:  CXL Consortium)
Host-zu-Host-Kommunikation via Global Integrated Memory (GIM).
(Bild: CXL Consortium)

Christopher Browy, Senior Director für VIP Product Line bei Siemens Digital Industries Software, bestätigt, CXL sei heute „der Realität näher“ als noch vor ein paar Jahren und werde seinen „Platz unter den neuesten aufkommenden KI- und HPC-Konnektivitätsstandards der Zukunft“ finden. CXL würde eine wichtige Rolle bei fortschrittlichen Multi-Level-Speicherlösungen, Storage-Class Memory und Caching-Lösungen sowie bei der Optimierung von Computational Storage spielen.

CXL sei die beste Wahl, da es einzigartig Speicher- und Cache-basierte Erweiterungen ermögliche. Während Universal Chiplet Interconnect Express (UCIe) den Chip- und IP-Markt durch Multi-Die-Chiplet-Designs neu definieren werde, sei CXL die Schlüsseltechnologie, um diese auf Modul- und Rack-Ebene zusammenarbeiten zu lassen. Browy hält das Aufkommen von Switches, die sowohl CXL als auch UALink unterstützen, für sehr wahrscheinlich.

Das Autorenduo

Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.

Ihr Fazit lautet: Die IT-Branche hat sich zusammengeschlossen, um gegen die Nvidia-Vormachtstellung mit quelloffenen Standards vorzugehen. Es war höchste Zeit.

(ID:50177011)