AMD Advancing AI 2025 KI-Aufholjagd mit Instinct MI350 und ROCm 7.0

Von Klaus Länger 3 min Lesedauer

Anbieter zum Thema

Auf der AMD-Veranstaltung „Advancing AI 2025“ hat der Chip-Hersteller die Datacenter-GPUs der „Instinct-MI350“-Serie vorgestellt, die bei KI-Aufgaben „Nvidia Blackwell“ schlagen sollen. Zudem stellt der Hersteller das KI-System „Helios“ vor und baut sein KI-Software-Ökosystem aus.

Die „Instinct“-GPUs der Serie „MI350“ von AMD sollen mit „Nvidia Blackwell“ wenigstens mithalten können und sie in einigen Bereichen überholen. (Bild:  AMD)
Die „Instinct“-GPUs der Serie „MI350“ von AMD sollen mit „Nvidia Blackwell“ wenigstens mithalten können und sie in einigen Bereichen überholen.
(Bild: AMD)

Bei Hardware und Software spielt Nvidia bisher klar die erste Geige im KI-Orchester. Eine neue GPU-Generation, die Instinct-MI350-Serie, integrierte Systeme nach Nvidia-Vorbild und der Ausbau des Software-Ökosystems für KI-Anwendungen sollen das ändern. Präsentiert wurde das alles auf der Advancing AI 2025 im kalifornischen San José.

Die Instinct-MI350-Serie

Mit den GPUs der Instinct-MI350-Serie baut AMD das Datacenter-GPU-Portfolio nach oben hin aus. Sie soll dem Hersteller einen größeren Anteil am rasant wachsenden KI-Markt bescheren. Der soll laut eigener, interner Daten bis 2028 auf mehr als 500 Milliarden Dollar wachsen; vor zwei Jahren lag er noch bei etwa 45 Milliarden Dollar.

Am stärksten wächst dabei der Markt für Inference-Techniken. AMD soll dabei laut eigener Aussage das beste End-to-End-Compute-Portfolio anbieten, mit „Epyc“-CPUs, Instinct- und „Radeon-AI“-GPUs, „Pensado“-DPUs und AI-NICs sowie „Versal“-SoCs für KI-Edge-Anwendungen.

AMD lässt die Instinct-GPUs MI350X und MI355X bei TSMC herstellen, wobei ein 3- und ein 6-nm-Prozess zum Einsatz kommen. Beide Modelle mit „CDNA4“-Architektur verfügen über 256 Compute-Units mit 16.384 Stream-Prozessoren und 1.024 Matrix-Cores sowie über 288 GB HBM3e. Der Unterschied liegt nur in der mit 2.400 MHz um 200 MHz höheren Taktfrequenz der MI355X.

Bildergalerie
Bildergalerie mit 8 Bildern

Laut AMD soll eine MI355X beim Inferencing die etwa vierfache und beim Training die dreifache Leistung einer „Instinct MI300X“ liefern. Eine höhere Performance pro Watt beim Inferencing soll die Kosten senken. Bei einigen typischen HPC-Anwendungen sind die neuen GPUs allerdings sogar etwas langsamer als die MI300X.

Insgesamt soll die MI350-Serie bei KI-Workloads mit „Nvidia B200“ und „GB200“ mindestens gleichziehen und sie bei einigen Workloads sogar überholen. Die B200- haben die MI350-GPUs einen größeren Speicher voraus. Die Nvidia-GPU verfügt über 192 GB HBM3e. Allerdings bringt Nvidia demnächst den Prozessor „B300 Ultra“ mit ebenfalls 288 GB HBM3e heraus.

Die neuen Datacenter-GPUs von AMD werden als OAM-Module mit sieben „Infinity-Fabric“-Links und PCIe-Gen5-Interface hergestellt. Die passende Plattform mit Luft- oder Wasserkühlung nimmt acht GPUs auf. Systeme mit den neuen GPUs sollen im dritten Quartal 2025 auf den Markt kommen.

KI-Infrastruktur-Lösungen

Eine Stärke von Nvidia sind die kompletten KI-Infrastrukturen, die der Hersteller entweder selbst anbietet, wie etwa „GB200 NVL72“, oder als Referenzplattform mit Nvidia-Komponenten für Serverhersteller bereitstellt. AMD folgt diesem Modell und nutzt dafür sicher auch die Expertise des Serverherstellern ZT Systems.

Dessen Übernahme hat AMD im April dieses Jahres abgeschlossen. Auf der Advancing AI 2025 zeigte die Firma eine auf offenen Standards basierende KI-Infrastruktur im Rack-Maßstab, bestehend aus GPU-Servern mit „AMD-Epyc-Turin“-Prozessoren und GPUs der Instinct-MI-350-Serie sowie die programmierbaren RDMA-Ethernet-NICs „Pollara 400G“ aus der eigenen Pensado-Ethernet-Modellreihe.

Zudem gab der Hersteller einen Ausblick auf die für 2026 geplanten AI-Rack-Lösung, die unter der Bezeichnung Helios entwickelt wird. Hier kommen dann „Epyc-Venice“-CPUs mit bis zu 256 „Zen-6“-Cores, Instinct-MI400-GPUs mit 432 GB HBM4 sowie „Volcano“-NICs mit 800 Gbps zum Einsatz. Helios soll dann gegen die „Oberon“-Plattform von Nvidia mit „Vera Rubin“ antreten.

Bildergalerie
Bildergalerie mit 8 Bildern

AMD betont dabei, dass man hier, im Gegensatz zu Nvidia, mit offenen Standards wie dem Ultra Accelerator Link als Alternative zu Nvidias Nvlink arbeite. Allerdings hat Nvidia auf der Computex angekündigt, die Technologie als Nvlink Fusion unter gewissen Bedingungen auch für andere Custom-CPUs und ASICs zu öffnen, solange diese mit den eigenen GPUs beziehungsweise CPUs verbunden werden.

Ausbau des offenen Software-Ökosystems

Ein weiterer Faktor für den Erfolg von Nvidia in Sachen Künstlicher Intelligenz ist dessen ausgedehntes Software-Ökosystem. Auch mit diesem will AMD besser konkurrieren und stellt dafür den offenen KI-Software-Stack „ROCm“ in der Version 7 vor, der ab August verfügbar sein soll.

Er soll eine höhere Performance sowie bessere Bedienbarkeit ermöglichen und unterstützt nun auch die Datentypen FP4 und FP6 mit reduzierter Präzision. Sie ermöglichen eine schnellere Berechnung mit geringerem Energieverbrauch und vermindertem Datentransfer.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Zudem werden ein neuer Ansatz für das verteilte Inferencing sowie die Unterstützung von ROCm für Radeon und Windows vorgestellt. Mit ROCm Enterprise AI bringt der Hersteller ein MLOps-Toolkit für den Einsatz von Machine Learning in der Produktion.

Die AMD Developer Cloud soll der Entwickler- und Open-Source-Community einen einfachen Zugang zu Systemen mit Instinct-MI300X-GPUs ermöglichen, um so auch ohne eigene Hardware bessere KI-Lösungen entwickeln zu können. Laut Anush Elangovan, VP für die Software-Entwicklung bei AMD, sollen hier ab dem Tag der Verfügbarkeit auch Systeme mit MI350-GPUs ausgerollt werden.

(ID:50457210)