ARM-Chips, -Sever und -Racks im Rechenzentrum Neue CPU und neues Geschäftsmodell von ARM

Quelle: Pressemitteilung ARM 5 min Lesedauer

Anbieter zum Thema

Mit der „AGI“-CPU hat Advanced RISC Machines, ARM, in der vergangenen Woche einen neuen Chip vorgestellt, der für für KI-Inferenz und agentische KI-Workloads gedacht ist. Doch das ist nicht die einzige Premiere: Die Holding will zum ersten Mal in seiner 35jährigen Geschichte die Technik direkt an Kunden verkaufen und nicht wie bisher IPs oder komplette Subsysteme.

In der vergangenen Woche hat ARM die CPU „AGI“ vorgestellt, eine neue Klasse serienreifer Chips, die auf der „ARM Neoverse“-Plattform basiert. (Bild:  ARM)
In der vergangenen Woche hat ARM die CPU „AGI“ vorgestellt, eine neue Klasse serienreifer Chips, die auf der „ARM Neoverse“-Plattform basiert.
(Bild: ARM)

So hat das britische Unternehmen zudem ein Referenzdesign für AGI-CPU-basierte Server auf den Markt gebracht. ARM-CEO Rene Haas, der seit 2022 im Vorstand des Unternehmen agiert, prognostiziert, dass der neue Chip, den ARM gemeinsam mit Meta entwickelt hat, bis 2031 einen Umsatz von 15 Milliarden Dollar einbringen werde.

Die AGI-CPU weist einige beeindruckende Leistungsdaten auf. Der Chip basiert auf einem Chiplet-Design unter Verwendung des 3-Nanometer-N3P-Prozesses von TSMC. Jeder der 136 „Neoverse-V3“-Kerne läuft mit 3,5 Gigahertzt (GHz) beziehungsweise 3,7 GHz in einer Dual-Chip-Konfiguration und verfügt über 2 Megabyte (MB) L2-Cache pro Kern. Und jeder Kern bietet eine Speicherbandbreite von 6 GB/s, während der Chip insgesamt über 12 Lanes pro Chip auf 6 TB DDR5-RAM zugreifen kann und so eine aggregierte Speicherbandbreite von 800 GB/s bei einer Latenz von 100 Nanosekunden oder weniger liefert.

Zudem preist der Hersteller die Speicherbandbreite und die Leistung pro Thread seines neuen AGI-Chips an, die es nach eigenen Angaben Kunden dabei helfen werden, die Anforderungen an neue agentische KI-Workloads zu erfüllen und gleichzeitig das Energiebudget einzuhalten. So verfügt der AGI-Chip über 96 PCIe-Gen6-Lanes und unterstützt CLX 3.0 für Speichererweiterungen. ARM hat all dies zu einer Thermal Design Power (TDP) von 300 Watt gebündelt.

Gemacht für agentenbasierte KI-Infrastruktur

Zu den Herausforderungen, die KI-Systeme stellen, gehört, dass die IT-Infrastruktur zunehmend im Dauerbetrieb eingesetzt wird. In der Vergangenheit war der Mensch der Engpass in der Datenverarbeitung, will heißen: Das Tempo, mit dem Menschen mit Systemen interagieren konnten, bestimmte, wie schnell die Arbeit durch diese Systeme floss. Im Zeitalter der agentenbasierten KI verschwindet diese Einschränkung, da Software-Agenten Aufgaben koordinieren, mit mehreren Modellen interagieren und Entscheidungen in Echtzeit treffen.

Da KI-Systeme kontinuierlich laufen und die Arbeitslasten immer komplexer werden, wird die CPU zum bestimmenden Element moderner Infrastruktur und verantwortlich dafür, dass verteilte KI-Systeme in großem Maßstab effizient arbeiten. In einem modernen KI-Rechenzentrum verwaltet die CPU Tausende verteilter Aufgaben: Sie koordiniert Beschleuniger, verwaltet Speicher und Speicherplatz, plant Arbeitslasten und verschiebt Daten zwischen Systemen. Sie koordiniert nun zudem, mit agentischer KI, den Fan-out über eine große Anzahl von Agenten hinweg.

Also erfordert dieser Wandel, laut ARM eine Weiterentwicklung bei den Prozessoren. Ohnehin bilde ARM Neoverse bereits die Grundlage für viele der heute führenden Hyperscale- und KI-Plattformen, darunter „AWS Graviton“, „Google Axion“, „Microsoft Azure Cobalt“ und „Nvidia Vera“.

Das AGI-CPU-Blade für eine Referenzarchitektur im Rack-Maßstab

Angesichts der weltweiten Skalierung der KI-Infrastruktur erwarteten Partner aus dem gesamten Ökosystem, dass das Unternehmen noch mehr leiste. Die AGI-CPU habe ARM entwickelt, um diesem Wandel gerecht zu werden. Sie könne bei gleichbleibender Auslastung über Tausende von Kernen hinweg innerhalb der Leistungs- und Kühlungsgrenzen von Rechenzentren eine hohe Leistung pro Aufgabe zu liefern. Denn jedes Element der CPU – von der Taktfrequenz bis hin zur Speicher- und E/A-Architektur – sei darauf ausgelegt, massiv parallele, hochleistungsfähige agentische Workloads in einer hochverdichteten Rack-Umgebung zu unterstützen.

Die Referenzkonfiguration des ARM-Servers basiert auf einem 1OU-Design mit zwei Knoten. (Bild:  ARM)
Die Referenzkonfiguration des ARM-Servers basiert auf einem 1OU-Design mit zwei Knoten.
(Bild: ARM)

Die Referenzserverkonfiguration von Arm ist ein 1OU-Design mit zwei Knoten, das zwei Chips mit dediziertem Speicher und dedizierten E/A-Schnittstellen für insgesamt 272 Kerne pro Blade umfasst. (OU steht für „One Optical Unit“ und bezeichnet ein standardisiertes Hardware-Modul in photonischen Computern.) Die Blades sind so konzipiert, dass sie ein standardmäßiges luftgekühltes 36-Kilowatt-Rack vollständig ausfüllen; 30 Blades liefern insgesamt 8.160 Kerne.

ARM hat sich zudem mit Supermicro zusammengetan, um ein flüssigkeitsgekühltes 200-kW-Design zu entwickeln, das Platz für 336-AGI-CPUs mit über 45.000 Kernen bietet. In dieser Konfiguration kann die Arm-CPU im Vergleich zu aktuellen x86-Systemen schätzungsweise mehr als die doppelte Leistung pro Rack liefern:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
  • Die Speicherbandbreite der ARM-AGI-CPUs ermögliche eine höhere Anzahl an effektiven Ausführungs-Threads pro Rack; x86-CPUs verlieren an Leistung, wenn die Kerne unter Dauerbelastung um Ressourcen konkurrieren.
  • Die single-threaded ARM-Neoverse-V3-CPU-Kerne überträfen ältere Architekturen; jeder einzelne ARM-Thread erledigt mehr Arbeit und
  • mehr nutzbare Threads und mehr Arbeit pro Thread führten zu enormen Leistungssteigerungen pro Rack.

Warum ein Referenzserver?

Die Erklärung, warum es ein Refernzdesign bracht, liefert ARm selbst: Branchenweit nutzen Halbleiterhersteller Referenzplattformen, um eine validierte Vorlage für das Systemdesign und die Software-Implementierung bereitzustellen. Diese Systeme ermöglichen es Infrastrukturpartnern, neue Halbleiter in einer produktionsnahen Umgebung zu evaluieren, bevor sie ihre eigenen kundenspezifischen Server bauen.

Im Rahmen der CPU-Markteinführung „ARM AGI“ hat das Unternehmen einen modularen, standardbasierten 1OU-Dual-Node-Referenzserver vorgestell, der die „Rack-First“-Designphilosophie der CPU, die auf der „ARM Neoverse V3“ basiert, in die Praxis umsetzt. Der Referenzserver soll eine produktionsnahe Umgebung zur Bewertung von Workloads, zur Optimierung von Software-Stacks und zur Beschleunigung der Bereitstellung von ARM-basierter Infrastruktur der nächsten Generation bieten.(Bild:  ARM)
Im Rahmen der CPU-Markteinführung „ARM AGI“ hat das Unternehmen einen modularen, standardbasierten 1OU-Dual-Node-Referenzserver vorgestell, der die „Rack-First“-Designphilosophie der CPU, die auf der „ARM Neoverse V3“ basiert, in die Praxis umsetzt. Der Referenzserver soll eine produktionsnahe Umgebung zur Bewertung von Workloads, zur Optimierung von Software-Stacks und zur Beschleunigung der Bereitstellung von ARM-basierter Infrastruktur der nächsten Generation bieten.
(Bild: ARM)

Die Markteinführung einer neuen Plattform erforder nun einmal eine vollständige Systemumgebung, die Firmware, Betriebssysteme, Arbeitsspeicher, Speicher, Netzwerkkomponenten und System-Management umfasst. Ein Referenzserver dient als Ausgangspunkt für Produktionsserver, da er Folgendes ermögliche:

  • Schnellere Inbetriebnahme der Plattform: Entwickler können verschiedene Betriebssysteme booten, ihre Software-Stacks bereitstellen und mit der Arbeit an plattformspezifischen Optimierungen beginnen.
  • Validierte Systemarchitektur: Speicher-, E/A-, Speicher- und Firmware-Komponenten sind vorintegriert und getestet.
  • Leistungsbewertung: Partner können reale Workloads 'benchmarken', den Stromverbrauch messen und verstehen, wie sich die Plattform in ihren Anwendungsfällen verhält.
  • Schnellere Entwicklung des Ökosystems: OEMs/ODMs, Betriebssystemanbieter und ISVs sowie Cloud-Anbieter können alle auf einer gemeinsamen Plattform zusammenarbeiten.

Die ersten Kunden und die Partner

Erwartzngsgemäß erzeugt der Launch bereits eine starke kommerzielle Dynamik bei Partnern, die bei der Skalierung der Infrastruktur für agentische KI eine Vorreiterrolle einnehmen. Die geplanten Implementierungen umfassen schließlich nicht nur das Beschleuniger-Management, sondern auch die agentische Orchestrierung und die Verdichtung von Diensten, Anwendungen und Tools, die für die Skalierung agentischer Aufgaben erforderlich sind sowie eine höhere Rechenleistung für Netzwerk- und Datenebenen, um KI-Rechenzentren zu ermöglichen.

Wie schon bemerkt ist Meta der führender Partner und Kunde; denn die gemeinsame Entwicklung dient dem Cloud-Provider auch, um die Infrastruktur im Gigawatt-Maßstab für seine Meta-App-Familie zu optimieren und mit den eigenen, maßgeschneiderten „MTIA“-Beschleunigern zusammenzuarbeiten. Zu den weiteren Einführungspartnern gehören Cerebras, Cloudflare, F5, OpenAI, Positron, Rebellions, SAP und SK Telecom. Laut ARM arbeite jeder mit an der Bereitstellung der AAGI-CPU, um KI-gesteuerte Dienste in Cloud-, Netzwerk- und Unternehmensumgebungen zu beschleunigen.

Das Server-Referenzdesign Server st für den Einsatz im Rack-Maßstab als Dual-Node-Server in einem 1OU-Gehäuse konzipiert und erhöht damit die Rechendichte pro Rack-Einheit erheblich. Diese Designphilosophie hat zahlreiche Aspekte der Plattform beeinflusst, darunter:   - Auf Agentic abgestimmte Leistung: Bis zu 136 „Neoverse V3“-Kerne mit einer in ihrer Klasse führenden Speicherbandbreite von 6 GB/s pro Kern bei einer Latenz von unter 100 ns.    - Rack-Scale-Architektur: Eine TDP von 300 W ermöglicht den Einsatz von bis zu 8160 Kernen pro standardmäßigem 36-kW-luftgekühltem Rack, im Vergleich zu 500-W-x86-basierten Bereitstellungen, die ein 2U-Gehäuse benötigen.  -  Unübertroffene Rechendichte: Mehr als doppelt so hohe Leistung pro Rack im Vergleich zu vergleichbaren x86-basierten Bereitstellungen.(Bild:  ARM)
Das Server-Referenzdesign Server st für den Einsatz im Rack-Maßstab als Dual-Node-Server in einem 1OU-Gehäuse konzipiert und erhöht damit die Rechendichte pro Rack-Einheit erheblich. Diese Designphilosophie hat zahlreiche Aspekte der Plattform beeinflusst, darunter: - Auf Agentic abgestimmte Leistung: Bis zu 136 „Neoverse V3“-Kerne mit einer in ihrer Klasse führenden Speicherbandbreite von 6 GB/s pro Kern bei einer Latenz von unter 100 ns. - Rack-Scale-Architektur: Eine TDP von 300 W ermöglicht den Einsatz von bis zu 8160 Kernen pro standardmäßigem 36-kW-luftgekühltem Rack, im Vergleich zu 500-W-x86-basierten Bereitstellungen, die ein 2U-Gehäuse benötigen. - Unübertroffene Rechendichte: Mehr als doppelt so hohe Leistung pro Rack im Vergleich zu vergleichbaren x86-basierten Bereitstellungen.
(Bild: ARM)

Doch es gibt auch bereits kommerzielle Systeme. Diese können ab sofort bei Asrockrack, bei Lenovo und Supermicro bestellt werden.

Der OCP-Standard-Server

Um die Einführung weiter zu beschleunigen, stellt ARM das Rehnerreferenzdesign „Arm AGI CPU 1OU Dual Node Reference Server“ vor, einen Server im Standardformfaktor des Open Compute Project (OCP) „DC-MHS“. ARM plant, dieses Referenzserver-Design und die dazugehörige Firmware sowie weitere Beiträge wie Systemarchitekturspezifikationen, Debugging-Frameworks und Diagnose- und Verifizierungswerkzeuge, die für alle ARM-basierten Systeme geeignet sind, zur Verfügung zu stellen. Weitere Details werden auf dem bevorstehenden „OCP EMEA Summit“ bekannt gegeben.

Ein neues Kapitel für die ARM-Infrastruktur

Die Einführung der Arm AGI CPU markiert ein neues Kapitel in der Entwicklung der Unternehmens im Bereich Rechenzentren. Trotzdem: „Während KI die Branche neu gestaltet, setzt sich Arm weiterhin dafür ein, Fortschritte im gesamten Ökosystem zu ermöglichen und Kunden dort abzuholen, wo sie stehen - von Hyperscale-Cloud-Anbietern bis hin zu KI-Startups“, heißt es auf der Website.

Hier das Video der Keynote vom ARM-CEO Rene Haas auf der ARM-Veranstaltung „ARM Everywhere“, in der er die CPU vorstellt.

(ID:50800795)