Wegweisendes vom OCP-Summit AI-Hardware steht im Mittelpunkt der OCP-Spezifikationen

Von Ariane Rüdiger 5 min Lesedauer

Anbieter zum Thema

Der diesjährige „OCP Summit“ in den USA steht ganz im Zeichen von Artificial Intelligence (AI). Es entsteht eine neue Hardware-Welt rund um die Technologien. Sie soll AI-Verarbeitung schneller, flexibler, günstiger und umweltfreundlicher machen.

Jede Menge Neues gibt es wie immer auf dem „Global OCP Summit“. Im Mittelpunkt steht diesmal: KI(Bild:  frei lizenziert: Open Clipart Vectors /  Pixabay)
Jede Menge Neues gibt es wie immer auf dem „Global OCP Summit“. Im Mittelpunkt steht diesmal: KI
(Bild: frei lizenziert: Open Clipart Vectors / Pixabay)

Die Tagungen der OCP sind bekannt als aktuelles Schaufenster des offenen Computing. In den vergangenen Jahren entpuppte sich die Organisation als wahrer Innovationsmotor.

2024 dreht sich auf dem Global OCP Summit, der bis heute im kalifornischen San José stattgefunden hat, alles um AI. Ein wichtiges Thema ist dabei die Einhegung der physischen Auswirkungen der AI-Verarbeitung, in erster Linie ein immenser Stromverbrauch und damit genauso große Abwärmemengen.

Für deren Nutzung entstehen gerade ganz neue Möglichkeiten: Was vor einigen Monaten noch ein aufsehenerregender Artikel in einer wissenschaftlichen Zeitschrift war, ist inzwischen zum Startup geronnen, das für seine Produkte wirbt.

Datacenter-Strom aus Abwärme

Rund 460 Terawattstunden (TWh) weltweit an Rechenzentrumsabwärme warteten jährlich darauf, in nützlichen Strom gewandelt zu werden. Diese Menge steigt jeden Tag, da die Industrie unaufhaltsam wächst. Phasic Energy hat ein Aggregat entwickelt, mit dessen Hilfe die Datacenter-Abwärme aus CRACs und Flüssigkühlsystemen zu erheblichen Anteilen direkt wieder in elektrischen Strom umgewandelt und in den Stromkreis des Rechenzentrums eingespeist werden kann.

Augie Smith, Gründer des Unternehmens. verkündet: „Wir haben jetzt schon Anfragen in der Höhe von 2000 Megawatt.“ Das patentierte Verfahren befinde sich am Technology-Readyness-Level 6 bis 7 (Prototyp im Einsatzumfeld/im Einsatz). Es müsste danach in einem bis fünf Jahren verfügbar sein.

So soll die Maschine aussehen, mit der Phasic Energy aus Datacenter-Abwärme elektrischen Strom erzeugen möchte.(Bild:  Phasic Energy)
So soll die Maschine aussehen, mit der Phasic Energy aus Datacenter-Abwärme elektrischen Strom erzeugen möchte.
(Bild: Phasic Energy)

Die Methode arbeitet mechanisch. Unter anderem nutzt das Gerät Kolben. Es liefert Wechselstrom, der direkt ins Recehenzentrum eingespeist werden kann. Das funktioniert zumindest an den vielen Orten, wo keine Nah- oder Fernwärmenetze vorhanden sind. Dort könnte das Phasic-Verfahren sinnvoll sein.

Neue Server für AI

Daneben gibt es auch jede Menge neue IT-Hardware. Beispielsweise vom taiwanesischen Hardwarebauer Pegatron. Er hatte gleich eine ganze Serie von Servern für AI im Angebot, die konform zur aktuellen OCP-Open-Rack-Norm „OCP OR v.3“ sind.

Zu den Neuerungen gehören 2U-Modelle mit zwei Knoten auf Basis von „Intel Xeon“ und „AMD Epyc“, ein Server speziell für Training und Inferenz mit großen LLMs und ein besonders leistungsfähiger 4U-Server mit bis zu acht Nvidia-GPUs („H200“ oder „B100“).

Konform zum modularen Server-Referenzdesign von Nvidia „MGX“ sind zwei neue Systeme: ein 2 U-Intel-Server mit vier GPUs und ein 2U-Server speziell für Inferenz und Training von AI-Modellen.

Mangoboost: DPU entlastet CPU

Skalierbarkeit, Flexibilität und Geschwindigkeit von AI-Umgebungen will Mangoboost mit einem neuen DPU-Design um Längen verbessern. Dabei entlastet die neue DPU die CPU von allen infrastrukturellen Aufgaben. Letztere soll sich in einer Mangoboost-Umgebung ausschließlich auf ihre Kernaufgaben im AI-Umfeld konzentrieren.

Mangoboosts DSP/intelligenter NIC nimmt der CPU in AI-Umgebungen die gesamte Verwaltungsarbeit ab.(Bild:  Mangoboost)
Mangoboosts DSP/intelligenter NIC nimmt der CPU in AI-Umgebungen die gesamte Verwaltungsarbeit ab.
(Bild: Mangoboost)

Marc Harris von der Acton-Tochterunternehmung Edgecore will mit seinem nach OCP-Vorgaben mit Partnern entwickelten Jericho-Chipset für AI verteilte, disaggregierte AI-Cluster ermöglichen. Dazu gehören unter anderem intelligente Controller und ein 51 Tbyte/s schneller Switch.

Storage: Beschleunigung für Rocks DB und Transportoptimierung in AI-Umgebungen

SSD-Spezialist Kioxia kann mit Hilfe eines Plug-ins für Rocks DB jetzt eine flexible Datenplatzierung auf E1.S-PCIe-SSDs bewirken. Mit dem Plugin lassen sich 1,8mal so viele Kqueries (Tausend Anfragen pro Sekunden) durchführen als ohne, und der Write Amplification Factor (WAF), ein die Lebensdauer der Geräte herabsetzendes Verhalten, wird auf ein Drittel verringert.

„Das beste Memory-System für KI“ möchte der Startup Panmnesia anbieten. Dabei setzt der Neuling ganz auf CXL (Compute Express Link), einen noch recht neuen Standard für die Kommunikation zwischen Compute und Storage. Das Unternehmen hat dafür unter anderem einen neuen Transportmechanismus, „Weaver pro“, entwickelt.

Maßgeschneiderte Kommunikationschips für AI-Umgebungen

Astera Labs ist schon länger im Open-Compute-Umfeld aktiv. Als äußerst erfolgreich entpuppten sich beispielsweise die Retimer der „Aries“-Serie, die laut Thad Omura, Chief Business Officer, nahezu bei jedem Hyperscaler implementiert seien.

Mit seinen Switches der Serie „Scorpio“ will Astera Labs AI-Umgebungen beschleunigen und flexibler machen.(Bild:  Astera Labs)
Mit seinen Switches der Serie „Scorpio“ will Astera Labs AI-Umgebungen beschleunigen und flexibler machen.
(Bild: Astera Labs)

Nun erweitert Astera sein Portfolio durch die Switches der „Scorpio“-Serie. Sie sind für die Kommunikationsanforderungen in Umgebungen für AI-Training und -Inferenz maßgeschneidert.

In entsprechenden Geräten befinden sich in der Regel zwei getrennte Kommunikationsnetze, also Fabrics. Eine von ihnen bindet die CPU ins Geschehen ein, die zweite vernetzt die GPUs.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

PCIe-6-Premiere

Die Scorpio-Switch-Chips, laut Omura übrigens die ersten mit PCIe Gen 6, gibt es in zwei Varianten: Die „P“-Serie übernimmt die Kommunikation mit der CPU, dem Head Node der AI-Umgebung und damit um die Zuführung der Daten zur GPU (Daten-Ingest). Die „X“-Serie vernetzt die GPUs untereinander und lässt sich entsprechend den Anforderungen der Anwender kundenspezifisch anpassen.

Übergeordnete Management-Schicht für beide Chips ist „Cosmos“. Die Software ist in der gesamten Implementierung für Monitoring, Diagnose und Management zuständig. Zu Hard- und Software bietet Astera auch Entrwicklungs-Kits und Referenzdesigns an.

Chiplets für AI

ARM hatte schon im vergangenen Jahr seine Initiative „ARM Total Design“ verkündet, die AI-Architekturen leistungsfähiger, energieeffizienter und skalierbarer machen soll. Die Zahl der Partner hat sich inzwischen verdoppelt. Ein Schwerpunkt ist die Entwicklung von Chiplets, die ARM als „nächsten Designpunkt“ sieht.

Eine für KI maßgeschneiderte Chiplet-Architektur auf Basis von „Neoverse“ entwickelt derzeit ARM zusammen mit Samsung und AD Technologies.(Bild:  ARM)
Eine für KI maßgeschneiderte Chiplet-Architektur auf Basis von „Neoverse“ entwickelt derzeit ARM zusammen mit Samsung und AD Technologies.
(Bild: ARM)

Zusammen mit Samsung, AD Technology und Rebellion stellt ARM nun die AI Chiplet CPU Platform vor. Sie basiert auf „ARM Neoverse“ und soll Systeme von 32 bis 256 Rechenkernen ermöglichen. Geplant ist, die jeweils besten CPUs mit den besten Akzeleratoren zu paaren. So soll sich die Leistung bei der Verarbeitung von LLMs verdreifachen.

OCP: Offener Marktplace für Chiplets

Auch die OCP sieht in Chiplets eine unverzichtbare Komponente zukünftiger Systeme. Das untermauert die Organisation durch die Eröffnung eines virtuellen „Open Chiplet Economy Marketplace“. Ziel ist es, damit eine offene Chiplet-Ökonomie aufzubauen.

Auf dem virtuellen Markt sollen Softwarewerkzeuge, Chiplets, aber auch Design- und Fertigungsdienstleistungen angeboten und Kooperationspartner gesucht werden. Außerdem wird die Plattform neue Standards, Best Practises, Training und mehr anbieten.

Die OCP fokussiert dabei zunächst aus ihrer Sicht besonders attraktive Branchen wie Automotive. Wie wichtig das Thema Chiplets der OCP ist, zeigt sich auch daran, dass ein ganzer Kongresstag sich damit beschäftigt.

Neue Kooperationspartner

Zur strategischen AI-Initiative der OCP sind mit Meta und Nvidia zwei gewichtige Partner hinzugekommen. Dabei brachte Meta das „Catalina“-Rack in die Open-Initiative ein, Nvidia die MGX-Racks und -Trays.

Schließlich kann die Organisation noch zwei neue Kooperationsabkommen mit europäischen Akteuren melden: Vereinbarungen wurden mit der herstellerzentrierten Standardisierungsorganisation Ecma (European Computer Manufacturers Association) und mit der Net Zero Initiative geschlossen.

Das Ziel der letzteren ist insbesondere, sich um neue Lösungen im Bereich Abwärmenutzung und Wärmerückgewinnung zu bemühen. Womit wir wieder am Anfang des Artikels angekommen wären…

(ID:50202360)