Mehr Luft für Flüssigkeitskühlung AWS entwickelt skalierbaren Wärmetauscher für GPU-Cluster

Von Daniel Schrader 7 min Lesedauer

Anbieter zum Thema

Amazon setzt für KI-Workloads auf eine eigens entwickelte Flüssigkeitskühlung. Die Ansage, marktgängige Produkte seien „nicht skalierbar“, sorgte für einen kurzzeitigen Aktienschock bei Infrastrukturherstellern. Doch Analysten betonen: Der Markt für Flüssigkeitskühlung wächst stark und bietet Perspektiven für diverse Ansätze.

Der „In-Row Heat Exchanger“ von AWS kombiniert einen separaten Pumpenschrank und ein Verteilermodul für die Kühlflüssigkeit (abgebildet) mit flexibel hinzufügbaren Lüftereinheiten.(Bild:  AWS)
Der „In-Row Heat Exchanger“ von AWS kombiniert einen separaten Pumpenschrank und ein Verteilermodul für die Kühlflüssigkeit (abgebildet) mit flexibel hinzufügbaren Lüftereinheiten.
(Bild: AWS)

Eine eigenentwickelte Flüssigkeitskühlung soll von nun an in AWS-Rechenzentren regulär für die Abkühlung leistungsdichter KI-Cluster zum Einsatz kommen. Das System hat der Cloud-Anbieter im Rahmen einer Video-Ankündigung vorgestellt, die zugleich die Verfügbarkeit von KI-Plattformen(Künstliche Intelligenz) auf Basis von „Nvidia NVL72 GB200“-Racks für AWS-Kunden bekannt machte. Der „In-Row Heat Exchanger“ (IRHX) sei für den Einsatz in Bestandsrechenzentren optimiert worden und eröffne AWS solch flexible Möglichkeiten zur Skalierung für KI-Workloads, welche marktgängige Flüssigkeitskühlungen nicht böten.

Laut AWS passt der IRHX in jede auf Luftkühlung ausgelegte Rack-Reihe eines AWS-Rechenzentrums „ohne Modifikationen des mechanischen Designs“ und mit lediglich „minimalen Änderungen der bestehenden Infrastruktur“. Dafür sei die Kühlung speziell auf die im Branchenvergleich breiteren und höheren Amazon-Racks ausgelegt worden. Das System soll Bestandsrechenzentren von AWS für den großflächigen Einsatz von „Nvidia Blackwell“-GPUs bereit machen, aber auch in neuen Datacenter-Projekten zum Einsatz kommen.

Das Doppelherz des „In-Row Heat Exchanger“:  Hydraulisches Verteilermodul für die Kühlflüssigkeit (links) und Pumpenschrank (mittig).(Bild:  AWS / Youtube)
Das Doppelherz des „In-Row Heat Exchanger“: Hydraulisches Verteilermodul für die Kühlflüssigkeit (links) und Pumpenschrank (mittig).
(Bild: AWS / Youtube)

Das Wärmetauscher-System besteht aus drei Komponenten: einem Verteiler-Modul für die Kühlflüssigkeit, einem Pumpenschrank und mehreren Lüftereinheiten für die Rückkühlung der Flüssigkeit. Über die Pumpe wird die Kühlflüssigkeit direkt die Chips über Cooling Plates geführt, die AWS in Kooperation mit Nvidia entwickelt habe.

Zurück im Wärmetauscher angelangt, wird die Kühlflüssigkeit von Lüftermodulen (fan coil units) wieder heruntergekühlt. Die Wärme wird dabei hinter den Wärmetauscher abgeführt und in einen eingeschlossenen Heißluftgang abgestoßen. Es handelt sich laut AWS um ein vollständig geschlossenes Kreislaufsystem für die Kühlflüssigkeit, dass einen erhöhten Wasserverbrauch ausschließen soll.

Der modulare „IRHX“ lässt sich je nach Leistungsdichte der Rack-Reihe flexibel mit Lüftereinheiten erweitern.(Bild:  AWS / Youtube)
Der modulare „IRHX“ lässt sich je nach Leistungsdichte der Rack-Reihe flexibel mit Lüftereinheiten erweitern.
(Bild: AWS / Youtube)

Dabei könnten je nach Auslastung der Rack-Reihe Lüftermodule dem Wärmetauscher flexibel hinzugefügt oder entnommen werden. Gerade die modulare luftgekühlte Komponente des IRXH sei, so der AWS-VP für Compute und Machine Learning David Brown im Rahmen der Ankündigung, ein Auszeichnungsmerkmal gegenüber anderen marktgängigen Produkten und der Schlüssel zu einem skalierbaren Einsatz in Amazon-Rechenzentren.

Tatsächlich stechen bei der präsentierten Beispielkonfiguration des Wärmetauschers 18 große Lüftereinheiten sofort ins Auge. In modularen Gehäusen untergebracht, beanspruchen sie die ganz überwiegende Fläche des Systems für sich.

AWS stellt Kunden „Blackwell“-KI-Cluster bereit

Die Leistung der „Nvidia Blackwell“-GPUs stellt AWS Kunden ab sofort über zwei Plattformen bereit. Das Rack-System „P6e-GB200“ basiert auf „Nvidia GB200 NVL72“-Racks mit je 72 der aktuell leistungsstärksten „B200“-GPUs. Im „Super Server P6-B200“ hingegen kommen acht dieser GPUs zum Einsatz.

Dabei sollen in Kooperation mit Nvidia AWS-Kunden über 900 Cuda-Bibliotheken und KI-Modelle zur Verfügung stehen. Laut aktueller Preistabelle kostet eine Stunde Rechenleistung einer „P6e-GB200“-Plattform knapp 762 Dollar, bei dem kleineren System liegt der Stundenpreis bei knapp 381 Dollar pro Instanz.

Während die GPUs innerhalb der Rack-Systeme über den Hochgeschwindigkeitsbus „Nvidia NVlink“ kommunizieren, formt AWS die Racks untereinander zu großen KI-Clustern über die sechste Generation der Architektur „Nitro“. Zu den Auszeichnungsmerkmalen der neuen Generation gehören Bandbreiten von 400 Gbit/s pro Netzwerkkarte, eine automatische Umleitung des Traffics bei Netzwerkstörungen sowie die Möglichkeit, Firmware-Updates ohne Unterbrechung des laufenden Betriebs zu installieren.

Keine für AWS passende Flüssigkeitskühlung auf dem Markt verfügbar

Tatsächlich sei Flüssigkeitskühlung im großen Maßstab laut Brown „ein Novum für AWS“. Ihre Integration in unternehmenseigene Datacenter sei erst durch den großflächigen Einsatz von „Nvidia Blackwell“-GPUs notwendig geworden. Im Schnitt fordern bereits ausgelieferte „Nvidia NVL72“-Systeme 120 bis 140 Kilowatt elektrische Leistung per Rack. Sie besitzen damit eine um 3,5 mal größere Leistungsdichte im Vergleich zu KI-Racks mit „Nvidia Hopper“-GPUs der vorausgehenden Generation und übersteigen die verfügbare Maximalleistung per Rack für gängige Datacenter-Workloads um mehr als das Zehnfache.

„Wir müssen schnell und global skalieren“, erläutert der AWS-VP. Dabei hätten „heute verfügbare Wasserkühlung-Produkte Kompromisse“ erforderlich gemacht. Griffe AWS zu den effektivsten Techniken, müsse man Datacenter „von neu auf“ planen und bauen und wäre so der Verfügbarkeit von „Nvidia Blackwell“ nicht hinterhergekommen.

Die Ankündigung der Nvidia Blackwell-Architektur und der eigenentwickelten Flüssigkeitskühlung durch die AWS-VPs David Brown und Ian Buck.

Hingegen hätten [sich] für Bestandsrechenzentren verfügbare „schlüsselfertige Produkte als nicht skalierbar“ erwiesen. „Sie hätten zu viel Stellfläche im Rechenzentrum beansprucht, trotzdem erhebliche Umbauten erfordert oder den Wasserverbrauch stark erhöht“, so Browns ernüchterndes Fazit zu marktgängigen Flüssigkeitskühlangeboten.

In 15 Monaten zur Produktionsreife

Die Kühlflüssigkeit im „IRHX“ wird an eine von AWS mit Nvidia entwickelte Cold Plate befördert, die direkt an den Chips anliegt.(Bild:  AWS / Youtube)
Die Kühlflüssigkeit im „IRHX“ wird an eine von AWS mit Nvidia entwickelte Cold Plate befördert, die direkt an den Chips anliegt.
(Bild: AWS / Youtube)

Einige marktgängigen Flüssigkeitskühlungen würden sich zwar durchaus für kleinere Anwendungsgebiete eignen, nicht aber für die Skalierungspläne von AWS. So sei die Eigenentwicklung von Amazon mit besonderem Augenmerk auf eine leichte Integration in Bestandsrechenzentren entstanden. Zudem ermögliche IRHX „uns eine schnelle Skalierung und ein Standardisierung unseres IT-Equipments und unserer Lieferkette“.

In einem im Vorfeld der Ankündigung veröffentlichten Blog berichtet AWS, den Wärmetauscher von Grund auf in 15 Monaten entwickelt zu haben. In dieser Zeit habe AWS „Pläne ausgearbeitet, eine Lieferkette aufgebaut, eine Steuerungssoftware geschrieben, alle Komponenten getestet und die Systeme gefertigt“. Ob jenseits der Kooperation mit Nvidia bei der Entwicklung der Cold Plate auch andere Industriepartner an der Entwicklung des Kühlsystems beteiligt waren, gibt AWS nicht bekannt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Wirbel um Luft und Wasser

Dieser Fokus auf eine eigenständige Produktion und die Einschätzung von AWS, es seien keine genügend skalierbare Produkte am Markt verfügbar, hat für einigen Wirbel in der Datacenter-Community wie auf den Aktienmärkten gesorgt.

Flexibel hinzufügbare Lüftermodule des „IRHX“ bringen die erwärmte Kühlflüssigkeit wieder in Betriebstemperatur und stoßen Wärme in einen eingeschlossenen Heißluftgang ab.(Bild:  AWS / Youtube)
Flexibel hinzufügbare Lüftermodule des „IRHX“ bringen die erwärmte Kühlflüssigkeit wieder in Betriebstemperatur und stoßen Wärme in einen eingeschlossenen Heißluftgang ab.
(Bild: AWS / Youtube)

Unmittelbar nach der Ankündigung am 9. Juli 2025 fielen die Aktien von Vertiv an der New York Stock Exchange um 11 Prozent. In geringerem Maß waren auch andere Infrastrukturanbieter für Datacenter betroffen.

Während der Einbruch noch anhielt, betonte der Bloomberg Intelligence-Analyst Mustafa Okur, dieser sei nicht überraschend: Vertiv erziele „unseren Berechnungen zufolge um die zehn Prozent des Gesamtumsatzes mit Flüssigkeitskühlung und AWS könnte [bislang] zu den größten Kunden zählen“. Im Ergebnis könne die AWS-Entscheidung, „eine eigene Flüssigkeitskühlung zu entwickeln, die Wachstumsperspektiven von Vertiv beeinträchtigen“.

Analysten von Wolf Research hingegen zeigten sich gelassen: Eigenentwicklungen von Hyperscalern seien „nichts Neues“, sondern „Routine“. AWS hätte dabei auf ein marktgängiges Liquid-to-Air-System (L2A) gesetzt, dass auch andere Hersteller für Bestandsrechenzentren anbieten.

Zudem erscheine es unrealistisch, dass AWS den Wärmetauscher gänzlich ohne Kooperationen mit Industriepartnern und ohne Rückgriff auf deren Lieferketten produziert hätte. Der beschleunigte Umstieg von Hyperscalern auf Flüssigkeitskühlung würde so auch anderen Produzenten eher zugutekommen.

Laut Michael Elias, einem Analysten bei der Investmentbank TC Cowen, indizieren gar „Gespräche mit Vertriebskanal-Teilnehmern, dass Vertiv ein zentraler Auftragsfertiger für den IRHX von Amazon ist“. Auch sein Kollege von UBS Amit Mehrota hält diese Einschätzung für plausibel. Tatsächlich erwies sich die Börsenreaktion als unbeständig. Binnen zwei Tagen erholte sich die Vertiv-Aktie.

Marktgängigen Ansatz auf Skalierbarkeit getrimmt

Alex Cordovil, Research Director bei Dell’Oro, will den Innovationseffekt des AWS-Wärmetauschers differenziert sehen. Einerseits sei der technische Ansatz von AWS alles andere als außergewöhnlich:

„Infrastrukturanbieter für Datacenter stellen schon seit einiger Zeit Flüssigkeitskühlungen mit Liquid-to-Air-Modulen bereit“, gerade als „praktische Aufrüstungsoption“ für bislang luftgekühlte Rechenzentren. „Nur um einige zu nennen, bietet Vertiv die ‚Cool Chip CDU 70‘ an [und] Coolit führt eine ganze Produktlinie von ‚AHx‘-Cool Distrubition Units“. Hinzu kämen vergleichbare Produkte von Motivair (nun Teil von Schneider Electric) und Delta.

Zugleich habe AWS tatsächlich innovative Wege eingeschlagen, um eine schnelle und großflächige Skalierbarkeit für Hyperscaler-Bedürfnisse zu gewährleisten. „Die meisten schlüsselfertigen Systeme integrieren die Pumpe und das Wärmetauscher-Register in einem Gehäuse, so dass eine integrierte L2A-Einheit mehr Racks versorgen kann“, erläutert Cordovil. „AWS hingegen trennt die Pumpe von den Lüfter-Wärmetauschmodulen. Damit kann ein Pumpensystem sehr viele Lüftereinheiten unterstützen“. So könne AWS je nach Bedarf flexibel die Zahl der Lüfter auf die genauen Workloads in der Rack-Reihe auslegen.

Auch damit allerdings sieht der Research Director „keine Bedrohung für Anbieter in diesem Marktbereich“. Auch er geht davon aus, dass der IRHX nicht bei AWS, sondern eher „bei bekannten Herstellern von Kühlungssystemen gebaut wird“. Diese würden mit großer Wahrscheinlichkeit an der Sprung von AWS zu Flüssigkeitskühlung profitieren.

Ohnehin sei der neue Wärmetauscher sichtlich eine Retrofit-Technik für Bestands-Datacenter und würde wohl entgegen David Browns Ankündigung eher weniger in neu für KI-Training entwickelten Rechenzentren zum Einsatz kommen. Liquid-to-Liquid-Systeme erfordern etwa eine aufwändige Infrastruktur für die externe (die Wärme aufnehmende) Kühlflüssigkeit, bieten aber deutlichere Effizienzpotenziale.

Vor allem aber sei der Markt angesichts des immer weiter Fahrt aufnehmenden „KI-Superzyklus“ groß und offen. Allein im ersten Quartal 2025 habe der Markt für Flüssigkeitskühlungen laut Dell'Oro-Schätzungen um 144 Prozent im Vergleich zum Vorjahr zugelegt. Es gebe so klare Wachstumschancen für sehr viele verschiedene Ansätze.

Amazon hat so einen effektiven Ansatz entwickelt, Luftkühlung großflächiger als üblich für die Abkühlung der Kühlflüssigkeit einzusetzen, gerade in Bestandsrechenzentren. Der IRHX erweist sich jedoch als einer von vielen Wegen, immer leistungshungrigere KI-Hardware mit Wasser und Luft kühl zu halten.

(ID:50502534)