Einen kühlen Kopf bewahren Das Cooling-Konzept für Rechenzentren von Dell Technolgies

Ein Gastbeitrag von Peter Dümig* 5 min Lesedauer

Anbieter zum Thema

KI-Workloads stellen Betreiber von Rechenzentren vor neue Herausforderungen; denn die gewaltige Rechenleistung, die dahintersteckt, hat ihren Preis: einen enormen Energieverbrauch, der zu einem großen Teil auf das Konto der Kühlung geht. Doch effizientere und nachhaltigere Techniken gibt es durchaus.

Auch wenn es vielen Rechenzentrumsbetrieber nicht wahrhaben wollen: Moderne Workloads bringen die Kühltechnologie schnell an ihre Grenzen. Dell Technologies etzt auf eine Kombination aud D2C und Wärmetauscher mit Ventilatoren. (Bild:  Dell Technologies)
Auch wenn es vielen Rechenzentrumsbetrieber nicht wahrhaben wollen: Moderne Workloads bringen die Kühltechnologie schnell an ihre Grenzen. Dell Technologies etzt auf eine Kombination aud D2C und Wärmetauscher mit Ventilatoren.
(Bild: Dell Technologies)

Die Nachfrage nach Rechenleistung für Künstliche Intelligenz (KI) wird bis 2028 voraussichtlich zwei- bis dreimal schneller wachsen als der allgemeine Bedarf an IT-Kapazitäten. Während klassische Unternehmensserver mit einer Leistungsdichte von rund 10 bis 20 Kilowatt pro Rack betrieben werden, erreichen aktuelle KI-Systeme mit ihren GPUs bereits heute 50 bis 100 Kilowatt und im High-End-Bereich sogar 150 bis 180 Kilowatt.

Bei Großinstallationen sind allgemein Leistungsdichten von deutlich über 100 Kilowatt pro Rack keine Seltenheit. Der dafür verfügbare Platz in Rechenzentren bleibt jedoch begrenzt. Hinzu kommt, dass sich KI-Cluster aus Gründen der Latenz nicht beliebig auf viele Racks verteilen lassen, da die Kommunikation zwischen GPUs mit extrem hoher Bandbreite erfolgen muss.

Die Folge: Die benötigte Rechenkapazität kann nur durch eine drastische Verdichtung der Hardware erreicht werden. Damit steigt auch die thermische Last enorm. Allein ein einzelner Hochleistungs-GPU-Server kann heute bis zu 15 Kilowatt Abwärme erzeugen. Solche Werte lassen sich mit konventioneller Luftkühlung nicht mehr beherrschen. Flüssigkeitskühlung (Direct Liquid Cooling, kurz DLC) gilt daher als Schlüsseltechnologie, um die entstehende Abwärme zuverlässig und energieeffizient abzuführen.

Einfacher wird es nicht

Allerdings ist es nicht ganz so einfach, da sich bestehende Rechenzentren anders als bei einem Greenfield-Projekt nicht nach Lust und Laune umbauen lassen. Hinzu kommt der regulatorische Druck. So schreibt das Energie-Effizienzgesetz (EnEfG) beispielsweise vor, dass Rechenzentren, die nach dem 1. Juli 2026 in Betrieb gehen, unter einem Energieverbrauchseffektivitätswert (PUE) von 1,2 liegen müssen. Bestandsrechenzentren wiederum dürfen ab dem 1. Juli 2027 einen PUE-Wert von 1,5 und ab dem 1. Juli 2030 einen Wert von 1,3 nicht überschreiten.

Über Jahrzehnte hinweg galt Luft als Standardmedium für die Kühlung von IT-Systemen. Das Prinzip ist einfach: Ventilatoren sorgen dafür, dass kalte Luft an Prozessoren, Speichermodulen und anderen Hitze-intensiven Bauteilen vorbeiströmt. Kühlkörper mit großer Oberfläche unterstützen dabei die Wärme-Aufnahme.

In klassischen Rechenzentren wird dieser Prozess durch ein festes Strömungskonzept organisiert: Kaltluft gelangt über Doppelböden in den so genannten Kaltgang, strömt durch die Server-Racks und nimmt die Abwärme auf, bevor sie als Warmluft in den benachbarten Warmgang abgeführt wird. Klimageräte saugen die erhitzte Luft an, kühlen sie herunter und leiten sie erneut in den Kreislauf zurück.

Die klassische Luftkühlung verliert an Bedeutung

Mit dem Siegeszug von GPU-basierten Systemen für KI- und HPC-Anwendungen stößt Luft als Kühlmedium jedoch an eine fundamentale physikalische Grenze: Ihre spezifische Wärmekapazität ist zu gering, um die wachsenden Energiemengen effizient aufzunehmen und abzuführen. Selbst mit stärkeren Lüftern und optimierten Luftleitkonzepten ließe sich der steigende Kühlungsbedarf kaum noch wirtschaftlich decken.

Genau deshalb rückt die Flüssigkeitskühlung in den Vordergrund – sie bietet eine bis zu 4.000-fach höhere Wärmeleitfähigkeit im Vergleich zu Luft. Somit ist es möglich, die enormen thermischen Lasten moderner Hochleistungsrechner sicher zu kontrollieren.

Flüssigkühlung – das neue Wundermittel?

Dabei haben sich verschiedene Ansätze etabliert. Der heute am weitesten verbreitete ist die Direct-to-Chip-Kühlung (D2C). Dabei werden Kühlplatten direkt auf CPUs und GPUs montiert. Durch diese zirkulieren Wasser oder eine spezielle Kühlflüssigkeit, die die Wärme unmittelbar an den Hotspots aufnehmen.

Flüssigkühlung gibt es diversen Ausprägungen. Die Rechenzentrumsbetreiber kommen nicht umhin, sich ihre Konzepte zu überlegen. Das aber setzt Fachwissen voraus. (Bild:  Dell Technologies)
Flüssigkühlung gibt es diversen Ausprägungen. Die Rechenzentrumsbetreiber kommen nicht umhin, sich ihre Konzepte zu überlegen. Das aber setzt Fachwissen voraus.
(Bild: Dell Technologies)

Ein Vorteil dieser Technik ist, dass man sie nachrüsten kann: Selbst einige klassische, luftgekühlte Server lassen sich – abhängig von Bauform und Platzangebot – auf Direct-to-Chip umrüsten. Dazu müssen die vorhandenen Kühlkörper entfernt und durch wasserführende Modelle ersetzt werden. In manchen Fällen sind zusätzliche Anpassungen am Gehäuse nötig, beispielsweise Öffnungen für Schläuche oder Kupplungen, die die Verbindung zum Kühlkreislauf herstellen.

Typischerweise können so rund 80 Prozent der Abwärme direkt über die Flüssigkeit abgeführt werden. Die restliche Wärme entsteht in Bauteilen wie Netzteilen oder Storage-Controllern und wird weiterhin über die Raumluft abtransportiert. Bestehende Klimageräte im Rechenzentrum werden daher nach wie vor benötigt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Noch einen Schritt weiter geht Immersion Cooling: Bei diesem Verfahren werden komplette Server – meist auf Board-Ebene – in Tanks mit elektrisch nicht leitfähiger Spezialflüssigkeit eingetaucht. Die Flüssigkeit umspült sämtliche Komponenten und nimmt die Wärme ohne Umwege auf. Über Wärmetauscher wird die Energie dann an das technische Kühlsystem (TKS) übertragen.

Dieses Verfahren ist besonders effizient, da nahezu die gesamte Abwärme direkt über die Luft abgeführt wird. Allerdings erfordert die Immersion eine vollständig angepasste Hardware-Architektur: Konventionelle Server lassen sich nicht einsetzen. Hinzu kommen höhere Investitionskosten und ein verändertes Servicekonzept, da Hardware in Tanks anders gewartet werden muss als in klassischen Racks.

Beide Ansätze haben ihre spezifischen Einsatzszenarien: D2C gilt als pragmatische Lösung in bestehenden Rechenzentren, während Immersionskühlung vor allem in Hochleistungsumgebungen zum Einsatz kommt, in denen maximale Energiedichte und Effizienz wichtiger sind als die volle Kompatibilität mit Standardhardware.

Hybrider Ansatz trifft auf die Realität in Rechenzentren

Für Hochleistungsrechenzentren, die Workloads wie Künstliche Intelligenz, Simulationen oder Blockchain-Verfahren ausführen, ist moderne Flüssigkeitskühlung in all ihren Facetten heute praktisch unverzichtbar. Die meisten Anlagen werden jedoch mit einem hybriden Ansatz am besten fahren.

OCP-konforme D2C-Technik im Dell-Rack, aufgenommen auf der „Dell Technologies World 2025“ in Las Vegas.(Bild:  uo/Vogel IT-Medien GmbH)
OCP-konforme D2C-Technik im Dell-Rack, aufgenommen auf der „Dell Technologies World 2025“ in Las Vegas.
(Bild: uo/Vogel IT-Medien GmbH)

Ein solcher Ansatz kombiniert Luft- und Flüssigkeitskühlung. Entsprechende Lösungen setzen beispielsweise auf direkte Flüssigkeitskühlung für kritische Komponenten wie CPU oder GPU, während die Luftkühlung zur Temperaturregelung des Gesamtsystems und für Komponenten wie Speicher verwendet wird.

Ein Beispiel für einen solchen systemischen Ansatz ist das von Dell Technologies entwickelte „IR7000-Rack“ – eine modulare, generationenübergreifende Infrastruktur auf Basis des OCP-Standards „ORv3“. In Kombination mit der „eRDHx“-Technologie (PowerCool Enclosed Rear Door Heat Exchanger) gelingt es, fast die komplette Abwärme mithilfe von Flüssigkeit abzuführen.

In der geöffneten Tür der  „eRDHx“-Technik (PowerCool Enclosed Rear Door Heat Exchanger) befinden sich Ventilatoren. (Bild:  uo/Vogel IT-Medien GmbH)
In der geöffneten Tür der „eRDHx“-Technik (PowerCool Enclosed Rear Door Heat Exchanger) befinden sich Ventilatoren.
(Bild: uo/Vogel IT-Medien GmbH)

Möglich wird das durch eine Kombination aus direkter Flüssigkeitskühlung am Rack und Wärmetauschern für alle übrigen Komponenten. Aufgrund des vollständig geschlossenen Luftführungssystems kann eRDHx mit deutlich wärmerem Kühlwasser betrieben werden als herkömmliche Systeme. Dadurch werden Energie-intensive Kältemaschinen überflüssig, und der Energieverbrauch für Kühlung kann im Vergleich zu Racks mit rückseitigen Wärmetauschern deutlich reduziert werden.

KI verändert das Energie-Management

Der Weg zu Energie-effizienten Rechenzentren führt nicht nur über neue Hardware – mindestens genauso wichtig ist eine Überwachung der IT-Umgebung in Echtzeit. Werden die vorhandenen Daten intelligent ausgewertet, können Site-Manager genaue Erkenntnisse zu den bestehenden elektrischen und thermischen Kapazitäten in Abhängigkeit der aktuellen und historischen Lastverläufe und -verteilung gewinnen.

Dies beinhaltet sogar die Betrachtung der thermischen Luftführung in den Serverräumen und der Volumenströme bei der Flüssigkeitskühlung. Moderne KI-unterstützte Tools liefern hier die notwendigen Informationen, um fundierte Entscheidungen über Optimierungen und Anpassungen an veränderte Lastbedingungen zu treffen.

*Der Autor
Peter Dümig ist Senior Server Product Manager bei Dell Technologies in Deutschland.

Bildquelle: Dell Technologies

Artikelfiles und Artikellinks

(ID:50599431)