Techniken, die Rechenzentren „verflüssigen“ Ein Tropfen auf das heiße Silizium

Von Anna Kobylinska und Filipe Martins* 10 min Lesedauer

Anbieter zum Thema

Die Perspektive, auf den „Flüssigbetrieb“ umzustellen, hört sich recht abenteuerlich an, und doch führt für viele Datacenter-Betreiber demnächst kein Weg daran vorbei. Die Herausforderungen, die damit einhergehen, kann man sich in gewissen Grenzen zum Glück aussuchen.

Eine Option, im Rechenzentrum Flüssigkeit zum Kühlen einzusetzen, ist die Direct-to-Chip-Kühlung - hier bei Equinix Metal in einem Standard-Rack.(Bild:  Equinix)
Eine Option, im Rechenzentrum Flüssigkeit zum Kühlen einzusetzen, ist die Direct-to-Chip-Kühlung - hier bei Equinix Metal in einem Standard-Rack.
(Bild: Equinix)

Verschiedene Flüssigkühlsysteme gehen mit sehr unterschiedlichen Herausforderungen einher. Die verfügbaren Flüssigkühlsysteme fallen im Grunde genommen in eine von zwei Kategorien: direkte und indirekte Flüssigkeitskühlung.

*Das Autorenduo

Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.

Ihr Fazit lautet: Die heutigen Rechenzentren müssen sich weiterentwickeln, um die Abwärme der steigenden Systemdichte zu bewältigen. Spätestens bei der Planung des Aus-, Um- oder Neubaus eines Rechenzentrums rückt die Frage nach der Energie-Effizienz und der Investitionssicherheit der verschiedenen Ansätze in den Vordergrund.

Mit Flüssigkühlung können Rechenzentren mehr Rechenleistung auf demselben Raum anbieten, wodurch sich die Effizienz und Kapazität der Facilities in Vorbereitung auf die Anforderungen rechenintensiver Arbeitslasten und neuer Nachhaltigkeitsstandards erheblich steigern lässt. Die Technologie tritt die Phase der breiten Kommerzialisierung an und so haben die Entscheidungsträger die Qual der Wahl.

Pssst…! Alles fließt, einiges leitet

Bei der direkten Flüssigkeitskühlung (Engl. Direct Liquid Cooling, DLC) gelangt die Kühlflüssigkeit unmittelbar an die Komponenten des Serverinneren. Sowohl Direct-to-Chip-Kühlung (Deutsch: Direkt-zur-Chip) als auch Immersionskühlung (auch: Tauchkühlung) fallen in diese Kategorie.

Den umfassendsten Ansatz stellt logischerweise die Immersionskühlung (Engl. immersion cooling) dar. Hierbei wird die IT direkt in ein nicht-leitendes flüssiges Kühlmittel eingetaucht (siehe: dazu auch den ersten Bericht in dieser Serie, „„Immersive Erlebniswelten“, die normalste Sache der Welt; Direct-to-Chip-Kühlung, in mehr als 100 der Equinix-Rechenzentren“). Ein zusätzlicher Kühlkreislauf transportiert dann die Wärme ab, gerne übrigens mit Wasser.

Die höchste Effizienz bringt das Eintauchen ganzer Systeme hervor. Doch eben dieser Ansatz geht auch mit den umfassendsten Anpassungen einher. Auf der Plus-Seite: Tauchkühlung hat einen geringen räumlichen Fußabdruck und ein vorteilhaftes Geräuschprofil als Alternativen. Diese Herangehensweise schlägt sich dort am besten, wo eine extrem hohe Rechenleistung gefragt ist.

Eine spezielle Form der Tauchkühlung ist die zweiphasige Immersionskühlung mit einem primären Kühlmedium, das bei niedriger Temperatur siedet und so durch Verdunstungskälte kühlt.

Die indirekte Kühlung nutzt im Gegensatz dazu zum Beispiel einen flüssigkeitsdurchströmten (Rücktür-)Wärmetauscher, der die thermische Energie der heißen Abluft aus dem Serverschrank mit Hilfe eines flüssigen Wärmeträgers aufnimmt und damit nur indirekt von den IT-Komponenten an ein externes System abführt. Alle diese Methoden haben sehr unterschiedliche Anforderungs- und Leistungsprofile und sind mit unterschiedlichen Risiken verbunden.

Direkt-am-Chip und der Sonderfall 'Kalte Platte'

Bei der Direct-to-Chip-Kühlung tritt ein flüssiges oder spezielles gasförmiges Kühlmittel direkt mit der betreffenden Komponente in Kontakt. Dadurch erreicht eine Direct-to-Chip-Kühlung eine schnelle Wärme-Ableitung und damit auch eine höhere Effizienz, insbesondere in Hochleistungsanwendungen, als alternative Ansätze.

Direct-to-Chip-Flüssigkeitskühlung greift punktuell an der Wärmequelle, nämlich unmittelbar an den Prozessoren. Eine Kühlflüssigkeit zirkuliert direkt über den Chips. Dieser Ansatz ermöglicht eine präzise Kühlung der heißesten Teile eines Servers, der sogenannten Hotspots.

Installation der „Zutacore“-Wärmeabfuhr-Einheit (HRU) in einem Standard-Rack bei Equinix.(Bild:  Equinix)
Installation der „Zutacore“-Wärmeabfuhr-Einheit (HRU) in einem Standard-Rack bei Equinix.
(Bild: Equinix)

Cold-Plate-Kühlung ist ein Sonderfall von Direct-to-Chip-Flüssigkühlung. Bei diesem Ansatz wird eine metallische Kaltplatte direkt an der Wärmequelle, beispielsweise direkt an einem Prozessor, angebracht, und flüssig gekühlt. Diesen Ansatz wählte Microsoft für seinen kürzlich vorgestellten KI-Beschleuniger „Maia 1000“ für die Ausführung von LLM-Modellen wie „Copilot“ in den „Azure“-Rechenzentren.

Diese schicke 'kalte Platte' bedeckt und kühlt Microsofts (unansehnlichen) KI-Beschleuniger „Maia 100“, damit er die Ausführung von LLM-Modellen wie „Copilot“ auf ein neues Niveau heben kann. Wie der Chip aussieht, geht keine/n was an!(Bild:  John Brecher für Microsoft)
Diese schicke 'kalte Platte' bedeckt und kühlt Microsofts (unansehnlichen) KI-Beschleuniger „Maia 100“, damit er die Ausführung von LLM-Modellen wie „Copilot“ auf ein neues Niveau heben kann. Wie der Chip aussieht, geht keine/n was an!
(Bild: John Brecher für Microsoft)

Eine Kühlplatte ist in der Regel aus Metallen wie Kupfer oder Aluminium gefertigt und verfügt über Rohre oder Kanäle, in denen ein Kühlmittel durch den Kühlkreislauf fließt. Manchmal bildet sie eine Zwischenschicht zwischen dem Chip und dem Kühlmittel, in anderen Fällen tritt sie direkt mit dem Chip in Kontakt. So überträgt sich die Wärme von der Wärmequelle auf die Cold Plate und auf das Kühlmittel und wird durch diese abgeführt.

Ein Systemtester in einem Microsoft-Labor in Redmond, Washington, bewertet vor der Auslieferung jeden Chip unter simulierten Bedingungen.(Bild:  John Brecher für Microsoft)
Ein Systemtester in einem Microsoft-Labor in Redmond, Washington, bewertet vor der Auslieferung jeden Chip unter simulierten Bedingungen.
(Bild: John Brecher für Microsoft)

Doch während der Ansatz in Bezug auf die Betriebssicherheit eine Reihe von Vorteilen gegenüber anderen Methoden bieten kann, ist er nicht ganz pannenfrei. Ein Sonderfall von Kaltplatte ist das System „Dynamic Cold Plate“-Systemreihe von Motivair.

Anpassungen an Bestandshardware

Direct-to-Chip-Flüssigkühlung erfordert in der Regel keine speziell modifizierten oder angepassten Chips. Die meisten handelsüblichen CPUs und GPUs können mit Direct-to-Chip-Flüssigkühlungssystemen gekühlt werden, vorausgesetzt, die Systeme sind mit den notwendigen Kühlanschlüssen und Wärmespreizern ausgestattet.

  • Die „D2C“-Flüssigkühlungstechnologie von Asetek bietet ein integriertes Pumpen- und Cold-Plate-Assembly, das die neuesten CPUs von Intel und AMD unterstützt. Dieses System ist als ein direkter Ersatz für Luftkühlkörper konzipiert und passt in ein 1U-Gehäuse, was die Kompatibilität mit einer breiten Palette von Serverkonfigurationen sicherstellen soll.
  • Ein anderes Beispiel ist das „Cool-IT Systems Rack“ DCLC (Direct Contact Liquid Cooling), das Kühlplatten verwendet, die direkt auf den Wärmequellen wie CPUs und GPUs angebracht werden.
  • GPUs wie die „Nvidia A100 PCIe“ GPU integrieren direkte Chipflüssigkühlung, um den Energieverbrauch im Vergleich zu luftgekühlter Hardware mit einem möglichst geringen Umfang an Anpassungen zu reduzieren und gleichzeitig eine höhere Rack-Dichte zu ermöglichen, was wiederum den Platzbedarf für die gegebene Kapazität verringert.

Wesentliche Einschränkungen

Obwohl Direct-to-Chip typischerweise in den Standard-Fußabdruck passt, sind dennoch einige architektonische Veränderungen auf Hardware- und Infrastrukturebene meist unumgänglich, um die Flüssigkeit zum Schrank zu leiten und sie auf die einzelnen Server zu verteilen. Der Server braucht sowohl Platz für die Direct-to-Chip-Kühllösung als auch Montagemöglichkeiten für den Einbau von Kühleinheiten und Rohrsystemen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Direct-to-Chip-Kühlung hat strikte Voraussetzungen an die technischen Gegebenheiten bestehender Infrastrukturen, diese sind jedoch nicht annähernd so eng umrissen wie im Falle der Immersionskühlung.DLC-Systeme wie Direct-to-Chip beziehungsweise der Sonderfall Cold Plate erfordern typischerweise mehr Aufwand als RDHx-Kühlsysteme (Rear Door Heat Exchanger; gemeint sind Türmodule, die die heiße Abluft der Server durch den Wärmetauscher leiten, bevor sie das Rack verlassen kann.)

Direkte Flüssigkühlung mittels Direct-to-Chip oder Kühlplatte stellt einen Mittelweg dar zwischen dem Wunsch nach der Minimierung struktureller Anpassungen und der Zielsetzung, die Kühlleistung zu maximieren. Der Ansatz findet Zuspruch in Rechenzentren, die eine Balance zwischen Innovationsbereitschaft und dem Erhalt bestehender Infrastrukturen anstreben (siehe dazu auch den kommenden Beitrag, „Fließender Übergang“).

Ein Mitarbeiter von Equinix montiert eine flüssigkeitsgekühlte Zutacore-Cold-Plate auf einer CPU.(Bild:  Equinix)
Ein Mitarbeiter von Equinix montiert eine flüssigkeitsgekühlte Zutacore-Cold-Plate auf einer CPU.
(Bild: Equinix)

Die nötigen Modifikationen für die Implementierung von direkter Flüssigkühlung im Rack umfassen typischerweise:

  • Hardware-Anpassungen: Montage von Kühleinheiten, wie Kühlkörper und Kühlplatten;
  • Einrichtung eines maßgeschneiderten Flüssigkeitskreislaufs, der die Wärme von den Chips abführt, samt Leitungen, Pumpen, Dichtungen und Lüftern oder einem Wärmetauscher, und die Integration dieser Komponenten, etwa das Auftragen von Wärmeleitpaste zwischen dem Chip und der Cold-Plate, um einen optimalen Wärme-Übergang zu gewährleisten;
  • Anpassungen an der Stromversorgung und den Stromleisten;
  • gegebenenfalls breitere Racks mit zusätzlichem Platz für Komponenten des Kühlsystems;
  • Kontroll- und Überwachungssysteme zur Beobachtung und Steuerung der Kühlleistung für optimale Betriebsbedingungen.

Im Übrigen ist es nicht unüblich, Direct-to-Chip- und den Sonderfall Cold-Plate-Cooling-Systeme mit herkömmlichen Luftkühlungssystemen zu kombinieren. Während das Flüssigkühlmittel die direkte Kühlung der heißesten Komponenten wie CPUs oder GPUs übernimmt (der so genannten Hotspots), entsteht auch woanders Abwärme; um diese abzuführen, springt die Luftkühlung an. Diese Kombination ermöglicht ein umfassendes Wärme-Management im gesamten Server oder Rack.

Die Anforderungen an das Layout und die Infrastruktur variieren je nach spezifischem Design und der geforderten Kühlkapazität und müssen natürlich in die Investitionsentscheidung mit einfließen.

Integrierte Flüssigkühlung

In integrierten Gesamtlösungen sind die (offensichtlichsten) Herausforderungen bereits holistisch gelöst. Ein exzellentes Beispiel ist das Rittal-Angebot für Direct-to-Chip „High Density Cooled-by-Zutacore“. Das System kombiniert IT-Gehäuse von Rittal mit der Verdunstungskühlungstechnologie „Hypercool“ des kalifornischen Anbieters, um Hotspots im Rechenzentrum zu neutralisieren.

Diese innovative Direct-to-Chip-Kühltechnologie ersetzt gewöhnliche CPU-Kühler durch die so genannten ENE-Kühlkörper (Enhanced Nucleation Evaporators). Diese Einheiten sitzen direkt auf den Prozessoren, eingetaucht im Kühlmedium, das sie umfließt.

Zutacore Hypercool“ erhöht die Leistungsdichte um das Zehnfache gegenüber reiner Luftkühlung. In anderen Worten: Hochleistungscomputing braucht mit dieser Lösung 90 Prozent weniger Raum als traditionelle, luftgekühlte Hardware.

Asetek- und Zutacore-Technik

Zum Vergleich: Asetek, ein Spezialist für Kühlung zum Übertakten von Chips mit einer Vertretung in Dänemark, bietet mit der Rack-CDU „D2C“ ein Direct-to-Chip-Flüssigkeitskühlsystem auf Serverebene. Die RackCDU ermöglicht Energie-Einsparungen von mehr als 50 Prozent und eine 2,5-fach höhere Dichte im Vergleich zu moderner Luftkühlung. Die Lösung kühlt CPUs, GPUs, Speichermodule und andere „Hotspots“ im Server, allerdings mit warmem Wasser.

Zutacore nutzt als Kühlmedium die synthetische nicht-leitende Flüssigkeit „Novec 7000“ von 3M (keine Kurzschlussgefahr!). Sie erreicht die Prozessoren in der Flüssigphase, verdunstet direkt auf dem Chip und kehrt als ein Gas zur Verteilereinheit zurück. Dort wird sie in die flüssige Phase luftgekühlt und kann zum Chip zurückkehren.

Diese hocheffiziente und nebenbei skalierbare zweiphasige Kühllösung (Stichwort: 2PLC) adressiert vor allem Hochleistungsrechenzentren, aber nicht nur. Hypercool lässt sich für unterschiedliche Anwendungsszennarien anpassen, von Rack-, über Rear-Door- bis hin zu ganzen Reiheninstallationen. Sie eignet sich sowohl für Hotspots im Rechenzentrum als auch in Edge-Anlagen. Die Technologie ermöglicht es, Racks ohne spezielle Klima-Anlagen oder Kühlwassersysteme in fast jeder Umgebung aufzustellen (Stichwort: „Rack-and-Roll“), auch an der industriellen Edge.

Die Kühlung mit einem dielektrischen Fluid ist für jede absehbare Entwicklung von Hochleistungs-Chips gerüstet und kann selbst Prozessorpakete mit über 1000 Watt Leistung effizient kühlen. Hypercool gilt dank des geringen Fußabdrucks als eine bestandsfreundliche und zukunftssichere Investition mit Blick auf die wachsenden Kühlungsanforderungen.

Das Zutacore-Produkt lässt sich direkt in bestehende Racks montieren, ob Standard, OCP oder Open19. Einmal installiert, läuft das hot-swappable System völlig autonom. Das System ist nur eines von vielen, aber sie illustriert den Trend hin zur Modularität.

Kühlmittel, Problemfelder und Risiko-Management

Die Auswahl des Kühlmittels spielt für die Leistung, die laufende Wartung und die Betriebssicherheit der Systeme eine zentrale Rolle. Diese Entscheidung erfordert daher sorgfältige Überlegungen. Das Angebot reicht von Wasser über Glykolmischungen bis hin zu dielektrischen Flüssigkeiten, also solchen, die nichtleitend, aber polarisierbar sind.

Wasser übertrifft Luft hinsichtlich der Wärmekapazität und -leitfähigkeit erheblich, was zu wesentlichen Energieeinsparungen führen kann. Direkte Wasserkühlung erlaubt höhere Betriebstemperaturen von bis zu 50 Grad, eine wichtige Voraussetzung für die Energierückgewinnung aus Abwärme.

Die Kanister mit zweiphasiger Kühlflüssigkeit sind bei Equinix angekommen. (Bild:  Equinix)
Die Kanister mit zweiphasiger Kühlflüssigkeit sind bei Equinix angekommen.
(Bild: Equinix)

Allerdings ist Wasser elektrisch leitend, was ein Risiko für elektronische Komponenten darstellt. Dieses Risiko wird oft durch den Einsatz von speziellen nichtleitenden Flüssigkeiten oder durch sorgfältige Isolierung und Systemdesign minimiert.

Kühlmittel wie dielektrische Flüssigkeiten stellen eine verlockende Alternative dar, indem sie effiziente Kühlung mit elektrischer Nichtleitfähigkeit kombinieren. Letzteres ist eine Voraussetzung für die Immersionskühlung.

Die Thomas-Krenn AG sieht die größten Potenziale im Kältemittel Heißwasser. Heißwasser-Direktkühlung sei „sowohl hinsichtlich der Praxistauglichkeit als auch bei den Einsparungspotenzialen die sinnvollste Alternative zu herkömmlicher Rechenzentrumskühlung“. Sogar bei kleineren Rechenzentren ließe sich der Stromverbrauch für die Kühlung „dramatisch reduzieren“; denn hinzu kämen ja noch weitere Einsparungen in Verbindung mit der Abwärmenutzung. In HPC-Computing sei die Betriebssicherheit problemlos nachgewiesen worden. Die Eigenentwicklung liegt allerdings derzeit auf Eis - man hat sich mit Cloud&Heat zusammengetan.

Mit den flüssig gekühlten Datacentern von Cloud&Heat, zum Beispiel in Verbindung mit den Standard-Servern von Thomas-Krenn, könnten auch kleine Rechenzentren, lokale Serverräume oder Edge-Rechenzentren die Potenziale dieses umweltneutralen Kältemittels ausloten.

  • Synthetische Kältemittel fallen im Grunde genommen in eine von drei Kategorien:
  • Dielektrische Flüssigkeiten: Nicht-leitende Flüssigkeiten, die in Immersionskühlungssystemen zum Einsatz kommen, weil sie direkten Kontakt mit elektronischen Komponenten ermöglichen;
  • Fluoroketone und Fluoride (Rechenzentren, insbesondere wenn sie seit 2013 in Betrieb sind, sollten halogenfreie Kältemittel verwenden und damit auf Fluoroketone und Fluoride verzichten);
  • Mineralölbasierte Flüssigkeiten: Sie sind eine kostengünstigere Option für Immersionskühlung, aber weniger effizient als klassische dielektrische Flüssigkeiten.

Ein entscheidender Faktor für die Sicherheit von Direkt-zur-Chip-Kühlungen ist die Verwendung eines nicht-leitenden (und nicht-korrodierenden) Kühlmittels, um das Risiko von Kurzschlüssen zu minimieren. Typischerweise handelt es sich dabei um eine Flüssigkeit, manchmal aber auch um ein gasförmiges Medium. Um eine ordnungsgemäße Trennung zu gewährleisten, verfügen sowohl Cold Plate-Kühlungen als auch Direct-to-Chip-Kühlungen über speziell abgedichtete Schnittstellen zwischen der Kaltplatte und den übrigen Komponenten des Systems.

Sowohl Leckagen als auch Verunreinigungen können die Betriebsfähigkeit einer direkten Flüssigkühlung beeinträchtigen und Ausfälle verursachen. Dichtungen und andere Isolationsmaßnahmen können in Verbindung mit Überwachungssystemen die nötige Betriebssicherheit gewährleisten. Das Kühlmittel darf aus dem geschlossenen Kreislauf nicht austreten.

Unterdrucksysteme haben die Aufgabe, das unerwünschte Austreten des Kühlmittels und damit eine Beschädigung der Elektronik zu verhindern. Wird der Kreislauf unterbrochen, fällt der Druck und die Pumpen saugen die Rohre trocken, um Leckagen des Kühlmittels zu verhindern.

Artikelfiles und Artikellinks

(ID:50006304)