Flüssiger Übergang in einem Equinix-Datacenter Ein Rechenzentrum, das sich „gewaschen hat“

Von Anna Kobylinska und Filipe Martins* 9 min Lesedauer

Anbieter zum Thema

Die Umstellung eines bestehenden Rechenzentrums auf den flüssigkeitsgekühlten Betrieb ist eine Aufgabe der besonderen Art. Sie bringt ganz eigenartige Fallstricke mit sich und bietet viel Raum für manche teuren Fehler. Doch nichts wird so heiß gekocht, wie es gekühlt werden kann.

Christian Pineda, Betriebsingenieur im „NY5“-Rechenzentrum von Equinix, bei der Arbeit an der Installation der zweiphasigen Flüssigkühlung von Zuttacore.(Bild:  Equinix)
Christian Pineda, Betriebsingenieur im „NY5“-Rechenzentrum von Equinix, bei der Arbeit an der Installation der zweiphasigen Flüssigkühlung von Zuttacore.
(Bild: Equinix)

Der Wechsel zur Flüssigkühlung verspricht zahlreiche Vorteile, von verbesserter Kühlleistung bis hin zu geringerem Energieverbrauch für eine „grünere“ IT und einem geringeren Fußabdruck (siehe dazu “ Techniken, die Rechenzentren „verflüssigen“; Ein Tropfen auf das heiße Silizium ).

„Als wir unseren ersten Einsatz eines flüssigkeitsgekühlten Produktionssystems [in 2022] starteten“, erinnert sich My Truong, Feld-CTO bei Equinix, „ging es uns nicht um eine höhere Leistung“. Den Leistungsvorteil habe man schon als eine Selbstverständlichkeit angenommen, schließlich hatten sich die Ingenieure von Equinix schon mehrere Jahre lange mit der Problematik auseinandergesetzt. Das Ziel bestand vielmehr darin, „zu lernen, was es bedeutet, ein flüssigkeitsgekühltes Rechenzentrum [in einer lebensechten Produktionsumgebung] am Laufen zu halten“, so Truong.

Man wollte aus der Bereitstellung und dem Betrieb einer unternehmenseigenen flüssigkeitsgekühlten Produktionsumgebung den Weg zur breiteren Einführung der Flüssigkeitskühlung erkunden, um den eigenen Co-Location-Kunden den Weg zu ebnen. Auch erfahrene Datacenter-Betreiber könnten die ingenieurtechnischen Herausforderungen leicht unterschätzen, insbesondere in Bezug auf Rohrleitungssysteme, Pumpsysteme und die Kompatibilität mit IT-Geräten.

Anschließen von Flüssigkeitszufuhr- und Dampflabzugsleitungen an eine so genannte Cold Plate von Zuttacore.(Bild:  Equinix)
Anschließen von Flüssigkeitszufuhr- und Dampflabzugsleitungen an eine so genannte Cold Plate von Zuttacore.
(Bild: Equinix)

Der Übergang zur Flüssigkeitskühlung, insbesondere zu DTC-Systemen (DTC- = Direct-to-Chip), bringt mit sich komplexe Integrationsherausforderungen, die über die bloße Installation von Kühlhardware hinausgehen. Rechenzentrumsbetreiber müssen die Kompatibilität von Kühlungslösungen mit bestehender Hardware, die notwendigen Infrastrukturmodifikationen, die Integration mit Steuerungssystemen und die Kapazität der Wärme-Ableitungssysteme berücksichtigen. Ein erfolgreicher Übergang erfordert sorgfältige Planung, fachkundige Beratung und möglicherweise eine phasenweise Implementierung, um Störungen zu minimieren und die betriebliche Kontinuität zu gewährleisten.

Der Übergang zur DTC-Flüssigkeitskühlung erfordert eine umfassende Bewertung nicht nur der Server und der Kühltechnologie, sondern auch der unterstützenden Infrastrukturen und der betrieblichen Integration. Diese beinhaltet insbesondere:

  • Detaillierte Kompatibilitätsprüfung zwischen Kühlungslösungen und Serverhardware.
  • Gründliche Planung für Infrastrukturmodifikationen, einschließlich Rohrleitungs- und Elektro-Arbeiten.
  • Integration mit bestehenden Steuerungs- und Überwachungssystemen, um einen nahtlosen Betrieb zu gewährleisten.
  • angemessene Dimensionierung und Vorbereitung der Wärmeableitungssysteme, um erhöhte thermische Lasten zu bewältigen.

Workloads wie HPC und KI setzen zwingend enge Distanzen zwischen Servern voraus, um die Latenz gering zu halten. Da die Menge an leistungsintensiver Hardware sprunghaft zunimmt, gestaltet sich die Verteilung dichter Server auf mehrere Racks für die Unternehmen schon allein aufgrund der zusätzlichen Verkabelungslängen als unpraktisch, ineffizient und kostspielig. Durch den Einsatz von Flüssigkeitskühlung können Betreiber den Platz zwischen Schränken reduzieren, um möglichst viele Server mit hoher Leistungsdichte mit Blick auf solche hochverdichteten Workloads in unmittelbarer Nähe zueinander zu platzieren.

Die nächste Phase

Für Equinix bot sich die Chance, die Flüssigkühlung im Produktionsbetrieb auf die Probefahrt zu nehmen, nach der Akquise von Pocket, dem Bare-Metal-Dienstleister aus dem U.S.-Bundesstaat New York. Die Übernahme bescherte Equinix eine eigene Infrastruktur eines lebensechten Cloud-Provider.

So hat sich das Team von Equinix entschieden, in einem der Racks, in dem die Metal-Kontrollebene lief, ein Flüssigkühlungssystem zu installieren. Die Wahl fiel auf die zweiphasige Lösung des Equinix-Partners Zutacore und ihren „radikal neuartigen“ Ansatz in der Industrie.

Einphasige Kühlsysteme beruhen auf dem Prinzip der Wärmeleitung. Zweiphasige Kühlsysteme machen sich stattdessen das Phänomen der Phasenumwandlung zu Nutze, also die Fähigkeit von Flüssigkeiten, zu verdampfen und zu kondensieren.

Der Schlüssel zur Zweiphasenkühlung: Der Chip muss genügend Wärme erzeugen, um die Kühlflüssigkeit verdampfen zu lassen. Für einen Supercomputer genügt bereits Wasser in einem einphasigen, auf Konduktion basierenden Kühlsystem. Wasser verdampft bei 100 Grad (auf Meereshöhe).

Der passive CPU-Kühlkörper muss von dem luftgekühlten Standardserver-Motherboard abmontiert sein. An seiner Stelle kommt die Cold Plate von Zuttacore hin.(Bild:  Equinix)
Der passive CPU-Kühlkörper muss von dem luftgekühlten Standardserver-Motherboard abmontiert sein. An seiner Stelle kommt die Cold Plate von Zuttacore hin.
(Bild: Equinix)

Im Zutacore-System verdampft die zweiphasige Flüssigkeit (Kältemittel) bei etwa 33 Grad. Ein winziges Becken für die Flüssigkeit liegt direkt auf dem Prozessor an; in dieser Kammer tritt die Flüssigkeit mit der Chipoberfläche in Kontakt und verdampft auf Grund der Hitze; das System füllt die Kammer automatisch wieder nach.

So bleibt die Temperatur der Metallplatte im Chipgehäuse (dem „Integrated Heat Spreader“) im Allgemeinen bei knapp über 33 Grad (92 F). Diese Temperatur hat im Fachjargon die Bezeichnung „Tcase“.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die CPU bekommt frische Wärmeleitpaste, damit die flüssigkeitsgekühlte Cold Plate möglichst dicht an der Chipoberfläche die Abwärme an sie abgeben kann.(Bild:  Equinix)
Die CPU bekommt frische Wärmeleitpaste, damit die flüssigkeitsgekühlte Cold Plate möglichst dicht an der Chipoberfläche die Abwärme an sie abgeben kann.
(Bild: Equinix)

Die größte Herausforderung bei der Kühlung von CPUs und GPUs besteht darin, Tcase auf einem sicheren Betriebspunkt zu halten. Der maximale Tcase-Wert für ältere Chips wie die Intel-Server-CPU „Xeon V2“ liegt bei 74 Grad; bei den neueren Xeon-Prozessoren liegt sie deutlich darüber. Je niedriger der Tcase, desto strenger sind die Anforderungen an das zweiphasige Kühlmittel.

Bloß nicht vom Standard abweichen!

Für seine erste flüssigkeitsgekühlte Produktionsumgebung entschied sich das Team von Equinix zugunsten von Standardhardware. Man verzichtete auf „übermäßig leistungsintensive“ CPUs und GPUs.

Die Konvertierung beschränkte sich erst einmal auf luftgekühlte „AMD SP3“-Systeme (die Bare-Metal-Instanzen, die Pocket-Kunden als m3.large.x86 bekannt waren). Bei den 1RU-Servern in 19" Racks handeltes es sich eher ein hochvolumiges System, von dem Equinix über „eine ganze Flotte“ jederzeit verfügen konnte.

Die TDP der AMD-Prozessoren (TDP = Thermal Design Power, das heißt: die maximale Wärmemenge, die ein Chip sicher abgeben kann) betrug 180 bis 200 Watt und lag damit im Rahmen der Leistungsfähigkeit eines herkömmlichen Luftkühlungssystems. Die nächste CPU-Generation mit sehr hohem TDP stand Anfang 2023 bereits vor der Türe. In Vorfreude darauf wollten die Ingenieure den bevorzugten Ansatz schon vor dem Stichtag an weniger anspruchsvollen Systemen ausprobieren – dafür gleich an einem kompletten Rack, das die Steuerungsebene der Produktionsumgebung bediente: das Kundenportal console.equinix.com und die Metal-API. (Anm. der Autoren: Die IT darf halt niemals langweilig werden!)

Und jetzt? Jetzt ist die Die Dampfrücklaufleitung dran, die das Verteilersystem mit der HRU verbindet. Was sonst?(Bild:  Equinix)
Und jetzt? Jetzt ist die Die Dampfrücklaufleitung dran, die das Verteilersystem mit der HRU verbindet. Was sonst?
(Bild: Equinix)

Die Installation war ein einfaches „Stack-up“: ein 6-RU-Flüssigkeit-Luft-Tauscher am Boden, mehr als 20 1-RU-Systeme darüber und ein Verteiler an der Seite. Dank des geringen Rohrdurchmessers war das Verlegen der Flüssigkeits- und Dampfleitungen erstaunlich einfach.

Die kurzen seitlichen Leitungen vom Server zum gemeinsamen Verteiler, der sich über mehrere Racks hinweg ausstreckte, würden die Ingenieure als eine Installationsmethode heute nicht mehr empfehlen. (Man lernt immer was Neues.)

Die Installation der Dampf- (dicker) und Flüssigkeitsleitungen (dünner) zwischen dem Verteilersystem und der HRU ist abgeschlossen. Etwas „Durchblick“ kann jetzt eigentlich nicht schaden.(Bild:  Equinix)
Die Installation der Dampf- (dicker) und Flüssigkeitsleitungen (dünner) zwischen dem Verteilersystem und der HRU ist abgeschlossen. Etwas „Durchblick“ kann jetzt eigentlich nicht schaden.
(Bild: Equinix)

Damit standen sie erst am Anfang einer endlosen Liste geplanter Arbeitsschritte und unerwarteter Widrigkeiten.

Schwimmen (lernen) ohne Wasser

Jahrzehntelang hatte man bei Equinix den Datacenter-Fachkräften sicherheitshalber „eingetrichtert“, dass sich Flüssigkeiten und Elektronik miteinander nicht vertragen würden. Das nicht toxische, nichtleitende, nicht-korrosive, flammhemmende Zweiphasenkühlmittel des Zuttacore-Systems kann man in Sachen Leitfähigkeit nicht mit Wasser „über den gleichen Kamm scheren“.

Dennoch hat sich eben die Vereinfachung in offizielle Dokumentationen der IBX-Datencenter eingeschlichen und in einem Verbot der Anlieferung „sämtlicher“ Flüssigkeiten niedergeschlagen. Diese Richtlinie streute plötzlich Sand ins Getriebe des Zuttacore-Projekts: Ohne die Fähigkeit zur Abnahme des Flüssigkühlmittels wird die Flüssigkühlung nicht anlaufen!

Die HRU wird mit dem Kältemittel über die "Wartungseinheit" (die blaue Box) gefüllt.(Bild:  Equinix)
Die HRU wird mit dem Kältemittel über die "Wartungseinheit" (die blaue Box) gefüllt.
(Bild: Equinix)

Der Verteiler und seine Schnellanschlüsse nutzen ein tropffreies Design, das beim Trennen maximal einen Tropfen Flüssigkeit freisetzt. Zudem verdampft das flüssige Kühlmittel unter atmosphärischen Bedingungen, und zwar vollständig.

Der Drucktest während der Inbetriebnahme sorgt in Kombination mit einem Kühlmittelleck-Detektor für ein hohes Maß an Sicherheit und Robustheit des autonomen Systems.

Wurde das System mit Flüssigkeit gefüllt , folgt die Druckmessung und dann – nach einem erfolgreichen Drucktest – die Überprüfung mit dem Leck-Detektor.(Bild:  Equinix)
Wurde das System mit Flüssigkeit gefüllt , folgt die Druckmessung und dann – nach einem erfolgreichen Drucktest – die Überprüfung mit dem Leck-Detektor.
(Bild: Equinix)

Bei der zweiten Installationsrunde fielen einige Systeme beim Drucktest durch. „Halt, Kommando Zurück!“ Bei der Diagnose und Problembehebung mussten die Experten von Zuttacore nachhelfen.

Die Equinix-Installation widersprach den Empfehlungen von Zutacore hinsichtlich der erforderlichen Wärmemenge (>= 6 kW) für optimale Betriebsbedingungen. „Wir beobachteten, dass die vom BMC gemeldete tJunction (Temperatur im Prozessorgehäuse) bei sehr geringen Wärmemengen im Gesamtsystem auf und ab sprang“, erinnert sich einer der Ingenieure. tJunction lag jedoch stets unter dem entsprechenden Wert einer luftgekühlten Installation (<=ca. 2kW im Flüssigkeitssystem), als das Team begann, Server hinzuzufügen.

die vervollständigte Installation des zweiphasigen Flüssigkühlsystems Ansicht: Vorderseite des Rack.(Bild:  Equinix)
die vervollständigte Installation des zweiphasigen Flüssigkühlsystems Ansicht: Vorderseite des Rack.
(Bild: Equinix)

Der eingesetzte Verteiler war in der Lage, rund 1 Kilowatt Wärme abzuführen und eine frühzeitige Kondensation des Dampfes zu bewirken, bevor er den Wärmetauscher oder die HRU (Heat Rejection Unit) erreichte. Dies habe die Temperaturschwankungen bei Druckänderungen verursacht.

Die komplette Installation des zweiphasigen Flüssigkühlsystems - Ansicht: die Rückseite des Rack.(Bild:  Equinix)
Die komplette Installation des zweiphasigen Flüssigkühlsystems - Ansicht: die Rückseite des Rack.
(Bild: Equinix)

Selbst bei diesen Schwankungen konnten die Ingenieure keine tJunction über 52 Grad beobachten; diese Metrik lag stets deutlich unter dem Wert aller luftgekühlten 1U-Äquivalente unter Last. Dennoch empfiehlt Equinix anderen Zuttacore-Anwendern „dringend“, sich an die Vorgaben des Herstellers zu halten. Equinix selbst betreibt das System seither mit der von Zutacore empfohlenen Leistungsstufe.

Die Anlage laufe seit ihrer Inbetriebnahme stabil und ohne Probleme – bereits im zweiten Jahr seit der Inbetriebnahme in einem Equinix-Rechenzentrum in New York.

Bestand wahren

Das Nachrüsten direkter Flüssigkühlung in einem Altlasten-Rechenzentrum kann den Stromverbrauch der Einrichtung reduzieren, hat eine gemeinsame Untersuchung von Nvidia und Vertiv nachgewiesen. Ob sich der Aufwand tatsächlich lohnt, steht auf einem anderen Blatt.

Das betreffende Rechenzentrum im U.S.-Bundesstaat Maryland in dem gemeinsamen Projekt von Nvidia und Vertiv hatte sich zuvor zu 100 Prozent mit Luft gekühlt. Es umfasste 50 hochverdichtete Racks, die in zwei Reihen mit Hot-Aisle-Containment angeordnet waren. Der untersuchte Standort bietet Rechenzentren ein ähnliches Klimaumfeld wie das Rhein-Main-Gebiet, die Rheinebene und Teile von Baden-Württemberg, nämlich milde Winter und relativ warme Sommer mit einer moderaten bis hohen Niederschlagsmenge.

Die untersuchte Einrichtung hatte zwischen einem und zwei MW an Nennleistung. Sie verfügte über zwei CRAH-Kühleinheiten am Perimeter und einen „Vertiv Liebert AFC“-Kühler mit Freikühlung, adiabatischer Freikühlung, Hybridkühlung und adiabatischer mechanischer Kühlung.

Was bringt die Umstellung ein?

Um genaue Messungen pro Komponente zu ermöglichen, haben sich die Ingenieure für eine direkte Chipkühlung mittels Mikrokanal-Kühlplatten entschieden, Kategorie Direct-to-Chip. Sie haben diese Kühlplatten auf den wichtigsten Wärme-erzeugenden IT-Komponenten montiert und mit zwei Kühlmittelverteilungseinheiten (CDUs) vom Typ „Liebert XDU“ von Vertiv mit Flüssigkeit-zu-Flüssigkeit-Wärmetauschern versorgt.

Vertiv hat mit der Liebert XDU eine wassereffiziente Flüssigkühlungslösung speziell für EMEA in enger Zusammenarbeit mit Rechenzentrumsbetreibern und Serverherstellern entwickelt. Die Liebert XDU ist eine Verteilereinheit für Liquid-to-Liquid-Kühlung für DHx-Kühlsysteme und Direct-to-Chip. Sie zirkuliert Wasser durch flüssigkeitsgekühlte Server-Racks und nutzt hierzu einen geschlossenen Wasserkreislauf. Je nach Ausbaustufe kann das System bis zu 450 kW oder 1.368 kW verwalten.

Die Kühlmittelverteilungseinheiten (Coolant Distribution Units)  „Liebert XDU“ von Vertiv.(Bild:  Vertiv)
Die Kühlmittelverteilungseinheiten (Coolant Distribution Units) „Liebert XDU“ von Vertiv.
(Bild: Vertiv)

Das System verbindet Flüssigkühlung von Servern mit Wärmerückgewinnung für die Kreislaufwirtschaft. Durch den Einsatz von speziellen Steuerungen kann es die Pumpendrehzahl anpassen, um die Vorlauftemperatur zu optimieren und trumpft mit Funktionen wie der intelligenten Durchflussüberwachung und Alarmierung. Dank redundanter Pumpen und redundanter Stromversorgung kann sie thermische Schocks der CPUs und GPUs eliminieren.

Das Kühlmittelverteilungssystem ermöglicht den Betrieb von flüssigkeitsgekühlten Server-Applikationen in jeder Rechenzentrumsumgebung von Core- bis Edge-Computing-Standorten, mit und ohne Zugang zu Anlagenwasser.

Die Ingenieure haben dann in vier separaten Untersuchungen den Anteil flüssiggekühlter Last für jedes Untersystem progressiv erhöht und gleichzeitig diverse Optimierungen der gekühlten Wassertemperatur, der Zulufttemperatur und der sekundären Einlasstemperatur vorgenommen. In der umfassendsten Phase des Experiments, in der die Abwärme von nahezu drei Viertel (74,9 Prozent) der Last durch direkte Flüssigkühlung abgeführt wurde, fiel der Energieverbrauchs der Einrichtung um 18,1 Prozent und der Gesamtenergieverbrauchs des Rechenzentrums um 10,2 Prozent im Vergleich zum Ausgangszustand (100 Prozent Luftkühlung). Nicht gerade umwerfend, aber immerhin weniger als zuvor.

Anderer Test, anderes Ergebnis

Die Ergebnisse einer gemeinsamen Untersuchung von Nvidia und Equinix in separaten Tests konnten eine Energie-Einsparung von bis zu 30 Prozent bei der Nutzung von Flüssigkühlung im Vergleich zu Luftkühlung verweisen. Vertiv stellt im Übrigen eine Flüssigkeitskühlungslösung für den neuen „Intel Gaudi3“AI-Beschleuniger bereit. Diese Lösung basiert auf Vertivs gepumpter Zwei-Phasen-Kühlungsinfrastruktur (P2P). Sie unterstützt wahlweise flüssigkeits- oder luftgekühlte Server, allerdings mit deutlichen Unterschieden in der Wärme-Management-Kapazität.

Die flüssigkeitsgekühlte Variante ist für deutlich höhere Leistungsbereiche und Wärmelasten ausgelegt. Mit Beschleunigern von bis zu 160 kW benötigt sie lediglich Anlagenwasser mit einer Eingangstemperatur von 17 Grad bis 45 Grad. Die luftgekühlte Lösung verkraftet im Gegensatz dazu eine Wärmelast von bis zu 40 kW in Rechenzentren mit warmer Umgebungsluft von bis zu 35 Grad.

Diese mitteldruckbasierte P2P-Kühllösung soll Unternehmen bei der Implementierung der fortan gesetzlich geforderten Wärmerückgewinnung, Warmwasserkühlung und freier Luftkühlung helfen

*Das Autorenduo

Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.

Ihr Fazit lautet: In hochverdichteten IT-Umgebungen schon länger unumgänglich, findet Flüssigkühlung langsam auch in Bestands-Rechenzentren Eingang. Die Integration von Flüssigkeitskühlsystemen in die bestehende Infrastruktur eines Rechenzentrums ist dennoch eine komplexe Angelegenheit mit garantierten Vorteilen und übersichtlichen Risiken

Artikelfiles und Artikellinks

(ID:50047772)