Tauchbäder für Hardware OCP kümmert sich um Immersion im Rechenzentrum

Autor / Redakteur: lic.rer.publ. Ariane Rüdiger / Ulrike Ostler

Flüssigkühlsysteme werden früher oder später wegen ihrer um Größenordnungen höheren Effizienz die Rechenzentren erobern. Nun beginnt die OCP (Open Compute Project), Standards, Designrichtlinien und Best Practices zu entwickeln.

Firmen zum Thema

Immersionskühlung arbeitet um Dimensionen wirksamer als Luftkühlung.
Immersionskühlung arbeitet um Dimensionen wirksamer als Luftkühlung.
(Bild: gemeinfrei / Pixabay )

Ob Cold Plates, Kühltüren oder Immersionskühlung: Noch sind Flüssigkühlsysteme in kommerziellen Rechenzentren eine exotische Erscheinung. Doch das könnte sich in einigen Jahren mit steigenden Rechnerleistungen und Anforderungen an die thermale Effizienz gründlich ändern; denn flüssige Kühlmittel schaffen mehr Wärme weg: Ein Kilo Hydrokarbon-Flüssigkeit hat ein Volumen von 1,4 Litern und eine Kühlleistung von 1850 Joule. Ein Kilo Luft hat 733,46 Liter Volumen und kühlt 1,3 Joule!

Die höheren Betriebstemperaturen flüssiggekühlter Systeme ermöglichen weiter höhere Abwassertemperaturen. Das wiederum vereinfacht die Abwärmenutzung.

Komplexer als Luft

Doch Flüssigkühlung, welcher Art auch immer, ist wesentlich komplexer als Kühlung per Luftstrom. Der Grund: ihre enge Kopplung mit den IT-Systemen, der große Einfluss von Design und Packaging der elektronischen Komponenten, sich überschneidende und miteinander verbundene Flüssigkeitskreisläufe, die sich mittels thermodynamischer Rückkopplungen wechselseitig beeinflussen, fehlende Standards für Ventile, Kopplungen oder Schläuche, fehlende Metriken.

Um diese Probleme anzugehen, hat sich bereits 2017 innerhalb der die Gruppe Advanced Cooling Systems (ACS) gegründet, die auf der OCP Tech Week im November erste Whitepapers zum Thema Immersionskühlung vorgelegt hat.

Designrichtlinien für Immersions-gekühlte IT-Systeme

Ein Papier der Gruppe, das sich mit Designrichtlinien für Immersions-gekühltes IT-Equipment befasst, befindet sich im Freigabezyklus und soll bald verabschiedet werden. An dem Papier haben Intel, 3M, 2CRSI, Vertiv, Flex und Asperitas mitgewirkt. Jessica Gullbrand, Intel, hat auf der kürzlich stattgefundenen virtuellen Tagung der Open Compute Foundation wesentliche Inhalte vorgestellt.

Materialkompatibilität ist knifflig

„Materialkompatiblität zwischen Kühlflüssigkeit und allen anderen Komponenten ist grundlegend für die Funktion solcher Systeme“, sagt Gllbrand. Daher müssten alle Materialien des Gesamtsystems bis zum Labelkleber am Kabel bekannt sein. Nur für das, was man kenne, könne man schließlich Lösungen entwickeln.

Solche Infos seien oft schwer erhältlich, ihr Fehlen eine Quelle für Fehler. „Schlimmstenfalls schwimmen abgelöste Label in der Kühlflüssigkeit, oder es werden Stoffe darin gelöst, die die Kühlfunktion beeinträchtigen.“, warnte Gullbrand.

Thermaldesign

Das Thermaldesign unterscheide sich bei ein- und zweiphasigen Systemen. Einphasige gibt es für natürliche oder durch Pumpen hergestellte Konvektion. Die maximal erreichbare Fließgeschwindigkeit ist hier ein wichtiger Parameter.

In einphasigen Systemen muss man die Komponenten, die am meisten Abwärme erzeugen, zum Beispiel CPUs, GPUs oder Stromversorgung, am weitesten unten im Tank montieren. Denn das Kühlmittel ist unten im Tank am kühlsten. In zweiphasigen Systemen ist es überall etwa gleich warm.

Tankbeschichtung

Ein weiteres kniffliges Thema ist die Beschichtung des Tanks. Sie kann bei zweiphasigen Systemen, in denen die Kühlflüssigkeit kocht und verdampft und dann wieder kondensiert, bewirken, dass der Phasenwechsel früher stattfindet.

Die Kondensierungsfläche muss sorgfältig gestaltet werden, damit die abgekühlte Flüssigkeit schnell wieder zurückfließt. Zweiphasige Systeme kennen keine thermische Verschattung durch Komponenten, weil das Kühlmittel gleichmäßig temperiert ist.

Mechanik soll Kühlmittel nicht behindern

Beim mechanischen Design sei, so Gullbrand, besonders wichtig, dass sich das Chassis an die Tankgröße und den Immersionstyp anpassen lasse. Außerdem werden Griffe, Haltepunkte und Leitschienen für reibungslosen Ein- und Ausbau der IT-Komponenten empfohlen.

Die Komponenten sollen so orientiert sein, dass sie die Kühlflüssigkeit in einphasigen Systemen nicht am Fließen hindern, die Rippen der Hitzesenke etwa parallel zur Strömungsrichtung. Kabel sollen die passende Länge haben und Stecker trocken von oben zugänglich sein.

Stromsammelschienen sollen schwimmend mit den Anschlüssen nach oben eingebaut werden. Gleichzeitig dürfen sie Wartungs- und Bestückungsvorgängen an der IT nicht im Weg sein und müssen vor herabfallenden Teilen geschützt werden.

Datacenter-Management-Software und Immersionslösungen

Auch die Software fürs IT- und Datacenter-Management braucht Anpassungen. Insbesondere können aufgrund der höheren thermalen Toleranz CPUs höhertourig laufen. Man darf ihnen regelmäßig mehr Leistung abverlangen, ohne dass sie überhitzen.

Neue Reporting-Parameter sind erforderlich. Beispielsweise müssen die Fließrate, die Temperatur und die Qualität der Kühlflüssigkeit permanent überwacht werden.

Auch die Firmware sollte den Immersionsikühlsystemen angepasst sein: Sinnvoll wären vordefinierte Settings für die Immersionskühlung oder ein Schalter, der bei Aktivierung Systeme automatisch für Immersions- oder andere Kühlformen optimiert.

Plattform-Prototyp für die Edge

Inzwischen sind drei applikationsspezifische Plattformprototypen für den Einsatz an der Edge, im Mainstream-Datacenter und für Künstliche Intelligenz und Machine Learning entstanden. Sie nutzen eine zusammen mit Shell entwickelte einphasige Hydrokarbon-Kühllösung mit natürlicher Konvektion von Asperitas.

„Am Edge gibt es wenig Platz, aber hohe Temperaturen“, sagt Asperitas-CEO Rolf Brink. Der Prototyp basiert daher auf einem 1Unit/15-Zoll-Gehäuse, nutzt vier „AMD-Epyc“-Prozessoren und ist für Temperaturen bis 48 Grad Celsius ausgelegt, schaffe aber bereits bis 51 Grad Celsius. Basis ist ein Supermicro-Rechner des Modells „2124 BT-HTR“. Wegen des 15-Zoll-Formats wurde ein Board senkrecht montiert.

Ein Immersionssystem fürs Mainstream-Enterprise

Die Mainstream-Enterprise-Plattform basiert auf den Dell-Blades „C6525“/„C6420“. Ziel war die optimale Zuverlässigkeit bei konservativem Wärme-Management und optimiertem Stromverbrauch. Das System sollte auch für Rechenzentren mit freier Kühlung geeignet sein. Die Komponenten sind bei laufendem Betrieb austauschbar.

Wegen des Zugriffs von oben fehlen die Festplatten am hinteren Ende der Blades. Stattdessen ist die Serverkomponente im Blade verlängert. Die Backplane ist dafür angepasst worden. Die Stromversorgung befindet sich m Tank auf derselben thermalen Ebene wie die CPUs.

KI/ML-Prototyp für Immersionskühlung

Der Plattformprototyp für Artificial Intelligence und High Performance Computing basiert auf einem „Penguin Rolion X01114GTS“ mit vier GPUs und zwei CPUs. Die GPUs ist am weitesten unten im Tank untergebracht. Dass die Stromversorgung für eine Stromschiene entwickelt wurde, sparte im Tank 17 Prozent Platz ein.

Das Format mit einer Höheneinheit sorgt für weite Platzersparnis. Die Infiniband-Konnektoren befinden sich oben am Modul und sind damit trocken erreichbar.

Auf diesem „Penguin Rolion“ basiert der OCP-Plattformprototyp für AI und HPC.
Auf diesem „Penguin Rolion“ basiert der OCP-Plattformprototyp für AI und HPC.
(Bild: gemeinfrei / Pixabay )

Dieses System ist für eine Dauerauslastung von 60 Prozent ausgelegt. Asperitas geht davon aus, dass weitere Optimierungen das Temperaturspektrum um bis zu 15 Grad Celsius ausweiten könnten.

Immersion schon beim Datacenter-Bau mitdenken

Damit Flüssigkühlsysteme schrittweise in bestehende Rechenzentren integriert werden können, hat sich die Arbeitsgruppe Advanced Cooling Facilities (ACF) gebildet. Denn, so ist sich Kühlspezialistin Jessica Gullbrand von Intel sicher, „Flüssigkühlung kommt!“

Die Gruppe erarbeitet praxistaugliche Lösungen und Werkzeuge für die Integration ins Rechenzentrum. Auch wie man verschiedene Flüssigkühl-Technologien nebeneinander in einem ursprünglich für Luftkühlung ausgelegten Rechenzentrum unterbringt, ist ein ACF-Thema.

Berücksichtigt werden sollte etwa, dass die Fließgeschwindigkeit eines Kühlmittels durch die Rohrdicke und die Viskosität des Kühlmittels begrenzt wird. Also ist es besser, von Anfang an Platz für dickere Rohre einzuplanen, sollte der Kühlbedarf skalieren. Die ACF-Arbeitsgruppe möchte Werkzeuge entwickeln, mit denen sich solche Zusammenhänge darstellen lassen, um sie schon bei der Planung zu berücksichtigen.

Kompetenzwirrwarr vermeiden

Zudem stellen sich bei Flüssigkühlung heikle Zuständigkeitsfragen:

  • Wie gestaltet sich der Übergang zwischen dem allgemeinen Wasserkreislauf des Rechenzentrums zum Kühlkreislauf der IT-Systeme?
  • Wie und wo findet die Übergabe statt?
  • Wer ist ab wann zuständig?

Solche und ähnliche Fragen soll die Arbeitsgruppe klären, um am Ende zu möglichst einfach in die jeweilige Rechenzentrumspraxis umsetzbaren Empfehlungen und Hinweisen zu kommen. Das wäre ein erster Schritt, die Flüssigkühlung auch für Enterprise-Rechenzentren zu einer echten Option zu machen.

Heute, so heißt es in der Intel-Präsentation, interessieren sich insbesondere Co-Location-Anbieter dafür. Schließlich könnten schon bald nachhaltigkeitsbewusste Kunden vor der Tür stehen, die eine fürs Klima günstigere Kühltechnik fordern.

Das ist nicht unwahrscheinlich; denn laut einer Studie von 451 Research im Auftrag von Schneider Electric fordert schon derzeit die überwiegende Mehrheit der Co-Location-Kunden Service Level Agreements (SLAs) für Nachhaltigkeitsparameter.

Artikelfiles und Artikellinks

(ID:47018398)

Über den Autor

lic.rer.publ. Ariane Rüdiger

lic.rer.publ. Ariane Rüdiger

Freie Journalistin, Redaktionsbüro Rüdiger