Blaues Blut und heißes Wasser

Kühlung und Klimatisierung in HPC-Clustern

| Autor / Redakteur: Michael Matzer / Ulrike Ostler

Die steigende Dichte und Hitze-Entwicklung in den High-Performance- und Supercomputing-Cluster erfordert Flüssigkühlung. Am „Wie“ wird noch getüftelt, wenngleich die Heißwasserkühlung bereits große Forschritte macht.
Die steigende Dichte und Hitze-Entwicklung in den High-Performance- und Supercomputing-Cluster erfordert Flüssigkühlung. Am „Wie“ wird noch getüftelt, wenngleich die Heißwasserkühlung bereits große Forschritte macht. (Bild: gemeinfrei: Joel Filipe on Unsplash)

Mit zunehmender Energiedichte in Servern, insbesondere in HPC-Clustern, wächst die Bedeutung der effizientesten Kühlungsmethode mit niedrigem PUE-Wert. Doch ob mit Luft, Kalt- oder Warmwasser oder gar mit einer Spezialflüssigkeit gekühlt wird, richtet sich nach den Wünschen des Kunden. Künftig wird wohl Software-Steuerung bei der Kühlung eine tragende Rolle spielen.

Der vom ASHRAE-Ingenieursverband ((American Society of Heating, Refrigerating and Air-Conditioning Engineers)) erwartete Anstieg der Hitze-Entwicklung in Server-Racks kann bis 2020 um bis zu 67 Prozent gegenüber 2010 zunehmen. Das erfordert rasches Handeln seitens der Server-Designer. Unter den Herstellern der führenden HPC-Cluster befinden sich Lenovo, HPE und IBM. Die zwei IBM-Cluster „Summit“ und „Sierra“ befinden sich auf Platz 1 und 2 der aktuellen Top500-Liste.

Die neue Hitliste der Supercomputer ist ein Meilenstein

Kommentare von Listenautor Erich Strohmaier

Die neue Hitliste der Supercomputer ist ein Meilenstein

18.06.19 - Die 53. Ausgabe des TOP500 der amtierenden Supercomputer wurde gestern veröffentlicht. Auf der ISC High Performance Conference in Frankfurt kommentierte sie einer der Autoren der Liste, Erich Strohmaier vom NERSC/Lawrence Berkeley National Laboratory.. lesen

Lenovo

Lenovo hat unter anderem auf der ISC 2019 seine „Energy-aware Run-time- Software (EAR) vorgestellt. Sie kommt bereits im LRZ am „SuperMUC-NG2“ zum Einsatz. Dieser Top-Ten-Rechner arbeitet seit 2011 mit direkter Wasserkühlung (DWC: Direct water cooling) und hat damit erhebliche Einsparungen hinsichtlich Energieverbrauch und Betriebskosten erzielt. Denn Wasser absorbiert Wärme wesentlich effektiver als Luft. Verwendet man warmes Wasser (ab 40 Grad), sind separate Wasserkühler überflüssig.

Wasserkühlung in Datacenter: Der Durchbruch lässt warten

Sinnvoll, wirtschaftlich und Horrorvorstellung

Wasserkühlung in Datacenter: Der Durchbruch lässt warten

01.06.18 - Der Durchbruch der an sich energetisch sehr viel günstigeren Wasserkühlung lässt weiter auf sich warten. Obwohl diverse Hersteller die Technologie im Rahmen ihres Portfolios anbieten, vollzieht sich die Ausbreitung sehr langsam. Immerhin gibt es inzwischen eine Reihe von Spezialisten, deren Produkte in Lösungen großer Server-Anbieter stecken. lesen

Am LRZ kann das Wasser mittlerweile bis zu 50 Grad heiß sein, bevor es zu den CPUs und den weiteren Komponenten auf der Platine gelangt und danach recycelt wird. Die EAR-Software überwacht den gesamten Cluster und steuert jede der „Intel-Xeon“-CPUs (insgesamt 311.040 Rechenkerne) auf eine Weise, dass der Strombedarf des Nodes den Anforderungen der jeweiligen Workload angepasst wird. Diese Fähigkeit ist aber nicht auf den SuperMUC-NG beschränkt, sondern wird von Atos im Großrechner „Bull Sequana SCS5“ geboten.

Megware kühlt den Linux-Cluster im Leibnitz-Rechenzentrum

Direkte Heißwasserkühlung im Datacenter

Megware kühlt den Linux-Cluster im Leibnitz-Rechenzentrum

29.07.19 - Die Kühlung eines Rechenzentrums ist einer der größten Energiefresser des Datacenter-Betriebs. Einer dieser Ansätze, die dem entgegenwirken sollen, ist – zugegebenermaßen nicht ganz neu – die wasserbasierte Kühlung. Völlig neu ist allerdings die technische Umsetzung von Megware und Schäfer IT-Systems. lesen

Am LRZ wird viel Richtung Geo- und Astrophysik sowie Klimafolgenabschätzung gerechnet, wobei ein großer Teil der Visualisierungslast von einer vorgeschalteten 64-GPU-Cloud übernommen werden kann. Es ist also nicht immer die Höchstgeschwindigkeit einer CPU erforderlich.

Ohne die Leistung zu beeinträchtigen, kann EAR die Stromaufnahme drosseln. „Reduziert man die Prozessorfrequenz, kann man damit 40 bis 50 Prozent Energie einsparen, versichert der Server-Experte Rick Koopman von Lenovo. Auch NVMe-Memory-Chips ließen sich auf diese Weise mit 50 Grad warmem Wasser kühlen.

Die Megware-Direktkühlung „Coldcon“ mit Heißwasserkreislauf.
Die Megware-Direktkühlung „Coldcon“ mit Heißwasserkreislauf. (Bild: Megware)

Das LRZ nennt das EAR-basierte SuperMUC-System „CooLMUC-3“. Herbert Huber, Leiter der High Performance Systems Abteilung des LRZ, sagt: „Es ist das weltweit erste zu nahezu 100 Prozent direkt-heißwassergekühlte HPC-System. Da weder die Rechenknoten noch die Netzkomponenten Luft für die Kühlung benötigen, sind die System-Racks zur Verringerung des Abwärme-Eintrages in den Rechnerraum thermisch isoliert.“ Die Effizienz der Heißwasserkühlung dieses Systems liege daher bei mindestens 97 Prozent und das HPC-System sei im Betrieb nahezu geräuschlos, so Huber.

Atos und Deep Est

Ein weiterer deutscher Supercomputer entsteht in Jülich am JSC (Jülich Supercomputing Centre). Der „Juwels“-Cluster von Atos, 2018 in Betrieb genommen, wird 2020 mit einem Booster für die Skalierung des Systems ergänzt. Die Modulare Supercomputer Rechnerarchitektur von Juwels ist nach eigenen Angaben eine Jülicher Erfindung, die in den EU-geförderten DEEP-Projekten entwickelt wurde.

In DEEP-EST, der dritten Phase dieser Projektreihe, wird ein 3-Modul-Rechnerprototyp installiert, unter Federführung der Firma Megware aus Chemnitz, die auch das CoolMUC-3 System am Leibniz-Rechenzentrum in Garching installierte.

Die Megware-Direktkühlung Cold Con mit Heißwasserkreislauf erlaubt eine Rücklauftemperatur von bis zu 60 Grad.
Die Megware-Direktkühlung Cold Con mit Heißwasserkreislauf erlaubt eine Rücklauftemperatur von bis zu 60 Grad. (Bild: Megware)

Zwei der drei Module des Prototyps (Cluster und Data Analytics Module) wurden bereits 2019 in Betrieb genommen (siehe: Das erste JSC-Supercomputing-Modul Deep-Est ist live, Der Prototyp für künftige modulare Supercomputer werkelt.) „Die letzte, für Anfang 2020 geplante Ausbaustufe des DEEP-EST Prototyps wird ein auf Energie-Effizienz fokussierter Booster sein, der mit Nvidia-GPUs bestückt sein wird", sagt Estela Suarez, die Projektmanagerin für Deep-Est. Der Deep-Est-Booster wird ebenfalls direkt mit Warmwasser gekühlt, das durch ausgeklügelte Kupferleitungen nah an der Elektronik läuft.

HPE

Energiesparen durch Wasserkühlung steht auch bei HPE im Vordergrund, zumindest beim Petascale-Topmodell „HPE SGI 8600“, das unter anderem bei der NASA genutzt wird. Es weist eine innovative „E-Cell”-Architektur auf. (siehe: Bill Mannel: „Harness the full power of HPC servers with an effective cooling approach“

Eine E-Cell ist eine versiegelte Einheit, die einen direkt angebrachten, flüssigkeitsgekühlten Behälter nutzt, um so effizient Wärme abzuführen. Jede E-Cell umfasst zwei 42-HE-Racks, die durch einen dedizierten Kühler-Rack getrennt sind, der wiederum Wärme durch einen Luftstrom abführt. Die Luft strömt durch wassergekühlte `Kissen´, bevor sie ausgestoßen wird.

Diese komplexe Architektur soll nach Angaben von Bill Mannel, dem globalen General Manager für HPC & KI-Lösungen bei HPE, eine Wärmeabfuhr von 99,9 Prozent ermöglichen. Einen PUE nennt er in seinem Blog-Beitrag indes nicht.

IBM

„IBM entwickelt seit Jahren an der Warmwasserkühlung, welche deutliche Vorteile gegenüber der Kaltwasserkühlung hat“, berichtet Ingolf Wittmann, CTO & Leader of HPC Europe bei IBM. „Es wird keine mechanische Kälte erzeugt, und sie kann auch in den Heizungskreislauf bestehender Gebäudeinfrastrukturen eingebunden werden.“

Ob man Wasser statt Luft zur Kühlung verwende, hänge von der Energiedichte des jeweiligen Servers ab. IBM biete beides an. Gegenüber Spezialflüssigkeiten ist er skeptisch: „Häufig sind Spezialflüssigkeiten toxisch, was die Wartung erschwert und den Betrieb gefährlicher macht.“ Es gebe indes Ansätze seitens der IBM, die Kühlflüssigkeit auch als Energieträger für den Betrieb von Prozessoren zu verwenden.

Ein Blick in die Zukunft: „Wasserkühlung kommt im Wesentlichen bei hochintegrierten Systemen für den Aufbau von größeren Cluster-Umgebungen zum Einsatz und wird auch dementsprechend weiterentwickelt.“ Es werde auch an anderen Konzepten wie etwa „Blue-Blood“-Prozessortechnologien oder anderen Bau- und Formfaktoren geforscht und entwickelt.

Blaues Blut

Blue Blood ist eine Technologie aus dem Research Lab in Rüschlikon, wo mithilfe von einer Flüssigkeit für den Betrieb Energie in den Prozessor gebracht und die Wärme darüber wieder abgeführt wird. Etwas unglück ist die Projektbezeichnung: „hin zur fünfdimensionalen Skalierung“. Man könnte vermuten, es hieße „drei Dimensionen“, denn es ghet darum, 2D-Chips übereinander zu 3D-Stapeln zu stapeln soll. In einem IBM-eigenen Blog heißt es dann auch dazu: „Glücklicherweise erfordert die fünfdimensionale Skalierungstechnologie von IBM kein Verständnis der String-Theorie. Vielmehr sind die vierte und fünfte Dimension eher alltäglich: Nummer vier ist die Energieversorgung, und die Kühlung ist Nummer fünf.“

Aufgeladene elektrochemische Flüssigkeit, das 5D-Blut, gelangt in die blauen Töpfe, und dann fließ sie um das System herum in rote Töpfe, wodurch der Chip in der Mitte mit Strom und Kühlung versorgt wird. Das so genannte Blut muss dann wieder aufgeladen werden.

Laut IBM ist das Forschungsprojjekt wichtig, weil Im Laufe sich die maximale Thermal Design Power einer High-End-CPU nicht wirklich verändert hat. Mitte der 2000er Jahre wurde mit dem Pentium D etwa etwa 130 Watt und stoppte dann. Es gibt eine Reihe komplexer Gründe dafür, aber es gibt zwei, die dafür am relevantesten erscheinen.

Erstens, wenn die Chips kleiner werden, gibt es weniger Oberfläche, die mit dem Kühlkörper/Wasserblock in Kontakt kommt, was die absolute Menge an Wärme-Energie, die durch den Chip abgeführt werden kann, ziemlich begrenzt.

Zweitens, wenn die Chips kleiner werden, werden die Hot Spots - Cluster von Transistoren, die mehr Action sehen als andere Teile des Chips - dichter und heißer. Und weil diese Hot Spots auch physikalisch kleiner werden, wenn die Transistoren kleiner werden, fallen unter das ersten Problem. Je kleiner der Hot Spot, desto schwieriger ist es, die Wärme abzutransportieren.

Der von ASHRAE erwartete Anstieg der Hitzeentwicklung in Server-Racks bis 2020. Er kann um bis zu 67 Prozent gegenüber 2010 zunehmen. Das erfordert rasches Handeln seitens der Server-Designer.
Der von ASHRAE erwartete Anstieg der Hitzeentwicklung in Server-Racks bis 2020. Er kann um bis zu 67 Prozent gegenüber 2010 zunehmen. Das erfordert rasches Handeln seitens der Server-Designer. (Bild: ASHRAE)

Die Leistungsseite der Gleichung ist dennoch kniffliger. Im Grunde genommen muss IBM seine mikrofluidischen Kühltechnologie verwenden, dann aber das Kühlmedium so modifizieren, dass es auch lösliche Redox-Paare trägt, das heißt: eine Verbindung, die oxidiert werden kann, um etwas Strom zu erzeugen, und dann wieder reduziert wird, um wieder aufgeladen zu werden. Somit müssen mikrofluidische Kanäle auf dem Chip zwar kühlen, aber ein paar zusätzliche Bits müssen noch vorhanden sein, um die Umwandlung in eine Redox-Flow-Batterie zu vollziehen.

Wie die Forscher mitteilen funktioniert das aber tatsächlich. Sie habe es geschafft, mit ihrem elektrochemischen Blut etwa 10 Milliwatt Leistung für einen Computerchip bereitzustellen. Diese Technologie könnte verwendet werden, um einen Zettascale-Computer zu betreiben, der heute mehr Leistung verbrauchen würde, als die auf der ganzen Welt produziert wird und werden kann.

Näher an aktuellen Techniken sei ein modulare Konzept, bei dem die einzelnen Komponenten und Akzeleratoren eines HPC Cluster physikalisch separiert werden und über ein High Speed Fabric miteinander kommunizieren. „Das ist derzeit ein großes Thema“, so Wittmann und klingt nach einer Beschreibung des Deep-Est-Clusters in Jülich (s.o.).

Eine vollständig lüfterlose Kühlung im HPC-Bereich sieht Wittmann nicht voraus. „Rein aus ökonomischen Gründen macht es keinen Sinn, auf Lüfter in Systemumgebungen zu verzichten.“ Er gibt zu bedenken: „Und es sind ja nicht nur die Server, sondern auch die Speicher- und Netzwerkkomponenten, die dann ebenfalls wassergekühlt werden müssten. Gleiches gilt etwa für USVs.“

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46137249 / Klimatechnik)