Wasser auf Intel-CPUs und Nvidia-GPUs Lenovo liefert HPC-Cluster an die Max-Planck-Gesellschaft und das KIT

Autor Ulrike Ostler |

Gestern hat Nividia (s.u.) seine jüngste Generation von Graphical Processing Units (GPUs) vorgestellt und zahlreiche Hardwaresteller kündigen nun Systeme mit den leistungsfähigen Akzeleratoren an. Lenovo kann darüber hinaus auf Kunden dafür verweisen und auf eine Zusammenarbeit mit Nvidia, die es ermöglicht, nicht nur die CPUs in den künftigen Hochleistungs-Cluster im Karlsruher Institut of Technology (KIT) und der Max-Planck-Gesellschaft per Wasser zu kühlen, sondern auch die GPUs.

Anbieter zum Thema

Das Karlsruher Institut of Technology, kurz KIT, plant zusammen mit Lenovo ein neues HPC-Cluster. Die Rechner werden mit einer direkten Wasserkühlung ausgestattet sein und ein Fünftel der Knoten mit den jünsten Nvidia-GPUs der gestern angekündigten „Ampere“-Generation.
Das Karlsruher Institut of Technology, kurz KIT, plant zusammen mit Lenovo ein neues HPC-Cluster. Die Rechner werden mit einer direkten Wasserkühlung ausgestattet sein und ein Fünftel der Knoten mit den jünsten Nvidia-GPUs der gestern angekündigten „Ampere“-Generation.
(Bild: Lenovo)

Die Max-Planck-Gesellschaft hat quasi vor Augen, welche Vorteile ein wassergekühlter Supercomputer bietet: Das Leibniz-Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften in Garching betreibt in Sichtweite das Cluster „SuperMUC-NG“, das auf „Lenovo-Neptune“-Technik basiert.

Mitte Februar haben die Lenovo Datacenter Group und die Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. einen Vertrag zur Lieferung eines neuen Hochleistungsrechners für die Max-Planck-Gesellschaft unterzeichnet. Der Supercomputer wird in Garching installiert und von der Max Planck Computing and Data Facility (MPCDF) betrieben.

Das Projekt umfasst neben der Lieferung der Kühlungsinfrastruktur, der Hardware und der Software auch die Unterstützung des Betriebs sowie umfangreiche Serviceleistungen, auch vor Ort, durch Lenovo-Mitarbeiter. Dazu gehört etwa die Unterstützung beim Betrieb und bei der Instandhaltung, einschließlich Applikations-Unterstützung. Die Umsetzung des 20 Millionen Euro Projekts beginnt noch im Mai 2020. Die Inbetriebnahme des finalen Systems ist für Anfang des kommenden Jahres geplant.

Das Gesamtpaket

Hermann Lederer von der MPCDF, sagt: „Beeindruckend ist die Kombination aus hoher Leistungsfähigkeit des Gesamtsystems bei hoher Energie-Effizienz und hoher Kompaktheit, direkter Wasserkühlung, geringen Stellplatz- und Infrastrukturanforderungen und attraktiven Serviceleistungen sowohl bei der Systembetreuung wie bei der Anwendungsunterstützung.“

Der Kunde zählt zu den bedeutendsten Forschungseinrichtungen weltweit. An 86 Max-Planck-Instituten und Einrichtungen wird Grundlagenforschung in den Bereichen Natur-, Bio-, Geistes- und Sozialwissenschaften im Dienst der Allgemeinheit betrieben. Die Max Planck Computing and Data Facility (MPCDF) ist ein institutsübergreifendes Kompetenzzentrum der Max-Planck-Gesellschaft zur Unterstützung der Computer- und Datenwissenschaften.

Der geplante Supercomputer von Lenovo soll seine Rechenleistung für verschiedene Max-Planck-Institute zur Verfügung stellen. Er soll die vorhandene Rechenkapazität des seit 2018 installierten Hochleistungsrechnerkomplexes mit einer aggregierten Peak-Leistung von 12 PetaFlop pro Sekunde deutlich erhöhen. Das Lenovo-System wird mit seinen mehr als 100.000 Rechenkernen und Akzeleratoren die Spitzenforschung unterstützen und beschleunigen.

Dicht gepackt und heiß gekühlt

Geplant ist rund 10 Prozent der Knoten mit GPUs auszustatten, und zwar vom gestern angekündigten Typ „Nvidia Tesla A100“. Laut Andreas Thomasch, Director HPC and AI DACH der Lenovo Datacenter Group, erläutert man könne allerdings die Knoten noch dichter bestücken als Nvidia selbst es mit seinem „GDX“-System könne. „Wir packen 4 GPUs in einen unserer Knoten plus einen mit zwei CPUs.“

Das gilt zumindest für ein wassergekühltes System; denn grundsätzlich gibt es die HPC-Rechner des Herstellers auch luftgekühlt. Doch die Max-Planck-Gesellschaft hat sich für ihren neuen HPC-Cluster, anders als beim Vorgängermodell für Wasserkühlung entschieden, und zwar zweistufig.

In der ersten Stufe werden alle wesentlichen Komponenten der Boards über Kupferleitungen direkt gekühlt. Die zweite Stufe kühlt zusätzlich die gesamten Racks über den „Lenovo Rear Door Heat Exchanger“ also über wassergekühlte Türen, um die so genannte Konvektionsabwärme zu 100 Prozent in Wasser abzuführen. Die Prozessoren können in dem für sie optimalen Betriebspunkt arbeiten.

Das zweistufige Kühlkonzept steigert die Energie-Effizienz deutlich. Denn es wird keine Wärme in die Umgebungsluft des Rechenzentrums abgegeben, was wiederum zu geringeren Aufwänden bei der Kühlung des Rechenzentrums führt.

Die Wasserkühlung von Lenovo trägt die Bezeichnung „Neptune“. Neu ist, dass sich nun auch Nvidia-GPUs damit kühlen lassen.
Die Wasserkühlung von Lenovo trägt die Bezeichnung „Neptune“. Neu ist, dass sich nun auch Nvidia-GPUs damit kühlen lassen.
(Bild: Lenovo)

Es besteht aus vier Komponenten:

  • Eine Kontrollsoftware sorgt für eine dynamische Anpassung an die beziehungsweise der CPU und das sorgt für eine Minimierung des Stromverbrauchs.
  • Das eigentliche Thermal Transfer Module erlaubt eine 24prozentige Erhöhung der Prozessleistung gegenüber luftgekühlten Systemen. Lenovo kommt bei Berechnungen auf einen Betrag von rund 2.100 Dollar pro Jahr und Rack, die sich einsparen lassen.
  • Die Direktkühlung von CPU und GPU ermöglicht noch einmal eine Steigerung der Prozess- beziehungsweise Prozessorleistung um 45 Prozent im Vergleich zu luftgekühlten Systemen, was Einsparungen von 40 Prozent bei den Stromkosten bedeute.
  • Nach Lenovo-Angaben sorgen die Rückkühler in den Rack-Türen noch einmal für die 3.5fache Effizienz gegenüber ausschließlich luftgekühlten Systemen. Mit der Hitze, die entzogen wird, könnte umgewandelt in Strom rund 4.000 LED-Lichter erstrahlen lassen.

Nach Lenovo-Angaben hat die Installation des HPC-Cluster bei der Max Planck Gesellschaft nach ersten Vorarbeiten im März mit der Installation der Kühlungsinfrastruktur bereits begonnen. Im Juli dieses Jahres soll das erste Teilsystem in Betrieb gehen. Anfang 2021 wird das System mit aktuellen Intel-CPUs und den A100-GPUs ausgestattet.

Manager Thomasch zeigt sich erfreut: „Eine so bedeutsame und international anerkannte Einrichtung wie die MPCDF mit einem Lenovo-System auszustatten, ist etwas Besonderes.“

From Exascale to Everyscale

Scott Tease, General Manager HPC &AI der Lenovo Datacenter Group, hebt in einem Blog-Beitrag hervor, dass die Neptune-Flüssigkeitskühlungstechnologie schon auf mehr als ein Jahrzehnt der Konstruktion und gemeinsamen Entwicklung mit unseren Kunden zurückblickt. Dabei hat der Hersteller hat die Technik kaskadiert und dabei neue Wege beschritten, um deren Vorteile nicht nur großen HPC-Clustern anbieten zu können. Kunden sollen auch ohne zusätzliche Rohrleitungen auskommen. Mit vollständig geschlossenen, flüssigkeitsgekühlten Systemen können sie auch in luftgekühlten Rechenzentrum eine höhere Dichte und Effizienz erreichen.

Nach Lenovo-Lesart gibt es zwei Wege, die zum Exascale-Computing führen: Cluster, die nur für einen einzigen Zweck gebaut werden und Cluster, die sich auch Standardkomponenten bauen lassen und skalieren.
Nach Lenovo-Lesart gibt es zwei Wege, die zum Exascale-Computing führen: Cluster, die nur für einen einzigen Zweck gebaut werden und Cluster, die sich auch Standardkomponenten bauen lassen und skalieren.
(Bild: Lenovo)

Er sagt: „Wir haben auch Pionierarbeit bei der Server-Entwicklung geleistet, die als `Integrierte Modularität´ bezeichnet wird. In der Vergangenheit war die Entwicklung eines Servers dem Bau eines Schweizer Taschenmessers sehr ähnlich: Ein Server musste auf alles und jedes Ereignis vorbereitet sein, was zwangsläufig zusätzliche Funktionen, die Sie nicht nutzen würden, unnötige Kosten und mangelnde Optimierung mit sich brachte. Mit der integrierten Modularität haben wir bei unserem Serverdesign ein Baukasten-Prinzip gewählt, so dass Sie die für ihre Workloads richtigen, optimierten Komponenten auswählen können, und diese bei Bedarf während des Betriebs auch austauschen können, ohne den Server demontieren zu müssen.“ Lenovo bezeichnet das Prinzip „from Exascale to Everyscale“.

Eine neue Technikära

Nun läute Nvidia mit der „Ampere“-Architektur und der dritten Generation von „Nvidia NVLink“ die nächste Generation ein. „In Verbindung mit der Wärmetechnik und Systemdesign werden wir skalierbare Rechenleistung für Unternehmen jeder Größe liefern“, kündigt Tease an. 2008 habe es es fast 300 Serverschränke und 3.000 Server zum Preis von 100 Millionen Dollar gebraucht, um die PetaFlop-Grenze zu erreichen. „In Zukunft braucht es dafür nur noch die Hälfte eines einzigen Racks“, wenn Lenovo-Technik mitsamt Neptune, der Mellanox-Netzwerktechnik und A100 Tensor Core GPUs eingesetzt würden.

Das neue KIT-System

Zu den Kunden zählt auch das Karlsruher Institut of Technology, kurz KIT. Hier geht es um 17 PetaFlops Spitzenlast, die mithilfe von 785 Servern bereitgestellt werden. Diese sind wiederum mit 59.356 CPU-Kernen bestückt, die von 740 A100 GPUs unterstützt werden, und rund 240 Terabyte Memory-Kapazität bieten.

Als Kommunikationsnetzwerk kommt ein non-blocking Nvidia Mellanox Infiniband-HDR-Netzwerk mit 200 Gigabit pro Sekunde pro Port zum Einsatz, als Datenablage dienen zwei parallele Spectrum-Scale-Dateisysteme mit einer Gesamtkapazität von mehr als 15 Petabyte. Das Unternehmen Pro-com Datensysteme GmbH aus Eislingen bei Stuttgart übernimmt als Generalunternehmer die Projektkoordination, Systemintegration, Lieferung und Kundenbetreuung.

Ab Herbst 2020 stellt das KIT die erste Aufbaustufe eines neuen Supercomputers für viele Fachgebiete bereit. Das Gesamtsystem wird im Sommer 2021 der Wissenschaft übergeben. Der nun unterzeichnete Liefervertrag hat eine Größenordnung von 15 Millionen Euro. Der neue „Hochleistungsrechner Karlsruhe“, kurz: HoreKa wird dann voraussichtlich zu den zehn leistungsfähigsten Rechnern Europas gehören mit etwa 17 Billiarden Rechenoperationen in der Sekunde, was der Leistung von mehr als 150.000 Laptops entspricht.

Rechnen und Speichern gehen Hand in Hand

Ein zentraler Gesichtspunkt bei der Auslegung des Systems waren auch die enormen Datenmengen, welche bei wissenschaftlichen Forschungsprojekten anfallen. Je nach Anwendung können von einer einzigen Simulation mehrere Hundert Terabyte an Daten erzeugt werden. Um mit den wachsenden Datenmengen Schritt zu halten, liefern die Rechenknoten, das Infiniband-Netzwerk und die parallelen Dateisysteme von HoreKa im Vergleich zum Vorgängersystem „ForHLR“ jeweils einen bis zu vier Mal höheren Speicherdurchsatz.

Ergänzendes zum Thema
Die Bezeichnung HoreKA

Die Bezeichnung HoreKa wählten die Mitarbeiterinnen und Mitarbeiter des SCC in Anlehnung an „GridKa“, dem „Grid Computing Centre Karlsruhe“. Dieses befindet sich ebenfalls am SCC und stellt seit mehr als 15 Jahren erfolgreich Datenspeicher und Analysekapazitäten für Großexperimente auf der ganzen Welt bereit, darunter auch den Large Hadron Collider (LHC) am CERN in der Schweiz.

Zu den größten Erfolgen von GridKa gehört die Beteiligung bei der Entdeckung des Higgs-Teilchens im Juli 2012. GridKa ist das größte und leistungsfähigste Zentrum seiner Art.

Eine mehrstufige Datenhaltung soll zusätzlich die Weiterverarbeitung auf externen Speichersystemen mit hohem Durchsatz garantieren. HoreKa ist auch mit bis zu 45 Gigabyte pro Sekunde Datenrate an die „Large Scale Data Facility“ (LSDF) des SCC angebunden, die seit 2010 die Infrastruktur für die Speicherung, Verwaltung, Archivierung und Analyse von Forschungsdaten beritstellt.

Das System wird Wissenschaftlerinnen und Wissenschaftlern aus ganz Deutschland zur Verfügung stehen. Vor allem in den Materialwissenschaften, den Erdsystemwissenschaften, der Energie- und Mobilitätsforschung im Ingenieurwesen, den Lebenswissenschaften, sowie der Teilchen- und Astroteilchenphysik werden Forschende dank des neuen Supercomputers ein detaillierteres Verständnis hochkomplexer natürlicher und technischer Vorgänge erlangen können. „Selbstverständlich“ könne HoreKa bei Bedarf auch von Wissenschaftlern genutzt werden, die zum Verständnis des Virus SARS-CoV-2 forschen und damit zur Bekämpfung der Krankheit COVID-19 beitragen, teilt das Institut mit.

So erläutert Professor Martin Frank, Direktor des Steinbuch Centre for Computing (SCC) des KIT, dass mit HoreKa Forschende mehr Details in größeren Systemen betrachten, normale Simulationen also zu so genannten Multiskalen-Simulationen ausweiten können. „Klimasimulationen und Erdsystemmodelle etwa werden immer feinere Auflösungen und damit einen höheren Detailgrad erreichen. Doch neben der reinen Rechenleistung steigen auch die Anforderungen an die Dateisysteme immer weiter, sowohl was Kapazität als auch Latenz angeht. Mit einem datenhungrigen System wie HoreKa setzen wir konsequent die strategische Ausrichtung des SCC auf datenintensives Rechnen fort.“

HoreKa wird vollständig im 2015 für den Vorgänger ForHLR neu errichteten Rechnergebäude auf dem Campus Nord des KIT untergrebracht. Auch hier kommt Neptune zum Einsatz, so dass Lenovo und das KIT deshalb mit einem gesamten Strombedarf rechnen, der unter 1 Megawatt liegt.

Wofür wird HPC gebraucht?

Aktuell hat das Kit einen neuen Forschungsschwerpunkt geschaffen: „Nachhaltige Produktion“. Hier geht es etwa darum wie die Unternehmen mithilfe autonomer Produktionssteuerung, der Reduktion von Verschleißteilen oder den Prinzipien einer ressourcenschonenden Fertigung den Produktionsprozess verbessern können. Angesiedelt ist die Forschung beim WBK Institut für Produktionstechnik.

Letztlich sollen Unternehmen weg von einem linearen Wirtschaftsansatz zu zirkulären Ansätzen einer Kreislaufwirtschaft. Diese beinhalten das Remanufacturing, also die Wiederaufbereitung gebrauchter Produkte, mit modularen Anlagen zur De- und Remontage, autonomer Produktionssteuerung und integrierter Qualitätssicherung sowie Produktionsnetzwerke und Geschäftsmodelle.

Ein anderes Thema der aktuellen Forschung am KIT sind mikrobielle Cyborgs“ in Brennstoffzellen, Biosensoren oder Bioreaktoren. Noch bestehen elektronische Geräte aus unbelebten Materialien, doch eines Tages können diese nützlich sein. Wissenschaftlerinnen und Wissenschaftler haben hierzu die Voraussetzung geschaffen, indem sie ein programmierbares, biohybrides System entwickelten, das aus einem Nanokomposit-Material und dem Elektronen produzierenden Bakterium Shewanella oneidensis besteht. Das Material dient als Stützgerüst für die Bakterien und leitet zugleich den mikrobiell erzeugten Strom.

Artikelfiles und Artikellinks

(ID:46583262)