Inspur-Server-Cluster mit über 550 Nvidia-Prozessoren Alex steht Fritz bei: Supercomputer am Erlanger Zentrum für nationales Hochleistungsrechnen
Anbieter zum Thema
Für Simulationen in den Bereichen Molekulardynamik und Machine Learning ausgelegt ist das neue Energie-effiziente GPU-Cluster Alex an der Universität Erlangen.

Das auf den „ISC High Performance“-Konferenzen (die zuletzt stattgefundene war Anfang Juni in Hamburg) präsentierte Hochleistungsrechnen wird zuweilen als quasi-olympisches Ringen um einen Spitzenplatz in der Top500- und der Green500-Tabelle zelebriert, es ist aber in erster Linie eine erstrangige Dienstleistung für die Wissenschaften.
:quality(80)/p7i.vogel.de/wcms/98/5f/985f294dffcaaf7451a5af6b1c1d1971/0105056162.jpeg)
ISC High Performance 2022 in Hamburg
HPE-Superrechner erreicht mit AMD-Prozessoren erstmals Exascale-Rechenleistung
Der Supercomputer „Fritz“ des Anfang 2021 eingerichteten Zentrums für nationales Hochleistungsrechnen Erlangen an der dortigen Friedrich-Alexander-Universität (NHR@FAU) ist dafür ein gutes Beispiel. „Mit seinen fast 1.000 Intel-Rechnerknoten ist „Fritz“ vor allem für kommunikationsintensive und moderat-parallele Anwendungen ausgelegt“, beschreibt Gerhard Wellein, Professor für High Performance Computing und Direktor des NHR@FAU, das System.
Platz 1984 unter den TOP500 und Platz 16 bei den Green500
Jetzt hat „Fritz“ mit dem GPU-Cluster „Alex“ Verstärkung erhalten. (Der Universitätsname "Friedrich Alexander" ist damit vollständig abgebildet, das nur nebenbei.)
Der GPU-Cluster besteht aus 32 „NF5488A5“ und 38 „NF5468A5“ GPU-Servern des chinesischen Unternehmens Inspur, zusammen mit Dell und HPE weltweit einer der Großen im Server-Business. Die Inspur-Server setzen sich aus insgesamt 256 „Nvidia A100 Tensor Core“ GPUs und 304 „Nvidia A40 Tensor Core“ GPUs zusammen. Für Integration und Implementierung des Cluster-Systems ist mit der Chemnitzer Firma Megware ein bekannter Name im deutschen Hochleistungsrechnen verantwortlich.
„Alex belegt unter den TOP500 der weltweit leistungsstärksten HPC-Systeme Platz 184 und unter den Green500 der weltweit Energie-effizientesten Systeme der Welt Platz 16“, erläutert Jay Zhang, Vice President bei Inspur Global Business und CEO von Inspur Europe und fügt hinzu: „Derzeit ist Alex das Energie-effizienteste HPC-System in Deutschland.“
Die Details
Axel Auweter, CTO bei Megware Computer Vertrieb und Service GmbH, liefert weitere technische Daten: „Die Spitzenleistung im Double-Precision-Floating-Point-Bereich (FP64) kann mehr als 4 PetaFlops erreichen, die KI-Rechenleistung (TF32) mehr als 79 PetaFlops. Zusätzlich zu den GPU-Ressourcen stehen 140 'AMD Epyc 7713'-CPUs zur Verfügung und die gesamte Speicherkapazität beträgt über 50 Terabyte.“
Die Module des Cluster seien über ein Hochgeschwindigkeits-HDR-Infiniband-Netzwerk miteinander verbunden, so Auwetter weiter. Mit dieser Konfiguration ließe sich eine Reihe forschungsspezifischer Software mit unterschiedlichen Hardware-Anforderungen in der chemischen Forschung ausführen, gleichzeitig würden umfangreiche Machine-Learning-Datensätze unterstützt und die Trainingseffizienz verbessert.
Anwendungsfall Molekulardynamik
Unterstützung für sehr anspruchsvolle Simulationsrechnungen ist eine der vielen verschiedenen wissenschaftlichen Aufgaben des Erlanger HPC-Cluster. „Wir wollen herausfinden, wie ein Molekül sich in ein anderes verwandelt, das heißt, wie sich die Atome selbst organisieren“, führt in diesem Zusammenhang Petra Imhof, Professorin für Computational Chemistry am Department für Chemie und Pharmazie, aus.
Imhof verweist als Beispiel auf die sehr großen Moleküle in der Biochemie mit Zehntausenden oder auch Hunderttausenden von Atomen, aus der sich eine riesige Zahl von möglichen neuen Kombinationen ergebe. „Wir wollen eine möglichst große Zahl dieser kombinatorischen Möglichkeiten rechnerisch simulieren und das geht nur auf einem Superrechner wie Fritz beziehungsweise Alex“, erklärt Imhof.
Keine Einheitslösungen bei HPC
„Derartige Molekulardynamiksimulationen basieren auf dem NF5468A5 GPU-Server, während Maschinelles Lernen und andere KI-Methoden vor allem den NF5488A5 GPU-Server nutzen“, sagt Zhang. Mit dieser Kombination habe man eine äußerst leistungsstarke und flexible Lösung, da verschiedene Software- und Datenkombinationen eine durchaus unterschiedliche Auslastung von CPUs, GPUs, Speicher und Festplatten erforderten. Auch die Auslastung der Rechenressourcen variiere je nach Aufgabe erheblich.
Beim HPC gebe es keine Einheitslösung. Deshalb sei die Konfiguration von Alex speziell auf die Anforderungen der Forschenden an der FAU zugeschnitten, assistiert Auwetter von Megware dem Chef von Inspur Europe.
Auf die Frage, mit welchen Methoden eine solche maßgeschneiderte Lösung gefunden werde, antwortet Auwetter: „Die meisten Beschaffungen für HPC sind so konzipiert, dass das Preis-Leistungs-Verhältnis optimiert wird. Dazu wird den Systemanbietern ein Set von repräsentativen Workloads, bestehend aus wissenschaftlichen Anwendungen und entsprechenden Eingabedatensätzen, vorgegeben. Es ist dann die Aufgabe des Anbieters, entweder die Anwendungslaufzeit zu minimieren oder den Anwendungsdurchsatz zu maximieren. Im Fall der FAU wurde bei der Bewertung auch die Energie-Effizienz des Systems berücksichtigt.“
Das Kosten- und Energie-effiziente Kühlsystem
Einen wichtigen Part bei der Energie-Effizienz spielt das Heißwasser-Kühlsystem von Alex. Aufgenommen wird die Hitze direkt dort, wo sie entsteht, nämlich bei den Prozessoren, erläutert NHR@FAU-Chef Wellein. Zusätzlich seien die Systemkomponenten so konzipiert, dass sie bei relativ hohen Temperaturen arbeiteten.
Das Kühlwasser sei so heiß, dass es „fast ganzjährig von der Außenluft gekühlt werden könnte“. Daraus ergäben sich im Vergleich mit reiner Luftkühlung niedrige Betriebskosten.
Laut Inspur-Europa-Chef Zhang ist Energie-Effizienz einer der Schwerpunkte von Inspur. So habe man beispielsweise auch HPC-Plattformen für Kunden wie SAIC Volkswagen gebaut, um die Energie-Effizienz von Rechnern zu verbessern. Insgesamt verfüge Inspur über komplette Produktangebote im klassischen HPC-Bereich sowie im Bereich kombinierter Lösungen HPC / KI.
(ID:48456132)