Suchen

Die Goethe-Universität Frankfurt und das Lawrence Livermore National Laboratory setzen auf Supermicro Supermicro-Super-Cluster für die COVID-19- und Physikforschung

Autor / Redakteur: DataCenter-Insider / Ulrike Ostler

Nicht jeder bringt Supermicro und Supercomputing zusammen. Doch sowohl das Center for Scientific Computing (CSC), eine Initiative des Frankfurt Institute for Advanced Studies und der Johann Wolfgang Goethe-Universität Frankfurt, als auch das Lawrence Livermore National Laboratory setzen nun Plattformen des Herstellers ein - einmal mit AMD- und einmal mit AMD-Komponenten.

Firmen zum Thema

Eines der Gebäude der Johann Wolfgang Goethe-Universität Frankfurt - die Uni ist am Center for Scientific Computing beteiligt.
Eines der Gebäude der Johann Wolfgang Goethe-Universität Frankfurt - die Uni ist am Center for Scientific Computing beteiligt.
(Bild: Uwe Dettmar)

Als eines der führenden Supercomputer-Zentren wird das CSC von zahlreichen internationalen Wissenschaftlern und Forschern genutzt. Um auch weiterhin die Forschungsarbeit unterschiedlichster Disziplinen optimal unterstützen zu können, sind die Verarbeitungskapazitäten mit einem neuen Supercomputer deutlich ausgebaut worden.

Das mit der Architektur und Auswahl des neuen Supercomputers beauftragte Team hat zuvor mehrere Server-Systeme geprüft, die sowohl über CPUs als auch GPUs verfügen. Aus praktischen Gründen hat sich Interesse auf ein System konzentriert, das die PCI Express 4.0 Spezifikation unterstützt. Das ermöglicht einen Datentransfer von bis zu 64 GB/Sekunde zwischen Host-Speicher und GPU.

Diese Leistungsanforderung ist für Anwendungen entscheidend, die einen Datenaustausch mit der GPU erfordern. Frühere PCI Express-Schnittstellen haben nicht die nötige Geschwindigkeit für High-Performance-Anwendungen geboten, die auf die schnellsten verfügbaren GPUs angewiesen sind. Daher ist ein System mit PCI Express 4.0 Bus-Readiness nötig.

PCI Express 4.0 ist ausschlaggebend gewesen

Das CSC hat Supermicro 4U 8 GPU A+ Server mit PCI-E Gen 4 und 200 Gigabyte pro Sekunde (GB/s) Netzwerkleistung als Basis für seine High-Performance Computing- (HPC-) Server der nächsten Generation. Der Supermicro AS-4124GS-TNR basiert auf „AMD Epyc“-Prozessoren, die entwickelt wurden, um Engpässe beim Datentransfer zwischen Host-Speicher und GPU zu eliminieren. Wird dieser Server mit „Radeon Instinct MI50“-GPU-Beschleunigern ausgestattet, können Forscher ihre Untersuchungen extrem schnell durchführen.

Bildergalerie

Professor Volker Lindenstruth, Leiter für HPC-Architektur an der Goethe-Universität, erläutert: „Für die Konzipierung und Implementierung unseres neuesten Supercomputers war unsere Partnerschaft mit Supermicro und AMD von entscheidender Bedeutung. Mithilfe der technischen Ingenieure konnten wir anhand der Vorgängergenerationen unserer Server die computertechnischen Herausforderungen und potenziellen Engpässe beschreiben, die wir erfahren.“

Er lobt zudem: „Sowohl Supermicro als auch AMD stellten daraufhin ein ausgewogenes System bereit, das von unterschiedlichen Wissenschaftlern ohne Schwierigkeiten genutzt werden kann, die für ihre Forschung ein skalierbares und optimiertes Cluster schneller Server benötigen. Insbesondere das Design, das die Integration von acht GPUs und bis zu zwei Netzwerkkarten mit einer Konnektivität von 200 GB/s ohne PCI Express-Switch gestattet, bietet deutliche Vorteile für die Anwendungsperformance.“

Die Anwendungsgebiete

Durch die Verwendung von Servern mit CPUs, GPUs und Netzwerkleistungen können Anwendungen von Teilchenphysik bis Klimawandelsimulationen ausgeführt und über die „Supermicro AS-4124GS-TNR“-Server beschleunigt werden. Darüber hinaus sind auch Anfragen zur Systemnutzung für Anwendungen in der Computerchemie, für Neutronensternsimulationen und Gitter-QCD-Untersuchungen eingegangen.

All diese und auch weitere Anwendungen sind auf die hohe Leistung der AMD Radeon Instinct MI50-Beschleuniger angewiesen. Kürzlich (Jahresmitte 2020) hat die Goethe-Universität Frankfurt HPC-Technologien für die Simulation der Ausbreitung des COVID-19-Virus genutzt, um ein Verständnis davon zu gewinnen, wie die Ausbreitung zukünftiger Pandemien vermieden werden kann.

Die Prüfung vorab

Das CSC führte mehrere Benchmark-Tests durch, um die Leistung der Supermicro AS-4124GS-TNR-Server zu prüfen. Von noch größerer Bedeutung war jedoch die vergleichsweise Leistung der Systeme bei der Durchführung mehrerer Aufgaben, die sämtliche verfügbare Rechnerkerne nutzen. Dieser Richtwert gibt Aufschluss über die echte Auslastung eines Servers und misst die Leistung gleichzeitig ausgeführter Anwendungen. HPC-Anwendungen wurden dabei durch andere aktive Anwendungen nicht wesentlich beeinflusst.

Forrest Norrod, Senior Vice President und General Manager der Abteilung für Rechenzentren und eingebettete Systeme bei AMD, erläutert: „Die aktuellen Supercomputer müssen über beispiellose Rechenleistung verfügen, um die Großsimulationen und komplexen medizinischen Analysen durchführen zu können, die für die nächste Generation von Forschung entscheidend sind. Das Herzstück dieser Systeme bildet jeweils die neueste CPU- und GPU-Technologie.“

Das supermikroskalierbare flüssigkeitsgekühlte Supercomputer-Cluster

Auch das Lawrence Livermore National Laboratory (LLNL) setzt in der COVID-19-Forschung auf Server der Super Micro Computer, Inc. Hier leisten rund 1.500 Knoten von „Twin Pro“ 2U 4 Knoten-Servern Unterstützung bei der Entdeckung von Therapeutika für SARS-CoV-2, dem Virus, das COVID-19 verursacht. Am Freitag der vergangenen Woche hatte der Serverhersteller bekannt gegeben, dass das LLNL einen zusätzlichen Cluster eingerichtet hat, um die vorhandenen Computerkapazitäten für die nationale Sicherheit zu erweitern.

Der Supercomputing-Cluster am LLNL auf Basis von Supermicro-Servern ist flüssiggekühlt.
Der Supercomputing-Cluster am LLNL auf Basis von Supermicro-Servern ist flüssiggekühlt.
(Bild: Supermicro)

Die als „Ruby“-Cluster bezeichneten Twin-Pro-Server von Supermicro nutzen hier „Xeon Platinum“-Prozessoren von Intel mit integrierter KI und verfügen über 192 Gigabyte (GB) Onboard-Speicher. Der Cluster umfasst insgesamt fast 85.000 Kerne, die eine geschätzte Spitzenleistung von sechs PetaFlops erreichen. Die 1.500 Knoten stecken in 26 Racks und 16 2U-Twin-Pro-Servern in jedem Rack (64 Knoten) werden die Racks im Direct-to-Chip-Verfahren mit Flüssigkeit gekühlt.

Diese sehr dichten Racks ermöglichen in Verbindung mit der Flüssigkeitskühlung eine deutliche Platzeinsparung im Rechenzentrum und niedrigere Energiekosten. Diese Form der Kühlung kann die Gesamtbetriebskosten um bis zu 40 bis 50 Prozent senken, da Klima-Anlagen und Kühlventilatoren weniger leisten müssen. Supermicro hat das Ganze implementiert, getestet und orchestriert die Integration auf Rack-Ebene.

Auf diese Weise hat der Hersteller ein komplettes Plug-n-Play-System an das LLNL liefern können. Der Supercomputer-Cluster wird durch das Advanced Simulation and Computing Program der National Nuclear Security Administration (NNSA), das Multi-programmatic and Institutional Computing (M&IC)-Programm des Labors und den Coronavirus Aid, Relief und Economic Security (CARES) Act finanziert.

(ID:46992833)