KI-Server mit A100 GPUs und Systeme mit Bluefield-2-DPUs Supermicro bringt Server mit neuer Nvidia-Technik heraus

Redakteur: Ulrike Ostler

Hochgradig verteilte Anwendungen und Künstliche Intelligenz (KI) bringen herkömmlich Server an ihre Grenzen. Beider adressiert Nvidia mit Eigenentwicklungen - DPUs für die Netzwerk-Virtualisierung und -beschleunigung, GPUs als Akzeleratoren für die lernenden Systeme. Supermicro gehört zu den ersten Hardware-Lieferanten, die die Komponenten nutzen.

Anbieter zum Thema

Die KI-Server von Supermicro funktionieren nun auch mit der jüngsten GPU-Generation von Nvidia: "Ampere 100".
Die KI-Server von Supermicro funktionieren nun auch mit der jüngsten GPU-Generation von Nvidia: "Ampere 100".
(Bild: Supermicro)

Mit dem gestern vorgestellten GPU-Server auf 4 Höheneinheiten, unterstützt die Supermicro-Hardware acht GPUs der jüngsten Generation „Nvidia HGX A100“. Charles Liang, CEO von Supermicro, betont die Vorteile: „Supermicro hat einen neuen 4U GPU-Server vorgestellt, der ein Nvidia HGX A100 8-GPU-Baseboard (ehemals Codename „Delta“) implementiert, der im Vergleich zu aktuellen KI-Servern eine 6-fache KI-Trainingsleistung und eine 7-fache Inferenz Workload Capacity bietet. Außerdem zeigt das kürzlich angekündigte HGX A100 4-GPU Board (ehemals Codename „Redstone“) eine breite Marktakzeptanz.“ Die neuen KI-Server ermöglichten eine erhebliche Steigerung der für die sich schnell verändernden Märkte benötigten Arbeitslast. Hierzu gehörten unter anderem HPC, Datenanalyse, Deep Learning, Training und Inferenz.

Paresh Kharya, Senior Director of Product Management und Marketing bei Nvidia, erläutert: „Supermicro-Systeme, die mit dem A100 betrieben werden, können schnell auf Tausende von GPUs skaliert werden, oder jede A100-GPU kann mithilfe der neuen Multi-Instanz-GPU-Technologie in sieben isolierte GPU-Instanzen partitioniert werden, um verschiedene Jobs auszuführen. Die Paresh Kharya, Senior Director of Product Management und Marketing, Die 100 Tensor Core GPUs mit Tensorfloat 32 böten bis zu 20 Mal mehr Rechenkapazität im Vergleich zur vorherigen Generation, ohne dass Code-Änderungen erforderlich seien.

Das KI-Server-Portfolio von Supermicro umfasst 1U, 2U, 4U und 10U Rackmount GPU-Server; „Ultra“, „Bigtwin“ und Embedded-Systeme, die auf „AMD Epyc“ oder „Intel Xeon“-Prozessoren mit „Intel Deep Learning Boost“-Technologie basieren. Supermicro packt sein thermischen Design, einschließlich kundenspezifischer Kühlkörper und optionaler Flüssigkeitskühlung hinzu.

Die Kommunikations-Features

Der Formfaktor des „Advanced I/O-Modul“ (AIOM) ist nach Darstellung von Supermicro enorm flexibel. Nun kann das AIOM mit den jüngsten PCI-E 4.0-Speicher- und Netzwerkgeräten mit hoher Geschwindigkeit und geringer Latenz gekoppelt werden, die „Nvidia GPUDirect RDMA“ und „GPUDirect Storage“ mit „NVME over Fabrics“ (NVMe-oF) auf „Mellanox Infiniband“ unterstützen, das das erweiterbare Multi-GPU-System mit einem „kontinuierlichen Datenfluss ohne Engpässe“ versorgt. Darüber hinaus halten die „Titan“-Netzteile von Supermicro das System energietechnisch im grünen Bereich, um Kosteneinsparungen zu erzielen. Laut Supermicro erreicht die Hardware mit 96 Prozent den branchenweit höchsten Wirkungsgrad und gleichzeitig ermöglicht dennoch eine redundante Unterstützung für die GPUs.

Die 2U KI-Server verfügen über das „HGX A100“ 4-GPU-Baseboard von Nvidia mit dem Kühlkörper-Design von Supermicro.
Die 2U KI-Server verfügen über das „HGX A100“ 4-GPU-Baseboard von Nvidia mit dem Kühlkörper-Design von Supermicro.
(Bild: Supermicro)

Das 2U-Design

Die 2U KI-Server verfügen über das HGX A100 4-GPU-Baseboard mit Kühlkörper-Design von Supermicro zur Aufrechterhaltung der optimalen Systemtemperatur unter Volllast, und das alles in einer Einheit mit kompaktem Formfaktor. Die Systeme bieten eine hohe Peer-to-Peer-Kommunikation mit GPU über „Nvidia NVLink“, bis zu 8 Terabyte (TB) DDR4-Systemspeicher mit 3200 Megehartz (MHz), fünf PCI-E 4.0-E/A-Steckplätze mit Unterstützung für GPUDirect RDMA sowie vier Hot-Swap-fähige NVMe mit GPUDirect Storage-Funktion.

Das 4U-Design

Die 4U KI-Server verfügen über das HGX A100 8-GPU Baseboard, bis zu sechs NVMe U.2 und zwei NVMe M.2, zehn PCI-E 4.0 x16 Steckplätze, wobei der AIOM-Support eine 8-GPU-Kommunikation und den Datenfluss zwischen den Systemen durch die neuesten Technologie-Stacks wie GPUDirect RDMA, GPUDirect Storage und NVMe-oF auf Infiniband ermöglicht. Die Systeme arbeiten mit NVLink und „NVSwitch“-Technuk und eignen sich für Deep Learning Training, Neural Network Model Anwendungen für Forschungseinrichtungen, Supercomputing-Cluster und HPC-Cloud-Anwendungen.

Das 8U Superblade

Der laut Supermicro branchenweit dichteste GPU-Blade-Server unterstützt bis zu 20 Knoten und 40 GPUs mit zwei GPUs mit einfacher Breite pro Knoten oder einem Nvidia Tensor Core A100 PCI-E GPU pro Knoten im 8U „Superblade“-Gehäuse von Supermicro. Die 20 GPUs in 8 Höheneinheiten erhöhen die Dichte der Rechenleistung auf kleinerem Raum und ermöglichen dem Kunden eine Senkung der Gesamtbetriebskosten.

Das ist der laut Supermicro branchenweit dichteste GPU-Blade-Server, der bis zu 20 Knoten und 40 GPUs mit zwei GPUs mit einfacher Breite pro Knoten oder einer „Nvidia Tensor Core A100“-PCIe-GPU pro Knoten im „Superblade“-Gehäuse auf acht Höheneinheiten unterstützt .
Das ist der laut Supermicro branchenweit dichteste GPU-Blade-Server, der bis zu 20 Knoten und 40 GPUs mit zwei GPUs mit einfacher Breite pro Knoten oder einer „Nvidia Tensor Core A100“-PCIe-GPU pro Knoten im „Superblade“-Gehäuse auf acht Höheneinheiten unterstützt .
(Bild: Supermicro)

Zur Unterstützung der GPU-optimierten Konfiguration und zur Aufrechterhaltung der Spitzenleistung und des Durchsatzes, die für anspruchsvolle KI-Anwendungen erforderlich sind, biete das Superblade zu 100 Prozent blockierungsfreie HDR 200 Gb/s Infiniband Netzwerkinfrastruktur, um tiefgehende Lernprozesse zu beschleunigen und Analysen und Entscheidungen in Echtzeit zu ermöglichen.

Unterstützung für Bluefield-2-DPU

Supermicro setzt seine First-to-Market Strategie mit der Bluefield-2-DPU von Nvidia fort, die softwaredefinierte, hardwarebeschleunigte Rechenzentrumsdienste auf einem Chip mit erhöhter Sicherheit und ohne CPU-Overhead ermöglicht. Die Bluefield-2-DPU wird derzeit getestet, und Supermicro plant ein offensives Zertifizierungsprogramm für die DataProcessing Unit, das eine Vielzahl marktführender Systeme von Supermicro umfasst, die 2021 verfügbar sein sollen. Dazu gehören 1U, 2U, 4U, 10U Rackmount GPU-Server, Ultra, Bigtwin, 8U Superblade und Embedded-Lösungen.

Die Bluefield-2-DPU von Nvidia kombiniert eine programmierbare Mehrkern-ARM-CPU, ein hochmodernes 200G/100G-SmartNIC-Netzwerk, eine leistungsstarke PCIe-Schnittstelle und belastbare Netzwerk-, Speicher- und Sicherheitsbeschleuniger. Die DPU übernimmt wichtige Aufgaben der Host-CPU und gibt diese für die Ausführung von Anwendungen frei. Gleichzeitig werden Sicherheit, Effizienz und Verwaltbarkeit für Server verbessert, die für Betriebssysteme oder Hypervisor genutzt werden.

Supermicro-CEO Liang äußert: „Supermicro ist ein enger Technologie-Partner von Nvidia und bereit, End-to-End-Cloud-Lösungen und Edge-Nvidia-DPUs bereitzustellen. Indem wir die bekannten, schnellen Markteinführungsfähigkeiten von Supermicro nutzen, gehen wir davon aus, dass wir viele der branchenweit ersten Systeme mit der Bluefield-2-DPU anbieten können, um die Leistung bei erhöhten Arbeitsbelastungen für Kunden in wachsenden dynamischen Märkten zu steigern.“

(ID:46908538)