Die GPU für das KI-Supercomputing Der 80-Gigabyte-Grafikprozessor von Nvidia

Redakteur: Ulrike Ostler

Am heutigen Montag stellt Nvidia eine „A100“-GPU vor, die mit doppelt so viel Speicher wie der Vorgänger die Supercomputing-Plattform „HGX“ antreibt, die ihrerseits zu einem „AI Datacenter in a Box” stilisiert wird. Der neue Grafikprozessor mit HBM2e-Technologie verdoppelt den 40-Gigabyte-GPU-Speicher von „Ampere 100“ mit hoher Bandbreite auf 80 GB und liefert eine Speicherbandbreite von über 2 Terabyte pro Sekunde.

Firmen zum Thema

Eine höhre Beschleunigung bei der Verarbeitung von KI-Lasten mithilfe von verdoppelter Speicherkapazität und größerer Bandbreite verspricht Nvidia mt der GPU „A100 80GB“.
Eine höhre Beschleunigung bei der Verarbeitung von KI-Lasten mithilfe von verdoppelter Speicherkapazität und größerer Bandbreite verspricht Nvidia mt der GPU „A100 80GB“.
(Bild: Nvidia)

Bryan Catanzaro, Vice President bei Nvidia im Bereich angewandte Forschung für Deep Learning, begründet diese Art des Ausbaus der technischen Kapazitäten. Sie befähigten eine noch größere Beschleunigung und ermöglichten zugleich noch größere Modelle und Datenmengen. „Um in der HPC- und KI-Forschung den neuesten Stand der Technik zu erreichen, müssen die größten Modelle gebaut werden, aber diese erfordern mehr Speicherkapazität und Bandbreite als je zuvor.“

Er betont, dass die A100-GPU mit 80 GB doppelt so viel Speicher wie das Vorgängermodell bietet, das erst vor sechs Monaten eingeführt worden ist. Zugleich durchbreche die Technik die Grenze von 2 TB/s. Der 80-GB-Grafikprozessor ist in der Nvidia-Hardware „DGX A100“ und der „DGX Station A100“erhältlich.

Außerdem unterstützen Systemanbieter wie Atos, Dell Technologies, Fujitsu, Gigabyte, Hewlett Packard Enterprise, Inspur, Lenovo, Quanta und Supermicro die Technik und bieten A100-ausgestattete Systeme an. Nach Angaben von Nvidia werden die integrierten Baseboards mit A100 80GB GPUs, die Inspur, Lenovo, Quanta und Supermicro heute angekündigt haben, in der ersten Hälfte des Jahres 2021 bereitstehen.

Bildergalerie
Bildergalerie mit 6 Bildern

Gedacht sind diese Systeme für die Betankung datenintensiver Arbeitslasten, etwa im Bereich der KI-Trainings. So verfügen Systemmodelle für Empfehlungen wie DLRM über Tabellen, die Milliarden von Benutzern und Milliarden von Produkten enthalten können. A100 80 GB kann eine bis zu 3-fache Beschleunigung bieten, so dass diese Modelle schnell, in vielen Fällen nahe an der Echtzeit, und sehr präzise Empfehlungen geben können (siehe auch Beispiele aus der Bildergalerie).

Außerdem ermögliche die Prozessoreinheit auch ein Training der größten Modelle mit mehr Anpassungsparametern als bisher, und zwar innerhalb eines einzigen HGX-basierten Servers. Als Beispiel nennt Nvidia das Verarbeitungsmodell „GPT-2 für natürliche Sprache , verbunden mit generativen Fähigkeit für Texte. Dadurch entfalle die Notwendigkeit, Daten oder parallele Architekturen zu modellieren, was zeitaufwändig sein kann, aufwendig zu implementieren und zu langsam, wenn die Anwendung sich über mehrere Knoten erstreckt.

Wie auch die Vorgängerausführung kann die GPU mit seiner Multi-Instanz-GPU (MIG)-Technologie in bis zu sieben GPU-Instanzen partitioniert werden, mit jeweils 10 GB Speicher. Dies bietet etwa eine sichere Hardware-Isolierung und maximiert die GPU-Auslastung für eine Vielzahl kleinerer Arbeitsbelastungen.

Neben dem KI-Training soll auch das Inferencing profitieren

Das kommt etwa bei der KI-Inferenzierung von automatischen Spracherkennungsmodellen wie RNN-T zum Tragen. Eine einzelne A100 80GB MIG-Instanz kann viel größere Losgrößen als bisher bedienen und liefert einen 1,25x höheren Durchsatz in der Produktion von Schlussfolgerungen. Laut Nvidia hat ein großen Datenanalyse-Benchmark für den Einzelhandel im Terabyte-Bereich gezeigt, dass die 80GB-A100 die Leistung von bis zu 2x steigern konnte.

Aber auch für wissenschaftliche Anwendungen von Wettervorhersage bis Quantenchemie wird zunehmend Beschleunigung beim Rechnen nachgefragt. „Quantum Espresso“, eine Materialsimulation, hat mithilfe der Nvidia-GPU Durchsatzgewinne von fast 2x auf einem einzelnen Knoten erzielt.

Bildergalerie
Bildergalerie mit 6 Bildern

Zu den Ausstattungsmerkmalen (siehe: Bildergalerie) der GPU A100 80GB gehören:

  • Tensorcores der dritten Generation: Im Vergleich zur „Volta“-Generation bieten sie mit dem Format TF32 einen bis zu 20-fachen AI-Durchsatz sowie 2,5x FP64 für HPC, 20x INT8 für AI-Inferenz und Unterstützung für das BF16-Datenformat.
  • größeren, schnelleren HBM2e-GPU-Speicher
  • MIG-Technik: Verdoppelt den Speicher pro isolierter Instanz und bietet bis zu sieben MIGs mit jeweils 10 GB.
  • NVLink und NVSwitch der dritten Generation: Bietet die doppelte GPU-zu-GPU-Bandbreite im Vergleich zur Interconnect-Technologie der vorherigen Generation, also beim Datentransfer zum Grafikprozessor wird auf bis zu 600 Gigabyte pro Sekunde beschleunigt.

Das AI-Datacenter-in-a-Box

Ergänzend zur Vorstellung der A100-80GB-GPU stellt Nvidia zur Supercomputing-Konferenz „SC20“ den KI-Server „DGX Station A100“ vor. Es handelt sich um ein integriertes System im Petascale-Format – mit bis zu mit bis zu 320 Gigabyte GPU-Speicher-, das für Arbeitsgruppen in Büros und Laboren gedacht ist.

Um komplexe dialogorientierte KI-Modelle wie BERT Large Inference zu betreiben, liefert der Server „Nvidia DCG A100“ fast eine 3-fache Leistungssteigerung gegenüber dem Vorgängermodell.
Um komplexe dialogorientierte KI-Modelle wie BERT Large Inference zu betreiben, liefert der Server „Nvidia DCG A100“ fast eine 3-fache Leistungssteigerung gegenüber dem Vorgängermodell.
(Bild: Nvidia)

Es ist die zweite Generation des Systems und bietet laut Nvidia 2,5 PetaFlops KI-Leistung. Darin stecken vier von den jüngsten A100 Tensor Core Grafikprozessoren, die per NVLink verbunden sind. DGX Station A100 ist außerdem die einzige Workstation, die die Technik Multi-Instance GPU (MIG) unterstützt. Dadurch bietet ein einzelner Rechner bis zu 28 separate GPU-Instanzen, auf denen sich parallel Jobs unterschiedlicher Benutzer ausführen lassen – laut Nvidia ohne Beeinträchtigung der Systemleistung.

Der Vorteil liegt laut Charlie Boyle, Vice President und General Manager für DGX-Systeme bei Nvidia auf der Hand: „Die DGX Station A100 bringt die KI aus dem Rechenzentrum mit einem System der Serverklasse, das sich von Wissenschaftsteams und KI-Experten praktisch überall nutzen lässt.“

Das zeige sich auch in der Akzeptanz der DGX-Systeme;

  • Die BMW Group Produktion nutzt Nvidia DGX-Stationen, um KI-Modelle einzusetzen, die den Betrieb verbessern.
  • Das DFKI, das Deutsche Forschungszentrum für Künstliche Intelligenz, verwendet die DGX-Station zur Erstellung von Modellen mit denen Herausforderungen aus Gesellschaft und Industrie angegangen werden, einschließlich Systemen, die den Notfalldiensten helfen, schnell auf Naturkatastrophen zu reagieren.
  • Lockheed Martin nutzt DGX-Station zur Entwicklung von KI-Modellen, die Sensordaten und Protokolle nutzen, um den Wartungsbedarfs vorherzusagen. Das trägt erhöht die Betriebsbereitschaft, die Sicherheit für die Mitarbeiter und reduziert die Betriebskosten.
  • NTT Docomo, Japans führender Mobilfunkbetreiber mit über 79 Millionen Abonnenten, verwendet DGX Station zur Entwicklung KI-gesteuerter Dienste, etwa in der Bilderkennung.
  • Das Pacific Northwest National Laboratory verwendet die Rechner, um, fokussiert auf Fragen aus dem Energiebereich, zur nationalen Sicherheit beizutragen, durch Forschungen auf dem Gebiet der Chemie, der Geowissenschaften und Datenanalyse.

Mit und ohne Rechenzentrum

Die DGX Station A100 benötigt dabei weder Strom noch Kühlung in Rechenzentrumsqualität, erlaubt aber eine Fernwartung, mit Funktionen, die ansonsten den DGX A100-Systeme für Datacenter zur Verfügung stehen. So können laut Hersteller Systemadministratoren alle Verwaltungsaufgaben problemlos über eine Remote-Verbindung ausführen –selbst dann, wenn die Wissenschaftler zu Hause aus arbeiteten. Generell ist das System mit vier 80-GB- oder 40-GB-A100 Tensor Core-GPUs erhältlich.

Allerdings lassen sich die DGX-Rechner, und zwar mit 640 GB, auch in den „Nvidia DGX SuperPOD“ integrieren. AI-Supercomputer sind in Einheiten von 20 DGX A100-Systemen erhältlich. Die ersten SuperPOD-Systeme, die damit bestückt werden, betreffen „Cambridge-1“, ein Supercomputer, der im Gesundheitswesen eingesetzt wird, sowie „Hipergator“ der University of Florida.

Nvidia DGX Station A100 und Nvidia DGX A100 640 GB Systeme sollen noch in diesem Quartal erhältlich sein.

Vernetzt: Mellanox Infiniband für Exascale AI Supercomputing

Die siebte Generation von Mellanox Infiniband „NDR 400 G“ soll „ultra-kurze“ Latenzzeiten und doppelten Datendurchsatz ermöglichen. Die üblichen Hardwarehersteller - Atos, Dell Technologies, Fujitsu, Inspur, Lenovo und Supermicro - haben bereits angekündigt, die Technik in ihre HPC-Systeme zu integrieren. Außerdem gibt es erste Unterstützungsbekundungen von Partnern aus dem Bereich Storage-Infrastruktur, etwa von DDN und IBM Storage.

Nach Unternehmensangaben bietet NDR 400 G die 3-fache Switch-Port-Dichte und steigert die KI-Beschleunigung beim Einschalten um das 32-fache. Der Datendurchsatz verdoppelt sich auf 400 Gigabit pro Sekunde. Die bidirektionale Switch-Kapazität steigt um das Fünffache auf 1,64 Petabit pro Sekunde bei 2048 NDR Ports.

Microsoft Azure wird der erste Cloud-Provider sein, der mit den „HBv2“-VMs die HDR-Netzwerktechnik unterstützt. Insbesondere will Microsoft MPI-HPC-Anwendungen adressieren und spricht von einer Skalierung, die 80.000 Cores übersteigt.

Mellanox Sharp

Die dritte Generation der Techmik „Mellanox Sharp“ erlaubt es, dass KI-Trainingsoperationen durch Infiniband ausgelagert und beschleunigt werden. Das bringt den Boost von 32facher Beschleunigung. Zudem lässt sich die Technik mit dem „Nvidia Magnum I/O“-Stack kombinieren.

Edge-Switches, die auf der Infiniband-Architektur basieren, bieten so einen aggregierten bidirektionalen Durchsatz von 51,2 Tb/s mit einer Kapazität von mehr als 66,5 Milliarden Paketen pro Sekunde. Die auf Mellanox Infiniband basierenden modularen Switches werden bis zu einem aggregierten bidirektionalen Durchsatz von 1,64 Petabit pro Sekunde übertragen; das ist 5x höher als bei der Vorgängergeneration.

Zugleich sollen sich Kosten sparen lassen. Laut Nvidia fallen bis zu 1,4 x geringere Netzwerkkosten an und die bis zu 1,6 x geringere Energiekosten.

Artikelfiles und Artikellinks

(ID:46992904)