Das technisch Machbare - Nvidia stellt Ampere-GPU vor

Trennung von Intel-CPUs in den KI-Computern und massive Leistungssteigerung Das technisch Machbare - Nvidia stellt Ampere-GPU vor

18.05.2020Autor Ulrike Ostler

Sie ist skalierbar und für den Einbau in Supercomputer geeignet: Die jüngste Generation an Graphical Processing Units (GPUs) von Nvidia. In der vergangenen Woche hat Unternehmenschef Jensen Huang die erste „Ampere“-GPU in einer „Küchen“-Keynote zur „GPU Technology Conference“ (GTC) vorgestellt.

Anbieter zum Thema

RITTAL GmbH & Co. KG

Vertiv GmbH

DAXTEN GmbH

NVIDIA GmbH

Huang: „Wir waren vor 30 Jahren eine PC-Firma, dann wurden wir zu einer Workstation-Firma, dann zu einer Server-Firma, und schließlich arbeiteten wir uns in das Rechenzentrum vor. Das Rechenzentrum ist die Recheneinheit. Die Zukunft der Datenverarbeitung liegt in der Größenordnung des Rechenzentrums und die Anwendungen werden im gesamten Rechenzentrum gleichzeitig laufen.“
(Bild: Nvidia)

Nvidias erste Grafikkarte auf Ampere-Basis, die A100, packt satte 54 Milliarden Transistoren auf 826 Quadratmillimeter Silizium und ist damit der derzeit größte Sieben-Nanometer-Chip, erläutert Huang bei der virtuellen Konferenz aus seiner Küche. Die Architektur folgt der von „Volta“, auf 12 Nanometer-Basis, nach. Beide Techniken fertigt TSMC.

Der Performance-Steigerung ist enorm: Der GA100-Chip erreicht laut Nvidia vorerst eine theoretische INT8-Geschwindigkeit von bis zu 1,248 Petaops. Zum Vergleich: Die bisherige „Tesla V100“-GPU schafft mit 62 Teraops nur ein Zwanzigstel davon. Bei doppelter Gleitkommapräzision und neuer IEEE-konformer Tensor-Core-Instruktionen für die HPC-Verarbeitung resultiert das also in einer 250-prozentigen Steigerung der Spitzenleistung

Bei einem von Nvidia durchgeführten Benchmarking wurden Beschleunigungen für HPC-Workloads zwischen 1,5x und 2,1x gegenüber Volta erzielt (siehe: Tabelle). Die Spitzenleistung bei einfacher Präzision kommt auf eine theoretische Leistungssteigerung um das 10 bis 20fache und zwar durch das Hinzufügung von Tensor-Cores der dritten Generation von Nvidia mit Tensor Float(TF32)-Präzision. Diese beherrschen als Formate neben TF32 auch FP16, BF16, INT8 und INT4. Außerdem können die Tensor-Cores nun auch FP64, hier liegt die rechnerische Geschwindigkeit bei 19,5 Teraflops statt bei 9,7 Teraflops per Shader-ALUs.

In Kombination mit ....

In Kombination mit der Nvidia-Technik „NVLink“, ebenfalls in der dritten Generation, dem „NVSwitch“, PCI Gen4, Mellanox-Infiniband und dem Software Development Kit von Nvidia „Magnum IO“ ist eine Skalierung auf Tausende von A100-Grafikprozessoren möglich. Das bedeutet, dass große KI-Trainingsmodelle wie BERT um ein Vielfaches schneller lernen können.

Zu den weiteren Features gehört:

Die Funktion Multiinstanz-GPU (MIG). Diese ermöglicht, eine einzelne A100-GPU in bis zu sieben separate GPUs zu partitionieren.

Nvidia NVLink-Fabric der dritten Generation, die die Hochgeschwindigkeitskonnektivität zwischen GPUs verdoppelt.

Und die strukturelle Sparsamkeit (sparsity), die Unterstützung für so genannte sparse matrix operation in den Tensor-Kernen – quasi eine Ausdünnung des neuronalen Netzes -, was diese um das Zweifache beschleunigt. Anders gesagt: Ohne das Feature Sparsity halbiert sich die Geschwindigkeit der Tensor-Cores.

Hier ist ein Vergleichsdiagramm mit den wichtigsten Spezifikationen für Volta V100- und Ampere A100-GPUs:

Nvidia Datacenter GPU	Nvidia Tesla V100	Nvidia A100
GPU Codename	GV100	GA100
GPU-Architektur	Volta	Ampere
GPU-Prozess	TSMC 12 Nanometer	TSMC 7 Nanometer
Launch-Datum	Mai 2017	Mai 2020
Die-Größe	815 Quadratmillimeter	826 Quadratmillimeter
Anzahl Transistoren	21.1 Milliarden	54 Milliarden
FP64 CUDA Cores	2.560	3.456
FP332 CUDA Cores	5,120	6.912
Tensore Cores	640	432
Streaming Multiprozessoren	80	108
Peak FP64	7,8 TeraFlops	9,7 TeraFlops
Peak FP Tensor Core	-	19,5 TeraFlops
Peak FP32	15,7 TeraFlops	19,5 TeraFlops
Peak FP Tensor Core	-	156 ReFlops/312 TeraFlops*
Peak BFLOAT 16 Tensore Core	-	312 TeraFlops/624 TeraFlops*
Peak FP16 Tensor Core	-	312 TeraFlops/624 TeraFlops*
Peak INT8 Tensor Core	-	624 TeraFlops/1.248 TeraFlops*
Peak INT4 Tensor Core	-	1.248 TOPS/2.596 TOPS*
Mixed Precision Tensor Core	125 TeraFlops	312 Teraflops/624 TeraFlops*
Max TDP	300 Watt	400 Watt
* effektive TOPS/TFLOPS unter Verwendung des „Sparsity“-Feature

„Dies ist zweifellos das erste Mal, dass wir die Beschleunigungsarbeitslast des gesamten Rechenzentrums auf einer einzigen Plattform vereinheitlicht haben", sagte Huang. Und in einem Medien-Briefing: „Dtatacenter-scale-Computing – das ist die Zukunft.“

Mit Ampere A100 könnten statt einer ganzen Reihe von Volta-GPU-Servern nun eine Reihe von „T4“-GPU-Servern und CPU-Servern auf einem einzigen vereinheitlichten Ampere-Server betrieben werden, so Huang. Anwendungen jedoch, die für Computer geschrieben wurden, die mit den GPU-Vorgängermodellen ausgestattet sind, könnten jedoch unverändert auf Ampere-gestützten Rechnern laufen. „Die Kompatiblilität der GPU-Architekturen gehört zu den besten Dingen, die wir je gemacht haben. Die Arbeit, die um die bisher 2 Millionen Entwickler geleistet haben, kann so in die neue Flexibilität expandieren.“

Einer der Kunden, die derartige Leistungsfähigkeit benötigten, sei BMW, so der Nvidia-Chef. Nicht nur, dass das Auto selbst zum Roboter mutiere, auch die Produktion sei beispielhaft. Es gehe dabei zugleich um Massenproduktion eines Fahrzeugs an sich, als auch um Individualität. Immerhin werde jedes Fahrzeug mehr oder minder individuell konfiguriert. Dazu nutze BMW einen digitalen Zwilling.

Das System „Nvidia DGX A100“ mit fast 5 Petaflops FP16 Spitzenleistung (156 FP64 Tensor Core Leistung)
(Bild: Nvidia)

Einen Tag nach der Ampere-Ankündigung folgte die Vorstellung des neuen DGX-Systems: „Dies ist zweifellos das erste Mal, dass wir die Beschleunigungsarbeitslast eines gesamten Rechenzentrums auf einer einzigen Plattform vereinheitlicht haben,“ so Huang. „Alles von der Video-Analyse über die Bildverarbeitung, die Sprach- und Sprachausbildung bis hin zu den Schlussfolgerungen für die Datenverarbeitung, befindet sich jetzt auf einem einzigen vereinheitlichten Server.“

Nvidia tauscht Intel Xeon gegen AMD Epyc

Auch den Server gibt es nun in der dritten Generation. Es sei der „schnellste KI-Computer“ weltweit. Anstelle von zwei „Xeon“-CPUs von Intel verfügt das System „DGX A100“ über zwei 64-Core AMD „Epyc Rome“-CPUs sowie acht Tesla-A100-Akzeleratoren. Die „Epyc 7742“-Prozessoren mit jeweils 64 CPU-Kernen werden mit 1 Terabyte DDR4-RAM kombiniert und PCI Express 4.0.

PCIe 4.0 ermöglicht den Einsatz der acht PCIe-x16-Netzwerkkarten „Mellanox ConnectX-6 HDR“ mit jeweils einem 200-Gigabit-Ethernet-Anschluss zur Verbindung mehrerer DGX-A100-Servern. Die Beschleunigerkarten sind untereinander über sechs NVLink-3.0-Switches mit Übertragungsraten von 600 Gigabyte pro Sekunde (bi-direktional) verbunden.

Ob sich der CPU-Wechsel gegen die Intel-Ankündigung neuer GPUs richtet oder schlichtweg der Leistungsfähigkeit der AMD-Prozessoren geschuldet ist, darf diskutiert werden. Jedenfalls ist auch eine Option mit ARM-CPUs, vielleicht von Marvell, angedacht. Das Framework „CUDA 11“ bietet erstmals volle Arm64-Unterstützung.

Bildergalerie

Die DGX-Systeme in Racks und Rechenzentren gepackt werden zu einem „DGX-A100-Superpod“. Laut Huang nutzt das US-Energie-Ministerium bereits einen. Das System besteht aus 140 DGX A100-Rechnern (1.120 GPUs), 4 Petabyes vernetzter All-Flash-Speicher, 170 „Mellanox Quantum 200G“ IB-Switches, liefert 280 Terabyte pro Sekunde, die die Netzwerk-Fabric über 15 Kilometer Glasfaser bereitstellt. Das gesamte System liefert fast 22 Petaflops doppelter Spitzenpräzisionsleistung (700 Petaflops „KI-Computing“) und wurde in weniger als drei Wochen gebaut, sagte Nvidia, weil das System die Covid19-Forschung unterstützen soll.

(ID:46585545)