Suchen

HPC-Beschleuniger für wissenschaftliche Forschung AMD stellt einen dedizierten Grafikprozessor für High-Performance- und KI-Lasten vor

Autor: Ulrike Ostler

An dem Tag, an dem auch Nvidia seine „weltweit schnellste“ GPU vorstellt, die zweite Generation von „A100“, bringt auch AMD den „schnellsten HPC-Beschleuniger“ auf den Markt, die Grafikkarte „Instinct M100“. Sie ist nicht für den General-Purpose-Einsatz gedacht, sondern dank der AMD- Architektur „CDNA“ ausschließlich als Akzelerator für rechenintensive Umgebungen, etwa für Künstliche Intelligenz (KI) und künftige Exascale-Lasten.

Firmen zum Thema

Konkurrent für "A100" von Nvidia: AMD stellt mit der Graphics Processing Unit (GPU) „Instinct M100“ die erste aus dem eigenen Hause vor, die speziell als Beschleuniger von KI- und HPC-Lasten gedacht ist.
Konkurrent für "A100" von Nvidia: AMD stellt mit der Graphics Processing Unit (GPU) „Instinct M100“ die erste aus dem eigenen Hause vor, die speziell als Beschleuniger von KI- und HPC-Lasten gedacht ist.
(Bild: AMD)

AMD Instinct MI100, M steht für Matrix“, ist nach Herstellerangaben derzeit „der weltweit schnellste HPC-Grafikprozessor“ und der erste x86-Server-Grafikprozessor, der die 10 Teraflops (FP64)-Leistungsgrenze überschreitet. Außerdem kann AMD darauf verweisen, dass Hardware-Lieferanten wie Dell Technologies, Gigabyte, Supermicro die Technik in Kombination mit der AMD-CPU „Epyc“ und der Softwareplattform „ROCM 4.0“ unterstützen werden.

Der M100 bietet bis zu 11,5 TeraFlops (FP64)-Spitzenleistung für HPC und bis zu 46,1 TeraFlops (FP32)-Matrix-Spitzenleistung für KI- und Machine-Learning-Workloads. Im Vergleich zu den AMD- Beschleunigern der vorherigen Generation bietet M100 mit der Matrix-Core-Technologie zudem eine fast 7-fache Steigerung der theoretischen FP16-Spitzenleistung - FP16-Gleitkommaberechnungen im Zusammenhang mit KI-Trainings.

Bildergalerie
Bildergalerie mit 7 Bildern

Brad McCredie, Corporate Vice President, Data Center GPU und Accelerated Processing bei AMD, sagt: „Mit der Vorstellung von AMD Instinct MI100 - dem schnellsten HPC-Grafikprozessor der Welt - macht AMD heute einen großen Schritt vorwärts auf dem Weg zum Exascale-Computing. Unser neuester Beschleuniger ist genau auf die Arbeitslasten ausgerichtet, die im wissenschaftlichen Rechnen eine Rolle spielen, und in Kombination mit der offenen Software-Plattform AMD ROCM soll er Wissenschaftlern und Forschern eine hervorragende Grundlage für ihre Arbeit im HPC-Bereich bieten.“

Eine offene Software Plattform für eine Exascale-Ära aus dem Hause AMD

Hardware ohne passende Software ist nutzlos. So bietet AMD mit „ROCM“ Entwicklern eine bietet eine Grundlage für das Exascale-Computing. Es handelt sich um ein Open-Source-Toolset, das aus Compilern, Programmier-APIs und Bibliotheken besteht.

Die Software ist zwar nicht die erste ihrer Art, doch Version 4.0 ist optimiert, um skalierbare Leistung für MI100-basierte Systeme zu liefern. Dazu gehört, dass der Compiler als Open Source aktualisiert und vereinheitlicht wurde, um sowohl „OpenMP 5.0“ als auch „HIP“ zu unterstützen. Pytorch- und Tensorflow-Frameworks, die mithilfe von ROCM 4.0 angepasst werden, können jetzt mit MI1007,8 eine höhere Leistung erzielen. Letztlich erlaube ROCM 4.0 den Entwicklern von HPC-, Machine-Learning- und KI-Anwendungen, leistungsfähige und portable Software zu erstellen, so AMD.

Bronson Messer, Wissenschaftsdirektor der Oak Ridge Leadership Computing Facility, zeigt sich angetan: „Wir haben einen frühen Zugang zum MI100-Beschleuniger erhalten, und die vorläufigen Ergebnisse sind sehr ermutigend (siehe: Bildergalerie). Wir haben in der Regel erhebliche Leistungssteigerungen erlebt, bis zu 2, 3 mal im Vergleich zu anderen GPUs“, sagteer, ohne jedoch die Konkurrenzprodukte zu benennen.

Bildergalerie
Bildergalerie mit 7 Bildern

Es sei zudem bedeutsam zu erkennen, welche Auswirkungen Software auf die Leistung habe. „Die Tatsache, dass die offene Softwareplattform ROCM und das HIP-Entwickler-Tool Open Source sind und auf einer Vielzahl von Plattformen funktionieren, ist etwas, von dem wir seit der Einführung des allerersten hybriden CPU/GPU-Systems geradezu besessen sind,“ so Messer.

Die wichtigsten Features der AMD-GPU „Instinct MI100“

  • Die komplett neue AMD CDNA-Architektur (siehe: Bildergalerie) – Sie ist gedacht für den Betrieb von AMD-GPUs in der kommenden Exascale-Ära und das Herzstück des MI100-Beschleunigers. Sie bietet außergewöhnliche Leistung und Energie-Effizienz. Auf Nachfrage zeigt sich, dass eine Grafikkarte in etwa so viel Energie benötigt wie eine von „Ampere“-GPU von Nvidia.
  • Die GPU überzeugt bei FP64- und FP32-Leistungen für das High Performance Computing: „Instinct M100 bietet 11,5 TeraFlops Spitzenleistung bei FP64-Workloads und 23,1 TeraFlops Spitzenleistung bei FP32-Lasten
  • Die Kerntechnologie für M100, Matrix, hat AMD neu entwickelt. Sie liefert eine hohe Performance für eine ganze Reihe von Matrixoperationen mit einfacher und gemischter Präzision, wie FP32, FP16, bFloat16, Int8 und Int4; solche dienen der Konvergenz von HPC und AI.
  • Instinct MI100 ist mit „AMD Infinity Fabric“ Technik der zweiten Generation ausgestattet. Sie bietet ~2x die Peer-to-Peer (P2P)-Spitzen-E/A-Bandbreite über PCIe 4.0 mit bis zu 340 Gigabyte pro Sekunde (GB/s ) Gesamtbandbreite pro Karte mit drei AMD Infinity Fabric Links. In einem Server können MI100 GPUs mit bis zu zwei vollständig verbundenen Quad-GPU-Hives konfiguriert werden, die jeweils bis zu 552 GB/s P2P-E/A-Bandbreite für den Datenaustausch bereitstellen.
  • Ultra-Fast HBM2 Memory–Instinct M100 verfügt über 32 GB HBM2-Speicher mit hoher Bandbreite bei einer Taktrate von 1,2 Gigahertz und liefert eine Speicherbandbreite von 1,23 TB/s. Das hilft bei der Verarbeitung großer Datensätze und Engpässe beim Verschieben von Daten in und aus dem Speicher zu beseitigen.
  • Die AMD-GPU unterstützt die jüngste PCIe Gen 4.0-Generation. Diese bietet für Transportdaten von der CPU zum Grafikprozessor in der Spitze eine theoretische Bandbreite von bis zu 64 GB/s.

Die ersten Server, die mit AMD Instict M100 ausgestattet werden, sind laut Hersteller bereits zum Ende dieses Jahre hin zu erwarten.

  • Ravi Pendekanti, Senior Vice President, Poweredge Servers, Dell Technologies, kündigt an: „Dell EMC Poweredge-Server unterstützen den AMD Instinct MI100. […] Die Hochleistungsfähigkeiten der AMD Instinct-Beschleuniger passen hervorragend zu unserem -AI- und HPC-Portfolio.“
  • Und Alan Chen, Assistant Vice President in NCBU bei Gigabyte fügt an: „Wir freuen uns, wieder mit AMD als strategischer Partner zusammenzuarbeiten, der Kunden Server-Hardware für Hochleistungs-Computing anbietet. Die AMD Instinct MI100-Beschleuniger stellen die nächste Stufe des Hochleistungsrechnens im Rechenzentrum dar und bringen mehr Konnektivität und Datenbandbreite für die Energieforschung, Molekulardynamik und Deep Learning.“
  • Bill Mannel, Vice President und General Manager HPC bei HPE, kündigt den Einbau der GPU in Apollo-Systeme an: „Mit der Einführung des neuen ‚HPE Apollo 6500 Gen10 Plus‘ Systems erweitern wir unser Portfolio zur Verbesserung der Workload-Leistung, indem wir den neuen AMD Instinct MI100 Beschleuniger unterstützen, der neben dem AMD Epyc Prozessor der 2. Generation eine größere Konnektivität und Datenverarbeitung ermöglicht.“
  • Vik Malyala, Senior Vice President, Field Application Engineering und Business Development bei Supermicro, schließt: „Wir freuen uns, dass AMD mit den AMD Instinct MI100 GPU-Beschleunigern einen großen Einfluss auf das Hochleistungsrechnen hat. Durch die Kombination der mit der neuen CDNA-Architektur gewonnenen Rechenleistung mit der hohen Speicher- und GPU-Peer-to-Peer-Bandbreite, die der MI100 bietet, erhalten unsere Kunden Zugang zu Lösungen, die ihre Anforderungen an beschleunigte Berechnungen und kritische Unternehmensauslastungen erfüllen. Der AMD Instinct MI100 wird eine großartige Ergänzung für unsere Multi-GPU-Server und unser umfangreiches Portfolio an Hochleistungssystemen und Server-Bausteinlösungen sein.“

Die wichtigtsten Merkmale:


Compute Units

Stream Processors

FP64 TFLOPS (Peak)

FP32 TFLOPS (Peak)

FP32 Matrix TFLOPS

(Peak)

FP16/FP16 Matrix
TFLOPS

(Peak)

INT4 | INT8 TOPS

(Peak)

bFloat16 TFLOPs

(Peak)

HBM2
ECC
Memory

Memory Bandwidth

120

7680

Up to 11.5

Up to 23.1

Up to 46.1

Up to 184.6

Up to 184.6

Up to 92.3 TFLOPS

32GB

Up to 1.23 TB/s

Artikelfiles und Artikellinks

(ID:46993917)

Über den Autor

 Ulrike Ostler

Ulrike Ostler

Chefredakteurin DataCenter-Insider, DataCenter-Insider