Neue IPU-Systeme aus Großbritannien Graphcore stellt Pod-Systeme für 64 PetaFlops KI-Power vor

Redakteur: Ulrike Ostler

Der europäische Chiphersteller Graphcore hat mit „IPU-Pod128“ und dem „IPU-Pod256“ zwei neue Systeme für Anwendungen der Künstlichen Intelligenz (KI) vorgestellt. Mit 32 PetaFlops bei IPU-Pod128 und 64 PetaFlops bei IPU-Pod256 bietet die Scale-Out Anwendungen entwickelte Graphcore-Architektur eine KI-Rechenleistung für Supercomputer-Umgebungen.

Anbieter zum Thema

Abbildung 1: Das System „IPU-Pod256“ von Graphcore bietet bis zu 64 PetaFlops.
Abbildung 1: Das System „IPU-Pod256“ von Graphcore bietet bis zu 64 PetaFlops.
(Bild: Graphcore)

Die Graphcore-KI-Systeme ermöglichen ein schnellesTraining großer Transformer-basierter Sprachmodelle, Large-Scale KI-Inferenzberechnungen und die Erforschung von KI-Modellen wie „GPT“ und „GNN“. Durch Aufteilung der Systeme in kleinere, flexible virtuelle Pods (vPods) können mehrere KI-Entwickler Zugriff auf die Graphcore IPUs (Intelligence Processing Units) erhalten. Die Graphcore KI-Systeme eignen sich damit insbesondere für Cloud-Hyperscaler, wissenschaftliche Rechenzentren und Unternehmen mit großen KI-Teams in Branchen wie der Finanz- und Pharmaindustrie.

Die Ergebnisse bei Ausführung gängiger Sprach- und Bilderkennungsmodelle zeigen ein beeindruckendes Leistungsverhalten bei KI-Training Workloads und Skalierbarkeit. Dazu dürfte die Leistung durch Software-Optimierungen noch weiter zu steigern sein.

Die Graphcore-IPUs bieten aufgrund ihres On-Chip Memory eine gute Leistung für traditionelle große „Matmul“-Modelle wie „Bert“ und „Resnet-50“. Darüber hinaus unterstützen sie auch allgemeinere Berechnungsarten, die die Effizienz von Sparse-Multiplikationen und Fine-Grained Berechnungen erhöhen. Die „Efficientnet“-Modellfamilie profitiert in hohem Maße davon, aber auch verschiedene KI-Modelle für maschinelles Lernen, die nicht auf klassischen neuronalen Netzen basieren, zum Beispiel GNN (Graph Neural Networks).

Die IPU-Pod128 und IPU-Pod256 Systeme unterstützen KI-Frameworks wie „Tensorflow“, „Pytorch“, „Pytorch Lightning“, „Keras“, „Paddle Paddle“, „Hugging Face“, „ONNX“ und „HALO“ sowie Standard-Tools und -Protokolle wie „OpenBMC“, „Redfish DTMF“, „IPMI over LAN“, „Prometheus“ und „Grafana“. So können die neuen Graphcore-Systeme reibungslos in bestehende Rechenzentrumsumgebungen integriert werden und Nutzer die zusätzliche KI-Rechenleistung sofort produktiv in ihrer bekannten Software-Umgebung nutzen.

Agnès Boudot, Senior Vice President, Head of HPC & Quantum bei Atos, sagt: „Wir freuen uns sehr, die neuen IPU-POD128 und IPU-POD256 Systeme von Graphcore in unser Atos ThinkAI Portfolio aufzunehmen. So können wir unseren Kunden helfen, ihre Fähigkeiten und ihr Leistungsspektrum zur Erforschung und zum Einsatz größerer und innovativerer KI-Modelle in vielen Bereichen wie der akademischen Forschung, der Finanzindustrie, dem Gesundheitswesen, der Telekommunikation und dem Consumer-Internet schneller und wirksamer einzusetzen.“

Zu den ersten Kunden, die die neue IPU-Pod128 Plattform implementierten, gehört der koreanische Technologiegigant Korea Telecom (KT). Das Unternehmen profitiert bereits jetzt von der zusätzlichen Rechenkapazität.

Mihee Lee, Senior Vice President, Cloud/DX Business Unit bei KT, äußert: „KT ist das erste Unternehmen in Korea, das einen Hyperscale-KI-Service bereitstellt. Dabei kommen die IPU-Systeme von Graphcore in einer dedizierten hochdichten KI-Zone innerhalb unseres Rechenzentrums zum Einsatz.“

Zahlreiche Unternehmen und Forschungsinstitute nutzten gegenwärtig diesen Service für ihre Forschung, Proof-of-Concept Studien oder führten Tests auf den Graphcore IPUs durch. „Zur kontinuierlichen Unterstützung der steigenden Marktnachfrage nach hochskalierbaren KI-HPC-Umgebungen führten wir in Zusammenarbeit mit Graphcore ein Upgrade unserer IPU-Pod64 Systeme auf ein IPU-Pod128 System durch, um so das Angebot unseres Hyperscale-KI-Service für unsere Kunden zu erweitern“, so Mihee weiter.

Bildergalerie

Wie bei anderen Graphcore IPU-POD-Systemen auch bedeutet die Disaggregation von KI-Rechenleistung und Servern, dass die neuen Graphcore- Systeme weiter optimiert werden können, um höhere Leistung für verschiedene KI-Workloads bereitzustellen und die Gesamtbetriebskosten (TCO) zu optimieren. Beispielsweise könnte ein NLP-fokussiertes System mit nur zwei Servern auskommen, während datenintensivere Prozesse, wie zum Beispiel Computer-Vision-Tasks, eher von einer Konfiguration mit acht Servern profitieren würden.

Darüber hinaus können auch die angebundenen Storage-Systeme für ausgewählte KI-Workloads optimiert werden. Die Storage-Anbieter DDN, Pure Storage, Vast Data und WekaIO unterstützen Graphcore KI-Systeme mit zertifizierten Referenzarchitekturen.

Die Graphcore IPU-POD128 und IPU-POD256 Systeme sind ab sofort über die Graphcore-Partner Atos, Boston und Megware in der DACH-Region lieferbar und werden auch als Cloud-Service angeboten. Dazu bietet Graphcore ein umfangreiches Schulungs- und Support-Paket an, das es Kunden ermöglicht, die neuen KI-Server schon in kürzester Zeit produktiv einzusetzen.

Systemspezifikationen
   
   

Grapchore IPU-Pod128


Grapchore IPU-Pod256

Rechenleistung

32 PetaFlops FP16.16

8 PetaFlops FP32


64 PetaFLOPS FP16.16

16 PetaFLOPS FP32
   
IPUs    
   
128   x GC200 IPUs
   
   
   
256   x GC200 IPUs    

IPU Cores

188.416


376.832
   
Threads    

1.130.496


2.260.992
   
IPU-M2000s    

32 x IPU-M2000


64 x IPU-M2000s
   
Exchange-Memory    

8,3 TB

(115.2GB In-Processor Memory und 8.2TB Streaming Memory)


16,6 TB

(230.4GB In-Processor Memory und 16,384GB Streaming Memory)
   
IPU-Fabric    

2,8 Tbps


2,8 Tbps
   
Host-Link    
   
100   GE RoCEv2
   
   
   
100   GE RoCEv2    
   
Software    

Graphcore Poplar SDK, Tensorflow, Pytorch, Pytorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, Halo, OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus, Grafana, Slurm, Kubernetes, OpenStack, VMware ESG


Graphcore Poplar SDK, Tensorflow, Pytorch, Pytorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, Halo, OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus, Grafana, Slurm, Kubernetes, OpenStack, VMware ESG
   
Gewicht    

900 kg zuzüglich Host Server und Switches

1.800 kg zuzüglich Host Server und Switches

   
Abmessungen    

32 Höheneinheiten zuzuglich Host Server und Switches

64 Höheneinheiten zuzüglich Host Server und Switches

(ID:47770175)