Graphcore stellt Pod-Systeme für 64 PetaFlops KI-Power vor

Neue IPU-Systeme aus Großbritannien Graphcore stellt Pod-Systeme für 64 PetaFlops KI-Power vor

04.11.2021Redakteur: Ulrike Ostler

Der europäische Chiphersteller Graphcore hat mit „IPU-Pod128“ und dem „IPU-Pod256“ zwei neue Systeme für Anwendungen der Künstlichen Intelligenz (KI) vorgestellt. Mit 32 PetaFlops bei IPU-Pod128 und 64 PetaFlops bei IPU-Pod256 bietet die Scale-Out Anwendungen entwickelte Graphcore-Architektur eine KI-Rechenleistung für Supercomputer-Umgebungen.

Anbieter zum Thema

Stäubli TEC-Systems GmbH Connectors

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

EPS Rechenzentrum Infrastruktur GmbH

Abbildung 1: Das System „IPU-Pod256“ von Graphcore bietet bis zu 64 PetaFlops.
(Bild: Graphcore)

Die Graphcore-KI-Systeme ermöglichen ein schnellesTraining großer Transformer-basierter Sprachmodelle, Large-Scale KI-Inferenzberechnungen und die Erforschung von KI-Modellen wie „GPT“ und „GNN“. Durch Aufteilung der Systeme in kleinere, flexible virtuelle Pods (vPods) können mehrere KI-Entwickler Zugriff auf die Graphcore IPUs (Intelligence Processing Units) erhalten. Die Graphcore KI-Systeme eignen sich damit insbesondere für Cloud-Hyperscaler, wissenschaftliche Rechenzentren und Unternehmen mit großen KI-Teams in Branchen wie der Finanz- und Pharmaindustrie.

Die Ergebnisse bei Ausführung gängiger Sprach- und Bilderkennungsmodelle zeigen ein beeindruckendes Leistungsverhalten bei KI-Training Workloads und Skalierbarkeit. Dazu dürfte die Leistung durch Software-Optimierungen noch weiter zu steigern sein.

KI-Berechnungen, die auf GPU-Rechnern eine Woche benötigten, kann Tractable mit den IPU-Systemen von Graphcore jetzt an nur einem Tag durchführen. (© Copyright of Nick Rochowski)

Die Graphcore-IPUs bieten aufgrund ihres On-Chip Memory eine gute Leistung für traditionelle große „Matmul“-Modelle wie „Bert“ und „Resnet-50“. Darüber hinaus unterstützen sie auch allgemeinere Berechnungsarten, die die Effizienz von Sparse-Multiplikationen und Fine-Grained Berechnungen erhöhen. Die „Efficientnet“-Modellfamilie profitiert in hohem Maße davon, aber auch verschiedene KI-Modelle für maschinelles Lernen, die nicht auf klassischen neuronalen Netzen basieren, zum Beispiel GNN (Graph Neural Networks).

Die IPU-Pod128 und IPU-Pod256 Systeme unterstützen KI-Frameworks wie „Tensorflow“, „Pytorch“, „Pytorch Lightning“, „Keras“, „Paddle Paddle“, „Hugging Face“, „ONNX“ und „HALO“ sowie Standard-Tools und -Protokolle wie „OpenBMC“, „Redfish DTMF“, „IPMI over LAN“, „Prometheus“ und „Grafana“. So können die neuen Graphcore-Systeme reibungslos in bestehende Rechenzentrumsumgebungen integriert werden und Nutzer die zusätzliche KI-Rechenleistung sofort produktiv in ihrer bekannten Software-Umgebung nutzen.

Agnès Boudot, Senior Vice President, Head of HPC & Quantum bei Atos, sagt: „Wir freuen uns sehr, die neuen IPU-POD128 und IPU-POD256 Systeme von Graphcore in unser Atos ThinkAI Portfolio aufzunehmen. So können wir unseren Kunden helfen, ihre Fähigkeiten und ihr Leistungsspektrum zur Erforschung und zum Einsatz größerer und innovativerer KI-Modelle in vielen Bereichen wie der akademischen Forschung, der Finanzindustrie, dem Gesundheitswesen, der Telekommunikation und dem Consumer-Internet schneller und wirksamer einzusetzen.“

Das „Think-AI“-Portfolio von Atos bekommt mit Graphcore-IPU-Systemen Zuwachs. (Atos)

Zu den ersten Kunden, die die neue IPU-Pod128 Plattform implementierten, gehört der koreanische Technologiegigant Korea Telecom (KT). Das Unternehmen profitiert bereits jetzt von der zusätzlichen Rechenkapazität.

Mihee Lee, Senior Vice President, Cloud/DX Business Unit bei KT, äußert: „KT ist das erste Unternehmen in Korea, das einen Hyperscale-KI-Service bereitstellt. Dabei kommen die IPU-Systeme von Graphcore in einer dedizierten hochdichten KI-Zone innerhalb unseres Rechenzentrums zum Einsatz.“

Zahlreiche Unternehmen und Forschungsinstitute nutzten gegenwärtig diesen Service für ihre Forschung, Proof-of-Concept Studien oder führten Tests auf den Graphcore IPUs durch. „Zur kontinuierlichen Unterstützung der steigenden Marktnachfrage nach hochskalierbaren KI-HPC-Umgebungen führten wir in Zusammenarbeit mit Graphcore ein Upgrade unserer IPU-Pod64 Systeme auf ein IPU-Pod128 System durch, um so das Angebot unseres Hyperscale-KI-Service für unsere Kunden zu erweitern“, so Mihee weiter.

Bildergalerie

Wie bei anderen Graphcore IPU-POD-Systemen auch bedeutet die Disaggregation von KI-Rechenleistung und Servern, dass die neuen Graphcore- Systeme weiter optimiert werden können, um höhere Leistung für verschiedene KI-Workloads bereitzustellen und die Gesamtbetriebskosten (TCO) zu optimieren. Beispielsweise könnte ein NLP-fokussiertes System mit nur zwei Servern auskommen, während datenintensivere Prozesse, wie zum Beispiel Computer-Vision-Tasks, eher von einer Konfiguration mit acht Servern profitieren würden.

Darüber hinaus können auch die angebundenen Storage-Systeme für ausgewählte KI-Workloads optimiert werden. Die Storage-Anbieter DDN, Pure Storage, Vast Data und WekaIO unterstützen Graphcore KI-Systeme mit zertifizierten Referenzarchitekturen.

Die Graphcore IPU-POD128 und IPU-POD256 Systeme sind ab sofort über die Graphcore-Partner Atos, Boston und Megware in der DACH-Region lieferbar und werden auch als Cloud-Service angeboten. Dazu bietet Graphcore ein umfangreiches Schulungs- und Support-Paket an, das es Kunden ermöglicht, die neuen KI-Server schon in kürzester Zeit produktiv einzusetzen.

Systemspezifikationen
	Grapchore IPU-Pod128	Grapchore IPU-Pod256
Rechenleistung	32 PetaFlops FP16.16 8 PetaFlops FP32	64 PetaFLOPS FP16.16 16 PetaFLOPS FP32
IPUs	128 x GC200 IPUs	256 x GC200 IPUs
IPU Cores	188.416	376.832
Threads	1.130.496	2.260.992
IPU-M2000s	32 x IPU-M2000	64 x IPU-M2000s
Exchange-Memory	8,3 TB (115.2GB In-Processor Memory und 8.2TB Streaming Memory)	16,6 TB (230.4GB In-Processor Memory und 16,384GB Streaming Memory)
IPU-Fabric	2,8 Tbps	2,8 Tbps
Host-Link	100 GE RoCEv2	100 GE RoCEv2
Software	Graphcore Poplar SDK, Tensorflow, Pytorch, Pytorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, Halo, OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus, Grafana, Slurm, Kubernetes, OpenStack, VMware ESG	Graphcore Poplar SDK, Tensorflow, Pytorch, Pytorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, Halo, OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus, Grafana, Slurm, Kubernetes, OpenStack, VMware ESG
Gewicht	900 kg zuzüglich Host Server und Switches	1.800 kg zuzüglich Host Server und Switches
Abmessungen	32 Höheneinheiten zuzuglich Host Server und Switches	64 Höheneinheiten zuzüglich Host Server und Switches

(ID:47770175)