Neue IPU-Systeme aus Großbritannien Graphcore stellt Pod-Systeme für 64 PetaFlops KI-Power vor
Der europäische Chiphersteller Graphcore hat mit „IPU-Pod128“ und dem „IPU-Pod256“ zwei neue Systeme für Anwendungen der Künstlichen Intelligenz (KI) vorgestellt. Mit 32 PetaFlops bei IPU-Pod128 und 64 PetaFlops bei IPU-Pod256 bietet die Scale-Out Anwendungen entwickelte Graphcore-Architektur eine KI-Rechenleistung für Supercomputer-Umgebungen.
Anbieter zum Thema

Die Graphcore-KI-Systeme ermöglichen ein schnellesTraining großer Transformer-basierter Sprachmodelle, Large-Scale KI-Inferenzberechnungen und die Erforschung von KI-Modellen wie „GPT“ und „GNN“. Durch Aufteilung der Systeme in kleinere, flexible virtuelle Pods (vPods) können mehrere KI-Entwickler Zugriff auf die Graphcore IPUs (Intelligence Processing Units) erhalten. Die Graphcore KI-Systeme eignen sich damit insbesondere für Cloud-Hyperscaler, wissenschaftliche Rechenzentren und Unternehmen mit großen KI-Teams in Branchen wie der Finanz- und Pharmaindustrie.
Die Ergebnisse bei Ausführung gängiger Sprach- und Bilderkennungsmodelle zeigen ein beeindruckendes Leistungsverhalten bei KI-Training Workloads und Skalierbarkeit. Dazu dürfte die Leistung durch Software-Optimierungen noch weiter zu steigern sein.
:quality(80)/images.vogel.de/vogelonline/bdb/1869500/1869555/original.jpg)
Leistungssteigerung um das Fünffache
Die Insurtech-Firma Tractable tauscht Nvidia-GPU- gegen IPU-Server von Graphcore aus
Die Graphcore-IPUs bieten aufgrund ihres On-Chip Memory eine gute Leistung für traditionelle große „Matmul“-Modelle wie „Bert“ und „Resnet-50“. Darüber hinaus unterstützen sie auch allgemeinere Berechnungsarten, die die Effizienz von Sparse-Multiplikationen und Fine-Grained Berechnungen erhöhen. Die „Efficientnet“-Modellfamilie profitiert in hohem Maße davon, aber auch verschiedene KI-Modelle für maschinelles Lernen, die nicht auf klassischen neuronalen Netzen basieren, zum Beispiel GNN (Graph Neural Networks).
Die IPU-Pod128 und IPU-Pod256 Systeme unterstützen KI-Frameworks wie „Tensorflow“, „Pytorch“, „Pytorch Lightning“, „Keras“, „Paddle Paddle“, „Hugging Face“, „ONNX“ und „HALO“ sowie Standard-Tools und -Protokolle wie „OpenBMC“, „Redfish DTMF“, „IPMI over LAN“, „Prometheus“ und „Grafana“. So können die neuen Graphcore-Systeme reibungslos in bestehende Rechenzentrumsumgebungen integriert werden und Nutzer die zusätzliche KI-Rechenleistung sofort produktiv in ihrer bekannten Software-Umgebung nutzen.
Agnès Boudot, Senior Vice President, Head of HPC & Quantum bei Atos, sagt: „Wir freuen uns sehr, die neuen IPU-POD128 und IPU-POD256 Systeme von Graphcore in unser Atos ThinkAI Portfolio aufzunehmen. So können wir unseren Kunden helfen, ihre Fähigkeiten und ihr Leistungsspektrum zur Erforschung und zum Einsatz größerer und innovativerer KI-Modelle in vielen Bereichen wie der akademischen Forschung, der Finanzindustrie, dem Gesundheitswesen, der Telekommunikation und dem Consumer-Internet schneller und wirksamer einzusetzen.“
:quality(80)/images.vogel.de/vogelonline/bdb/1857200/1857288/original.jpg)
Erster Großkunde hat schon zugebissen
Atos ködert Kunden mit Graphcore-IPUs in HPC-KI-Systemen
Zu den ersten Kunden, die die neue IPU-Pod128 Plattform implementierten, gehört der koreanische Technologiegigant Korea Telecom (KT). Das Unternehmen profitiert bereits jetzt von der zusätzlichen Rechenkapazität.
Mihee Lee, Senior Vice President, Cloud/DX Business Unit bei KT, äußert: „KT ist das erste Unternehmen in Korea, das einen Hyperscale-KI-Service bereitstellt. Dabei kommen die IPU-Systeme von Graphcore in einer dedizierten hochdichten KI-Zone innerhalb unseres Rechenzentrums zum Einsatz.“
Zahlreiche Unternehmen und Forschungsinstitute nutzten gegenwärtig diesen Service für ihre Forschung, Proof-of-Concept Studien oder führten Tests auf den Graphcore IPUs durch. „Zur kontinuierlichen Unterstützung der steigenden Marktnachfrage nach hochskalierbaren KI-HPC-Umgebungen führten wir in Zusammenarbeit mit Graphcore ein Upgrade unserer IPU-Pod64 Systeme auf ein IPU-Pod128 System durch, um so das Angebot unseres Hyperscale-KI-Service für unsere Kunden zu erweitern“, so Mihee weiter.
Wie bei anderen Graphcore IPU-POD-Systemen auch bedeutet die Disaggregation von KI-Rechenleistung und Servern, dass die neuen Graphcore- Systeme weiter optimiert werden können, um höhere Leistung für verschiedene KI-Workloads bereitzustellen und die Gesamtbetriebskosten (TCO) zu optimieren. Beispielsweise könnte ein NLP-fokussiertes System mit nur zwei Servern auskommen, während datenintensivere Prozesse, wie zum Beispiel Computer-Vision-Tasks, eher von einer Konfiguration mit acht Servern profitieren würden.
Darüber hinaus können auch die angebundenen Storage-Systeme für ausgewählte KI-Workloads optimiert werden. Die Storage-Anbieter DDN, Pure Storage, Vast Data und WekaIO unterstützen Graphcore KI-Systeme mit zertifizierten Referenzarchitekturen.
Die Graphcore IPU-POD128 und IPU-POD256 Systeme sind ab sofort über die Graphcore-Partner Atos, Boston und Megware in der DACH-Region lieferbar und werden auch als Cloud-Service angeboten. Dazu bietet Graphcore ein umfangreiches Schulungs- und Support-Paket an, das es Kunden ermöglicht, die neuen KI-Server schon in kürzester Zeit produktiv einzusetzen.
Systemspezifikationen | ||
---|---|---|
| Grapchore IPU-Pod128 | Grapchore IPU-Pod256 |
Rechenleistung | 32 PetaFlops FP16.16 8 PetaFlops FP32 | 64 PetaFLOPS FP16.16 16 PetaFLOPS FP32 |
IPUs | 128 x GC200 IPUs | 256 x GC200 IPUs |
IPU Cores | 188.416 | 376.832 |
Threads | 1.130.496 | 2.260.992 |
IPU-M2000s | 32 x IPU-M2000 | 64 x IPU-M2000s |
Exchange-Memory | 8,3 TB (115.2GB In-Processor Memory und 8.2TB Streaming Memory) | 16,6 TB (230.4GB In-Processor Memory und 16,384GB Streaming Memory) |
IPU-Fabric | 2,8 Tbps | 2,8 Tbps |
Host-Link | 100 GE RoCEv2 | 100 GE RoCEv2 |
Software | Graphcore Poplar SDK, Tensorflow, Pytorch, Pytorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, Halo, OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus, Grafana, Slurm, Kubernetes, OpenStack, VMware ESG | Graphcore Poplar SDK, Tensorflow, Pytorch, Pytorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, Halo, OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus, Grafana, Slurm, Kubernetes, OpenStack, VMware ESG |
Gewicht | 900 kg zuzüglich Host Server und Switches | 1.800 kg zuzüglich Host Server und Switches |
Abmessungen | 32 Höheneinheiten zuzuglich Host Server und Switches | 64 Höheneinheiten zuzüglich Host Server und Switches |
(ID:47770175)