Beschleunigung für Anwendungen der Künstlichen Intelligenz Graphcore IPU-Systeme gegen Nvidia Ampere-Rechner

Redakteur: Ulrike Ostler

Graphcore liefert seine Rechner „IPU-M2000“ und „IPU-POD64“, die auf der zweiten Generation seiner KI-Chips „Colossus Mk2 GC200 IPU“ basieren, seit vergangener Woche aus. Passend dazu verweist das britische Unternehmen auf weitere Benchmarks, die nachweisen sollen, dass diese in Anwendungen der Künstlichen Intelligenz die Leistungen der GPUs vom Marktführer Nvidia übertreffen.

Firmen zum Thema

Die Graphcore-Rechner in eiem Rack montiert; ein System mit einer Höheneinheit liefert 1 PetaFlop KI-Rechenleistung.
Die Graphcore-Rechner in eiem Rack montiert; ein System mit einer Höheneinheit liefert 1 PetaFlop KI-Rechenleistung.
(Bild: Graphcore)

Die IPU Colossus Mk2 GC200 (IPU = Intelligent Processing Unit) basiert auf einer 7- Nanometer-Prozesstechnologie von TSMC und enthält mehr als 59,4 Milliarden Transistoren auf einem 823-Quadratmillimeter-Chip. Mit ihren 1.472 separaten IPU-Cores kann die Recheneinheit 8.832 separate parallele Computing-Threads ausführen.

Die Leistungsfähigkeit jedes IPU-Cores wird durch eine Reihe neuartiger, von Graphcore entwickelter, Gleitkomma-Techniken namens „AI-Float“ nochmals gesteigert. Durch optimierte arithmetische Implementierungen in Bezug auf Stromverbrauch und Leistungsfähigkeit bei Maschinenintelligenz-Berechnungen steht 1 PetaFlops KI-Rechenleistung mit jedem IPU-Machine M2000 1HE-Blade zur Verfügung.

Mit ihren 1472 separaten IPU-Cores kann „Colossus Mk2 GC“ 8832 separate parallele Computing-Threads ausführen.
Mit ihren 1472 separaten IPU-Cores kann „Colossus Mk2 GC“ 8832 separate parallele Computing-Threads ausführen.
(Bild: Graphcore)

Die Graphcore-IPU unterstützt FP32-IEEE-Gleitkomma-Arithmetik - FP16.32, 16Bit-Multiplikation mit 32Bit-Akkumulation, und FP16.16, 16Bit-Multiplikation mit Akkumulation. Die Colossus Mk2 GC200 IPUs unterstützen dabei stochastische Rundung der Arithmetik in Hardware, die mit der vollen Geschwindigkeit des Prozessors ausgeführt wird. Dadurch kann die IPU die gesamte Arithmetik in 16Bit-Formaten halten, was den Speicherbedarf reduziert, Energie bei Lese- und Schreibvorgängen und in der Arithmetik-Logik einspart, während die Ergebnisse der Maschinenintelligenz mit voller Genauigkeit geliefert werden.

Jeder der 1.472 Prozessorkerne und 8.832 parallelen Programm-Threads kann einen separaten Startwert für einen Zufallszahlengenerator mit Rauschformung erzeugen, was eine enorme Rechenleistung ermöglicht, um zum Beispuiel Wahrscheinlichkeits- oder Evolutionsstrategie-Modelle zu unterstützen.

Aufbau de Graphcore-IPU „Colossus Mk2 GC200“
Aufbau de Graphcore-IPU „Colossus Mk2 GC200“
(Bild: Graphcore)

Außerdem unterstützt der KI-Fließkomma-Arithmetik-Block auch Sparse-Arithmetik-Fließkomma-Operationen, nicht nur während der Inferenz, sondern auch während des Trainings. Der Hersteller bietet Bibliotheksunterstützung für verschiedene Sparse-Operationen, einschließlich Block- und Dynamic-Sparsity. Letztlich ermöglicht dies, neue Arten komplexer Modelle zu erstellen, die mit viel weniger Parametern, kürzeren Trainingszeiten und viel weniger Energie mehr Leistungsfähigkeit bereitstellen können.

IPU-M2000 und IPU-POD64

Die IPU-Machine M2000 ist ein Plug-and-Play Computing-Blade für Anwendungen der Künstlichen Intelligenz (KI), das für eine einfache Installation konzipiert wurde und Systeme unterstützt, die hoch skalieren. Der Rechner auf einer Höheneinheit liefert 1 PetaFlop KI-Rechenleistung und bietet Netzwerktechnik, die für das Scale-Out optimiert ist. Jedes Blade wird von vier der Colossus Mk2 GC200-IPU-Prozessoren angetrieben und durch den „Poplar“-Software-Stack von Graphcore unterstützt.

Jede Menge IPU-Leistung von Graphcore im Rack und ein paar Dell-Server
Jede Menge IPU-Leistung von Graphcore im Rack und ein paar Dell-Server
(Bild: Graphcore)

Das Modell IPU-POD64 ist das Scale-Out-System des Herstellers, das 16 IPU-M2000-Machines umfasst. Die hohe Bandbreite stammt von der „IPU-Fabric“-Technik, die Graphcore vorkonfiguriert einsetzt.

Gedacht ist IPU-POD64 für umfangreiche KI-Computing-Funktionen. Einzelne Workloads lassen sich für die parallele Berechnung auf mehrere IPUs verteilen und mithilfe der „Virtual-IPU“-Software von Graphcore gemeinsam über mehrere Benutzer hinweg zu verwenden.

Die Benchmamrks

Die jüngsten Benchmarks beziehen sich auf die Leistungen der IPU Colossus Mk2 GC200. So sollen die der Nvidia- GPU „A100“ beziehungsweise die DGX-Rechner des Konkurrenten, in denen die „Ampere“-Beschleuniger verbaut sind, deutlich übertreffen. Die Benchmarks folgen dabei den gängigsten KI-Modellen wie BERT, Efficientnet, LSTM und Resnet/Resnext.

Das Innenleben der Graphcore-Maschine „IPU-M2000“.
Das Innenleben der Graphcore-Maschine „IPU-M2000“.
(Bild: Graphcore)

Außerdem kündigt Graphcore seine Teilnahme an dem Benchmarking-Prozess von MLCommons (vormals MLPerf) an Januar 2021 an. Der Hersteller ist nun Mitglied bei dem Kontrollgremium MLCommons.

Zu den Benchmark-Highlights zählen aus der Sicht von Graphcore:

Bildergalerie
Bildergalerie mit 6 Bildern

im Training:

Efficientnet-B4: 18-mal höherer Durchsatz

Resnext 101: 3,7-mal höherer Durchsatz

BERT-Large: 5,3-mal schnelleres Training des IPU-POD64 im Vergleich zum DGX A100 (>2,6-mal schneller als Dual-DGX-Systeme)

in der Inferenz:

  • LSTM: >600-facher Durchsatz bei geringerer Latenz
  • Efficientnet-B0: 60-facher Durchsatz / >16-mal geringere Latenz
  • Resnext 101: 40-facher Durchsatz / 10-mal geringere Latenz
  • BERT-Large: 3,4-mal höherer Durchsatz bei geringerer Latenz

Matt Fyles, Senior Vice President Software, Graphcore, erläutert: „Diese umfassende Reihe von Benchmarks zeigt, dass die IPU-M2000 und der IPU-POD64 von Graphcore die GPUs bei gängigen Modellen auf ganzer Linie übertreffen. Die Benchmarks für neuere Modelle wie Efficientnet sind besonders aufschlussreich, da sie zeigen, wie die Weiterentwicklung der KI die spezielle Architektur der IPU gegenüber dem ‚alten‘ Legacy-Design von GPUs zunehmend bevorzugt.“

Das Graphcore-System „IPU-POD64“ konkurriert mit „DGX“ von Nvidia.
Das Graphcore-System „IPU-POD64“ konkurriert mit „DGX“ von Nvidia.
(Bild: Grapcore)

Mit einem Blick in die Zukunft setzt er hinzu: „Diese Lücke wird sich weiter vergrößern, wenn Kunden KI-Computing-Lösungen fordern, die mit Sparse-Modeling umgehen und umfangreiche Modelle effizient ausführen können – Aspekte, für die sich die Graphcore IPU besonders auszeichnet.“

Ab sofort verfügbar

Die Veröffentlichung der neuen Benchmarks von Graphcore fällt mit der weltweiten Verfügbarkeit der IPU-M2000- und IPU-POD64-Systeme zusammen. Eine Reihe von Systemen ist bereits in Rechenzentren installiert und in Betrieb.

Der Vertrieb wird durch das weltweite Partnernetzwerk von Graphcore sowie durch die eigenen Vertriebs- und Außendienstteams in Europa, Asien und Amerika unterstützt. Zu den Partnern in der DACH-Region zählen Boston und Megware.

Pytorch und Poplar 1.4

Die jüngste Version des Software Development Kit Poplar 1.4 können nu nicht nur vom Support für Tensorflow, sondern auch von vollständigen Pytorch-Unterstützung profitieren. Wie bei anderen Elementen des Poplar-Stacks stellt Graphcore seine Pytorch-for-IPU Interface Library als Open-Source-Lösung bereit, damit die Community zu seiner Entwicklung beitragen und diese beschleunigen kann.

Paper Implementations nach Frameworks gruppiert
Paper Implementations nach Frameworks gruppiert
(Bild: PapersWithCode)

Pytorch hat sich zum bevorzugten Framework für Entwickler gemausert, die an neuester KI-Forschung arbeiten und gewinnt in der KI-Community zunehmend an Interesse. Das belegen Zahlen von PapersWithCode aus dem September 2020. Demnach verwenden 47 Prozent der veröffentlichten Arbeiten mit zugehörigem Code das Pyorch-Framework.

Artikelfiles und Artikellinks

(ID:47039859)