Suchen

KI-Beschleunigung Graphcore präsentiert weltweit komplexesten Mikroprozessor

| Autor: Sebastian Gerstl

Das britische Startup Graphcore bläst zum Kampf gegen Nvidia: Der Hersteller hat mit seiner IPU (intelligence Processing Unit) die Messlatte für KI-Beschleunigungschips höher gelegt. „Colossus Mark 2“ vereint 59,4 Milliarden Transistoren auf einer Chipfläche von 823 Quadratmillimeter

Firmen zum Thema

Neue Spitzenklasse für KI: Der Colossus Mark 2 vereint 59,4 Milliarden Transistoren auf einem Chip und ist in der Lage, mit 1472 unabhängigen Prozessorkernen 8832 separate Rechen-Threads parallel auszuführen.
Neue Spitzenklasse für KI: Der Colossus Mark 2 vereint 59,4 Milliarden Transistoren auf einem Chip und ist in der Lage, mit 1472 unabhängigen Prozessorkernen 8832 separate Rechen-Threads parallel auszuführen.
(Bild: Graphcore)

Graphcore, ein britisches KI-Startup mit Hauptsitz in Bristol, erregte Mitte 2018 mit der Vorstellung seines KI-Beschleunigungschips „Colossus Mark 1“ (auch „GC2“ genannt) Aufmerksamkeit. Der Prozessor, der speziell für das Training und die Inferenz der Maschinenintelligenz entwickelt wurde, wurde im 16 Nanometer Prozess gefertigte Prozessor vereinte 23,6 Milliarden Transistoren auf einem Chip, enthielt 300 Megabyte RAM On-chip und übertraf selbst seinerzeit maßgebende KI-Beschleunigungskarten wie Vertreter der „Nvidia Volta“- Reihe oder Googles „TPU2“ von Google.

Zwar legten die genannten Firmen nur kurze Zeit später bessere, schnellere Varianten zur KI-Beschleunigung nach, doch zog das Startup große Aufmerksamkeit auf sich. Mittlerweile hat das junge Unternehmen mehr als 450 Millionen Dollar Wagniskapital eingefahren, auch deutsche Unternehmen wie Bosch oder BMW investieren in die KI-Chip-Schmiede.

KI-Startup präsentiert komplexesten Prozessor der Welt

Bildergalerie mit 6 Bildern

Fast 60 Milliarden Transistoren auf einem hochskalierbaren KI-Chip

Nun hat Graphcore mit seinem IPU der zweiten Generation die Messlatte abermals nach oben gelegt. Der Colossus Mark 2, auch als GC200 bezeichnet, nutzt nun den 7-nm-Fertigungsprozess von TSMC, vereint 59,4 Milliarden Transistoren auf einem Die und erreicht nach Unternehmensangaben mit 1472 unabhängigen Prozessorkernen 250 TeraFlops Rechenleistung.

Der Baustein verfügt mit 900 MByte On-Chip über die dreifache Arbeitsspeichermenge als sein Vorgänger, bietet pro IPU eine Speicherbandbreite von bis zu 47,5 Terabyte pro Sekunde und soll in der Lage sein, 8832 separate Rechen-Threads parallel auszuführen.

Laut Graphcore wurde damit die Leistung im Vergleich zum Mark 1 insgesamt etwa um das 8-fache gesteigert. Im Vergleich zu 8 GC2-IPUs können 8 Chips vom Typ Mark 2s das BERT-Training 9,3-mal schneller durchführen, ihre BERT-3 Layer-Inferenz ist 8,5-mal schneller und Efficientnet-B3-Training soll um den Faktor 7,4 schneller sein. Laut Graphcore ist der Chip zudem hochskalierbar und erlaube die Verknüpfung von bis zu 64.000 Colossus-Mark-2-Chips zu einer parallelen Prozessoreinheit mit rechnerisch bis zu 16 Exaflops Rechenleistung.

Während der Mark 1 ausschließlich in Form von PCIe-Erweiterungskarten mit je zwei Prozessoren pro Karte ausgeliefert wurde, ist der Mark 2 auch mit dem „Graphcore M2000“ in Form einer so genannten IPU Machine erhältlich. Dabei handelt es sich um eine mit je vier GC200-Prozessoren bestückte in 1U-Server-Blade, die einen PetaFlops an KI-Berechnung mit FP16-Präzision bietet.

Graphcore-CEO Nigel Toon verglich den „M2000“ mit einer aktuellen „A100“-Einheit von Nvidia. Laut Toon böte der M2000 bei vergleichbarem Preis das bis zu 12-fache an FP32-Rechenleistung gegenüber der Nvidia-Plattform, das dreifache an reiner KI-Rechenleistung sowie die zehnfache Menge an für KI reservierten Arbeitsspeicher (siehe: Bildergalerie).

Hinweis:Der Artikel erschien im Original bei unserem Schwesterportal „Elektronik Praxis

Artikelfiles und Artikellinks

(ID:46719886)

Über den Autor