Der WoW-Faktor: plus 40 Prozent Leistung, minus 16 Prozent Stromaufnahme, gleicher Preis Graphcore-Rechner mit Wafer-on-Wafer-IPU toppt bis 2024 Gehirnleistung

Von Ulrike Ostler |

Graphcore entwickelt einen „ultra-intelligenten KI-Computer“, der die parametrische Kapazität des Gehirns übertreffen wird. Die Auslieferung ist für 2024 geplant. Voraussetzung ist eine Intelligent Procssing Unit (IPU), die auf Wafer-on-Wafer-Technik basiert und Computing-Modelle ausführen kann, die viel komplexer ausfallen können als heute und noch nicht einmal erdacht sind. Jetzt gibt es die „Bow-IPU“ sowie erste, darauf basierende Rechner.

Anbieter zum Thema

Graphcore hat heute den weltweit ersten 3D-Wafer-on-Wafer-Prozessor - die „Bow IPU„“- vorgestellt, das Herzstück der „Bow Pod“-AI-Computersystemse.
Graphcore hat heute den weltweit ersten 3D-Wafer-on-Wafer-Prozessor - die „Bow IPU„“- vorgestellt, das Herzstück der „Bow Pod“-AI-Computersystemse.
(Bild: Graphcore)

Graphcore hat heute den weltweit ersten 3D-Wafer-on-Wafer-Prozessor - die „Bow IPU“ - vorgestellt, der das Herzstück einer Generation von „Bow Pod“-KI-Computersystemen bildet. Er liefert bis zu 40 Prozent mehr Leistung und eine 16prozentig höhere Energie-Effizienz für KI-Anwendungen als sein Vorgänger - und das zum gleichen Preis und ohne Änderungen an der bestehenden Software.

Die 3D-Halbleitertechnologie im Bow-IPU-Prozessor ist das Herzstück der Bow-Pod-Systeme. Beim WoW-Verfahren, das Halbleiter-Hersteller TSMC in Zusammenarbeit mit Graphcore entwickelt hat, werden zwei umgedrehte Wafer übereinander gestapelt, beginnend mit der Siliziumebene außen und weiter über das vordere und hintere Ende der Linie. Damit dies funktioniert, muss der passende Wafer gespiegelt werden, da sie sich aneinander ausrichten müssen. Man spricht auch von `Waferbonden´, einem Verfahrensschritt, bei dem die Wafer-Ebenen miteinander verbunden werden.

Die Graphcore-Gründer Simon Knowles (links) und Nigel Toon
Die Graphcore-Gründer Simon Knowles (links) und Nigel Toon
(Bild: Graphcore)

Ein Problem entsteht, wenn einer der Wafer schadhaft ist. Wie Nigel Toon und Simon Knowles, die Graphcore 2016 in Bristol gegründet haben, erläutern, müsse aus diesem Grund durch ein frühes Bonding die Ausbeute viel höher sein, um die schlechten Wafer, die aussortiert werden müssen, auszugleichen. Denn ein schlechter Wafer, der mit einem guten Wafer verbunden ist, wird komplett aussortiert.

Die Bow-IPU-Systeme seien somit der weltweit erste kommerzielle Einsatz mit „TSMC SoIC-WoW“-Technologie. Die Kommunikation zwischen den Wafern geschieht per `Wafer Through-Silicon Vias´ (TSVs). Dafür wird der untere Wafer quasi per TSVs, 10 μm feine Stränge, `durchbohrt´.

Die TSV-Stacking-Technologie kommt bei DRAM bereits seit Jahren und wird nun von TSMC bei seinen „System on integrated Chips“ (SoIC) eingesetzt, die die Bow-IPUs verwenden (siehe: Abbildung 2).

Bildergalerie
Bildergalerie mit 10 Bildern

Die Verbindung zweier in der BOW IPU erzeugen ein neues 3D-Die: ein Wafer für die KI-Verarbeitung, der architektonisch mit dem „GC200 IPU“-Prozessor mit 1.472 unabhängigen IPU-Core-Kacheln kompatibel ist und mehr als 8.800 Threads mit 900 Megabyte In-Prozessor-Speicher ausführen kann, und ein zweiter Wafer mit dem Stromversorgungs-Die.

Der 3D-Silizium-Wafer-Prozessor hat alleine so viel Rechenleistung wie manch herkömmlicher Computer: 350 TeraFlops KI-Rechenleistung, 0,9 Gigabyte In-Prozessor-Speicher bei 65 Terabyte pro Sekunde, 1.472 unabhängige Prozessorkerne. Eine IPU erlaubt 8.832 unabhängige parallele Programme und 10x IPU-Links mit 320 GB/s.

Die ersten Rechner

Schnellere Verbindungen erlauben schnelleres Rechnen. Schnelleres rechnen bedeutet weniger Energie, führt Knowles aus. „Wir sind stolz darauf, der führende Kunde für die 3D-Wafer-on-Wafer-Technologie von TSMC zu sein, die wir in enger Zusammenarbeit mit dem Unternehmen entwickelt haben. Wafer-on-Wafer hat das Potenzial, eine viel höhere Bandbreite zwischen den Siliziumchips zu liefern, und wird eingesetzt, um die Energie-Effizienz zu optimieren und die Stromversorgung unserer „Colossus“-Architektur auf Waferebene zu verbessern.“

Die Unternehmensgründer legen Wert darauf, dass es sich um zukunftsfähige Technik, aber keine Zukunftsmusik handelt. So bietet Graphcore bereits Rechner an, die die Leistungssteigerungen unter Beweis stellen.

Das Flaggschiff „Bow Pod256“ liefert mehr als 89 PetaFlops an KI-Rechenleistung, während der „Superscale Bow POD1024“ 350 PetaFlops an KI-Rechenleistung bietet. „Damit können Ingenieure für maschinelles Lernen der exponentiell wachsenden Größe von KI-Modellen voraus sein und neue Durchbrüche in der maschinellen Intelligenz erzielen“, so Toon.

Echte Ergebnisse

Bei den Bow-Pods geht es darum, für eine Vielzahl von KI-Anwendungen - von GPT und Bert für die Verarbeitung natürlicher Sprache über Efficientnet und Resnet für Computer Vision bis hin zu graphischen neuronalen Netzen und vielem mehr - echte Leistung in großem Maßstab zu liefern, so Graphcore. Nach Unternehmensangaben verzeichnen Kunden eine Leistungssteigerung von bis zu 40 Prozent für eine Vielzahl von KI-Anwendungen bei gleicher Spitzenleistung wie bei den „Mk2 IPU-Pod“-Systemen mit Bow-Pod-Systemen (siehe: Abbildung 5).

Ebenfalls beeindruckend fällt der Vergleich zur Nvidia-Konkurrenz (siehe: Abbildung 6) aus. Laut Graphcore benötigt das eigene, vergleichbare System „Bow-Pod 16“ für das Training derselben Anwendung gerade einmal 14, 1 Stunden, während ein „Nvidia DGX-A100 640 GB“-Server mehr als 70 Stunden beansprucht. Zugleich kostet der Graphcore-Rechner fast die Hälfte: statt 299,000 Dollar UVP, sind es 149,995 Dollar UVP.

Für den Erfolg der neuen IPU-Systeme spricht, dass keine Code-Änderungen zur Ausführung bestehenden IPU-Anwendungen notwendig werden. Neben dem eigenen „Poplar SDK“ werden insbesondere „Pytorch“, „Halo“, „Padle Padle“ von Baidu, VMware, Docker, OpenStack und Hithub unterstützt, sowie „Tensorflow“ „Keras“, „Lightning“ „Hugging Face“, „Weights & Biases“, „Spell“ und „Jupyter Hub“.

Bildergalerie
Bildergalerie mit 10 Bildern

Außerdem hat Graphcore für Abwärtskompatibilität bei der Hardware, also mit bestehenden IPU-POD-Systemen gesorgt. Von Graphcore heißt es: „Jeder, der bereits IPUs verwendet, wird den Übergang zu Bow-Pod-Systemen nahtlos finden. [….] Die „Bow-2000 IPU“-Maschine (siehe: Abbildung 4), Baustein jedes Bow-Pod-Systems, basiert auf der gleichen Systemarchitektur wie die „IPU-M2000“-Maschinen der zweiten Generation, jetzt jedoch mit vier leistungsstarken Bow-IPU-Prozessoren, die 1,4 PetaFlops an KI-Rechenleistung liefern.

Kombiniert mit einer Auswahl an Host-Servern von Marken wie Dell, Atos, Supermicro, Inspur und Lenovo entsteht die `Bow-Pod-Familie“:

  • Bow Pod16 mit vier Bow-2000 und einem Host-Server
  • Bow Pod32 (acht Bow-2000 und ein Host-Server) und
  • Bow Pod64
  • sowie die größeren Systeme Bow Pod256 und Bow Pod1024.

Erfolg beim Kunden

Die Bow Pod-Systeme (siehe: Abbildung 8) sind erhältlich und werden weltweit ausgeliefert. Einer der ersten Kunden, der Bow-Systeme nutzen wird, ist das Pacific Northwest National Laboratory des US-Energieministeriums (PNNL) für Anwendungen wie Cyber-Sicherheit und computergestützte Chemie. Sutanay Choudhury, Co-Direktor des PNNL, sagt: „Am Pacific Northwest National Laboratory stoßen wir an die Grenzen des maschinellen Lernens und der graphischen neuronalen Netze, um wissenschaftliche Probleme zu lösen, die mit bestehenden Technologien nicht lösbar waren“, zur Begründung.

„Wir verfolgen zum Beispiel Anwendungen in der computergestützten Chemie und in der Cyber-Sicherheit. In diesem Jahr konnten wir mit Graphcore-Systemen sowohl die Trainings- als auch die Inferenzzeiten für diese Anwendungen deutlich von Tagen auf Stunden reduzieren. Diese Beschleunigung ist vielversprechend und wird uns helfen, die Werkzeuge des maschinellen Lernens auf sinnvolle Weise in unseren Forschungsauftrag einzubinden.“

Der US-amerikanische Cloud-Service-Provider Cirrascale stellt seinen Kunden bereits Bow-Pod-Systeme als Teil seines „Graphcloud IPU Bare-Metal-Service“ zur Verfügung, während der europäische Cloud-Service-Provider G-Core Labs angekündigt hat, Bow IPU-Cloud-Instanzen im zweiten Quartal 2022 einzuführen.

Der „Good Computer“ wird ebenfalls auf WoW-Technik basieren und Supercomputing-Fähigkeiten aufweisen.
Der „Good Computer“ wird ebenfalls auf WoW-Technik basieren und Supercomputing-Fähigkeiten aufweisen.
(Bild: Graphcore)

Die Roadmap zum ultra-intelligenten AI Superrechner: Good Computer

Während die Bow-IPU-Systeme bereits erhältlich sind, ist der „Good Computer“, benannt nach dem britischen Mathematiker und Kryptologe Irving John Good, bekannt als Jack Good und 1916 geboren als Isidore Jacob Gudak, noch in der Mache. Der Informatikpionier Jack Good, der 2009 starb, beschrieb 1965 in seinem Aufsatz „Speculations Concerning the First Ultra-Intelligent Machine“ als Erster eine Maschine, die die Fähigkeiten unseres Gehirns übertreffen würde.

„Jack Goods Kommentare zum Verstärkungslernen als beste Methode zum Trainieren einer intelligenten Maschine sind sehr vorausschauend“, kommentiert Knowles. Er beschreibe aber auch das Konzept kleiner Änderungen in der Intelligenzstruktur, die durch Rückkopplung möglich sind. „Das vollziehen wir heute in Deep Neural Networks.“

Ergänzendes zum Thema
Jack Good

Jack Good, geboren als Isadore Jacob Gudak am 9. Dezember 1916 und gestorben am 5. April 2009, war ein echter Pionier, der in den 1940er Jahren in Bletchley Park im Vereinigten Königreich wichtige Arbeiten zum Entschlüsseln von Codes durchführte, unter anderem am ersten elektronischen Computer der Welt, „Colossus“, und zusammen mit Max Newman an der Universität Manchester am Bau des ersten speicherprogrammierbaren Computers der Welt, dem „Manchester-1“, mitwirkte. Im Jahr 1958 entwickelte er das Konzept der schnellen Fourier-Transformation (FFT), das heute im Mittelpunkt aller drahtgebundenen und drahtlosen Kommunikationssysteme steht.

1960 war er Fellow am Trinity College in Oxford und begründete die Entwicklung komplexer neuronaler Netze als Weg zur Entwicklung intelligenter Maschinen - eine Technologie, die noch heute qausi in den Kinderschuhen steckt . Er sagte auch den Bedarf an ultra-parallelen Maschinen mit hochparallelen, spärlichen Verbindungen voraus.

1968 wandte sich Filmemacher Stanley Kubrick an Good als Berater für den Film 2001: „Odyssee im Weltraum“. Es war Good, der mit seinen Erkenntnissen über intelligente Maschinen dazu beitrug, den Computer „HAL 9000“ zu beschreiben.

Jetzt hat Graphcore bekannt geben, bis 2024 den ersten ultraintelligenten KI-Computer der Welt zu liefern, den Good Computer. Dieser werde, so Toon und Knowles, die parametrische Kapazität des Gehirns übertreffen. „Ausgehend von einer einzigen Zelle und geformt durch fast 4 Milliarden Jahre Evolution, ist das menschliche Gehirn vielleicht die größte Errungenschaft der Natur“, referieren die beiden.

„Unser Gehirn ist ein unglaublich komplexes Rechengerät mit etwa 100 Milliarden Neuronen und mehr als 100 Billionen Parametern in einem biologisch-neuralen Netzwerksystem, das eine Rechenleistung erbringt, die bisher von keinem Siliziumcomputer erreicht wurde“, führen sie aus.

Die Grundlage sei die nächste Generation der IPU-Technologie. Der erste Good Computer soll über folgende Eigenschaften verfügen:

  • über 10 ExaFlops für KI-Gleitkommaberechnungen,
  • bis zu 4 Petabyte Speicher mit einer Bandbreite von über 10 Petabyte pro Sekunde,
  • Unterstützung für KI-Modellgrößen von 500 Billionen Parametern,
  • 3D-Wafer-on-Wafer-Logikstapel,
  • vollständige Unterstützung durch das Poplar SDK,
  • bei erwarteten Kosten von rund 120 Millionen Dollar

Verglichen mit existenten Supercomputern, die sich im Wesentlichen Staaten erlauben können, ist die Summe ein Klacks. „Wir adressieren nicht Regierungen, sondern Forschungseinrichtungen jeglicher Art“, betont Toon. Er kündigt zudem an: „Wir werden in den kommenden Quartalen weitere Informationen über den Good-Computer bereitstellen und sind sehr daran interessiert, mit Unternehmen und KI-Innovatoren in Kontakt zu treten, die uns bei bahnbrechenden KI-Entwicklungen helfen können, die diese hochintelligente Maschine ermöglichen wird.“

(ID:48044912)