Der Microsoft- und Dell-Technologies-Liebling

Graphcore stellt eine Reihe von Benchmarks für seinen KI-Akzelerator vor

| Autor: Ulrike Ostler

KI-Prozessoren sind stark im Kommen. Hersteller Graphcore kann nun mit guten Ergebnissen bei Vergleichtests aufwarten: Es zählen: Durchsatz, Latenz und Strombedarf
KI-Prozessoren sind stark im Kommen. Hersteller Graphcore kann nun mit guten Ergebnissen bei Vergleichtests aufwarten: Es zählen: Durchsatz, Latenz und Strombedarf (Bild: Graphcore)

Seit Montag gibt es auf der Graphcore-Github-Seite eine Reihe von Benchmarks und Anwendungsbeispiele, die auf der Basis von IPU-Systemen entstanden sind und sich mithilfe von Code replizieren lassen. Die Systeme sind ab sofort als „IPU Cloud Preview“ auf „Microsoft Azure“ und als IPU-Server-Produkte von Dell mit voller Unterstützung durch den Graphcore-Software-Stack „Poplar“ verfügbar.

„Graphcore IPU“ ist ein neuartiger Prozessor, der von Grund auf für maschinelle Intelligenz entwickelt wurde. Die „Intelligent Processing Unit“ verfügt über spezifische architektonische Merkmalen, die zu einer wesentlich höheren Leistung sowohl im Training als auch in der Inferenz führen. Im Folgenden stellt Graphcore einige der Vorteile vor:

Die IPU bietet eine bessere arithmetische Effizienz bei kleinen Losgrößen für Training und Inferenz, was zu einer schnelleren Modellkonvergenz im Training führt.

IPUs liefern enorme Leistungsdurchbrüche mit neuen Modellen wie „Resnext“, das in Gruppen trennbare Schleifen nutzt. Die IPU wurde entwickelt, um komplexe Datenzugriffe effizient und mit viel höherer Geschwindigkeit zu unterstützen.

In realen Anwendungen, einschließlich solcher, bei denen sich die Daten im Laufe der Zeit ändern, sind Datenpunkte in der Regel miteinander verbunden. Die heutigen Deep-Learning-Algorithmen basieren auf durchstrukturierten, Feed-Forward-Operationen. Diese lassen aber die natürliche Ungewissheit, die sich aus diesen Beziehungen ergibt, unberücksichtigt.

Mit der KI-Technik von Graphcore lassen sich viele verschiedene Aufgaben lösen.
Mit der KI-Technik von Graphcore lassen sich viele verschiedene Aufgaben lösen. (Bild: Graphcore)

Ergänzendes zum Thema
 
BMW und Microsoft investieren in Graphcore

Für viele Anwendungen, einschließlich Sprach-, Video- oder zeitreihenbasierter Analysen, muss das maschinelle Intelligenzmodell jedoch den Kontextzusammenhang in Daten- und unsichereren Beziehungen wie der Sicherheit einer Entscheidung berücksichtigen. Probabilistische maschinelle Lernansätze erlauben dies. Im Gegensatz zu den heutigen Architekturen ist die IPU so konzipiert, dass sie stochastische Berechnungen und die bei höherdimensionalen Modellen erforderlichen, wesentlich komplexeren Datenstrukturen effizient unterstützt, so Graphcore.

So liefere die IPU zwar auch Spitzenleistungen bei den heute gängigen Bildverarbeitungs- und Sprachmodellen, aber die signifikanten Leistungssteigerungen sind auch bei mehreren neuen Modelltypen, wie Resnext und MCMC-basierte Methoden (MCMC = Markov Chain Monte Carlo) zu beobachten.

Sprachenlernen mit BERT

BERT (Bidirectional Encoder Representations from Transformers), veröffentlicht von Forschern der Google AI Language, stellt eine wichtige Entwicklung auf dem Gebiet der Natural Language Processing (NLP) dar. Aufmerksamkeitsbasierte Transformatormodelle ermöglichen ein unbeaufsichtigtes Lernen der Sprachstruktur und -bedeutung im Text.

Bei BERT gehört laut Graphcore zu den Schlüsselinnovation die Anwendung des bidirektionalen Trainings des Transformer Aufmerksamkeitsmodells, um ein vollständigeres und genaueres Verständnis des Sprachverständnisses und der Interpretation zu vermitteln. Darüber hinaus kann nach der Vorbildung des BERT-Modells für einen breiten Sprachumfang eine Feinabstimmung auf spezifischere Sprachdaten verwendet werden, um das Modell auf den spezifischen NLP-Anwendungsfall auszurichten.

Zeitdauer zum Trainiren mit BERT mit State-of-the-Art-technik: 56 Stunden auf IPU-Basis bei 20 Prozent gerigerem Strombedarf.
Zeitdauer zum Trainiren mit BERT mit State-of-the-Art-technik: 56 Stunden auf IPU-Basis bei 20 Prozent gerigerem Strombedarf. (Bild: Graphcore)

Graphcore zeigt den neuesten Stand der Technik in Bezug auf Training und Genauigkeit mit BERT.base, einem wichtigen Beweis für die IPU-Architektur. Bisher hätten nur drei Prozessoranbieter Trainingsmöglichkeiten mit BERT nachgewiesen: Google, Nvidia und jetzt Graphcore. Darüber hinaus ist die Architektur der IPU besonders gut für die nächsten Durchbrüche in NLP geeignet, einschließlich solcher Innovationen wie Block-Sparse-basierte Transformatormodelle.

(siehe dazu die Abschnitte über den KI-Chip von Fujitsu in: „Fujitsu Forum - Praxis trifft auf Innovation und neue Firmenstrukturen, Digital-Annealer-Projekte, neue KI-Technologie und Strategien garniert mit Brot und Butter“)

BERT-Inferenz

Für NLP Inference gilt, wie für viele andere Inferenz-Anwendungsfälle, dass der Schwerpunkt auf dem höchstmöglichen Durchsatz bei möglichst geringen Latenzen liegt. Beispielsweise wird diese Anforderung in dem Bericht „Seven rules of thumb for web site experimenters“ von Kohavi et al., für Suchmaschinenunternehmen hervorgehoben. Der Bericht erwähnt eine Amazon-Analyse, die zeigt, dass eine Verlangsamung um 100 Millisekunden den Umsatz um 1 Prozent reduziert. Umgekehrt zeigten Experimente von „Microsoft Bing“, dass eine Beschleunigung um 100 Millisekunden die Einnahmen um 0,6 Prozent verbessert.

BERT-Benchmark Inferenz: 3 mal höherer Durchsatz bei 30 Prozent geringerer Lantenz
BERT-Benchmark Inferenz: 3 mal höherer Durchsatz bei 30 Prozent geringerer Lantenz (Bild: Graphcore)

Der dargestellte Inferenz-Benchmark konzentriert sich daher auf die Bewertung des Durchsatzes bei möglichst geringer Latenzzeit. Der Durchsatz wird mit zunehmenden Losgrößen weniger aussagekräftig, da die erforderliche Latenzzeit für größere Losgrößen in einer realen Anwendung problematisch wird. Graphcore ist nach eigenen Angaben in der Lage, mit BERT-Basis-Inferenz den 3-fachen Durchsatz bei 1,3-facher Latenz im Vergleich zu heutigen Lösungen zu demonstrieren.

Bilderkennung per ResNext-101

Neben der Bedeutung eines hohen Durchsatzes bei geringer Latenzzeit hat die Genauigkeit auch einen starken Einfluss auf den Umsatz von Internet-Unternehmen. Bei der Anzeigenplatzierung oder in Suchmaschinen-Nutzungsfällen führt eine prozentuale Steigerung der Genauigkeit direkt zu Umsatzsteigerungen.

Die Bildklassifizierun per, „Resxext“, verwendet Ansätze wie gruppen- und tiefenseparierbare Schleifen, um die Genauigkeit zu erhöhen und gleichzeitig die Parameteranzahl zu reduzieren. Diese Ansätze eignen sich nicht gut für herkömmliche Architekturen. Sie werden im Prinzip daran gehindert, über die heutigen einfachen CNN-Modelle hinauszugehen, die auf den heutigen Prozessoren gut funktionieren.

Die Verwendung von gruppen-separierbaren,Trainingsläufe bei denen die Filter in kleinere trennbare Blöcke aufgeteilt werden, ist viel besser für die massiv parallele Architektur einer IPU geeignet.

Resnext-101 – Inference: Der Vergleich der geringsten Latenzen ergab 43 mal höherer Durchsatz bei 40 mal geringerer Latenz. Der Vergleich beim höchsten Durchsatz erhaben einen 3,4 mal höheren Durchsatz bei 18 mal geringerer Latenz.
Resnext-101 – Inference: Der Vergleich der geringsten Latenzen ergab 43 mal höherer Durchsatz bei 40 mal geringerer Latenz. Der Vergleich beim höchsten Durchsatz erhaben einen 3,4 mal höheren Durchsatz bei 18 mal geringerer Latenz. (Bild: Graphcore)

Wie in der Abbildung zu sehen ist, erreichte die „Graphcore C2 IPU“-PCIe Karte einen 3,4 x höheren Durchsatz bei 18 x geringerer Latenz im Vergleich zum gängigsten alternativen Prozessor bei geringstmöglicher Latenz, was etwa bei Video-Inhalten zählt.

Zeitreihenanalyse - Verkaufsprognosemodelle

Dieser Benchmark zeigt ein typisches Modell der Zeitreihenanalyse, bestehend aus MLP-Netzwerken (Multi-Layer Perceptron) in Kombination mit Feature-Einbettungen. Das Modell prognostiziert die Verkaufszahlen an einem bestimmten Tag bei einer Reihe von Merkmalen im ursprünglichen Rossmann-Wettbewerbsdatensatz (siehe: Bernd Wiech und David Bauder, Cellent, deklinieren das Rossmann-Beispiel durch, Data Science für den Mittelstand am Beispiel einer Umsatzprognose.

Training eines Verkaufsprognosemodells mithilfe von Zeitreihenanalysen / Multi Layer Perception (MLP) und Embedding erbrachte für Graphcore: einen 5,5 x höheren Durchsatz.
Training eines Verkaufsprognosemodells mithilfe von Zeitreihenanalysen / Multi Layer Perception (MLP) und Embedding erbrachte für Graphcore: einen 5,5 x höheren Durchsatz. (Bild: Graphcore)

Die Ergebnisse der Graphcore-Vergleichstests zeigen einen Leistungsvorteil für die Graphcore C2 IPU-Prozessor PCIe-Karte vom 15fachen gegenüber einem alternativen führenden Prozessor bei gleicher Leistung und Losgröße (Losgröße - 1.024). Selbst wenn die Losgröße für den führenden alternativen Prozessor auf 512.000 erhöht wurde, um seinen Durchsatz zu maximieren, ist noch immer eine Leistungssteigerung von mehr als dem 5fachen beim Durchsatz zu beobachten, wenn die Graphcore C2-Plattform, die immer noch die kleinere Losgröße von 1.024 verwendet.

Empfehlungen/Rankings

Auto-Encoder-Modelle können verwendet werden, um das Filtern in Empfehlungssystemen durchzuführen, zum Beispiel um Filme für Online-TV-Zuschauer zu empfehlen, die auf früheren Sendungen basieren. Dieses Autoencoder-Modell zeigt eine signifikante Verbesserung der Ergebnisse im Vergleich zu früheren Modellen, wenn es mit einem öffentlich zugänglichen Netflix-Datensatz aus 3 Millionen Datenproben getestet wird.

Die Ergebnisse der Vergleichstests zeigen einen Leistungsvorteil für die Graphcore C2-Karte von mehr als 2x gegenüber einem führenden alternativen Prozessor bei gleicher Leistung.
Die Ergebnisse der Vergleichstests zeigen einen Leistungsvorteil für die Graphcore C2-Karte von mehr als 2x gegenüber einem führenden alternativen Prozessor bei gleicher Leistung. (Bild: Graphcore)

Die Modellarchitektur ist ein tiefer Auto-Encoder mit 6 vollständig verbundenen Schichten und einem eingeschränkten Decoder. Das dicht gepackte Nachladen von beziehungsweise erneute Füttern mit Daten für das Training überdeckt dabei die sparsamen Daten. Für den Benchmark wurde Tensorflow mit einer Modellgröße von rund 10 Millionen Parametern implementiert. Dieses Modell stammt aus dem Beitrag "Training Deep Auto Encoders for Collaborative Filtering".

Probabilistisches Lernen - Markov-Chain Monte Carlo (MCMC)

Early-Access-IPU-Kunden im Finanzsektor konnten ihre proprietären, optimierten Modelle mit MCMC in nur 4,5 Minuten auf IPUs trainieren, verglichen mit über 2 Stunden mit ihrer vorhandenen Hardware. Dies entspricht einer 26-fachen Beschleunigung der Trainingszeit.

Unternehmen der Finanzbranche haben Interesse am IPU-Einsatz für probabilistisches Lernen.
Unternehmen der Finanzbranche haben Interesse am IPU-Einsatz für probabilistisches Lernen. (Bild: Graphcore)

MCMC-Implementierung mit Tensorflow

Graphcore hat zudem eine Implementierung mit der Standardbibliothek „Tensorflow Probability“ (TFP) durchgeführt, um die Leistung von probabilistischen Modellen auf IPU im Vergleich zu anderen führenden Hardwarebeschleunigern zu bewerten. Auch bei Implementierung mit Standard-Tensorflow-Code und ohne Optimierungen auf eine IPU hin, Konnte das IPU-System immer noch 8 mal schneller trainieren als die nächstbeste Alternative.

MCMC-Training mit Tensorflow
MCMC-Training mit Tensorflow (Bild: Graphcore)

In diesem Beispiel ist das Modell ein neuronales Netzwerk mit drei vollständig verbundenen Schichten. Der Eingangsdatensatz berücksichtigt Merkmale, die aus Zeitreihen von Aktienkursen generiert werden. Die Verteilungen von Modellparametern werden durch ihre Stichproben dargestellt.

Die Proben werden mithilfe des Hamiltonian-Monte-Carlo-Algorithmus (HMC) gewonnen, der eine MCMC-Methode ist, die in hochgradig mehrdimensionalen Fällen effizient ist. Die Abtastung erfolgt in einem gleitenden Zeitfenster auf Teilmengen der Daten.

Dies geschieht, um die historische Vorhersagekraft des Modells zu testen. Mithilfe der IPU-Plattform konnte das Modell in 45 Minuten trainiert werden - im Vergleich dazu: Über 6,5 Stunden benötigte das Modell auf einem System mit der besten Alternative.

Reinforcement Learning

Das so genannte Verstärkungslernen (Reinforcement Learning) bietet eine saubere, einfache Sprache, um allgemeine KI-Probleme anzugeben. Beim Verstärkungslernen gibt es eine Reihe von Aktionen, eine Reihe von Beobachtungen und eine Belohnung. Das Ziel beim Verstärkungslernen ist es, policies, Regeln, zu erlernen, die auf ´Beobachtungen, Belohnungen und Aktionen beruht. Dabei wird die die erwartete Summe der Belohnungen maximiert. Das Beispiel hier war, Computer Spiele auf völlig unbeaufsichtigte Weise spielen zu lassen.

Das Verstärkungslernen erfordert, dass sich das maschinelle Intelligenzsystem frühere Geschichten merkt und diese nutzt, um die Richtlinie zu erlernen. Geringe Latenzzeiten und schneller Zugriff auf komplexe Zustände sind entscheidend.

Benchmarks für die tests im so genannten Verstärkungslernen.
Benchmarks für die tests im so genannten Verstärkungslernen. (Bild: Graphcore)

Um die potenzielle Leistung der IPU bei Problemen des Verstärkungslernens zu zeigen,wurde ein typisches Regelwerk wie das der RL-Probleme herangezogen und die Leistung mit bestehenden Prozessorlösungen verglichen. Ohne Optimierung liefert die IPU eine Verbesserung des Durchsatzes um das 10-fache. Das heißt: Die Systeme sind wesentlich schneller in diese komplexen und rechenintensiven Probleme éingearbeitet`. Die Zusammenarbeit von Graphcore mit einigen der Early-Access-Kunden habe zu noch höheren Leistungsgewinnen geführt.

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46246520 / Komponenten)