Rechnerplattformen für Künstliche Intelligenz

Spezialisten und Generalisten: Deep-Learning mit Fujitsus DLU und Post-K

| Autor / Redakteur: Anna Kobylinska und Filipe Pereira Martins* / Ulrike Ostler

Auf dem Bild zu sehen ist der „K“-Computer; mit dem Nachfolger des Supercomputers „Post-K“ führt Fujitsu eine Deep Learning Unit (DLU) ein.
Auf dem Bild zu sehen ist der „K“-Computer; mit dem Nachfolger des Supercomputers „Post-K“ führt Fujitsu eine Deep Learning Unit (DLU) ein. (Bild: Topp 500/ Center for Advanced Intelligence Project, Riken)

Der KI-Veteran und Deep Learning-Vorreiter Fujitsu möchte mit einer neuartigen Prozessorarchitektur, der „DLU“, die Pro-Watt-Leistung tiefer neuronaler Netze auf einmal verzehnfachen. Ein Nachfolger des „K“-Computers, getauft auf die Bezeichnung „Post-K“, soll zugleich das wahre Leistungspotenzial von „Fujitsu Tofu Interconnect“ in einer erweiterten Ausführung unter Beweis stellen.

Zwischen den Anforderungen von Deep-Learning-Workloads und der Performance marktüblicher Hardware klafft die Schere weiter auf. Quantencomputer, zweifelsohne einer der Hoffnungsträger vieler rechenintensiver Anwendungen, können aufgrund ihrer (zu) engen Spezialisierung gerade diese Lücke nicht schließen.

Denn weder rückgekoppelte neuronale Netze, die für die Verarbeitung von Ein- und Ausgabe variabler Länge in Anwendungen bevorzugt werden, welche menschliches Denken simulieren sollen, noch CNNs/ConvNets - zur Verarbeitung der Ein- und Ausgabe fester Länge in Anwendungen wie dem maschinellen Sehen oder der Erkennung von Bildmotiven - lassen sich mit Quantenchips sinnvoll umsetzen. Doch gerade künstliche neuronale Netze stellen das Rückgrat des Tiefen Lernens dar.

Spezialisten versus Generalisten: Fujitsu glaubt an eine fortschreitende Divergenz der HPC- und KI-Architekturen und plant dementsprechend eine zweigleisige Roadmap.
Spezialisten versus Generalisten: Fujitsu glaubt an eine fortschreitende Divergenz der HPC- und KI-Architekturen und plant dementsprechend eine zweigleisige Roadmap. (Bild: Fujitsu)

Deep-Learning-Workloads werfen auch für konventionelle Chips nicht zu unterschätzende Herausforderungen auf, und zwar sowohl im Hinblick auf den Leistungsverbrauch als auch auf die dringend benötigten Fähigkeiten zur massiven Parallelisierbarkeit. Beide Ziele stehen in einem klaren Widerspruch zueinander.

Fujitsu möchte den verschiedenen Herausforderungen der bevorstehenden IT-Ära des „tiefen Lernens“ mit einer neuartigen KI-optimierten Chiparchitektur namens DLP (Deep Learning Unit) begegnen (siehe auch: „Robust und schnell - die neuen Primergy- und Primequest-Modelle, Die Fujitsu-Offensive mit dem Prozessor Intel Xeon Scalable“).

Das „Kerngeschäft“: eine Hochleistungsarchitektur für massive Parallelisierbarkeit

Eine DLU, die Deep Learning Unit, basiert auf einer Vielzahl heterogener, Domain-spezifischer Verarbeitungseinheiten, den so genannten DPUs (Deep Learning Processing Units), die von einem oder mehreren „Master“-Prozessorkernen kontrolliert und orchestriert werden.

Jede DPU verfügt über 16 “Deep Learning Processing Elements”, DPEs. In einer DLU mit sechs DPUs kommen so 96 DPEs zusammen. Jede DPE beinhaltet wiederum acht SIMD-Ausführungseinheiten (Single Instruction/Multiple Data); in dieser Architektur erfolgt die parallele Verarbeitung eines Befehls gleichzeitig über mehrere Datensätze hinweg.

Die DPEs sind untereinander mit einem „On-Chip“-Hochgeschwindigkeitsnetzwerk verbunden. Ein großzügiger, vollständig in Software kontrollierbarer Registerspeicher und die hohe Breite der SIMD-Ausführungseinheiten sollen die hohe Leistung der Hardware voll ausreizen können.

Völlig anders: Fujitsus KI-optimierte DLU setzt sich von etablierten Chip-Architekturen u.a. durch den neuen ISA ab.
Völlig anders: Fujitsus KI-optimierte DLU setzt sich von etablierten Chip-Architekturen u.a. durch den neuen ISA ab. (Bild: Fujitsu)

Jedes DLU-Prozessorpaket ist nach außen hin mit einer HBM2-Schnittstelle für 3D-gestapelten DRAM ausgestattet. 3D-gestapelter Arbeitsspeicher gilt allgemein als eine Voraussetzung für Exascale-Systeme der (nahen) Zukunft. Fujitsu hat offenbar Großes im Sinne.

Die hohe Anzahl von Prozessorkernen und die leistungsstarke On-chip-Konnektivität fördern massive Parallelisierbarkeit zu Tage. Eine von Grund auf neu entwickelte ISA (Instruction Set Architecture) ermöglicht die Durchführung von Berechnungen mit einer optimierten — nämlich variablen — Präzision dank der Unterstützung des sogenannten Deep-Learning-Integers.

Deep-Learning-Integer: optimal „auf den Punkt gebracht“

Seine beeindruckenden Leistungsmerkmale verdankt die DLU unter anderem einem neuen Datentyp namens „Deep-Learning-Integer“ und dem „INT8“,16-Akkumulierer der DPU. Sie verleihen dem Prozessor die Fähigkeit, Ganzzahlberechnungen im Inneren tiefer neuronaler Netze mit variabler Präzision von 8 Bit, 16 Bit und 32 Bit durchzuführen, ohne dabei die Genauigkeit des Gesamtmodells aufs Spiel zu setzen.

Das Ausführen von Deep-Learning-Workloads läuft bisher auf das Lösen neuronaler Netzwerkgleichungen hinaus. Anstatt jede Gleichung im Rahmen eines neuronalen Netzwerks mit einer festen Genauigkeit zu lösen, zum Beispiel als FP32, also als eine Fließkommaberechnung in 32 Bit, kann die Fujitsu-DLU mit gemischter Eingabegenauigkeit wahlweise in 8 Bit, 16 Bit und 32 Bit arbeiten und die Resultate dennoch als 32-bittigen Fließkommawert ausgeben.

Bereits im grünen Bereich: Die effektive Präzision tiefer neuronaler Netze bei den verschiedenen DLU-Datentypen und die erforderliche Datenmenge stehen in einem festen Zusammenhang zueinander; der INT8,16-Akkumulierer der DPU ist ein wohlgehütetes Geheimnis der hohen Pro-Watt-Leistung der DPU. Der Zugriff auf DRAM ist generell stromintensiv und zudem auch noch vergleichsweise langsam. Die Reduktion der Bandbreite um bis zu 75 Prozent kann sich also durchaus sowohl auf den Stromverbrauch als auch auf die Performance positiv auswirken.
Bereits im grünen Bereich: Die effektive Präzision tiefer neuronaler Netze bei den verschiedenen DLU-Datentypen und die erforderliche Datenmenge stehen in einem festen Zusammenhang zueinander; der INT8,16-Akkumulierer der DPU ist ein wohlgehütetes Geheimnis der hohen Pro-Watt-Leistung der DPU. Der Zugriff auf DRAM ist generell stromintensiv und zudem auch noch vergleichsweise langsam. Die Reduktion der Bandbreite um bis zu 75 Prozent kann sich also durchaus sowohl auf den Stromverbrauch als auch auf die Performance positiv auswirken. (Bild: Fujitsu)

Der innovativer Ansatz geht aus der Erkenntnis hervor, dass sich umfangreiche tiefe neuronale Netze mit punktuell reduzierter numerischer Präzision nahezu ohne Verlust trainieren lassen. Bei Ganzzahlberechnungen mit einer Präzision von lediglich 8 und 16-Bit soll eine effektive Genauigkeit von 32 Bit erreicht werden können, sofern das verwendete Modell hinreichend umfassend und komplex angelegt ist. Diese Optimierung resultiert dann in einem Performance-Gewinn bei gleichzeitiger Senkung des Energieverbrauchs gegenüber FP32 (Gleitkommaberechnungen in 32 Bit).

So erreicht Fujitsu zwei gegensätzliche Ziele auf einen Schlag, betonte Takumi Maruyama, stellvertretender Vizepräsident von Fujitsu für den Geschäftsbereich AI Platform/Advanced System Research & Development Unit, in seinem viel beachteten Auftritt auf der diesjährigen ISC High Performance-Messe 2017 in Frankfurt.

Fujitsus Deep-Learning-Integer kommt bei umfassenden tiefen neuronalen Netzen (DNN) auf eine effektive Präzision von 32 Bit.
Fujitsus Deep-Learning-Integer kommt bei umfassenden tiefen neuronalen Netzen (DNN) auf eine effektive Präzision von 32 Bit. (Bild: Fujitsu)

Moderne SIMD-Befehlssätze sind oft auf Gleitkommazahlen hin ausgerichtet. Bei den neuesten GPUs könnte die Reduktion der numerischen Präzision tiefer neuronaler Netze auf 8 Bit bei Ganzzahlberechnungen keinen derart massiven Leistungsvorteil bringen. Fujitsu könnte mit diesem Ansatz tatsächlich einen erheblichen Vorteil herausarbeiten.

Tofu2 Interconnect

Ein weiteres Highlight der DLU bildet das 6-dimensionale Tofu2-Interconnect, eine Technologie von Fujitsu, die hier in einer „On-die“-Ausführung zum Zuge kommt. Tofu2-Interconnect hat sich bereits in Fujitsus Supercomputern der „Prime-HPC“-Familie bewährt. „Fujitsu Prime HPC FX100“ skaliert beispielsweise auf bis zu hunderttausend Knoten für bis zu 100 Petaflops Leistung.

Tofu Interconnect wurde ursprünglich für den K-Supercomputer entwickelt und hat sich seither in Benchmarks wie dem HPCG (High Performance Conjugate Gradient) bewährt. Der K Computer hat kürzlich beim HPCG-Benchmark zum zweiten Mal in Folge den ersten Platz belegen können.

Ein Blick auf die Top 10 der Top-500-Supercomputerliste zeigt ganz deutlich, dass von einem großen Wurf zum nächsten jeweils sehr viel harte Arbeit dazwischenliegt. Fujitsu belegt hier unter den ersten zehn Supercomputern der Weltspitze derzeit gleich zwei begehrte Positionen: die Nummer 7 mit dem Oakforest-PACS (beim Joint Center for Advanced High Performance Computing in Japan) und die Nummer 8 (mit dem K Computer bei Riken).

Wichtiger als Linpack ist HPCG

Beim Oakforest-PACS handelt es sich um eine „Primergy CX1640 M1“ mit dem „Intel Xeon-Phi“-Beschleuniger, die es mit ihren 556.104 Kernen auf eine Spitzenperformance in Höhe von 13.554,60 TFlops/Sek. (Rmax) und eine theoretische Maximalleistung (Rpeak) von 24.913,50 TFlops/Sek. bringt.

K Computer basiert auf „Sparc-64-VIIIfx“-Technologie mit Tofu-Interconnect. Im Innern werkeln hier 705.024 Kerne mit 10.510,00 TFlops pro Sekunde Spitzenperformance (Rmax) und einer theoretischen Maximalleistung (Rpeak) von 11.280,40 TFlops pro Sekunde.

Der Top-500-Liste liegt der Linpack-Benchmark zugrunde. Die hier eingesetzten Bibliotheken sind allerdings ausschließlich darauf ausgelegt, die Fließkommafähigkeiten eines Systems zu messen. Um die Leistung neuartiger Systemarchitekturen adäquat zu bewerten, sind möglicherweise neuere Benchmarks wie der HPCG erforderlich.

Der K - und jetzt der Post-K

IM HPCG-Benchmark konnte der K Computer mit seinen 82.944 Rechenknoten auch diejenigen sieben Supercomputer schlagen, die in der Top-500-Liste eigentlich einen höheren Rang einnehmen. Anders als der Linpack beschränkt sich der HPCG-Benchmark nicht auf die Geschwindigkeit der Fließkommaoperationen.

Denn ein gutes Ergebnis beim HPCG-Benchmark erfordert „eine starke und vielseitige Speichersystemleistung, eine hervorragende Performance des Interconnect-Netzwerks im Ausbau (at scale) und eine insgesamt ausgewogene Systemarchitektur“, kommentierte der leitende Entwickler des Benchmarks, Mike Heroux von Sandia National Laboratories. Die Preisverleihung fand im Übrigen auf der ISC High Performance in Frankfurt statt.

In Zusammenarbeit mit Riken, Japans größter umfassender Forschungseinrichtung (Advanced Institute for Computational Science, AICS), wo der K Computer seinen Dienst verrichtet, entwickelt Fujitsu seinen Nachfolger, treffend auf den Namen Post-K getauft. Fujitsu verzichtet hier auf den „Sparc V9-ISA“ (Instruction Set Architecture) zugunsten des Befehlssatzes „ARM v8-A“. Das System trumpft mit einer SIMD-Bandbreite von 512 Bit (ein erheblicher Sprung von den 128 Bit des K-Computers) und wird mit einer Enhanced-Edition von Tofu Interconnect ausgestattet.

Weniger ist mehr: Beim Post-K setzt Fujitsu auf Gleitkommazahlenberechnungen mit punktuell optimierter Präzision in 64 Bit, 32 Bit oder 16 Bit (FP16).
Weniger ist mehr: Beim Post-K setzt Fujitsu auf Gleitkommazahlenberechnungen mit punktuell optimierter Präzision in 64 Bit, 32 Bit oder 16 Bit (FP16). (Bild: Fujitsu)

Bei dem Post-K handelt es sich um einen Allzweck-Supercomputer, der unter anderem auch Deep-Learning-Workloads meistern können soll. Im Hinblick auf eben diese Aufgabenstellung bietet das System Unterstützung für Gleitkommazahlenberechnungen mit punktuell optimierter Präzision, also in 64 Bit, 32 Bit oder 16 Bit (FP16) in Abhängigkeit von den Leistungsanforderungen der betreffenden Anwendung (von linearer Algebra über Molekulardynamik bis hin zum Tiefen Lernen).

Die Bewertung der Autoren

Fujitsus Antwort auf die physikalischen Grenzen des Mooreschen Gesetzes in seiner klassischen Form beruht auf der massiven Parallelisierbarkeit Workload-gerechter Spezialprozessoren. Um den Anforderungen aktueller und künftiger KI-Anwendungen besser gerecht zu werden, müssen HPC- und KI-Architekturen demnach divergieren.

Dieser Grundsatz reflektiert sich bereits in der aktuellen Roadmap von Fujitsu. Allzweck-Supercomputer bekommen in dem Post-K-System einen würdigen Nachfolger. Mit einer Vielzahl ausgefallener technischer Kniffe der massiv skalierbaren DLU-Architektur möchte Fujitsu die Ausführung spezialisierter KI-Workloads mit einem um bis zu 90 Prozent reduzierten Energieverbrauch ermöglichen. Bei gleichbleibender Wattzahl wird so im Vergleich zu alternativen Lösungen die 10-fache Performance erzielt.

Dank massiver Parallelisierbarkeit dürfte Fujitsu dem Phänomenon des Mooreschen Gesetzes — passend zum Anbruch der KI-Revolution — im Bereich des Tiefen Lernens eine Menge neuer Dynamik verleihen.

Das Autoren-Duo

Filipe Pereira Martins und Anna Kobylinska arbeiten für die Soft1T S.a r.l. Beratungsgesellschaft mbH, McKinley Denali Inc.(USA).

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44817146 / BigData Analytics- Fujitsu Content-Hub)

Weitere Informationen erhalten Sie in folgenden Themenbereichen:

Themenspecial: SDDC Themenbereich: Big Data Analytics Themenbereich: Data Management