IPUs, DPUs, DLUs und mehr Wo Hardware zählt: KI mit System

Autor / Redakteur: Filipe Pereira Martins und Anna Kobylinska* / Ulrike Ostler |

Wer ernten will, muss säen — auch Künstliche Intelligenz (KI) ist da keine Ausnahme. Der Wettlauf um die schlausten KI-Anwendungen fordert hochperformante Hardware der besonderen Art. Eine CPU ist nicht alles.

Anbieter zum Thema

Wo Hardware zählt: Im Konzeptauto Audi AI, einem Edge-Rechenzentrum auf Achse, werkelt die „Drive PX“-Plattform von Nvidia für autonome Fahrzeuge.
Wo Hardware zählt: Im Konzeptauto Audi AI, einem Edge-Rechenzentrum auf Achse, werkelt die „Drive PX“-Plattform von Nvidia für autonome Fahrzeuge.
(Bild: Audi)

Lernende Algorithmen müssen präzedenzlose Datenmengen echtzeitnah bewältigen. Sie müssen in der Lage sein, in unvorhersehbaren Situationen und gleichzeitig in einem stark individualisierten Kontext intelligente Entscheidungen zu treffen. Lernfähige Backend-Technologien für KI-Anwendungen wie programmatische Werbung, autonomes Fahren oder intelligente Infrastrukturen haben hierzu den benötigten Reifegrad bereits erreicht. Was fehlt ist die geeignete Hardware.

Die KI-Goldgrube: Det Intel-Hoffnungsträger für extrem anspruchsvolle KI-Anwendungen ist der 49 Qubit starke Quantum-Testchip „Tangle Lake“, hier in den Händen von CEO Brian Krzanich.
Die KI-Goldgrube: Det Intel-Hoffnungsträger für extrem anspruchsvolle KI-Anwendungen ist der 49 Qubit starke Quantum-Testchip „Tangle Lake“, hier in den Händen von CEO Brian Krzanich.
(Bild: Intel)

Zum Teil auf Grund diverser Unzulänglichkeiten heutiger Hardwarearchitekturen wirft der Praxiseinsatz von KI gewaltige Herausforderungen auf. Diese werden durch das Ende des Mooreschen Gesetzes auch noch verschärft. Hinzu kommen anwendungsspezifische Beschränkungen technischer Eckdaten Cyber-physischer Systeme: der Platzbedarf, das Gewicht, der Energieverbrauch und anderes mehr.

Alleine die Gewährleistung von Cyber-Sicherheit und Datenintegrität in personenbezogenen Anwendungsszenarien gestaltet sich angesichts neuartiger Attacken wie Adversarial Learning („bösartiges Lernen“ auf der Basis von betrügerischen Daten) extrem schwierig. Konventionelle Systemarchitekturen werden den neuen Herausforderungen einfach nicht gerecht.

Das Ende von Moore’s Law und Dennards Gesetz

Seit der Erfindung integrierter Schaltkreise für konventionelle Silikon-Chips galten das Mooresche Gesetz (Moore’s Law) und Dennards Gesetz als die ultimative Richtschnur für den technischen Fortschritt der Branche. Das Mooresche Gesetz besagt, dass sich die Anzahl von Transistoren in einem integrierten Schaltkreis (bei gleichbleibenden Fertigungskosten wohlgemerkt) ungefähr alle zwei Jahre verdoppeln würde. Spätestens wenn die Bauelemente konventioneller Schaltkreise auf den so genannten Monolayer - eine einzige atomare Schicht, die sie nicht weiter unterschreiten lässt - sinken, ist das Ende der Fahnenstange erreicht.

Das Ende des Mooreschen Gesetzes rückt nahe. Die Dennardsche Skalierung ist bereits im Jahre 2005 zusammengebrochen, bestätigte vor drei Jahren Professor Christian Märtin von der Hochschule Augsburg in einem technischen Bericht („Post-Dennard Scaling and the final Years of Moore’s Law. Consequences for the Evolution of Multicore-Architectures“, siehe auch das eBook „High Performance Computing

Tausendfach schneller bis 2025: Aufgrund von physikalischen Beschränkungen des Mooreschen Gesetzes klafft die Schere zwischen der Leistung einer GPU und der einer CPU immer weiter auseinander.
Tausendfach schneller bis 2025: Aufgrund von physikalischen Beschränkungen des Mooreschen Gesetzes klafft die Schere zwischen der Leistung einer GPU und der einer CPU immer weiter auseinander.
(Bild: Nvidia)

Dennards Gesetz besagt, dass die fortschreitende Minifizierung des grundlegenden Bauelementes in einem Schaltkreis mit einer niedrigeren Stromspannung einherginge und bei gleichbleibendem Leistungsverbrauch eine höhere Taktfrequenz erzielen ließe. Obwohl die Transistoren vorerst noch weiterhin schrumpfen, würden die Fehlerrate und damit die Fertigungskosten von CPUs aufgrund von Effekten wie Leckstrom und Schwellenspannung erstmals nicht weiter nachgeben.

Workload-spezifische Hardwarebeschleunigung

Der einzige Weg, um auch in Zukunft weiterhin an der Schraube der Leistung-zu-Leistungsaufnahme-zu-Anschaffungskosten-Variablen drehen zu können, bestünde in der Entwicklung Workload-spezifischer Hardwarebeschleuniger, meinen die Forscher der UC Berkeley in einem Bericht vom Oktober 2017 („A Berkeley View of Systems Challenges for AI“. Abhilfe versprächen das Aufkommen domänenspezifischer Hardware-Architekturen, zusammensetzbarer Infrastrukturen und Edge-Architekturen (siehe dazu auch das eBook „Edge Computing“). Denn weitere Verbesserungen ließen sich jetzt nur noch durch Innovationen in Computerarchitekturen, nicht jedoch in Verbesserungen am Halbleiterprozess, verwirklichen, so die Berkeley-Forscher.

Domain-spezifische Prozessoren können nur wenige Aufgaben erledigen, dafür aber extrem gut. Zukünftige Server würden daher „viel heterogener sein“ als jemals in der Vergangenheit. Als ein „wegweisendes Beispiel“ zitieren die Berkeley-Forscher Die „Tensor Processing Unit“ (TPU) von Google, einen anwendungsspezifischen KI-Beschleuniger in ASIC-Architektur (Application-Specific Integrated Circuits). Googles TPU führt die Inferenz-Phase tiefer neuronalen Netze 15 bis 30 mal schneller als CPUs und GPUs aus bei einer 30- bis 80fach besseren Leistung per Watt.

Die aktuelle zweite Generation der TPU liefert 45 Teraflops, ist (erstmals) fließkommafähig und unterstützt eine Bandbreite von 600 GBps per ASIC. In einer parallelen Architektur von vier TPU-Chips kommt das resultierende Modul auf eine Leistung von 180 TFLOPS; je 64 dieser Module bilden zu 256er Gruppen so genannte Chip-Pods mit einer Gesamtleistung von 11,5 PFLOPS.

ASICs bei Google und FPGAs bei Microsoft

Googles TPU mag auch noch so wegweisend sein, sie ist rein proprietär und zudem nicht kommerziell verfügbar. So müssen Googles Mitbewerber bei KI-Workloads mit Alternativen Vorlieb nehmen.

Im Gegensatz zu Google setzen sowohl Microsoft als auch Intel auf FPGAs. Microsoft bietet FPGA-basierte Compute-Instanzen als einen Azure-Dienst an. Intel ließ sich den FPGA-Anbieter Altera satte 16,7 Milliarden Dollar kosten.

ASICs (Application-Specific Integrated Circuits) und FPGAs (Field Programmable Gate Arrays) basieren auf zwei gegensätzlichen Konzepten. Bei ASICs handelt es sich um anwendungsspezifische integrierte Schaltkreise, die gemäß sehr eng definierter Design-Eckdaten gefertigt werden. Sie zeichnen sich durch sehr geringe Stückkosten aus, sind jedoch nicht veränderbar.

Im Gegensatz zu ASICs lassen sich integrierte Schaltkreise vom Typ FPGA auch nach der Inbetriebnahme im Datencenter an neue Workloads per Remote-Zugriff anpassen (siehe dazu das eBook „Das programmierbare Rechenzentrum“). Die Chip-Entwicklung von der Idee bis zum Prototypen dauert bei FPGAs nur sechs Monate; bei ASICS bis zu 18 Monate, verrät Dr. Randy Huang, FPGA Architect von Intels Programmable Solutions Group. Sowohl ASICs als auch FPGAs glänzen durch eine hohe Energie-Effizienz im Vergleich zur GPUs--Beschleunigung. GPUs (Graphic Processing Units) trumpfen wiederum mit einer hohen Maximalleistung bei Fließkommaberechnungen.

GPUnktet: die Chance beim Schopf packen

Dank ihrer massiven Parallelisierbarkeit schlagen GPUs bei KI-Anwendungen die Leistung konventioneller CPUs um Längen. So liefert Die Nvidia-GPU „Tesla“ laut Hersteller eine bis zu 27-fache Beschleunigung bei der Inferenz-Phase neuronaler Netze gegenüber einem System mit nur einer Ein-Socket-CPU.

Den Markt für KI-Beschleuniger im Rechenzentrum dominiert Nvidia. Selbst Google nutzt die „Tesla P100“ und „Tesla K80“ GPUs im Rahmen der „Google Cloud Plattform“.

Die Nvidia-Umsätze mit Rechenzentren sind in den vergangenen Monaten sprunghaft gestiegen. Der GPU-Marktführer hat daraufhin eine strategische Diversifizierung seines Technologieportfolios weg von Spielen und hin zu KI — mit bemerkenswerter Ernsthaftigkeit — vorgenommen... und sich damit aber keine Freunde gemacht.

KI-getrieben: Die Nvidia-Umsätze mit Datencenter (rechte Achse) explodieren inmitten stotternder Server-Umsätze (linke Achse).
KI-getrieben: Die Nvidia-Umsätze mit Datencenter (rechte Achse) explodieren inmitten stotternder Server-Umsätze (linke Achse).
(Grafik Seeking Alpha (Daten: IDC, Nvidia))

In den neuesten EULA-Lizenzbedingungen der Grafikkartentreiber verbietet Nvidia die Nutzung der kostengünstigeren „GeForce GTX“- und „Titan“-GPUs in Datencenter. Im Rechenzentrumsumfeld ist nur noch die Blockchain-Verarbeitung zulässig. Als Begründung nennt der Hersteller die außergewöhnlichen Anforderungen im Hinblick auf die Hitzebeständigkeit beim Betrieb in hochverdichteten Systemen unter der Last anspruchsvoller KI-Workloads.

Treiber sind der begrenzende Faktor

Für die existierenden Datacenter-Nutzer dieser GPUs haben sich damit die Updates der Treiber de facto erledigt. Ohne die proprietären Treiber von Nvidia, die via Bugfixes stets aktualisiert werden, kann die Hardware nur einen Bruchteil ihrer theoretischen Leistung aufbringen. Beim Bruch der EULAs durch den Nutzer entfällt im Übrigen automatisch die Garantie für die zugehörige Hardware.

Die neuen Nvidia-EULAs haben somit noch weitere Implikationen für Rechenzentren. Anbieter von KI-Systemen müssen auf über 10x teurere GPUs der Tesla-Reihe wie die Tesla „V100“-Chips zurückgreifen (die leistungsschwächere „Quadro“-Familie ist für visuelle Workloads wie industrielles Design optimiert, nicht für neuronale Netze).

Aufgrund von physikalischen Beschränkungen des Mooreschen Gesetzes klafft die Schere zwischen der Performance einer GPU und einer CPU immer stärker auseinander. Hält dieser Trend an, dürfte die GPU die Single-Threaded-Performance einer CPU bis zum Jahre 2025 um 1.000 Mal übertroffen haben, freut sich Nvidia auf dem hauseigenen Blog.

Doch auch ein Marktführer wäre gut beraten, den Tag nicht vor dem Abend zu loben.

Die IPUs, DPUs, DLUs...

GPUs stellen bei Weitem nicht die einzige Möglichkeit dar, den Leistungshunger von AI-Anwendungen zu sättigen. Darauf wetten sowohl risikoscheue Chip-Riesen wie Intel und Fujitsu als auch die VC-Investoren hinter einer ganzen Reihe noch größtenteils unbekannter Startups.

Die britisch-kalifornische Graphcore (https://www.graphcore.ai/) möchte mit der „IPU“ — der Intelligence Processing Unit — die erste von Grund auf für Workloads des maschinellen Lernens optimierte Chip-Architektur entwickelt haben. Die innovative Recheneinheit und das zugehörige Graph Programming-Framework „Poplar“ haben dem Startup unter die Unterstützung von VC-Firmen wie Sequoia und der Robert Bosch Venture Capital GmbH beschert.

Tiefe Einblicke: Im quelloffenen Benchmark DEEPBENCH schlägt die IPU eine GPU im Hinblick auf die Latenz der Inferenz-Phase eines rekurrenten Neuronalen Netzes (RNN) vom Typ LSTM (Long short-term memory) um ein bis zu 182faches.
Tiefe Einblicke: Im quelloffenen Benchmark DEEPBENCH schlägt die IPU eine GPU im Hinblick auf die Latenz der Inferenz-Phase eines rekurrenten Neuronalen Netzes (RNN) vom Typ LSTM (Long short-term memory) um ein bis zu 182faches.
(Quelle: Graphcore)

Das kalifornische Startup Wave Computing ist mit der „Wave DPU“ (Dataflow Processing Unit) im Rennen. Das Unternehmen hat eine Technologie entwickelt, welche die Engpässe konventioneller Systemarchitekturen durch den Verzicht auf das CPU/GPU-Co-Prozessor-Schema zu beheben versucht. Mit einer hoch skalierbaren 3U-Appliance für maschinelles Lernen im Datencenter möchte Wave Computing die Fähigkeiten der neuen Architektur unter Beweis stellen.

Die kalifornische Cerebras Systems entwickelt Chips für neuronale Netze, bisher noch im Stealth-Modus.

Fujitsu hat mit der „DLU“ (Deep Learning Unit) einen eigenen Weg eingeschlagen. Seine beeindruckenden Leistungsmerkmale verdankt die DLU unter anderem einem neuen Datentyp namens „Deep-Learning-Integer“ und dem „INT8“,16-Akkumulierer der DPU. Sie verleihen dem Prozessor die Fähigkeit, Ganzzahlberechnungen im Inneren tiefer neuronaler Netze mit variabler Präzision von 8 Bit, 16 Bit und 32 Bit durchzuführen, ohne dabei die Genauigkeit des Gesamtmodells aufs Spiel zu setzen.

Eine von Grund auf neu entwickelte ISA (Instruction Set Architecture) ermöglicht die Durchführung von Berechnungen mit einer variablen Präzision dank der Unterstützung des so genannten Deep-Learning-Integers (siehe: „Spezialisten und Generalisten: Deep-Learning mit Fujitsus DLU und Post-K“).

Klein, aber fein: Mit der „Movidius Myriad X VPU“ (Vision Processing Unit) adressiert Intel Edge-Anwendungen beim Deep Learning in autonomen IoT-Endgeräten.
Klein, aber fein: Mit der „Movidius Myriad X VPU“ (Vision Processing Unit) adressiert Intel Edge-Anwendungen beim Deep Learning in autonomen IoT-Endgeräten.
(Bild: Intel Corporation)

Intel outside? Mehrfach abgesichert

Auch Intel hat die Menetekel der Zeit bereits erkannt. Nach Ablauf des Lizenzabkommens mit Nvidia hat sich der CPU-Riese mit GPU-Technologie von AMD versorgen lassen, vorerst allerdings nur bei Notebooks. Bei KI-Anwendungen möchte Intel offenbar nichts dem Zufall überlassen und hat mehrere Pferde im Rennen: FPGAs von Altera, ASICs von Nervana Systems, einen 49 Quabits starken Quantencomputer namens „Tangle Lake“, neuromorphische Chips „Loihi“ und die „Movidius VPU“ (Vision Processing Unit) für Edge-Anwendungen des Deep Learning in autonomen IoT-Endgeräten.

Mit Nervana Systems hat Intel für schätzungsweise 408 Millionen Dollar einen SaaS-Plattformanbieter mit einer KI-Cloud erworben. Diese läuft derzeit… auf Nividia Titan X-GPUs. Nervana Engine, ein anwendungsgerecht maßgeschneiderter ASIC-Chip in Entwicklung, soll diese Abhängigkeit demnächst beenden. Der ASIC soll zudem zirka 10x besser abschneiden als die Nividia Maxwell-GPU.

„Neuromorphisch“: Intels selbstlernender Chip Loihi macht Anleihen beim menschlichen Gehirn .
„Neuromorphisch“: Intels selbstlernender Chip Loihi macht Anleihen beim menschlichen Gehirn .
(Bild: Intel)

Intel experimentiert auch mit neuromorphischen Chips unter dem Codenamen Loihi. Gefertigt in 14-Nanometer-Technologie verfügt das Technikwunder über insgesamt 130.000 Neuronen und 130 Millionen Synapsen, die als Schaltkreise implementiert wurden.

Doch auch Nvidia möchte nicht alles auf eine Karte setzen. Die „DrivePX“-Plattform der nächsten Generation für autonome Fahrzeuge soll eine hybride Architektur besitzen. Neben einer ARM CPU und einer Volta-GPU kommt eine DLA (Deep Learning Accelerator) in ASIC-Architektur zum Einsatz.

Weltweite Umsatzeinbrüche bei den Server-Verkäufen 2016.
Weltweite Umsatzeinbrüche bei den Server-Verkäufen 2016.
(Quelle: IDC, Intel und ARK Investment LLC)

Analysten von Research and Markets bescheinigen dem KI-Markt ein jährliches Wachstum von 57,2 Prozent CAGR. In diesem Tempo dürfte das Marktvolumen bis 2025 auf 58,97 Milliarden Dollar heranwachsen — da gibt es sicherlich hinreichend Platz für mehrere alternative Architekturen.

*Das Autoren-Duo Filipe Pereira Martins und Anna Kobylinska arbeitet für die Soft1T S.a r.l. Beratungsgesellschaft mbH, McKinley Denali Inc. (USA).

(ID:45161858)