Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

Mehr Power für KI-Anwendungen Was sind (KI-)Akzeleratoren?

Autor / Redakteur: Dipl. Betriebswirt Otto Geißler / Ulrike Ostler |

Unter Akzeleratoren versteht man „Turbo-Prozessoren“, hauptsächlich im Bereich von KI-Anwendungen, die spezifische Aufgaben wie zum Beispiel Mustererkennung, Analyse unstrukturierter Daten, Monte-Carlo-Simulationen, Streaming-Aufgaben oder den Aufbau neuronaler Netze übernehmen.

Anbieter zum Thema

Im Bereich Künstlicher Intelligenz haben optimierte Spezialchips eindeutig die Nase vorn.
Im Bereich Künstlicher Intelligenz haben optimierte Spezialchips eindeutig die Nase vorn.
(Bild: gemeinfrei: ColiN00B/pixabay / CC0 )

Für KI-Anwendungen genügen normale Standardprozessoren schon längst nicht mehr. Vielfach kommen in Rechenzentren die deutlich schnelleren Grafikprozessoren (GPU) als „Beschleuniger“ zum Einsatz. Das ist der Tatsache geschuldet, dass sich die Rechenoperationen in der Bildverarbeitung den Neuronetzen auf Grund ihrer Einfachheit und erforderlicher Geschwindigkeit sehr ähneln. Da sie aber nicht speziell für die Aufgaben des Deep Learning entwickelt wurden, stoßen sie mittlerweile an ihre Grenzen.

Die Hardware ist der Durchsatz-Flaschenhals

Doch Rettung naht: Fieberhaft entwickeln die Chip-Hersteller Akzeleratoren, welche die Rechengeschwindigkeit des Systems kräftig erhöhen sollen. Der Markt für KI-Akzeleratoren im Rechenzentrum wird aktuell ganz klar vom Hersteller Nvidia angeführt. Sogar IT-Gigant Google nutzt die „Tesla P100“ und „Tesla K80“ GPUs im Rahmen seiner „Google Cloud Plattform“.

Analysten zufolge scheint sich derzeit der Markt in zwei Richtungen auszudehnen: Zum einen hinsichtlich hochperformanter Systemeinheiten und zum anderen verstärkt sich der Trend zu „neuro-optimierten“ ASIC (Application-Specific Integrated Circuits) in Endgeräten wie zum Beispiel in Smartphones, Datenbrillen, IP-Kameras sowie Kleingeräten für das IoT. Der Vorteil: Die ASIC-Chips qualifizieren sich im Prinzip nur für eine spezifische Funktion, sind aber dafür richtig schnell.

Damit wird zwar die herkömmliche CPU per se nicht obsolet, doch für die KI-Entwickler ist der allgemein riesige Funktionsumfang einer CPU allemal überflüssig geworden. Im Fokus steht das Tempo, mit dem einfache, aber dafür recht umfangreiche mathematische Operationen für Deep Learning ausgeführt werden. Hier beweisen optimierte schnelle Spezialchips eindeutig ihre Stärken.

Hochbeschleunigte Supercomputer

Als einer der bahnbrechenden anwendungsspezifischen KI-Beschleuniger in einer ASIC-Architektur gilt die Tensor Processing Unit (TPU) von Google. Die hauseigene TPU wurden speziell für Googles Framework „Tensorflow“ und maschinelles Lernen entwickelt. Die TPU unterstützen vor allem bei der Verarbeitung im Bereich von MLP, CNN und LSTM. Der Chip kam unter anderem in der Google-Software „Alpha Go Zero“ zum Einsatz. Für einen denkwürdigen Praxistest lernte ein Rechner 2017 nur die Regeln des chinesischen Brettspiels Go und schlug den weltbesten Go-Spieler auf Anhieb mit 3:0 – ohne vorhergehendes Training!

Die zweite Generation der TPU von Google beschleunigt nicht nur die Anwendungen im Bereich neuronaler Netzwerke (Inferenz), sondern reduziert auch das Training dieser Netzwerke. TPU-Chips verfügen über eine Performance von 180 TFLOPS und lassen sich zu einem „Pod“ mit 11,5 PFLOPS kombinieren. Wobei ein „Pod“ eine Cluster-Systemarchitektur mit sphärenförmiger Netzwerktopologie von 8×8 TPU darstellt. Googles TPU realisiert die Inferenz-Phase so genannter tiefer neuronalen Netze 15 bis zu 30 Mal schneller als herkömmliche CPUs und GPUs. Und das bei einer 30- bis 80-fach höheren Leistung per Watt.

Mehr Schub fürs Rechenzentren

In Rechenzentren bremsen eine große Anzahl an miteinander verbundenen Standardrechenknoten die Leistungsfähigkeit für die Berechnungen von High Performance Computing (HPC) und Hyperscale. Der Nvidia Tesla P100 ist ein Grafik-Chip, der eine Pascal-Grafikprozessorarchitektur beinhaltet und mit sehr schnellen Rechenknoten aufwartet. Wobei ein Knoten Hunderten von langsameren Standardrechenknoten entspricht. Auf diese Weise erzielt ein Data Center mit wenigeren, aber rasend schnellen Knoten einen beträchtlich höheren Durchsatz – bei gleichzeitiger Kostenersparnis.

Schneller und doch flexibler geht’s mit der Beschleuniger-„Box GX4“ von Inspur zu. Denn mit dem High-Performance-System lassen sich Co-Prozessoren entkoppeln. GX4 bietet auf diesem Wege eine höhere Flexibilität, mehr Rechen-Power und niedrigere Stromkosten. Die Entkopplung der Co-Prozessoren arbeitet auf Basis von CPU, GPU, „Xeon Phi“ und FPGA. Für einen bestmöglichen Support verschiedenster KI-Anwendungen lautet hierfür das Prinzip: Rechenstärke on Demand! Die Rechnertechnik des GX4 gestattet es, die Co-Prozessoren und CPU auf einfache Weise zu restrukturieren.

Zudem kann die GX4-Effizienz auf Standard-Rack-Server mit GPU-Erweiterungen erweitert werden. Dies hat zur Folge, dass bei einem anderen Modus der GPU-Server nicht komplett neu justiert und die Topologie des Motherboard-Designs gewechselt werden muss. Die Topologie ändert sich quasi automatisch, indem die Beziehung zwischen Server und Erweiterungs-Modul verändert wird.

Zudem hebt GX4 die Limitierung auf 8 GPU-Karten auf, die allgemein für das KI-Computing gilt. Die Akzelerator-Box ermöglicht eine Performance von zwei bis zu 16 Karten. Da vier Akzeleratoren auf zwei Höheneinheiten Platz finden, können bis zu 4 GX4-Module kombiniert werden. Damit umfasst ein Pool bis zu 16 Beschleuniger.

Quantencomputing als Vorbild

Der Akzelerator-Chip Digital Annealer von Fujitsu wurde nach dem Vorbild eines Quantencomputers entwickelt – ist aber selbst keiner. Vielmehr arbeitet darin ein Simulationseffekt, der von einem Quanten-Tunnel-Effekt inspiriert wurde. Das bedeutet, ein verfahrenstechnisch teures Annealing (Glühen) wird dadurch elegant vermieden. Somit braucht der Chip keine aufwendigen Kühllösungen, keine weitere teure Infrastruktur und passt auch noch in jedes handelsübliche Rack in einem Datacenter.

Somit qualifiziert sich der „Digital Annealer“ ideal für kombinatorische und vor allem reale Problemlösungen. Dazu zählen Vergleiche molekularer Ähnlichkeiten bei der Erforschung neuer Medikamente oder Optimierungen von Anlage-Portfolios. Bei einer extrem aufwendigen Monte-Carlo-Simulation wird zum Beispiel die Aufgabe in einzelne Threads aufgeteilt und parallel mehr oder minder simultan bearbeitet.

Dieser Prozess wird dann in großer Anzahl wiederholt, um ein bis dato unbekanntes Optimum eines Wertefelds zu erreichen. Eine Vorabprogrammierung ist hierzu nicht mehr erforderlich. Dank einer Kapazität von 1024 Bits und einer maximalen Konnektivität (jedes Bit ist mit allen anderen Bits verbunden) erzielt der Fujitsu-Chip eine hohe Verarbeitungsgeschwindigkeit.

Neuromorphe Prozessoren

Die Struktur eines Neuromorphen Mikrochips (englisch: neuromorphic processor unit - NPU) orientiert sich gemäß der Analogien aus der Bionik an natürlichen Nervennetzen. Das heißt: Die Architektur eines neuralen Prozessors ist von der Anatomie des menschlichen Hirns inspiriert und fällt daher auf der Basis von Mustern und Assoziierungen selbsttätig Entscheidungen.

Indem ein solcher Neuromorphing-Prozessor aus Daten selbst lernt und Schlussfolgerungen anstellt, wird das System zusehends intelligenter. Ein Training wie bei „herkömmlichen“ Chips fällt damit weitestgehend weg. NPU-Chips wie zum Beispiel der selbstlernende „Loihi“-Chip (Neuromorphic Computing) von Intel sind universell programmierbar und qualifizieren sich insbesondere für Aufgaben in der Mustererkennung und Musteranalyse.

Neuromorphe Prozessoren sind besonders gut skalierbar, fehlertolerant, weisen einen vergleichsweise geringeren Energieverbrauch auf und eignen sich ebenfalls zum Ansteuern von neuromimetischen Chips (Gehirn-Computer-Schnittstellen). Zu den typischen Anwendungsbereichen gehören Convolutional Neural Networks (CNNs), Liquid State Machines (LSMs), Restricted Boltzmann Machines (RBMs), Hidden-Markov-Modellen (HMMs), Looming-Erkennung, Schätzung von spektralen Leistungsdichten und Temporal Pattern Matching.

(ID:45229963)