Suchen
Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

Blitzschnelle Matritzenrechnung Was sind Tensor Cores?

| Autor / Redakteur: lic.rer.publ. Ariane Rüdiger / Ulrike Ostler

Künstliche Intelligenz und neuronale Netze stellen extrem hohe Anforderungen an die Rechnerhardware. Denn für die schnelle Verarbeitung derartiger Datenmassen waren bisherige Prozessorgenerationen nicht geschaffen. Hier helfen Akzeleratoren beziehungsweise Beschleunigerarchitekturen - PUs, DPUs, DLUs und GPUs, deren wohl bekannteste „Tensor Core“ heißt.

Firma zum Thema

Mit einer speziellen Architektur können Nvidias Tensor Cores Deep-Learning-Applikationen beschleunigen
Mit einer speziellen Architektur können Nvidias Tensor Cores Deep-Learning-Applikationen beschleunigen
(Bild: © djama - stock.adob.com)

Der Begriff Tensor Core ist unauflöslich mit dem Hersteller Nvidia verknüpft. Tensor Cores entstanden aus der Erkenntnis Nvidias heraus, dass das Spezialwissen des Herstellers über die Verarbeitung bestimmter Datentypen und über den Bau grafischer Prozessoren ideal zum höchst Anlernen neuronaler Netze und zu Deep Learning passt.

Von Cuda bis zum Tensor Core

Nvidia baute eine ganze IT-Welt um dieses Thema herum. Es entstand Cuda (Compute Unified Device Architecture), eine Parallelverarbeitungsplattform für solche Zwecke. Dazu kamen spezifische Anwendungsschnittstellen.

Insgesamt bildet Cuda ein Modell, mit dem Entwickler einen Cuda-kompatiblen Grafikprozessor für andere Aufgaben nutzen kann. Cuda beschleunigt entsprechende Berechnungen gegenüber technischen Alternativen um das Zwei- bis Zehnfache.

Spezialisten für Matrixmanipulation

Die nötigen Grafikprozessoren und -karten („Geforce“-Serie) liefert Nvidia natürlich auch gern mit. Und deren Kernbestandteil sind die hier zu diskutierenden Tensor Cores.

Diese speziellen Verarbeitungseinheiten, die über Cuda aufgerufen werden, haben genau eine Aufgabe: Sie sollen so schnell wie möglich Matrixmultiplikationen durchführen und aggregieren.

Das ist eine beim Deep Learning ständig notwendige, aber extrem arbeitsaufwändige Operation. Deshalb dauern maschinelle Lernvorgänge mit weniger leistungsfähiger Hardware sehr lange.

Die Tensor Cores multiplizieren zwei 4x4 Bit breite FP-16-Matritzen. FP-16 steht für Floatingpoint, das Ganze bedeutet Gleitkommazahl mit 16 Stellen. Anschließend wird zum Ergebnis eine dritte Matritze (FP16 oder FP32) hinzugefügt. Das geschieht mit Hilfe aggregierter Multiplikations-Additions-Operationen.

Das Resultat entspricht dem FP32-Format, kann aber auch als FP16 ausgegeben werden. Das verringert zwar die Genauigkeit etwas, führt aber zu blitzschnellen Ergebnissen. Und größte Genauigkeit wird nicht in jedem Fall verlangt. Wer mehr Genauigkeit braucht, kann die einzelnen Operationen zum Beispiel mit 16 Bit Breite durchführen.

Für mathematisch weniger beschlagene Menschen reicht es, sich vorzustellen, dass Tensor Cores sehr komplexe Multiplikationen und Additionen von Zahlenfeldern extrem schnell durchführen und wenn gewünscht etwas vereinfachen können, so dass es noch schneller geht.

Stetige Leistungssteigerung

Die aktuelle Tensor-Core-GPU heißt „A100“ und bietet 10mal mehr Leistung als die Vorgängergeneration „V100“. Mit Hilfe einiger weiterer Nvidia-Komponenten können Systeme auf Tausende A100-Prozessoren vergrößert werden.

A100 heißt die aktuelle Grafik-CPU von Nvidia mit Tensor Cores. Matrixoperationen lassen sich mit dem Spezialchip um ein Vielfaches beschleunigen.
A100 heißt die aktuelle Grafik-CPU von Nvidia mit Tensor Cores. Matrixoperationen lassen sich mit dem Spezialchip um ein Vielfaches beschleunigen.
(Bild: Nvidia)

Eine A100 lässt sich mit Multi-Instanz-GPU-Technologie aber auch in sieben selbständige Bereiche unterteilen, auf denen jeweils ein neuronales Netz laufen darf. Besonders Spezialgebiet dieser Lösung sind Inferenz-Workloads, also die Anwendung von trainierten neuronalen Netzen auf neue Daten.

Und damit ist der Weg sicher nicht zu Ende, vielmehr arbeitet Nvidia selbstverständlich bereits an Datenfressern, deren Leistung wie in der IT üblich beim Mehrfachen bisheriger Typen liegen soll.

Artikelfiles und Artikellinks

(ID:46715740)

Über den Autor

lic.rer.publ. Ariane Rüdiger

lic.rer.publ. Ariane Rüdiger

Freie Journalistin, Redaktionsbüro Rüdiger