Nvidia-Komponenten für Künstliche Intelligenz

Pascal-GPUs beschleunigen Deep-Learning-Inferenz

| Redakteur: Ulrike Ostler

“Nvidia Tesla P40“ GPU-Beschleuniger und “Tesla P4” erlauben einen großen Sprung vorwärts bei der Effizienz und Geschwindigkeit für Inferencing-Workloads.
“Nvidia Tesla P40“ GPU-Beschleuniger und “Tesla P4” erlauben einen großen Sprung vorwärts bei der Effizienz und Geschwindigkeit für Inferencing-Workloads. (Bild: Bild: Nvidia)

KI-Dienste werden komplexer und benötigen bis zu zehnmal mehr Rechenleistung als es neurale Netzwerke noch vor einen Jahr leisten konnten. Nvidia bietet in diesem Zusammenhang Erweiterungen seiner auf der Pascal-Architektur basierenden Deep-Learning-Plattform an. Insbesondere die GPUs „Tesla P4“ und „Tesla P40“ sowie neue Software erlauben, die Inferencing-Workloads für Artificial Intelligence zu beschleunigen.

Beispiel für Künstliche Intelligenz finden sich mittlerweile allenthalben, etwa sprachaktivierte Assistenzsysteme, E-Mail-Filter sowie Film- und Produktempfehlungs-Engines. Aktuelle CPU-basierte Technologie kann die für diese KI-Dienste benötigte Echtzeit-Reaktionsschnelligkeit nicht bieten und sorgen so für eine schlechtere User-Erfahrung.

Der Tesla P4 und der P40 wurden speziell für Inferencing entwickelt, das trainierte tiefe neurale Netzwerke nutzt, um Sprache, Bilder oder Texte als Antwort auch Anfragen von Nutzern und Geräten zu erkennen. Diese auf der Pascal-Architektur basierenden Grafikprozessoren bieten spezialisierte Inferenz-Befehle auf Basis von 8-bit (INT8)-Daten und bieten eine 45 Mal (1) schnellere Reaktionszeit als CPUs und eine vierfache Verbesserung gegenüber älteren GPU-Lösungen.

(1) Latenz-Vergleich mithilfe von VGG-19 Neuralen Netz, batch size=4. CPU: Xeon E5-2690v4 mit Intel MKL 2017. GPU: Tesla P40 mit Tensor RT interne Version. Intel-optimiert für VGG-19

Der Tesla P4 bietet die höchste Energieeffizienz für Hyperscale-Rechenzentren. Mit seiner kompakten Form und seinem Low-Power-Design (verfügbar ab 50 Watt) passt er in jeden Server und erreicht bis zu 40 Mal höhere Energieeffizienz bei Inferencing-Workloads als CPUs. Ein Server mit einem einzigen Tesla P4 ersetzt 13 CPU-Server für Video-Inferencing-Workloads (2) und reduziert die Gesamtbetriebskosten (TCO) auf etwa ein Achtel, einschließlich Server- und Stromkosten.

(2) Benutzt wurde Intel optimiertes GoogLeNet, Dual-Socket CPU Server, Xeon E5-2650v4 mit Intel MKL 2017. GPU Server mit 1x Tesla P4 und Deep Stream SDK. Video-Streaming bei 720p @ 30FPS.(2) Benutzt wurde Intel optimiertes GoogLeNet, Dual-Socket CPU Server, Xeon E5-2650v4 mit Intel MKL 2017. GPU Server mit 1x Tesla P4 und Deep Stream SDK. Video-Streaming bei 720p @ 30FPS.

Tesla P40 bietet maximalen Durchsatz für Deep-Learning-Workloads. Mit einer Leistung von 47 TOPS (INT8) kann ein Server mit acht Tesla P40-Beschleunigern die Leistung von mehr als 140 CPU-Servern (3) ersetzen. Wenn man von einem Preis von zirka 5.000 Dollar pro Server ausgeht bedeutet dies Einsparungen von mehr als 650.000 Dollar bei den Anschaffungskosten.

(3) Vergleich img/sec using GoogLeNet Neurales,Netz batch size=128. Dual-Socket CPU Server, Xeon E5-2690v4 mit Intel MKL 2017, 358 images/sec. GPU Server mit 8x Tesla P40 und Tensor RT internal version, 52K images/sec, 145x höherer Durchscatz als reine CPU Server.

Ian Buck, General Manager of Accelerated Computung bei Nvidia, fasst zusammen: „Mit Tesla P100 und den neuen Tesla P4 und P40 bietet Nvidia eine End-to-End-Deep-Learning-Plattform für Rechenzentren und erschließt die Möglichkeiten künstlicher Intelligenz für eine große Bandbreite von Branchen.“ Sie verkürzten Trainingszeiten von ganzen Tagen zu wenigen Stunden. Außerdem ermögliche es die Technologie, Einblicke in Echtzeit zu generieren und Verbrauchern Ratschläge und Empfehlungen sofort anzubieten.

Die Spezifikationen von Tesla P4 und P40 beinhalten:

Specification Tesla P4 Tesla P40
Single Precision FLOPS* 5.5 12
INT8 TOPS* (Tera-Operations Per Second) 22 47
CUDA Cores 2,560 3,840
GPU GDDR5 Memory 8GB 24GB
Memory Bandwidth 192GB/s 346GB/s
Power 50 Watt (or higher) 250 Watt
* With boost clock on

Tesla P4 und P40 sind voraussichtlich ab November/ Oktober in Servern von ODMs, OEMs und Channel-Partnern verfügbar.

Software-Tools für schnelleres Inferencing

Mit den Beschleunigern Tesla P4 und P40 stellt Nvidia zudem zwei Software-Produkte für die Beschleunigung von KI-Inferencing vor: „Nvidia Tensor RT“ und das „Nvidia Deep Stream SDK“.

Tensor RT ist eine Bibliothek für die Optimierung von Deep-Learning-Modellen für die Produktionsbereitstellung, die unmittelbare Reaktionen für die komplexesten Netzwerke bietet. Sie maximiert Durchsatz und Effizienz von Deep-Learning-Anwendungen durch die Optimierung trainierter neuraler Netze (zumeist 32- oder 16 -Bit-Daten) für INT8-Berechnungen mit reduzierter Genauigkeit.

Das Deep Stream SDK nutzt die Fähigkeiten eines Pascal-Servers, um bis zu 93 HD-Video-Streams simultan in Echtzeit zu dekodieren und zu analysieren. Damit antwortet Nvidia auf eine der größten Herausforderungen künstlicher Intelligenz: Das Verstehen von Video-Inhalten in großem Maßstab für Anwendungen wie selbstfahrende Automobile, interaktive Roboter und Anzeigenplatzierung. Die Integration von Deep Learning in Video-Anwendungen erlaubt Unternehmen, smarte und innovative Video-Dienste anzubieten, die zuvor außerhalb des Möglichen lagen.

Was meinen Sie zu diesem Thema?
Das Buch zu diesem spannenden Thema: Evolution ohne uns – Wird künstliche Intelligenz uns...  lesen
posted am 01.10.2016 um 18:40 von Unregistriert


Mitdiskutieren
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44269746 / Komponenten)