GTC Europe: Nvidia im Höhenflug

GPUs überflügeln CPUs und sind die Basis für KI-Anwendungen jeder Art

| Autor: Ulrike Ostler

Wie immer in Lederjacke: Nvidia-CEO Jensen Huang eröffnet die GTC Europe 2018 in München.
Wie immer in Lederjacke: Nvidia-CEO Jensen Huang eröffnet die GTC Europe 2018 in München. (Bild: Nvidia)

Der Besuch einer Nvidia-Konferenz hat immer auch etwas Unwirkliches. Das liegt einerseits daran, dass mithilfe von Graphics Processing Units (GPUs) Computing-Geschwindigkeiten erreicht werden, die sich nicht mehr begreifen, nur noch beschreiben lassen. Andererseits wird diese Performance für Anwendungen im High Performance Computing (HPC) und Künstlicher Intelligenz (KI) benötigt. Und damit entsteht die Zukunft.

Der Nvidia-CEO Jensen Huang, der auch in diesem Jahr die „GTC Europe 2018“, eröffnete, wird nicht müde, zu erklären, dass sich die IT, nein die Menschheit an der Schwelle eines neuen Zeitalters befindet. Künstliche Intelligenz, insbesondere Deep Learning, stelle Gewohntes in Frage und vieles auf den Kopf. Noch schreiben Entwickler und Mathematiker die Lernsoftware. Doch schon bald reichen Performance und Datenvolumen der Computer, damit diese Software neue Programme schreibt.

Der Anfang ist längst gemacht. Und Nvidia mischt kräftig mit. Das Interesse an den GTC-Konferenzen scheint unaufhörlich zu steigen, laut Huang hat sich die Zahl der Teilnehmer in den vergangenen 5 Jahren versiebenfacht. Der Download des Framework „Cuda“, das Nvidia bereitstellt, habe sich verfünffacht. Doch die Sprünge in der Leistungsfähigkeit der GPUs selbst sind das Beeindruckendste.

So rechnet Huang damit, dass sich die Leistungsfähigkeit innerhalb von 10 Jahren mindestens vertausendfacht (siehe: Abbildung 1). In einem Vergleich mit der Weiterentwicklung Silizium-basierter CPUs, bestenfalls nach Moore´s Law, lässt er diese lächerlich erscheinen.

Klar, benötigt nicht jede Anwendung GPUs als Akzeleratoren, doch die neuen Anwendungen im HPC-und KI-Umfeld schon. Belief sich der Umsatz 2005 noch auf rund 9 Milliarden Dollar und war geprägt durch den Einsatz in Wissenschaft und Forschung, wird sich der Umsatz in diesem Jahr auf 36 Milliarden Dollar steigern. Nach wie vor spielt das Scientific Computing eine große Rolle, doch Machine Learning (ML) und Deep Learning generieren bereits mehr als die Hälfte (siehe: Abbildung 2), eingesetzt etwa im Handel, im Gesundheitswesen, im Finanzwesen, im Dienstleistungssektor, in der Logistik, in der Telekommunikation und im Digitalen Marketing (AD Tech).

Um die Aufgaben zu erfüllen, müssen die GPUs nicht nur leistungsfähiger werden, sondern auch wandlungsfähiger. Schon im August stellte Nvidia eine Hardware für Raytracing-Aufgaben vor, aufwändige Berechnungsverfahren, die nahezu in Echtzeit und nahezu realistische Bilder sowie Lichteffekte erzeugt. Schlechte Bildqualität wird durch Rechnen verbessert, indem KI fehlende Pixel und Bildausschnitte ergänzt, Aufnahmen werden koloriert, Perspektiven verändert.

Spektakulär waren Aufnahmen von den ersten Schritten auf dem Mond. War die Mondlandung ein Fake? (siehe: Abbildung 3) Skeptiker führen den „falschen“ Schattenwurf ins Feld. Mit Hilfe von KI zeigte Huang nicht nur die Bildverbesserung und die Veränderung des Schattenwurfs durch Perspektivwechsel, sondern unter Augenzwinkern auch eine Änderung des Ablaufs. Auch den gezeigten Porsche (siehe: Abbildung 4) mitsamt Farbwechsel gibt es weder auf einem Foto noch außerhalb einer virtuellen Realität.

Die Turing-Generation

Doch die jüngste Generation „Tesla T4“ der GPUs, die etwa so groß ist wie eine Tafel Schokolade (siehe: Abbildung 5, 6) kann noch weitaus mehr. Die Grafikkarte, mit „Turing“-Architektur ist ein Inferencing- und Deep-Learning-Beschleuniger, ausgestattet mit Tensor-Cores (TC), den Google zum Beispiel für das eigene Cloud-Angebot nutzt. Sie folgt dem Modell „Tesla P4“ nach – mit Pascal-Architektur (siehe: Abbildung 7).

Ihre Leistung skaliert von FP32- über FP16- und INT8- bis hin zu INT4-Precision und liefert bis zu 40-mal mehr Leistung als CPUs (siehe: Abbildung 8). Weitere Leistungsdaten sind 320 Tensor-Recheneinheiten, 2560 Cuda-Recheneinheiten, 8.1 TFLOPS Single-Precision-Leistung (FP32), 65 FP16 TFLOPS bei Mixed-Precision-Verfahren (FP16/FP32), 130 INT8 TOPS bei NT8-Precision, 260 INT4 TOPS bei INT4-Precision, und Arbeitsspeicherkapazität von 16 Gigabyte GDDR6 sowie einer Bandbreite von etwa 320 Gigabit pro Sekunde (siehe: Abbildung 9).

Außerdem sei es nun erstmalig möglich, so Huang, dass die GPUs zur selben Zeit verschiedene Workloads verarbeiten können. Ermöglicht wird das durch ein Management, das aus vielen GPUs eine werden lässt (siehe. Abbildung 10 und 11). Wie Huang ausführt, waren bisher nur 1:1:1-Zuordnungen möglich: 1 GPU :1 Workload : 1Rack. Im Sprachgebrauch von Nvidia heißt das: „Als Inferenzoptimierer und Laufzeit-Engine unterstützt „Nvidia TensorRT 5“ Turing Tensor Cores und erweitert den Satz der neuronalen Netzwerkoptimierungen für Multipräzisions-Workloads.“

Und der „TensorRT Inferenz-Server“ ist eine „containerisierte Mikroservice-Software, die es Anwendungen ermöglicht, KI-Modelle in der Rechenzentrumsproduktion zu verwenden. Frei verfügbar aus der „Nvidia GPU Cloud Container Registry“, maximiere sie den Datacenter-Durchsatz und die GPU-Auslastung, unterstützt alle gängigen KI-Modelle und Frameworks und lässt sich mit Kubernetes und Docker integrieren.

Die neue GPU Data Science Pipeline

Doch keine erfolgreiche Hardware ohne Software. Auf der GTC Europe kündigte Huang das Open-Souce-Framework „Rapids“ an, eine GPU-Beschleunigungsplattform für Data Science und Machine Learning. Diese soll es selbst den größten Unternehmen erlauben, riesige Datenmengen zu analysieren und genaue Geschäftsprognosen in beispielloser Geschwindigkeit zu erstellen.

Unterstützer konnte der Nvidia-Chef auch gleich benennen: HPE, Oracle, Open-Source Communities und Startups wie Databricks und Anaconda integrieren Rapids. IBM integriert es in die Software „Watson Studio“. Die Einsatzmöglichkeiten sind vielfältig: von Vorhersagen eines möglichen Kreditkartenbetrugs bis zu Prognosen von Einzelhandelsbeständen und dem Verständnis des Kaufverhaltens von Kunden.

Rapids wurde in den vergangenen 2 Jahren von Nvidia-Ingenieuren in enger Zusammenarbeit mit Open-Source-Anbietern entwickelt und baut auf Cuda auf (siehe: Abbildung 20), sowie auf „Apache Arrow“, „Pandas“ sowie „Scikit-Learning“ und der populären Python Data Science Toolchain. Die Tools lassen sich laut Huang nahtlos in die weltweit beliebtesten Bibliotheken und Workflows der Datenwissenschaft integrieren, um das maschinelle Lernen zu beschleunigen. So bietet die Plattform eine Reihe von Open-Source-Bibliotheken für GPU-beschleunigte Analysen, maschinelles Lernen und in Kürze zur Datenvisualisierung:

  • „cuDF“ ist eine auf Apache Arrow basierende Dataframe-Bibliothek, die das Laden, Filtern und Manipulieren von Daten für die Datenaufbereitung von Modelltrainingsdaten beschleunigt.
  • cuML ist eine Sammlung von GPU-beschleunigten maschinellen Lernbibliotheken, die GPU-Versionen aller im „Scikit“-Learning verfügbaren Algorithmen bereitstellen.
  • cuGRAPH ist ein Framework und eine Sammlung von Graph Analytics Bibliotheken, die sich in die Rapids Data Science Plattform integrieren.
  • Die Deep Learning Libraries bieten native Array-Interface Unterstützung. Dies bedeutet, dass die in Apache Arrow gespeicherten Daten nahtlos in Deep Learning Frameworks übertragen werden können, die solche Schnittstellen wie „PyTorch“ und „Chainer“ akzeptieren.
  • Bald soll es auch Visualisierungsbibliotheken auf Basis von Apache Arrow geben. Das native GPU-In-Memory-Datenformat bietet eine leistungsstarke Datenvisualisierung mit hohem FPS-Wert, selbst bei sehr großen Datensätzen.

Letztlich stehen Wissenschaftlern damit Werkzeuge zur Verfügung, mit denen sich die gesamte Data-Science-Pipeline auf GPUs erstellen lässt. Das anfängliche Rapids-Benchmarking, bei dem der „XGBoost“-Algorithmus für das Training auf einem „Nvidia DGX-2“-System verwendet wird, zeigt 50fache Beschleunigungen im Vergleich zu reinen CPU-Systemen. Die typischen Trainingszeiten lassen sich laut Huang von Tagen auf Stunden oder von Stunden auf Minuten reduzieren, je nach Größe ihres Datensatzes (siehe: Abbildung 21).

Enge Zusammenarbeit mit der Open-Source Community

Um eine breite Akzeptanz zu ermöglichen, integriert Nvidia Rapids in „Apache Spark“, das führende Open-Source-Framework für Analytik und Datenwissenschaft. Die Anerkennung lautet entsprechend: „Bei Databricks freuen wir uns über das Potenzial von Rapids“, sagte etwa Matei Zaharia, Mitbegründer und Cheftechnologe von Databricks und ursprünglicher Entwickler von Apache Spark. „Wir haben mehrere Projekte zur besseren Integration von Spark in native Beschleuniger laufen, einschließlich der Unterstützung von Apache Arrow und der GPU-Planung mit dem „Project Hydrogen“. Wir glauben aber, dass Rapids eine aufregende neue Möglichkeit ist, die Arbeitsbelastung unserer Kunden zu bewältigen.“

Der Zugriff auf die Rapids Open-Source-Bibliotheken ist ab sofort unter http://rapids.ai/ möglich, Der Code wird unter der Apache Lizenz veröffentlicht. Containerisierte Versionen von sind im Nvidia GPU Cloud Container Register verfügbar.

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45553716 / Komponenten)