Nvidia-VP zu Energie-Effizienz, Cloud und der KI-Beschleuniger-Konkurrenz

AWS setzt Nvidia T4 Tensor Core GPU ein Nvidia-VP zu Energie-Effizienz, Cloud und der KI-Beschleuniger-Konkurrenz

26.09.2019Autor Ulrike Ostler

Kunden von Amazon Web Services (AWS) können nun über „EC2 G4“-Instanzen in Nordamerika, Europa und Asien auf die Leistungen von „Nvidia T4 Tensor Core“-GPUs zugreifen. Doch Nvidia-Vice-President Marc Hamilton hat nicht nur die Neuigkeit im Gepäck. Energie-Effizienz und Umschwünge im Markt thematisiert er ebenso.

Anbieter zum Thema

Vertiv GmbH

DAXTEN GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

NVIDIA GmbH

Die Nvidia Graphical Processing Unit (GPU) „T4 Tensor Core“ ist vergleichsweise klein und leicht; sie ist für KI-Anwendungen gedacht und doch gleichzeitig einfach programmierbar.
(Bild: Nvidia)

Verbunden mit der T4-Grafikprozessoren ist eine Softwareplattform, die etwa für „Nvidia Cudnn“ für Deep Learning, „Nvidia Rapids“ für Datenanalyse und Machine Learning, „Nvidia Quadro Virtual Workstation“ für Cloud Workstation-Grafiken und „Nvidia Geforce“ für Cloud Gaming optimiert ist. Der Software-Stack enthält auch eine große Auswahl an APIs, „Cuda“ und domänenspezifischen „Cuda-X“-Bibliotheken wie „TensorRT“, „NCCL“, „Optix“ und „Video Codec SDK“.

Für Künstliche Intelligenz ist Hardware nur der Anfang, heißt es bei Nvidia.
(Bild: Nvidia)

Matt Garman, Vice President of Compute Services bei AWS, sagt: „Wir konzentrieren uns auf die Lösung der schwierigsten Herausforderungen, die unsere Kunden davon abhalten, die Vorteile rechenintensiver Anwendungen zu nutzen.“ AWS biete das „umfassendste Portfolio für die Erstellung, Schulung und Bereitstellung von Modellen für das maschinelle Lernen, basierend auf der breiten Auswahl an Instanztypen von Amazon EC2“. Er ergänzt: „Mit neuen G4-Instanzen auf Basis von T4-Grafikprozessoren machen wir es erschwinglicher, maschinelles Lernen in die Hände jedes Entwicklers zu legen.“

GPU versus CPU

Nvidia T4 ist ein Tensor Core Grafikprozessor der zweiten Generation. Mit ihm sind laut Hersteller höchste Leistungen für KI-Anwendungen erzielbar doch gleichzeitig behalte die Technik die bisherige Programmierbarkeit von Cuda bei. Zugleich ist die Komponente klein, leicht und benötigt 70 bis 75 Watt. Zu Vergleich: Die Nvidia GPU „Tesla V100“ benötigt 300 Watt, führt Marc Hamilton, Vice President Solutions Architecture und Engineering bei Nvidia aus.

Marc Hamilton leitet das weltweite Team für Lösungsarchitektur und Engineering bei Nvidia. Bevor Hamilton 2013 zu dem GPU-Anbieter kam, arbeitete er bei HP in der Hyperscale- Geschäftseinheit und bei Sun Microsystems im Bereich HPC und Rechenzentrum.
(Bild: Nvidia)

Er macht darauf aufmerksam, dass es mit GPUs somit wesentlich Energie-effizienter sei, Rechenzentren, insbesondere Datacenter von Hyperscalern und HPC beziehungsweise Supercomputing-Zentren zu betreiben, als mit CPUs. Derzeit gibt es etwa 350 Hyperscale-Rechenzentren. Diese haben die Größe von mehreren Fußballplätzen und den Stromverbrauch von einer Kleinstadt und mehr.

Gleichzeitig gibt es immer mehr Datenquellen, die in diesen Rechenzentren verarbeitet werden. Im Jahr 2050, gemeinhin anerkannte Schätzungen, werden 50 Milliarden Geräte online sein und in der „Industrie 4.0" kommunizieren selbst Maschinen mit Maschinen übers Internet. Aktuell werden 13 Terrawattstunden für den Betrieb des Internets und der Rechenzentren in Deutschland verbraucht. Das entspricht etwa dem Stromverbrauch von Berlin.

Pickup versus Kipper

Den Einsatz von GPUs fördere zudem die Durchdringung der IT mit Künstlicher Intelligenz. Um einen Computersystem darauf zu trainieren Blumen als solche zu erkennen braucht es etwa 5.000 verschiedene Arten. Das aber kein noch so leistungsfähiger Computer leisten.“ Künstliche Intelligenz aber funktioniert anders. Im Training erfassen die Systeme Hundertausende an Bildern und kennzeichnen diese. Auf diesem Labeling basierend schreibt KI neue Programme, die kein Programmierer schlichtweg nicht erstellen kann“, führt Hamilton aus.

Nvidia: „Die Technik ist eine Zeitmaschine für Entwickler“
(Bild: Nvidia)

Er liefert dazu ein Rechenbeispiel: Ein CPU-basierter Computer kann vielleicht 5 Blumen pro Sekunde mitsamt der Eigenschaften „erkennen“ und verbraucht dabei etwa 150 Watt, macht 30 Watt pro Blume. Dazu kommt die Energie, die zum Kühlen der CPU, der Hardware benötigt wird. Mithilfe einer GPU, die wie die älteren Nvidia-Modelle rund 300 Watt benötigen, lassen sich aber etwa 900 Blumen pro Sekunde erkennen, macht also ein Drittel Watt für eine Blume.

Hamilton bemüht einen Vergleich: „Das ist so als wolle man 20.000 Kilogramm Erde einmal mit kleinen Pickups oder mithilfe von großen Kipper transportieren. Der Laster braucht zwar mehr Diesel, kann auf einmal 5000 Kilogramm aufnehmen. Dann muss er 4 mal fahren. Auf die Menge von 20.000 Kilogramm ist der Kipper also wirtschaftlicher. Wenn immer Software über eine GPU gerechnet werden kann, ist das als würde man einen Kipper einsetzen. Sie ist für Energie-Effizienz optimiert.“

Allerdings lässt sich nicht jeder Workload mithilfe von GPUs berechnen. Nvidia T4 verfügt mit bis zu 130 TOPS der INT8-Leistung über eine gemischte Präzisions-Tensorverarbeitung, die erforderlich ist, um die sich ständig weiterentwickelnde Innovation, Vielfalt und Komplexität von KI-basierten Anwendungen wie Bildklassifizierung, Objekterkennung, Natursprachenverständnis, automatisierte Spracherkennung und Empfehlungssysteme zu beschleunigen.

Testergebnisse im Natural Language Processing (NLP)
(Bild: Nvidia)

Amazon ist einer der ersten Hyperscaler, der Nvidia-Grafikprozessoren für die Unterstützung von –„Nvidia NGC“-Container für Training und Inferenz ausstattet. Die „EC2 P3“-Instanzen verfügen über „Nvidia V100 Tensor Core“ GPUs, mit denen Kunden auf Basis der automatischen, gemischten Präzisionsfunktion maschinelles Lernen von Tagen auf Stunden reduzieren können. Mit EC2 G4 können Kunden KI-Dienste in großem Umfang bereitstellen und gleichzeitig die Betriebskosten deutlich senken.

Zugleich erhalten Kunden durch die kürzlich angekündigte Partnerschaft mit VMware beziehungsweise des Angebots „VMware Cloud on AWS“ in Kürze Zugang zu einem hochskalierbaren und sicheren Cloud-Service, der aus Amazon EC2 Bare-Metal-Instanzen besteht, die durch Nvidia T4-GPUs und dem „Nvidia Virtual Compute Server“ (vComputeServer) beschleunigt werden.

Unternehmen sollen damit in die Lage versetzt werden, diese hybride Cloud-Plattform der Enterprise-Klasse zu nutzen, um die Anwendungsmodernisierung zu beschleunigen. Sie sind in der Lage, Bereitstellung, Migration und Betrieb über eine konsistente VMware-Infrastruktur vom Rechenzentrum bis zur AWS-Cloud zu vereinheitlichen, um die rechenintensivsten Workloads zu unterstützen - einschließlich KI, Machine Learning und Datenanalyse. Außerdem ist der Einsatz von AWS EC2 G4-Instanzen auch gedacht für Hyperscale KI-Inferenz, Cloud-Gaming und RTX Ray Tracing für Kunden wie Clarifai, Electronic Arts, Gumgum und Pureweb.

AWS ist nicht der einzige Cloud-Provider, der T4-GPUs einsetzt. Auch die „Google Cloud Platform“ macht die Akzeleratoren verfügbar. Schließlich gibt es mehr als 100 verschiedenen Server-Designs etwa von Dell EMC, HPE, Lenovo und Supermicro enthalten.

Insbesondere Deep-, Machine-Learning- Anwendungen benötigen so viel wie mögliche Rechenleistung, die zugleich möglichst wenig Strom verbraucht. (gemeinfrei - Kantasimo/Pixabay)

Bis jetzt ist Nvidia der Marktführer bei GPUs. Doch Analysten gehen davon aus, dass es mindestens 50 Startups gibt, die Nvidia nicht nur die Position streitig machen wollen, sondern auch könnten. „Wir sehen fast jede Woche ein neues Startup“, sagt Hamilton.

„Der nächste Computing-Markt ist der für Künstliche Intelligenz“, hält Hamilton fest und damit ist sich mit IDC-Analyst Mario Morales einig. Der sagt aber auch, dass einer der wesentlichen Gründe für die neuartigen Recheneinheiten, Karten wie sie Graphcore anbietet, FPGAs, Systems on a Chip, TPUs und NPUs ist, dass der Energiebedarf für CPUs und GPUs schlichtweg zu hoch ist. Das gilt insbesondere für die Inferenz-Devices am Edge, doch ist der Energiehunger auch im Datacenter unbestreitbar, wenngleich hier die Performance der entscheidende Faktor sei.

Man dürfe auch Intel nicht vergessen, erinnert Hamilton. Laut IDC-Mann Morales hat die Company in jüngster Zeit zwölf Companies gekauft, auch um in diesem Markt aufzuholen; es sei offensichtlich, dass Intel hier etwas hinterherhinke. Warum die Startups seiner Ansicht nach den etablierten Playern gefährlich werden könnten, sagt er auch: Sie umgingen einfach des bisherigen Weg über die Adaption durch die Hardware-Lieferanten, die den Enterprise-Markt belieferten, wie Dell EMC und HPE, und wendeten sich direkt an die Hyperscaler.

Hamilton verweist auf die Nvidia-Erfolge. Der Benchmark, der im Machine Learning (ML) zähle sei „MLPerf“ https://mlperf.org/training-results-0-5 ; hier könnten derzeit eigentlich nur zwei Anbieter bestehen: Nvidia und Google mit der Tensor Processing Unit (TPU). Allerdings, fügt er an, funktioniere TPU zwar gut in der Cloud. Doch die Zukunft liegt in der KI am Netzwerkrand, in der Edge. Und während Cloud oder auch Enterprise Computing fixe Standorte nämlich im Rechenzentrum hätte, werde die KI-Zukunft mobil sein. GPUs, schließt er, könnten überall genutzt werden.

Und was hält Hamilton von den „Ascend“-Prozessoren von Huawei, inklusive durchgängiger Architektur und in unterschiedlicher Ausprägung für jegliche Art von Devices, vom Supercomputer bis Handy, Fernseher und medizinischem Gerät? „Die haben einen großartigen Job gemacht, tolle Technik.“

Vom 18. bis zum 20. September 2019 fand in Shanghai die Konferenz „Huawei Connect„“ statt, Treffen von 25.000 Teilnehmern und Schauplatz zahlreicher Vorträge, Ankündigungen, Use Cases und strategischen Überlegungen. (Ostler)

Er setzt aber hinzu: „Doch wir zählen bereits 1 Million Entwickler, die Anwendungen für unsere Technik entwickeln. Keine anderer IT-Hersteller kann das verbuchen. Und wir können wachsen.“ So habe Nvidia rund 5 Milliarden Dollar in die Entwicklung der jüngsten GPU-Generation gesteckt, also 2,5 Milliarden pro Jahr. Außerdem funktionierten die GPU sowohl zusammen mit Intel-CPUs als auch mit AMD- und „IBM Power“-Prozessoren und die Unterstützung für ARM sei bereits angekündigt – will heißen: Intel hinkt hinterher, Huawei und Google sind schmaler aufgestellt. „Die Anwender aber wollen die Wahl haben“, sagt Hamilton.

(ID:46155439)