Nvidia GTC 2021: Starke Kundenbeispiele, faszinierende Technik Beschleunigung und KI formen die Zukunft der IT
In der dieser Woche findet die Konferenz „Nvidia GTC 2021“ statt, zu der Chef Jensen Huang einen ganzen Strauß Produktankündigungen dabei hat und, wie in den vergangenen Jahren, zahlreiche Beispiele von Kunden, die Nvidia-Technik einsetzen – Hardware und Software. Derart komprimiert, bietet er einen Sprung in die KI-Zukunft, wo sich virtuelle Realität mit echter mischt, die KI den Ton angibt, auch im wahrsten Sinnes des Worts, und sogar neue Welten entstehen: neue Materialien, andere Medizin, neue Arbeitsweisen.
Anbieter zum Thema

Laut Jensen sorgen insbesondere drei Treiber für enorme Fortschritte im Computing; denn Wissenschaft und Industrie beginnen, eine leistungsstarke exponentielle Kombination aus KI und beschleunigter Datenverarbeitung im Rechenzentrumsmaßstab zu nutzen (siehe: Abbildung 1).
Voraussetzung dafür ist das so genannte „accelerated computing“, also die Unterstützung der CPUs durch Akzeleratoren. Eine der wichtigsten Beschleunigertechniken sind GPUs, mit denen sich die Verarbeitung parallelisieren lässt. Und ohne Zweifel ist der wichtigste GPU-Anbieter Nvidia. In den vergangenen zehn Jahren und in nur fünf GPU-Generationen und dank des Software-Stack, der sich dazu passend entwickelt hat, hat sich die Leistung um das 1.000-fache steigern können.
Der zweite wesentliche Faktor die Möglichkeiten der Skalierung, die Fortschritte um das fast 100.000-fache erlaubt. Jensen: „Denn das Rechenzentrum ist die neue Recheneinheit.“ Im Jahr 2015 brauchte beispielsweise eine einzelne „Kepler“-GPU fast einen Monat, um „Resnet-50“, ein beliebtes Computer-Vision-Modell, zu trainieren. Heute kann dasselbe Modell in weniger als einer halben Minute auf „Selene“, dem Supercomputer von Nvidia, trainiert werden.
Dieser enthält Tausende von Nvidia-GPUs auf Basis der „Ampere“-Architektur. Um diese Skalierung zu ermöglichen hat Nvidia auch dafür Software entwickelt, wie „Megatron“ (siehe: Abbildung 13), „Magnum IO“ für Multi-GPU- und Multi-Node-Verarbeitung und „Sharp“ für das In-Network-Computing.
Die dritte Kraft, die die Entwicklung immer schneller vorantreibt, ist die Künstliche Intelligenz selbst. In der Keynote bringt Jensen viele Beispiele, Programme, die Musikstücke, Artikel und Softwareprogramme schreiben, KI-Trainingsmodelle, die sich selbst weiterentwickeln. So gehört zur den GTC-Ankündigungen ein „Omniverse Replicator“, der synthetische Trainingsdaten für Roboter generiert. Das ML-Tool ist gedacht für Ingenieure, die mit der Umgebung „Isaac Sim“ arbeiten, und adressiert dreierlei Probleme: ausreichende Daten und Daten in ausreichender Qualität zur Verfügung zu haben sowie in schnellstmöglicher Zeit.
Eine neue Art der Anwendungsentwicklung
Die neuen Funktionen erlauben es ML-Ingenieuren, synthetische Datensätze in Produktionsqualität zu erstellen, um robuste Deep-Learning-Wahrnehmungsmodelle zu trainieren. Die ´Replikation` der inhärenten Verteilung der Zieldomäne des Modells ist der Schlüssel zur Maximierung der Modellleistung.
Damit ergibt sich eine neue Version von Isaac, die wiederum Unterstützung für das „Robot Operating System“ bietet. (ROS). Und für Isaac hat Nvidia einige neue hardwarebeschleunigte Softwarepakete veröffentlicht, die es ROS-Entwicklern erleichtern, leistungsstarke KI-fähige Roboter auf der „Jetson“-Plattform von Nvidia zu bauen.
Um die Leistungsfähigkeit von KI-Anwendungen zu erläutern, verweist Huang auf eine per Deep Learning herbeigeführte Simulation aus dem vergangenen Jahr von 305 Millionen Atomen, die das Innenleben des SARS-CoV-2-Virus zeigt, und zwar innerhalb einer Millisekunde. Diese Arbeit markierte einen mehr als 10-millionenfachen Anstieg gegenüber einer damals hochmodernen Simulation von einer Million Atomen für 20 Nanosekunden vor 15 Jahren.
Unschlagbare Kombi: KI und HPC
Deshalb setzt die wissenschaftliche Gemeinschaft auf die Kombination von KI und High Performance Computing (HPC). So haben Forscher im vergangenen Jahr fast 5.000 Artikel über die Arbeit in AI+HPC auf „Arxiv“ veröffentlicht, vor fünf Jahren waren es erst knapp 100, führt Jensen aus. Kürzlich etwa haben Nvidia-Forscher eine Möglichkeit aufgezeigt, neuronale Netze mit klassischen physikalischen Gleichungen zu kombinieren, um in traditionellen Simulationen eine 1.000-fache Beschleunigung zu erzielen.
Um neue Medikamente zu entwickeln, müssen die Forscher die Proteine und deren Zusammenspiel verstehen. Mit herkömmlichen Methoden, bei denen Röntgenstrahlen und Elektronenmikroskope zum Einsatz kommen, konnten bisher jedoch nur 17 Prozent der rund 25000 menschlichen Proteine entschlüsselt werden.
Für die Entschlüsselung von Proteinstrukturen braucht es Abbildungen in 3D. So lässt sich quasi sehen , wie sie funktionieren, und dann die Identifizierung der chemischen Verbindungen, die sie daran hindern, gesunde Zellen zu infizieren. „Deepmind“ hat im vergangenen Jahr ein Ensemble von KI-Modellen in seinem „Alphafold“-System genutzt, um einen großen Sprung zu machen und die 3D-Struktur von mehr als 20.000 menschlichen Proteinen vorherzusagen.
In ähnlicher Weise haben Forscher von Nvidia, Caltech und dem Startup-Unternehmen Entos maschinelles Lernen und Physik kombiniert, um „Orbnet“ zu entwickeln, das die Molekularsimulationen um viele Größenordnungen beschleunigt. Entos kann seine Simulationen chemischer Reaktionen zwischen Proteinen und Arzneimittelkandidaten um das 1.000-fache beschleunigen und in drei Stunden eine Arbeit abschließen, die sonst mehr als drei Monate gedauert hätte.
Die Vorhersage von Klimakatastophen
Die Klimaveränderung ist einer der größten Aufgaben dieser Zeit. Da sie derzeit nicht aufzuhalten ist, müssen sich Menschen auf die veränderten Situationen einstellen. Gut wäre es, wenn sich zumindest die Katastrophen vorhersagen ließen, um besser vorbereitet zu sein. Wissenschaftler hoffen, bald globale Klimasimulationen mit einer Auflösung im Kilometermaßstab durchführen zu können, um Polizei, Rettungskräfte, Katastrophenschutz besser auf die veränderten Wettermuster vorbereiten zu können. Um Wolken und Sturmmuster genau zu verfolgen, müssen sie, laut Jensen mit einer Auflösung von einem Meter arbeiten.
Das erfordert eine 100 Milliarden Mal höhere Rechenleistung, die heute kein Computer bieten kann. Jensen: „Bei der Geschwindigkeit des Mooreschen Gesetzes würden wir das nicht vor 2060 erreichen. Deshalb bauen Wissenschaftler, die einen Millionensprung machen wollen, digitale Zwillinge unseres Planeten mit beschleunigter Rechenleistung und KI in großem Maßstab.“
Nvidia und das Quantencomputing
Da ist der Gedankensprung zu künftigen Quantencomputern nicht mehr weit. Auch laut Jensen wird Quantencomputing eine neue Welle von Fortschritten in der Klimaforschung, Arzneimittelforschung, Finanzen und mehr mit sich bringen. Allerdings lassen die Rechner noch auf sich warten – zehn, vielleicht 20 Jahre, obwohl weltweit wohl rund 100 Teams Quantenprozessoren,-systeme, Simulatoren und Algorithmen erforschen.
Das bedeute jedoch nicht, dass man die Hände in den Schoß legen könne. Durch die Simulation der Quantencomputer von morgen auf den klassischen Systemen von heute könnten Forscher Quantenalgorithmen schneller und in sonst nicht möglichem Maßstab entwickeln und testen. Nvidia arbeite mit Google Quantum AI, IBM und anderen zusammen. Simulationen sollen aber nicht nur helfen, neue Quantenalgorithmen schnell zu entwerfen und zu testen, und zwar in einem Umfang und einer Leistung, die auf aktueller Quantenhardware nicht möglich ist, sondern seien auch entscheidend für die Validierung und das Benchmarking der nächsten Generation von Quantenhardware.
Jensen hält gleich mehrere Neuerungen bereit:
- Eine erste Bibliothek „Custatevec“, die seit Dienstag der vergangenen Woche in der öffentlichen Betaphase zum Download bereitsteht. Sie beschleunigt die Zustandsvektor-Simulationsmethode. Mithilfe dieses Ansatzes lässt sich der vollständige Zustand des Systems im Speicher nachverfolgen und auf Dutzende von Qubits skalieren.
- Die Bibliothek gehört zu „Cuquantum“, dem Software Development Kit (SDK) von Nvidia zur Beschleunigung von Quantenschaltungssimulationen auf einer GPU.
- Eine zweite Bibliothek, die im Dezember erscheint, trägt die Bezeichnung „Cutensornet“ und ist ein Beschleuniger, der die Tensor-Netzwerkmethode verwendet. Es kann mit einigen vielversprechenden kurzfristigen Algorithmen bis zu Tausenden von Qubits verarbeiten.
Da Nvidia mit Google Quantum AI, IBM und anderen zusammenarbeitet, sind die Tools in andere Werkzeuge integrierbar: So ist Custatevec in „Qsim“ integriert, den Zustandsvektor-Simulator von Google Quantum AI, der wiederum mit Cirq, einem Open-Source-Framework für die Programmierung von Quantencomputern, verwendet werden kann. Anwender, die Cirq nutzen können somit Ciquantum herunterladen und nutzen. Im Dezember wird Custatevec für den Einsatz mit „Qiskit Aer“, einem Hochleistungssimulator für Quantenschaltungen von IBM, bereit sein.
Weltrekord mit Cuquantum auf dem DGX Superpod
Das neue SDK, das auf dem „Selene“-Supercomputer läuft, simuliert achtmal mehr Qubits als frühere Versuche im Rahmen eines wichtigen Tests für das Quantencomputing: Simuliert wurden 1688 Qubits auf 896 GPUs. Dabei handelt es sich um das so genannte „Maxcut“- Problem (siehe: Abbildung 4). In der Mathematik wird Maxcut oft als Beispiel für ein Optimierungsproblem genannt, das kein bekannter Computer effizient lösen kann. Die Algorithmen werden beispielsweise dazu verwendet, um große Computernetzwerke zu entwerfen, das optimale Layout von Chips mit Milliarden von Siliziumpfaden zu finden und das Gebiet der statistischen Physik zu erforschen.
Außerdem entwickelt Nvidia eine Appliance, die auf Basis der Nvidia-Hardware „DGX“ out-of-the-box für die Simulation genutzt werden kann, sie kommt im ersten Quartal 2022 auf den Markt.
Industrien bringen digitale Zwillinge hervor
Nicht ganz praxisfern muten dagegen die Digitalen Zwillinge an, die Nvidia-Anwender gebaut haben. Siemens Energy hat beispielsweise das KI-Framework „Nvidia Modulus“ eingesetzt, das auf Dutzenden von Grafikprozessoren in der Cloud läuft, um ein ganzes Kraftwerk zu simulieren(siehe: Abbildung 8). Es kann mechanische Ausfälle aufgrund der korrosiven Auswirkungen von Dampf vorhersagen und so Ausfallzeiten reduzieren, Geld sparen und die Stromversorgung aufrechterhalten.
Der Anbieter von Kraftwerksausrüstung und -technologien, verfügt über ein riesiges Portfolio an Maschinen und Anlagen, die gewartet werden müssen. Er trägt buchstäblich dazu bei, dass weltweit die Lichter an bleiben. Seine Installed Base umfasst Zehntausende Gasturbinen, Dampfturbinen, Generatoren, Gas- und Dieselmotoren.
Der Energieriese hat sich Microsoft, American Express, USPS angeschlossen und nutzt nun auch die Deep Learning-Funktionen von „Triton“, einer Open-Source-Software, die KI in die Produktion bringt. Der „Triton Inference Server“ von Nvidia wiederum hilft, bei der Lösung von Problemen im Bereich Predictive Service zu unterstützen. Laut Huang nutzen über 25.000 Unternehmen weltweit AI Inference von Nvidia.
BMW produziert ein Auto pro Minute. Jedes mit rund 25.000 Teilen. Rund 5 Millionen Teile befinden sich zu jedem Zeitpunkt in der Fabrikationshalle. Bereits im Frühjahr hatte BMW seinen Digitalen Zwilling (siehe: Abbildung 9 und 10)für die Fabrikation in Regensburg vorgestellt. Inzwischen hat der Fahrzeugbauer digitale Modelle für drei weitere Fabriken erstellt – für eine Gesamtfläche von 10 Millionen Quadratmetern. Die BMW-Ingenieure nutzen das Tool „Isaac Gym“, das auf „Nvidia Omniverse“ basiert, um den Produktionsrobotern neue Fähigkeiten beizubringen.
Eine Plattform für Avatare
Praktische Hilfe, die zugleich die zunehmende Symbiose von KI und virtuellen Welten und echtem Wissen symbolisiert, ist die GTC-Ankündigung eine Nvidia-Plattform für KI-Avatare. „Omniverse Avatar“ ermöglicht, so der Chef, die Erstellung von „Conversational AI-Assistents“ in Echtzeit.
In den interaktiven Avataren verbindet die Technologien des Unternehmens in den Bereichen Sprach-KI, Computer Vision, Natural Language Understanding, Recommendation Engines und Simulationstechnologien. Die auf der Plattform erstellten Avatare sind interaktive Charaktere mit 3D-Grafiken (Raytracing), die sehen, sprechen, sich über eine breite Palette von Themen unterhalten und Absichten (Intents) in gesprochener Sprache verstehen können.
Die KI-Assistenten sind praktisch für jede Branche anpassbar. Unternehmen könnte es dabei helfen, Milliarden von täglichen Interaktionen im Kundenservice zu bewältigen, sei es bei Restaurantbestellung, Banktransaktionen, Terminvereinbarungen oder Reservierungen.
Supercomputing auf neuem Level und in der Cloud
Interessant für die Verbreitung von High Performace Computing ist die Ankündigung des Infiniand-Switch „Quantum 2“ (siehe: Abbildung 5), für 400 Gigabit pro Sekunde (Gbit/s) und Netzwerkplattform-Funktionen, denn die Technik verspricht Sicherheit, Cloud-nativ- und Mandantenfähigkeit sowie Bare-Metal-Performance für Datenanalysen, KI- und HPC-Anwendungen.
Es handelt sich um eine Ende-zu-Ende Netzwerkplattform, die aus dem Quantum-2 Switch besteht, dem „Connect-X-7“-Netzwerkadapter und der „Bluefield-3“-Datenverarbeitungseinheit (DPU). und verfügt über die Software, die zum Betreiben einer neuen Architektur nötig ist.
Quantum 2, gerade in der Bemusterung, verbindet Tausende von GPUs, ermöglicht die Leistung eines Supercomputers und die Leistung über eine Cloud mit anderen zu teilen, und das sei absolut neu, so Huang. Zuvor habe es nur ein entweder oder gegeben, entweder Bare-Metal-Performance oder sichere Mandantenfähigkeit, aber nie beides. Der Supercomputer wird „cloud-native“ und kann somit unter anderem besser ausgelastet werden.
- Zu den Merkmalen gehört deshalb die Leistungsisolierung. Ein Telemetrie-basiertes Überlastungsprotokoll verhindert, dass Sender mit hoher Datenrate das Netzwerk überlasten und den Traffic für andere beeinträchtigen können.
- Die Generation „3 Sharp“ verfügt über eine 32-mal höhere In-Switch-Verarbeitung, um das KI-Training zu beschleunigen
- Ein Timing-System mit Nanosekundenpräzision sorgt dafür, dass sich der Aufwand für Wartezeiten und Handshaking verkürzt, da weniger „Race-Conditions“ erforderlich sind. Dieses wiederum ermöglicht, dass Cloud-Rechenzentren mehr denn je Teil des Telekommunikationsnetzes werden, zum Beispiel um Software-definierte 5G-Dienste zu hosten.
- Innerhalb der „3Hop-Dragonfly“-Topologie lassen sich eine Million Endpunkte verbinden - 6,6 mal mehr als in der gegenwärtigen Generation der Quantum-Technik, wird gerade zusammengebaut (sampling now)
„Wäre „Selene DGX“ bereits mit Quantum 2 ausgestattet“, erläutert Nvidia-Chef Huang, würde die gesamte Bandbreite 224.00 Gigabyte pro Sekunde betragen, also das Eineinhalbfache des gesamten Internet-Verkehrs.
Es gibt zwei Optionen für Netzwerkendpunkte: die NIC „CX-7“ und „Bluefield 3“ (siehe: Abbildung 6 und 7).
„ConnectX-7 Infiniband“ besteht aus 8 Milliarden Transistoren (TSM 7N), 16 Kernen/ 256 Threads, 400 Gigabit pro Sekunde für die Beschleunigung von Verschlüsselungen. Laut Nvidia führt das zu Leistungssteigerungen von vierfacher Network-Computing-Performance, zweifachen GPU-Direct-Throughput und im Vergleich zu RDMA eine Verdopplung.
Bluefield 3 mit Quantum 2 wird im Mai bemustert, besteht aus 22 Milliarden Transistoren, basiert wie die NIC ebenfalls auf TSMC 7, verfügt über 16 ARM 64-Bit-Kerne und bietet der Verschlüsselung 400 Gigabit pro Sekunde.
Der Grund für einen Co-Prozessor, also für eine DPU liegt in der Zunahme des Ost-West-Traffic im Rechenzentrum beziehungsweise in der horizontalen Skalierung und damit in der Zunahme von Machine-to-Machine-Nachrichten und der disaggregierten Anwendungen. Unter anderem resultieren daraus eine Menge geöffneter Ports, die allesamt vor Cyber-Angriffen geschützt werden müssen.
Der Co-Prozessor wird benötigt, um die CPU von der Verarbeitung der Netzwerk-, Speicher- und Sicherheitssoftware zu entlasten. Dieser Anteil beträgt derzeit etwa 30 Prozent, weist aber eine steigende Tendenz auf: Der Einsatz einer DPU könne nicht nur den Durchsatz steigern, sondern bei Rechenzentren mit einem Wert von mehreren Milliarden unglaubliche Kosteneinsparungen erzielen.
Die Bereitstellung von Cybersecurity-Funktionen auf Cloud-nativen Architekturen auf der Basis von Bluefield und einer Umgebung aus „Doca 1.2“ sowie „Morpheus“, dem Security-KI-Framework von Nvidia, erlaube nicht nur das Erschaffen einer Zero-Trust-Plattform, sondern Computing und Deep Learning mit einer bis zu 600-fachen Geschwindigkeit im Vergleich zu Servern ohne Nvidia-Technik.
Die Plattform soll es der Cybersecurity-Branche ermöglichen, Lösungen zu entwickeln, die die Rechenzentren ihrer Kunden in Echtzeit schützen. Die Isolierung von Anwendungen von der Infrastruktur, die Verschärfung von Firewalls und der Einsatz von beschleunigtem Computing sowie Deep Learning zur kontinuierlichen Überwachung und Erkennung von Bedrohungen könnten Entwicklerunternehmen helfen, ein neues Sicherheitsniveau in Rechenzentren zu schaffen, heißt es von Nvidia.
Artikelfiles und Artikellinks
(ID:47785456)