Die jüngste Nvidia-GPU mit und ohne Kombi der Nvidia-CPU Nvidia schickt Hopper in die Serienproduktion
Anbieter zum Thema
Die Produktion des Grafikprozessors „Nvidia H100 Tensor Core“ ist angelaufen, hat Nvidia während der hauseigenen „GTC“-Konferenz in der vergangenen Woche bekannt gegeben. Die ersten Produkte und Services, die auf der zugrundeliegenden „Hopper“-Architektur aufbauen, sollen bereits im Oktober bei globalen Technologiepartnern eingeführt werden. Und dann ist da noch der 'Superchip'....

Computerhersteller wie, Atos, Cisco, Dell Technologies, Fujitsu, Gigabyte, Hewlett Packard Enterprise, Lenovo und Supermicro sowie die Cloud-Service-Anbieter AWS, Google Cloud, Microsoft Azure und Oracle Cloud Infrastructure haben bereits angekündigt, Angebote mit der GPU H100 anbieten zu wollen.
Der im April vorgestellte Grafikprozessor H100 verfügt über 80 Milliarden Transistoren. Zur Leistungsfähigkeit trägt aber eine neue „Transformer Engine“ und die die Verbindungstechnik „NVLink Interconnect“ bei. Sie dienen insbesondere der Beschleunigung großer KI-Modelle, wie fortschrittliche Empfehlungssysteme und umfangreiche Sprachmodelle, und treiben Innovationen in Bereichen wie Conversational AI sowie in der Arzneimittelforschung voran.
Neben der Hopper-Architektur und der Transformer-Engine sorgen Multi-Instance-Grafikprozessoren der zweiten Generation, weitere Computing-Sicherungen und „DPX“-Anweisungen für die Leistungsfähigkeit. Zudem ist nun eine Fünf-Jahres-Lizenz für die „AI Enterprise Software Suite“ des herstellers im Lieferumfang von H100 für Mainstream-Server enthalten. Dies kann die Entwicklung und den Einsatz von KI-Workflows optimieren und sicherstellen, dass Unternehmen Zugang zu den KI-Frameworks und -Tools haben, die für die Entwicklung von KI-Chatbots, Empfehlungsmaschinen, Vision AI und mehr benötigt werden.
Der Rollout von Hopper
Laut Nvidia kann H100 es Unternehmen ermöglichen, die Kosten für die Bereitstellung von KI zu senken, indem die GPU-Technik die gleiche KI-Leistung mit 3,5-facher Energie-Effizienz und dreifach niedrigeren Gesamtbetriebskosten liefere, während sie fünfmal weniger Serverknoten als die vorherige Generation benötige. Für Kunden, die die Technologie sofort ausprobieren möchten, läuft H100 auf „Dell Poweredge“-Servern auf dem „Nvidia Launchpad“. Dieses bietet kostenlose praktische Übungen und ermöglicht Unternehmen den Zugriff auf die neueste Hardware und der AI-Software.
Außerdem können Kunden bereits „DGX“- Systeme von Nvidia mit H100-Systeme bestellen. Diese enthalten acht H100-GPUs und bieten und eine Leistung von 32 PetaFlops bei FP8-Präzision. Dazu gehören „Base Command“ sowie die AI Enterprise Software von Nvidia; denn die Software-Tools treiben jedes DGX System an und ermöglichen Implementierungen von einem einzelnen Knoten bis hin zu einem „DGX Superpod“.
H100-betriebene Systeme von den anderen Computerherstellern werden voraussichtlich in den kommenden Wochen ausgeliefert, so dass bis Ende des Jahres mehr als 50 Servermodelle auf dem Markt sein werden und Dutzende weitere in der ersten Hälfte des Jahres 2023. Darüber hinaus werden einige der weltweit führenden Hochschul- und Forschungseinrichtungen H100 zum Betrieb ihrer Supercomputer der nächsten Generation einsetzen. Dazu gehören das Barcelona Supercomputing Center, das Los Alamos National Lab, das Swiss National Supercomputing Centre (CSCS), das Texas Advanced Computing Center und die University of Tsukuba.
H100 kommt in die Cloud
Amazon Web Services, Google Cloud, Microsoft Azure und Oracle Cloud Infrastructure werden zu den ersten gehören, die ab dem nächsten Jahr H100-basierte Instanzen in der Cloud bereitstellen. So sagt Nidhi Chappell, General Manager von Azure AI Infrastructur, beispielsweise: „Wir freuen uns darauf, die nächste Generation von KI-Modellen auf den neuesten H100-GPUs in Microsoft Azure zu ermöglichen. Mit den Fortschritten in der Hopper-Architektur in Verbindung mit unseren Investitionen in Azure AI Supercomputing können wir dazu beitragen, die Entwicklung von KI weltweit zu beschleunigen.“
Die fortschrittliche Transformer-Engine-Technologie der H100 ermöglicht es Unternehmen, schnell große Sprachmodelle mit einem höheren Genauigkeitsgrad zu entwickeln. Da diese Modelle immer umfangreicher werden, steigt auch die Komplexität, so dass manchmal Monate für das Training benötigt werden. Um dieses Problem zu lösen, werden einige der weltweit führenden großen Sprachmodelle und Deep-Learning-Frameworks auf H100 optimiert, darunter „Nemo Megatron“ von Nvidia, „Microsoft Deepspeed“, „Google JAX“, „Pytorch“, „Tensorflow“ und „XLA“.
Der Turbolader
„Grace Hopper“ ist die Bezeichnung des „Superchips“ von Nvidia, wie ihn das Unternehmen selbst bezeichnet. Er eignet sich insbesondere für Empfehlungssysteme. Um die Bedeutung zu verstehen, sollte in Betracht gezogen werden, dass jeden Tag Empfehlungssysteme Billionen von Suchergebnissen, Werbung, Produkten, Musik und Nachrichten an Milliarden von Menschen liefern. Sie gehören somit zu den wichtigsten KI-Modellen, weil sie effektiv im Internet-Pandämonium ´die Perlen` finden, die die Nutzer suchen.
Diese Pipelines für maschinelles Lernen arbeiten mit Terabytes von Daten. Je mehr Daten die Empfehlungssysteme nutzen können, desto genauer sind ihre Ergebnisse und desto höher ist die Rendite, die sie erzielen. Um diesen Daten-Tsunami zu verarbeiten, setzen Unternehmen bereits auf Accelerated Computing, etwa um ihre Dienste für ihre Kunden zu personalisieren.
Bei Pinterest beispielsweise, das Unternehmen, das für den Austausch von Bildern in sozialen Medien steht, konnte durch den Einsatz von Nvidia-Grafikprozessoren auf 100-fach größere Empfehlungsmodelle umsteigen. Dadurch konnte die Beteiligung der mehr als 400 Millionen Nutzer um 16 Prozent gesteigert werden.
Ein Software-Ingenieur des Unternehmens äußerte kürzlich in einem Blog: „Normalerweise wären wir mit einer Steigerung von 2 Prozent zufrieden. Aber jetzt sind 16 Prozent erst ein Anfang.“
NVLink beschleunigt Grace Hopper
Grace Hopper besteht eigentlich aus zwei Chips, aber in einer Einheit, die sich eine superschnelle Chip-to-Chip-Verbindung teilen. Es handelt sich um eine ARM-basierte Grace CPU von Nvidia und eine Hopper-GPU, die über „NVLink-C2C“ kommunizieren.
NVLink kann aber noch mehr; die Technik kann viele Superchips zu einem Supersystem, einem Computing-Cluster, das für Empfehlungssysteme der Terabyte-Klasse entwickelt wurde, verbinden. Die Connectivity-Technik überträgt Daten mit 900 Gigabyte pro Sekunde - das ist das Siebenfache der Bandbreite von PCIe Gen 5, dem Interconnect, den die meisten zukünftigen Spitzensysteme verwenden werden. Das bedeutet, dass Grace Hopper die Empfehlungssysteme mit 7x mehr Einbettungen - Datentabellen, die mit Kontext gefüllt sind - füttert, die sie benötigen, um die Ergebnisse für die Benutzer zu personalisieren.
Die Grace-CPU verwendet „LPDDR5X“, einen Speichertyp, der ein Gleichgewicht zwischen Bandbreite, Energieeffizienz, Kapazität und Kosten für Empfehlungssysteme und andere anspruchsvolle Workloads herstellen soll. Er bietet 50 Prozent mehr Bandbreite und verbraucht dabei nur ein Achtel des Stroms pro Gigabyte im Vergleich zu herkömmlichen DDR5-Speicher-Subsystemen.
Alle Hopper-GPUs in einem Cluster können über NVLink auf den Grace-Speicher zugreifen. Dies ist eine Funktion von Grace Hopper, die die größten GPU-Speicherpools aller Zeiten bietet. Darüber hinaus benötigt NVLink-C2C nur 1,3 Picojoules pro übertragenem Bit und ist damit mehr als fünfmal so Energie-effizient wie PCIe Gen 5.
Auf dem Grace Hopper Superchip läuft die gesamte KI-Software von Nvidia, zum Beispiel:
- „Nvidia Merlin“ wird vom Hersteller als „Raketentreibstoff für Empfehlungssysteme“ bezeichnet und besteht aus einer Sammlung von Modellen, Methoden und Bibliotheken für die Entwicklung von KI-Systemen.
- „Nvidia Merlin HugeCTR“, ein Empfehlungsframework. Es hilft Anwendern bei der schnellen Verarbeitung großer Datensätze über verteilte GPU-Cluster mit Hilfe der „Nvidia Collective Communications Library“.
(ID:48609332)