Virtuelle Maschinen für die Künstliche Intelligenz Microsoft und Nvidia: Co-Design bei der VM-Entwicklung

Ein Gastbeitrag von Matt Vegas* Lesedauer: 2 min

Anbieter zum Thema

Die „Microsoft Azure-Cloud“, insbesondere die GPU-beschleunigten virtuellen Maschinen (VMs) bilden die Grundlage für viele generative KI-Fortschritte, direkt bei Microsoft als auch bei den Kunden. Mit der VM „ND H100 v5“ hat Der Konzern in der vergangenen Woche seine bisher wohl leistungsstärkste und zu skalierbare virtuelle Maschine vorgestellt.

Virtuelle Maschinen und Grafikprozessoren als Beschleuniger erlauben schnelles und skalierbares Rechnen in der Cloud.
Virtuelle Maschinen und Grafikprozessoren als Beschleuniger erlauben schnelles und skalierbares Rechnen in der Cloud.
(Bild: Microsoft: The innovation behind AI at Scale)

Die ND H100 v5 VM können über „Quantum-2 Infiniband“-Netzwerke von Nvidia miteinander verbunden werden. So ermöglichen sie on-demand Größen von acht bis zu Tausenden von „H100“-GPUs von Nvidia. Im Vergleich zu den „ND A100 v4“ VMs der Vorgängergeneration bietet das laut Anbieter eine deutlich höhere Leistung für KI-Modelle mit Techniken wie:

  • 8x Nvidia H100 Tensor Core GPUs, die über „NVSwitch“ und „NVLink 4.0“ miteinander verbunden sind
  • 400 Gb/s „Quantum-2 CX7 Infiniband“ pro GPU mit 3,2Tb/s pro VM in einem nicht blockierenden Fat-Tree-Netzwerk
  • NVSwitch und NVLink 4.0 mit 3,6 TB/s bisektionaler Bandbreite zwischen 8 lokalen GPUs innerhalb jeder VM
  • „Intel Xeon Scalable“-Prozessoren der 4. Generation
  • PCIE Gen5 Host-GPU-Verbindung mit 64 GB/s Bandbreite pro GPU
  • 16 Kanäle mit 4800 MHz DDR5 DIMMs

Generative KI-Anwendungen entwickeln sich rasant weiter und schaffen in nahezu jeder Branche einen einzigartigen Mehrwert. Von der Neuerfindung der Suche mit dem neuen KI-gesteuerten „Microsoft Bing“ und „Edge“ bis hin zur KI-gesteuerten Unterstützung in „Microsoft Dynamics 365“ - KI wird zu einem allgegenwärtigen Bestandteil der Software und der Art und Weise, wie wir mit ihr interagieren, und unsere KI-Infrastruktur wird den Weg dafür ebnen.

Bereitstellung von Exascale-KI-Supercomputern in der Cloud

Mit der Bereitstellung von Supercomputern mit mehreren ExaOPs zielt Microsoft auf Azure-Kunden wie Inflection, Nvidia und OpenAI, die sich zu groß angelegten Implementierungen verpflichtet haben; denn das Angebot soll eine neue Klasse von groß angelegten KI-Modellen ermöglichen.

Mustafa Suleyman, CEO von Inflection, äußert: „Unser Fokus auf Konversations-KI erfordert, dass wir einige der komplexesten großen Sprachmodelle entwickeln und trainieren. […] Wir sind begeistert von den neuen VMs auf Azure und der gesteigerten Leistung, die sie für unsere KI-Entwicklung mit sich bringen werden.“

Azure-Dienste wie „Azure Machine Learning“ machen den KI-Supercomputer in Azure für das Modelltraining zugänglich und „Azure OpenAI Service“ ermöglicht es, die Leistung großer generativer KI-Modelle zu nutzen. Skalierung ist dafür ganz wesentlich. Davon können Startups und Unternehmen jeder Größe profitieren, ohne dass sie massiv Kapital für physische Hardware- oder Software-Investitionen aufbringen müssen. ND H100 v5 ist als Vorschau verfügbar und wird ein Standardangebot im Azure-Portfolio.

* Matt Vegas ist leitender Produktmanager Azure HPC+AI bei Microsoft. Sein Blog-Post ist für DataCenter-Insider bearbeitet.

(ID:49262910)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung