Vor etwa fünf Jahren stellte die Forschungsorganisation für Künstliche Intelligenz OpenAI Microsoft die Idee vor, KI-Systeme zu entwickeln, die die Art und Weise, wie Menschen mit Computern interagieren, für immer verändern würden. Geworden daraus ist „ChatGPT“.
Die OpenAI-Software „ChatGPT“ lauft auf Supercomputing-Infrastrukturen von „Microsoft Azure“, die mit Nvidia-GPUs ausgestattet sind.
(Bild: Microsoft)
Damals allerdings ahnte noch niemand, dass es sich dabei um KI-Systeme handeln würde, die Bilder von allem erstellen, was Menschen in einfacher Sprache beschreiben, oder um einen Chatbot, der Rap-Texte schreibt, E-Mails verfasst und ganze Menüs auf der Grundlage einer Handvoll Wörter plant. Um die Technologie zu entwickeln, braucht OpenAI Rechenleistung - und zwar in wirklich großem Maßstab.
Microsoft hat schon vor Jahrzehnten begonnen, KI-Modelle zu entwickeln, die den Menschen helfen, effizienter mit Sprache umzugehen - von der automatischen Rechtschreibprüfung in Word bis hin zu KI-Tools, die Bildunterschriften in PowerPoint schreiben und in „Microsoft Translator“ mehr als 100 Sprachen übersetzen. Mit der Verbesserung dieser KI-Fähigkeiten setzte das Unternehmen sein Fachwissen im Bereich High Performance Computing (HPC) ein, um die Infrastruktur in seiner „Azure-Cloud“ zu skalieren, die es ansonsten auch anderen Kunden ermöglicht, die hauseigenen KI-Tools zum Erstellen, Trainieren und Bereitstellen benutzerdefinierter KI-Anwendungen zu nutzen.
Als die KI-Forscher begannen, leistungsfähigere Grafikprozessoren (GPUs) einzusetzen, um komplexere KI-Arbeitslasten zu bewältigen, sahen sie das Potenzial für viel größere KI-Modelle, die Nuancen so gut verstehen konnten, dass sie in der Lage waren, viele verschiedene Sprachaufgaben auf einmal zu bewältigen. Doch diese größeren Modelle stießen schnell an die Grenzen der vorhandenen Rechenressourcen.
Nidhi Chappell, Bei Microsoft Chefin des Azure High Performance Computing and AI, sowie Phil Waymouth, Microsoft Senior Director, zuständig für strategische Partnerschaften.
(Bild: Dan DeLong für Microsoft)
Doch offenbar hat Microsoft verstanden, welche Art von Supercomputing-Infrastruktur OpenAI benötigte und in welchem Umfang dies möglich war. Nidhi Chappell, Produktleiterin für Azure High-Performance Computing und AI bei Microsoft sagt: „Eines der Dinge, die wir aus der Forschung gelernt haben, ist, dass die Genauigkeit des Modells umso besser ist, je größer das Modell ist, je mehr Daten man hat und je länger man es trainieren kann.“ Sie folgert: „Es gab also definitiv einen starken Druck, größere Modelle über einen längeren Zeitraum zu trainieren. Das aber bedeutet, dass man nicht nur die größte Infrastruktur haben muss, sondern auch in der Lage sein muss, sie über einen langen Zeitraum zuverlässig zu betreiben.“
Im Jahr 2019 sind Microsoft und OpenAI eine Partnerschaft eingegangen, die in diesem Jahr erweitert worden ist, um gemeinsam an neuen Azure AI Supercomputing-Technologien zu arbeiten. Ziel ist es, den Durchbruch in der zu KI beschleunigen, das Versprechen großer Sprachmodelle einzulösen und dazu beizutragen, dass die Vorteile der KI auf breiter Ebene genutzt werden.
Schon beim Aufbau der Supercomputing-Ressourcen in Azure, die speziell dafür entwickelt wurden, um OpenAI das Training einer wachsenden Zahl von immer leistungsfähigeren KI-Modellen zu ermöglichen, umfasste die Infrastruktur Tausende KI-optimierte Grafikprozessoren von Nvidia. Diese sind in einem Netzwerk mit hohem Durchsatz und geringer Latenz verbunden, das auf „Quantum Infiniband“ von Nvidia für Hochleistungsrechner basiert.
Größte Cluster vernetzter GPUs
Phil Waymouth, ein Microsoft Senior Director, der für strategische Partnerschaften zuständig ist und bei den Verhandlungen mit OpenAI geholfen hat, erinnert sich: „Der Umfang der Cloud Computing Infrastruktur, die OpenAI zum Trainieren seiner Modelle benötigte, war beispiellos: exponentiell größere Cluster von vernetzten GPUs, als irgendjemand in der Branche je zu bauen versucht hatte.“
Microsofts Entscheidung, trotzdem eine Partnerschaft mit OpenAI einzugehen, habe auf der Überzeugung beruht, dass diese beispiellose Infrastrukturergebnisse hervorbringen würde und dass diese wiederum neue KI-Fähigkeiten hervorbringen könnte, eine neue Art von Programmierplattform, die Microsoft dazu nutzen können würde, in Produkte und Dienste umzuwandeln. „Diese Verlagerung von der groß angelegten Forschung in den Labors hin zur Industrialisierung der KI hat es uns ermöglicht, die Ergebnisse zu erzielen, die wir heute zu sehen bekommen“, sagte er.
Dazu gehören Suchergebnisse in „Bing“, die einen Traumurlaub zusammenstellen, der Chatbot in „Viva Sales“, der Marketing-E-Mails entwirft, „Github Copilot“, der Kontext aus dem vorhandenen Code von Software-Entwicklern zieht, um zusätzliche Codezeilen und Funktionen vorzuschlagen und so die mühsame Programmierung von Computern zu erleichtern, und Azure OpenAI Service, der Zugang zu den großen Sprachmodellen von OpenAI mit den unternehmenstauglichen Funktionen von Azure bietet.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Grafikprozessoren (GPUs) sind ein wichtiger Teil der Hardware, die für KI-Arbeitslasten optimiert wurde.
(Bild: Microsoft)
Der Schlüssel in der Infrastruktur zu den bekannten Erfolgen, so HPC-Produktleiterin Chappell, bestand darin, zu lernen, wie man buchstäblich Zehntausende von GPUs, die über ein Infiniband-Netzwerk verbunden sind, aufbauen, betreiben und warten kann. Diese Größenordnung, so erklärte sie, übersteigt die Möglichkeiten, die selbst die Lieferanten der GPUs und der Netzwerkausrüstung jemals getestet haben. Es war Neuland. Niemand wusste mit Sicherheit, ob die Hardware so weit getrieben werden konnte, ohne zusammenzubrechen.
Auch Greg Brockman, Präsident und Mitbegründer von OpenAI, stimmt ein: „Das Co-Design von Supercomputern mit Azure war entscheidend für die Skalierung unserer anspruchsvollen KI-Trainingsanforderungen und machte unsere Forschungs- und Anpassungsarbeit an Systemen wie ChatGPT möglich.“
Dass ChatGPT nur ein Anfang ist und selbst weiterer Entwicklung bedarf ist auch Microsoft und seinen Partnern klar. Sie entwickeln die Infrastruktur weiter, um mit der steigenden Nachfrage nach exponentiell komplexeren und größeren Modellen Schritt zu halten. So hat Microsoft heute neue leistungsstarke und massiv skalierbare virtuelle Maschinen angekündigt, die die neuesten „H100 Tensor Core“ GPUs von Nvidia sowie Quantum-2 Infiniband-Netzwerke integrieren.
Chappell erläutert wie die Infrastruktur prinzipiell geschaffen sein muss: „Um ein großes Sprachmodell zu trainieren“, erklärt sie, „wird die Rechenlast auf Tausende von GPUs in einem Cluster verteilt. In bestimmten Phasen dieser Berechnung – ‚Allreduce‘ genannt - tauschen die GPUs Informationen über die von ihnen geleistete Arbeit aus. Ein Infiniband-Netzwerk beschleunigt diese Phase, die abgeschlossen sein muss, bevor die GPUs mit dem nächsten Teil der Berechnungen beginnen können. Man kauft nicht einfach eine ganze Reihe von GPUs, schließt sie an und schon arbeiten sie zusammen. Es gibt eine Menge Optimierungen auf Systemebene, um die beste Leistung zu erzielen, und das ist das Ergebnis einer langen Erfahrung über viele Generationen hinweg.“
Die Optimierung auf Systemebene umfasst Software, die eine effektive Nutzung der GPUs und der Netzwerkausrüstung ermöglicht. So hat Microsoft in den vergangenen Jahren Softwaretechniken entwickelt, die es ermöglichen, Modelle mit Billionen von Parametern zu trainieren und gleichzeitig den Ressourcenbedarf und die Zeit für das Training und die Bereitstellung der Modelle in der Produktion zu verringern.
Außerdem hat der Konzern zusammen mit seinen Partnern die Kapazität der GPU-Cluster schrittweise erhöht, das Infiniband-Netzwerk erweitert und geprüft, wie weit sie die Infrastruktur des Rechenzentrums, die für den Betrieb der GPU-Cluster erforderlich ist, einschließlich Kühlsysteme, unterbrechungsfreie Stromversorgungssysteme und Notstromgeneratoren, ausreizen können, ergänzt Waymouth und setzt hinzu: „Der Grund, warum es funktioniert hat, ist, dass wir ähnliche Systeme für unsere internen Teams gebaut haben und es dort komplementäre Elemente gibt. Aber der Umfang, in dem wir das mit OpenAI gemacht haben, war einfach viel größer - intern und mit externen Partnern.“
Microsoft setzt GPUs für das Inferencing in allen Azure-Rechenzentren des Unternehmens ein, etwa auch in diesem, im Bundesstaat Washington.
(Bild: Microsoft)
Eric Boyd, Microsoft Corporate Vice President für die AI Platform, weist darauf hin, dass diese Azure-Infrastruktur, die für das Training großer Sprachmodelle optimiert ist, heute über die Azure AI Supercomputing-Funktionen in der Cloud verfügbar ist. Diese Ressource biete die Kombination aus Grafikprozessoren, Netzwerkhardware und Virtualisierungssoftware, die erforderlich ist, um die Rechenleistung zu liefern, die für die nächste Welle von KI-Innovationen benötigt wird. „Wenn nun andere Leute zu uns kommen und dieselbe Art von Infrastruktur wünschen wie OpenAI, können wir sie ihnen bieten, weil das unsere Standardmethode ist“, fügte er hinzu.
Dafür braucht es eine Plattform für das Inferencing. Zu Beginn der Microsoft-Entwicklung einer für KI optimierten Cloud-Computing-Infrastruktur hat sich das Unternehmen auf spezielle Hardware konzentriert, um die Echtzeitberechnungen von KI-Modellen zu beschleunigen, wenn diese für die Erledigung von Aufgaben eingesetzt werden: das Inferencing. Beim Inferencing schreibt ein KI-Modell etwa den ersten Entwurf einer E-Mail, fasst ein juristisches Dokument zusammen, schlägt das Menü für eine Dinnerparty vor, hilft einem Softwareprogrammierer bei der Suche nach einem Stück Code oder entwirft ein Konzept für ein neues Spielzeug.
Heute hat Microsoft GPUs für Inferencing in allen Azure-Rechenzentren des Unternehmens eingesetzt, die sich über mehr als 60 Regionen auf der ganzen Welt erstrecken. Diese Infrastruktur nutzen Kunden zum Beispiel, um Chatbots zu betreiben, die für die Planung von Terminen im Gesundheitswesen angepasst sind, oder um benutzerdefinierte KI-Lösungen auszuführen, die Fluggesellschaften bei der Einhaltung von Flugplänen helfen.
Vernetztes Inferencing
Da die trainierten KI-Modelle immer größer werden, werden auch für die Inferenz GPUs benötigt. Und diese seien auf die gleiche Weise miteinander vernetzt wie die für die Modellschulung, um eine schnelle und kosteneffiziente Aufgabenerfüllung zu gewährleisten, erläutert Chappell. Aus diesem Grund hat Microsoft die Fähigkeit zum Clustern von GPUs mit Infiniband-Netzwerken im gesamten Azure-Rechenzentrum ausgebaut.
Denn auch Sicht des Endkunden gehe es vor allem darum, wie kostengünstig Inferenzen ausführen können, so Chappell „Da die GPUs in einem schnelleren Netzwerk verbunden sind, können größere Modelle darauf installiert werden“, erklärt sie. „Und weil das Modell schneller mit sich selbst kommuniziert, können Sie die gleiche Rechenleistung in kürzerer Zeit erbringen, so dass es billiger ist.“
Microsoft arbeitet weiter an der Entwicklung und Optimierung einer zweckmäßigen KI-Infrastruktur, so Boyd weiter. Dazu gehört die Zusammenarbeit mit Anbietern von Computerhardware und Herstellern von Rechenzentrumsausrüstung, um von Grund auf eine Cloud-Computing-Infrastruktur zu entwickeln, die die höchstmögliche Leistung, den größtmöglichen Umfang und die kostengünstigste Lösung bietet.
* Der Autor John Roach hat den Post auf dem Microsoft-Blog verfasst. Für Datacenter-Insider ist er übersetzt und angepasst worden.