Die Einrichtung von Kubernetes für KI-Workloads ist in vollem Gange, im neuen Zuhause wird auch schon munter produziert. Wie das funktioniert, wo es noch tropft, was provisorisch ist und was noch hinzukommen wird, erläutern Saloni Narang und Saiyam Pathak, die Köpfe hinter der Cloud Native-Lernplattform „Kubesimplify“.
Saloni Narang und Saiyam Pathak erklären auf der „Container Days Conference 2025” in Hamburg Kubernetes als Zuhause für KI-Workloads.
Wie genau sich Kubernetes für KI-Workloads einrichten lässt und was noch gemacht werden muss, erklärten auf der Konferenz und im Gespräch mit DataCenter-Insider Saiyam Pathak und Saloni Narang. Gemeinsam koordinieren Pathak und Narang das Lernportal Kubesimplify, das Entwickler für Cloud Native fit machen will.
Als etablierte Plattform für die Orchestrierung und das Ressourcenmanagement komplexer Machine-Learning-Workloads sei Kubernetes das natürliche Zuhause für LLMs (Large Language Models, große Sprachmodelle), betont Saloni Narang. Dies habe gerade OpenAI bei „ChatGPT“ und „DALL-E“ demonstriert. Dem Unternehmen gelang es noch 2018, seine Trainings-Cluster in Kubernetes auf 2.500 und 2021 auf 7.500 Nodes (virtuelle oder physische Maschinen) zu skalieren. Auch heute „ist Kubernetes ein zentraler Bestandteil der Fähigkeit von OpenAI, seine Operationen sowohl in Cloud- als auch in Bare-Metal-Umgebungen effizient zu skalieren“, so Narang.
Die Audio-Version des Gesprächs mit Saloni Narang und Saiyam Pathak auf Englisch mit zuschaltbaren deutschen Untertiteln (Einstellungsrad → Englisch → Automatisch übersetzen) .
Skalierung bleibt dabei eine beständige Herausforderung. Wo OpenAI seinerzeit mit mehreren Netzwerk-Backend-Systemen hantieren, die IP-Adressierung manuell optimieren und auch die einzelnen Geräte im Voraus einzeln und statisch über Device Plugins deklarieren musste, hat die Kubernetes-Community seitdem mehrere Werkzeuge für die dynamische Orchestrierung komplexer KI-Workloads geschaffen, die sich allerdings in sehr verschiedenen Entwicklungsstadien befinden.
Dynamische Ressourcenverteilung mit DRA und Dranet
Zu den ausgereifteren Werkzeugen gehört „Dynamic Resource Allocation“ (DRA). Als Core-Feature von Kubernetes entwickelt, erlaubt DRA, Hardware wie GPUs und Speicher für mehrere Container und Pods bereitzustellen, so dass diese genau auf die benötigten Ressourcen zurückgreifen können. Zwar haben die einzelnen Funktionen von DRA einen Beta- und teils noch einen Alpha-Status, seit September 2025 aber gehört DRA zu den für alle Nutzer standardmäßig aktivierten Features von Kubernetes.
Weniger weit, aber bereits in der Beta-Phase, befindet sich „Dranet“. Der auf DRA aufbauende und maßgeblich von Google entwickelte Netzwerktreiber soll gerade bei anspruchsvollen KI-Lasten eine optimierte Ressourcenverteilung und eine einfache Skalierung über das gesamte Cluster hinweg ermöglichen.
Durch die Erweiterung der Ressourcenabstraktion auf Netzwerkgeräte ermöglicht Dranet, Netzwerkfunktionen direkt über die Konfigurationen der Cluster und Pods im YAML-Format zu steuern. Angesichts der im September 2025 erschienen Version 0.7 ist Pathak mittlerweile von der breiten Einsatzbereitschaft des Tools überzeugt: „es ist Open Source, mit 50 Megabyte sehr leichtgewichtig, schnell, sicher und nun in der Beta“.
Neue Architekturen, nicht nur Erweiterungen
Eine dynamische Ressourcenverteilung in Kubernetes bringt ein Problem mit sich: Verteilt man ein Pod auf mehrere Maschinen, kann es dazu kommen, dass Chips nicht erst auf ihren eigenen lokalen Speicher, sondern auf den Speicher anderer Server zugreifen, was zu erheblichen Leistungseinbußen führt. „Dies ist besonders schmerzhaft bei Tranings-Workloads und latenzkritischer Inferenz, wo die Leistung allein durch eine schlechte Speicherverteilung einbricht“, erläutert Narang. Hier ist es entscheidend, Kubernetes ein Verständnis für die lokalen Nodes mit den konkreten Chips und dem dazugehörigen lokalen Speicher beizubringen, also für Non-Uniform Memory Access (NUMA).
Ein so genannter Topology Manager in Kubernetes kann mit den nötigen Informationen zwar genau das leisten. Das Procedere ist allerdings für CPUs und Speicher wesentlich ausgereifter als für den GPU-Einsatz im großen Stil, wie ihn LLMs fordern. Kubernetes war hier lange von den Informationen abhängig, die die Device Plugins der einzelnen Hersteller liefern.
Zusätzlich werden teils spezielle und in verschiedenem Ausmaß ausgereifte Erweiterungen benötigt, um eine passende topologische Verteilung der Workloads zu gewährleisten. Wo DRA einen großen Teil des Konfigurationsaufwandes abstrahiert, kann dieser bei der NUMA-Optimierung wieder einziehen.
„Kubernetes ist ein Biest“, zeigt sich Saiyam Pathak überzeugt. „Für CPU-Workloads funktioniert es perfekt, aber es war nie für den Maßstab gedacht, in dem es heute eingesetzt wird – für den Maßstab generativer KI. Das ist ein neues Niveau, und daher müssen sich die Architekturen ändern“.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Ein vielversprechender Schritt dahingehend ist für Pathak der von Nvidia entwickelte „KAI Scheduler“. Dieser berücksichtigt von vornherein die Topologie auch komplexer GPU-Cluster. Im Fall von Nvidia-GPUs ist insbesondere die eingebaute Differenzierung zwischen herkömmlichen PCIe-Anschlüssen und dem schnellen proprietären „NVLink“ entscheidend. KAI Scheduler wurde kürzlich auf Open Source umgestellt und soll im Verlauf von 2025 zudem Hersteller-neutral werden.
Große Modellentwickler bauen sich eigene Implementierungen
Dennoch bringt „Kubernetes seine eigenen Limitierungen mit sich“, gesteht Pathak. Etcd, die Key-Value-Datenbank von Kubernetes, wird durch Zehntausende startende und stoppende GPU-Aufgaben oft an ihre Grenzen gebracht und die vielen kleinen Schreibvorgänge können sich nachteilig auf der Latenz auswirken. Hinzu kommen nach Pathak Limiteriungen bei dem Netzwerk-System (CNI), das auf auf Microservices statt GPU-Cluster ausgelegt ist.
Die Herausforderung sei aber nicht unüberwindbar. Das zeige nicht nur OpenAI, das längst sehr weit über die 2021 erreichten 7.500 Nodes hinweggeschritten sei. Pathak illustriert: „Google hat auf 65.000 Nodes skalieren können und Amazon hat jüngst 100.000 Nodes erreicht.
Gewiss haben sie für einige Aufgaben ihre eigenen Implementierungen entwickelt“. Google etwa hat „etcd“ durch das proprietäre SQL-System „Spanner“ ausgetauscht. „Aber auch schon mit der „Google Kubernetes Engine“ kann man problemlos auf 6.500 Nodes skalieren und in diesem Rahmen GPUs effektiv nutzen.“
Baustellen: GPU-Auslastung und Caching
Ist Kubernetes für KI-Workloads also keine Baustelle mehr, sind wir bereits bei der Endeinrichtung? Fast, meint Pathak.
Großes Potenzial gäbe es noch für eine optimierte Zwischenspeicherung von Tokens (KV Caching) bei immer wieder aufkommenden Anfragen, insbesondere bei Inferenz auf Unternehmensebene. Hier bestünden noch große Ineffizienzen.
Gleiches gelte für bei parallelen Berechnungen oft nicht voll ausgelastete GPUs. Die beständige Hardware-Knappheit verschärfe das Problem. Hier habe die Inferenz-Engine „vLLM“ große Effizienzgewinne ermöglicht, das Projekt gehöre aber nicht ohne Grund auch weiterhin zu den größten Hype-Themen der Entwickler-Community.
Dieser „Hype-Zug” selbst schaffe zudem „viele neue Möglichkeiten für weitere Innovationen bestehender Technologien“. Wo vLLM nicht auf Cloud Native-Umgebungen ausgelegt sei und etwa fordere, jedes Modell in ein schwergewichtiges Pod zu packen, entstehe momentan mit „llm-d“ bei Red Hat eine von Beginn an für Kuberenetes entwickelte und vielversprechende Alternative.
Mehr Baustellen: Mandantenfähigkeit und Bare Metal
Eine mandantenfähige GPU-Architektur in Kubernetetes mit „vCluster“ und „vNode“ ohne Rückgriff auf VMs.
(Bild: vCluster Labs)
Viel zu tun gebe es auch bei der Mandantenfähigkeit und Bare-Metal-Orchestrierung, Pathak gibt sich aber mit Verweis auf die eigene Erfahrung optimistisch. Ein herkömmlicher Ansatz, für jedes Team eigene virtuelle Maschinen einzurichten, sei nicht im Sinne von Kubernetes. Erwartbar preist Pathak hier als Alternative „vCluster“; er ist Head of Developer Relations im Projekt von vCluster Labs.
Mit vCluster im Verbund mit „vNode“ könne man so einen großen GPU-Cluster mit gepoolten Ressourcen für verschiedene Nutzer einrichten, wobei jeder Nutzer seine separate, Kuberenetes-artige Kontrollebene erhalte und die auf den gleichen GPUs laufenden Workloads verschiedener Nutzer sicher getrennt blieben. Statt Virtualisierung werde Isolation dann mithilfe von Treibern und Firmware-Funktionen auf GPU-Ebene erreicht, was von Nvidia ab den „Nvidia H100“-GPUs unterstützt werde.
Das eigene Datacenter für die eigenen KI-Workloads nutzen
Dies sei auch ein Weg zu Skalierung auf Bare-Metal-GPUs ohne zusätzliche Virtualisierungsschichten. Bare Metal ist gerade in der Trainingsphase großer KI-Modelle bislang Standard. Flexible Scheduling- und Skalierungsmechanismen, wie sie etwa das AWS-Tool „Karpenter“ in der Cloud liefert, entfallen hier natürlicherweise.
Während vCluster für die nötige Isolierung ohne Abstraktionsschichten sorge, könnten Instrumente wie KAI Scheduler laut Pathak aber zunehmend souverän mit GPU-Topologien und Aufgabenprioritäten auf Bare Metal umgehen. Sicher bedeute eine Bare Metal-Grundlage weniger Flexibilität, der reduzierte Overhead mache das aber regulär wett.
Pathak gesteht hier mit Bereitschaft die voreingenommene Perspektive einer „Cloud Native-Person“ ein. Er plädiert aber mit Nachdruck dafür, „statt alles [nur] auf Bare Metal auszuführen, Kubernetes auf Bare Metal zu bringen“. So ließe sich ein großer und dennoch sicher zwischen verschiedenen Nutzern geteilter Cluster auf der im eigenen Rechenzentrum konkret vorhandenen Hardware organisieren.
„Die Tendenz dahingehend wird auch zunehmen, weil jeder seine Daten lokalisiert haben will, jeder über Datenschutz spricht und seine Daten nicht an die öffentlichen LLMs liefern will. Leute wenden sich so Open Source-Modellen zu und hosten sie im eigenen Datacenter auf ihren Bare Metal-Maschinen. Wir sehen diesen Anwendungsfall oft und ich denke, das eigene Datacenter für die eigenen KI-Workloads ist die Zukunft“.