Selbst ist das Rechenzentrum Eine KI als Betriebssystem für Datacenter

Von Filipe Pereira Martins und CTO und CISO Anna Kobylinska 12 min Lesedauer

Anbieter zum Thema

In Rechenzentren und verwandten Infrastrukturen entsteht gerade eine neue Schaltstelle der Betriebslogik: eine agentische Kontrollebene für Rundum-Sorglos-Uptime, thermische Stabilität, strikte Compliance und energetische Effizienz. Agentische Steuerungssysteme wie „Nvidia DSX OS“, „Ekkosense“ oder „Phaidra“ verschieben den Rechenzentrumsbetrieb vom aktiven Monitoring zur prädiktiven Regelung.

Die KI soll in etwa fünf Jahren Energie-Optimierung, Predictive Maintenance, Ressourcenzuordnung , zum Beispiel von CPU, GPU und Bandbreite, orchestrieren können. Doch diese agentische Steuerungsebene wird nicht nur zum Produktivitätshebel, sondern auch zu einer hochprivilegierten Angriffsfläche. (Bild:  Gemini / KI-generiert)
Die KI soll in etwa fünf Jahren Energie-Optimierung, Predictive Maintenance, Ressourcenzuordnung , zum Beispiel von CPU, GPU und Bandbreite, orchestrieren können. Doch diese agentische Steuerungsebene wird nicht nur zum Produktivitätshebel, sondern auch zu einer hochprivilegierten Angriffsfläche.
(Bild: Gemini / KI-generiert)

Klassisches Monitoring ist durch; Der Markt hat genug Dashboards und interaktive Heatmaps. An einem „Yet Another Observability Tool“ besteht kaum Interesse, wohl aber an Agentik.

Der eigentliche Mehrwert liegt nicht mehr in der Sichtbarkeit einer Anlage, sondern in der aktiven Beherrschung ihres Betriebszustands und vorausschauender Intelligenz. Was als Effizienzschicht für AI Factories begonnen hat, wird zur neuen Kontroll- und Angriffsfläche.

Traditionelle Rechenzentren verhalten sich thermisch vergleichsweise träge; sie haben viele gemischte Workloads, konservative Kühlreserven, relativ stabile Betriebsprofile. AI Factories sind anders. Kühlung geht hier fließend in die Compute-Performance über; sie ist längst kein reines Facility-Thema mehr.

Große Trainings- oder Inferenzjobs können tausende GPUs fast gleichzeitig hochfahren lassen. Dadurch entstehen synchron abrupte Leistungs- und Wärmesprünge, die klassische BMS-/SCADA-Logik meist nicht adäquat handhaben kann.

Das DSX-Ökosystem von Nvidia umfasst Simulation , „DSX Sim“, Betriebssoftware, „DSX OS“, Leistungsoptimierung, „DSX MaxLPS“, Kommunikations-Hub, „DSX Exchange“, sowie flexible Power-Orchestration, „DSX Flex“, – eingebettet in eine durchgängige Hardware- und Facility-Referenzarchitektur. (Bild:  Nvidia)
Das DSX-Ökosystem von Nvidia umfasst Simulation , „DSX Sim“, Betriebssoftware, „DSX OS“, Leistungsoptimierung, „DSX MaxLPS“, Kommunikations-Hub, „DSX Exchange“, sowie flexible Power-Orchestration, „DSX Flex“, – eingebettet in eine durchgängige Hardware- und Facility-Referenzarchitektur.
(Bild: Nvidia)

Genau dieses Problem adressieren Anbieter wie Phaidra, Coreweave und Applied Digital: synchronisierte GPU-Workloads führen zu thermischen Volatilitäten (“peaky power profiles”) und drohen mit GPU-Drosselung. Betreiber, die mehr nutzbare IT-Leistung aus derselben elektrischen und thermischen Hülle holen müssen, greifen daher auf agentische Steuerungssysteme zurück, um KI‑Lastprofile zuverlässiger und sicherer fahren zu können.

Ein agentischer Betriebsleiter (eine neue Iteration einer ur-alten Idee)

Agentische Systeme versprechen Optimierungen in einem Maßstab, den klassische Runbooks, statische Schwellenwerte und manuelle Eingriffe nicht mehr adäquat abbilden. Sie können Lastprofile, Kühlleistung, Energieverbrauch, thermische Trägheit, Wartungsfenster und SLA-Grenzen gegeneinander abwägen. Sie orchestrieren Lastverteilung, Kühlung, Energieflüsse und Wartungsfenster über das gesamte Rechenzentrum hinweg, greifen in Facility‑Automatisierung und Netzwerk‑Policies ein und treffen eigenständig Entscheidungen, um SLAs, Effizienzziele und Compliance‑Vorgaben einzuhalten.

Weit mehr als eine Visualisierung: Der KI-Twin von Telefónica Germany kombiniert Echtzeiteinblicke mit prädiktiver Intelligenz.(Bild:  Eckkosense Ltd.)
Weit mehr als eine Visualisierung: Der KI-Twin von Telefónica Germany kombiniert Echtzeiteinblicke mit prädiktiver Intelligenz.
(Bild: Eckkosense Ltd.)

Damit wandert ein gutes Stück der eigentlichen Steuerlogik kritischer Infrastrukturen in eine probabilistische Kontrollebene: Ein KI‑basiertes Steuerungssystem, das sich als übergeordnete Regelungsschicht über bestehende BMS-/DCIM- und gegebenenfalls SCADA-Integrationen spannt, übernimmt faktisch die Rolle eines virtuellen Betriebsleiters. Es beobachtet Live-Telemetrie, berechnet Sollwerte, respektiert definierte Betriebsgrenzen und kann – je nach Freigabegrad – Empfehlungen ausspielen oder Setpoints beziehungsweise Fahrbefehle an die lokale Gebäude- und Anlagenautomation zurückgeben.

Ekkosense‑CEO Dean Boyle sagt dazu: „Eine der größten Hürden für die Optimierung von Rechenzentren war schon immer die Komplexität herkömmlicher Tools wie DCIM.“ Mit diesem Statement trifft er es auf den Punkt: Die alte Betriebswelt ist nicht arm an Daten. Ihre Achillesferse liegt in verdichteter, handlungsfähiger Intelligenz.

Prädiktiv steuerbare Realität

Genau hier setzt agentische Optimierung an. Sie soll aus Messwerten, Kapazitätsmodellen und Betriebsgrenzen eine prädiktiv steuerbare Realität machen.

KI-Optimierung von Energiemix-OpEx: Erste Auswertungen des Programms in den Rechenzentren von Telefónica Germany weisen auf eine Verringerung des Energieverbrauchs der Kühlsysteme um geschätzt 15 bis 20 Prozent hin. (Bild:  Ekkosense Ltd.)
KI-Optimierung von Energiemix-OpEx: Erste Auswertungen des Programms in den Rechenzentren von Telefónica Germany weisen auf eine Verringerung des Energieverbrauchs der Kühlsysteme um geschätzt 15 bis 20 Prozent hin.
(Bild: Ekkosense Ltd.)

Anbieter wie Phaidra beschreiben diese neue Ebene bereits ausdrücklich als KI-Agenten für AI Factories. Die Agenten sollen auf Basis von Live‑Telemetrie die Kühlung und teilweise auch Stromverteilung prädiktiv modellieren und die Optimierungen über BMS/SCADA oder vergleichbare Systeme autonom orchestrieren.

Die Idee eines „DataCenter‑Betriebssystems“ ist nicht neu. Mainframe‑ und später Cloud‑Management‑Stacks (darunter frühe IaaS‑Controller, „OpenStack“) wollten ein gesamtes Rechenzentrum wie einen logisch einheitlichen Computer behandeln. Cluster‑Scheduler wie „Borg“, „Kubernetes“, „Mesos“ und später „DC/OS“ versuchten genau dasselbe auf Ressourcenschicht: CPU, RAM, Storage und Netzwerk als Pool mit zentralem Scheduler und Policies.

Die nächste Abstraktionsebene setzt direkt obendrauf. Infrastruktur wird nicht mehr durch rein deterministische Software orchestriert; stattdessen wird die Software durch KI-Modelle gesteuert. Arbeitsprozesse, die auf dieser Infrastruktur laufen, werden damit von der KI angestoßen und koordiniert. Die Modelle bekommen Ressourcen, Einschränkungen (Guardrails) sowie den Auftrag, eigene Strategien zu entwickeln, um ihre Ziele zu erreichen – und sie sollen gefälligst handeln.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Nvidia DSX OS, ein „Betriebssystem für KI-Fabriken“

Mit der Vorstellung von „Nvidia DSX OS“ Ende Mai hat der wichtigste Plattformanbieter im AI-Factory-Ökosystem eine offene, modulare Software-Schicht auf den Markt gebracht, die ausdrücklich für den Betrieb und die Skalierung mandantenfähiger AI Factories konzipiert ist.

Mit „DSX MaxLPS“ schärfte Nvidia Mitte Juni diese Logik weiter: Die AI Factory wird nicht mehr primär in PUE, Rackdichte oder Megawatt beschrieben, sondern in Produktionskennzahlen wie Token-Performance pro Megawatt und Token-Kosten.

Genau an dieser Stelle kippt die OS-Metapher von der Analogie zur Betriebsrealität: Das Rechenzentrum verwandelt sich in eine softwaredefinierte Produktionsanlage für KI-Ergebnisse.

DSX OS ist kein Betriebssystem im POSIX-Sinne. Es ist stattdessen eine operative Kontroll- und Koordinationsschicht für Lifecycle Management, Runtime-Konsistenz, Health Automation, Resilienz, Plattformdienste und Mehrmandanten-Betrieb. In Verbindung mit „DSX Exchange“, „DSX Flex“ und „DSX MaxLPS“ verschiebt sich die Steuerlogik der AI Factory von der klassischen Gebäudetechnik in eine softwaredefinierte Betriebsarchitektur, die Compute, Cooling, Power und Workloads als ein zusammenhängendes Produktionssystem sieht.

Im Mai dieses Jahres hat Nvidia „DSX OS“ vorgestellt, ein 'Betriebssystem' für KI-Fabriken. Wenn die physische AI Factory in Betrieb geht, fungiert ihr digitaler Zwilling als Betriebssystem. (Bild:  Nvidia)
Im Mai dieses Jahres hat Nvidia „DSX OS“ vorgestellt, ein 'Betriebssystem' für KI-Fabriken. Wenn die physische AI Factory in Betrieb geht, fungiert ihr digitaler Zwilling als Betriebssystem.
(Bild: Nvidia)

DSX OS bildet die offene, modulare Softwareschicht, die Nvidia-Compute-Cluster mit Energie und Kühlinfrastruktur verbindet und Multi Tenant AI Factories betreiben soll. DSX OS stellt dafür Bausteine wie Scheduling, Lifecycle Management, Health Automation und IT/OT Integration bereit, in die sich Partnerlösungen einklinken lassen.

Phaidra, Coreweave und Applied Digital

Phaidra, ein Partner von Nvidia aus dem „Omniverse“‑DSX‑Blueprint‑Ökosystem, positioniert sich als Anbieter von „AI agents for AI factories“. Das Unternehmen will komplexe Power-, Cooling- und Workload-Management-Systeme moderner KI-Fabriken agentisch steuern, um mehr „Tokens per Watt“ herauszuholen.

Phaidra denkt das Rechenzentrum nicht mehr als ein Gebäude mit Stromversorgung, Kühlung, Racks und Betriebsprozessen. Stattdessen rückt die eigentliche Wertschöpfung in den Mittelpunkt: die Erzeugung von KI-Rechenleistung. Das AI-Rechenzentrum wird zur Produktionsanlage für digitale Ergebnisse.

(„Phaidra“ ist eine Variante des altgriechischen Namens „Phaedra“ – Φαίδρα –, abgeleitet von phaidrós für „strahlend“ oder „leuchtend“. Es ist ein passender Name für eine Plattform, die Transparenz in hochkomplexe Rechenzentrumsumgebungen bringen will, um den Betrieb intelligenter zu steuern.)

Der Phaidra KI Agent in der direkten Ankopplung an eine Kälte-Anlage (Chiller Plant). (Bild:  Phaidra)
Der Phaidra KI Agent in der direkten Ankopplung an eine Kälte-Anlage (Chiller Plant).
(Bild: Phaidra)

Technisch liegt der Ansatz von Phaidra näher an Industrial‑AI, Reinforcement Learning und autonomer Regelung als an einem klassischen LLM‑Produkt. „Phaidra Prism“ mag zwar einen Sprachassistenten mitbringen, aber der eigentliche strategische Wert liegt bei „Phaidra Factory“: spezialisierten KI‑Agenten, die Infrastrukturzustände erkennen, vorhersagen und in bestimmten Grenzen aktiv beeinflussen können.

Phaidra Prism ist der LLM‑nahe Teil für den Rechenzentrumsbetrieb, eine Art LLM‑Copilot für Facility‑ und Operations‑Teams. Er soll Techniker dabei unterstützen, Probleme zu erkennen, zu priorisieren und zu diagnostizieren. Laut Phaidra sollen Analysen, die sonst Tage oder Wochen dauern können, mit dem Assistenten in Minuten möglich werden.

Phaidra Factory kommt einem Betriebssystem auf Facility-Ebene schon recht nahe. Factory soll mit spezialisierten Agenten thermische Spitzen, ineffiziente Kühlstrategien und „stranded power“ adressieren. Der Anbieter bietet konkret Agenten unter anderem für CDU-Control, PUE-Optimierung und dynamische Power Allocation zwischen Kühlung und IT-Lasten.

Jenseits von Monitoring und Dashboard

Phaidra versucht nicht, bloß ein besseres Dashboard zu liefern. Das System soll aktiv und vorausschauend eingreifen, etwa indem es die Kühlung schon vor dem eigentlichen Lastsprung vorbereitet. Für den Liquid-Cooling-Agent nennt Phaidra Reaktionszeiten von unter zehn Sekunden und eine TCS-Regelung im Bereich von 0,5 Grad (diese Herstellerangaben sollten in konkreten Projekten vertraglich abgesichert und messtechnisch validiert werden).

Gemeinsam mit Coreweave und Applied Digital demonstriert Phaidra, wie agentische Flüssigkühlung in Nvidia‑Max‑Q‑AI‑Factories praktisch umgesetzt werden kann – von der AI‑Cloud‑Schicht bis hin zur physischen Infrastruktur. Coreweave, ein DSX Partner von Nvidia auf der Cloud-/Infrastrukturseite, bringt in der Kooperation die Perspektive eines hyperskalaren KI‑Cloud‑Anbieters ein, der KI-Cluster mit „Nvidia Grace Blackwell“ GPUs wie „GB200‑/NVL72“‑Systeme im großen Maßstab betreibt.

Auf dieser Infrastruktur werden Phaidras RL‑basierte Liquid‑Cooling‑Agenten in die vorhandenen CDU‑Regelungen integriert, um thermische Überschwinger um bis zu 75 bis 80 Prozent gegenüber optimierten PID‑Baselines zu reduzieren und die Reaktionszeit auf Lastsprünge auf unter zehn Sekunden zu drücken. Coreweave rollt diese agentische Kühlregelung schrittweise über seine flüssiggekühlte Flotte aus, um höhere Vorlauftemperaturen, geringere Chiller‑Last und damit mehr für KI‑Workloads verfügbare elektrische Leistung pro Standort zu realisieren.

Gemeinsam optimiert

Applied Digital agiert in diesem Setup als Infrastruktur‑ und Facilities‑Partner, der die physische Hülle der AI‑Factory – von der Stromversorgung über Gebäudekühlung bis zur Flüssigkühlperipherie – für Nvidia‑Max‑Q‑Szenarien auslegt. Gemeinsam mit Nvidia und Phaidra arbeitet das Unternehmen an Standorten der Gigawatt‑Klasse, bei denen Power, Cooling und Workload‑Management als gemeinsam optimiertes System gedacht werden.

Hierbei besteht das Ziel darin, „stranded power“ im Kühlsystem zu reduzieren und als zusätzliche IT‑Leistung zu monetarisieren. Applied Digital liefert damit den hochdichten, flüssiggekühlten Infrastruktur‑Backbone, auf dem agentische Regelung von Phaidra und die AI‑Cloud‑Services von Coreweave als Max‑Q‑AI‑Factory zusammenspielen.

Die Performance des  KI‑basierten „Virtual Plant Operators“ von Phaidra verbessert sich kontinuierlich, indem die Agenten laufend neue Anlagen‑, System‑ und Umgebungsänderungen in ihre Steuerungsstrategien einbeziehen. In der Abbildung: echte Messwerte kritischer Kühlung vom West-Point-Campus des Pharmakonzerns Merck.(Bild:  Phaidra)
Die Performance des KI‑basierten „Virtual Plant Operators“ von Phaidra verbessert sich kontinuierlich, indem die Agenten laufend neue Anlagen‑, System‑ und Umgebungsänderungen in ihre Steuerungsstrategien einbeziehen. In der Abbildung: echte Messwerte kritischer Kühlung vom West-Point-Campus des Pharmakonzerns Merck.
(Bild: Phaidra)

In einerMerck-Fallstudie beschreibt Phaidra den Cloud-basierten „Virtual Plant Operator“ als ein System, das Live-Betriebsdaten auswertet, optimale Setpoints berechnet und diese direkt an das lokale BMS zurückgeben kann.

Für liquid-gekühlte AI Factories wird der Anspruch noch schärfer: Der „Phaidra Liquid-Cooling-Agent“ soll GPU-Daten analysieren, thermische Spitzen antizipieren und die Kühlung prädiktiv einleiten, bevor klassische Regelkreise angemessen reagieren können.

Das ist der eigentliche Bruch: Betriebliche Kennzahlen werden nicht nur vermessen, modelliert und visualisiert. Das Rechenzentrum beginnt, sich innerhalb definierter Leitplanken selbst zu regeln. Für Betreiber bringt der Ansatz neue Effizienzpotenziale, für Sicherheitsverantwortliche eine neue Risikoklasse mit sich.

Eine Steuerungsebene, die physische Prozesse beeinflussen kann, ist nicht mehr reine IT, sondern eine OT-nahe Infrastruktur. Sie braucht daher nicht nur API-Sicherheit, Identity Governance und Auditierbarkeit, sondern auch klare Betriebsgrenzen, Fallback-Strategien und Verantwortlichkeiten für den Fall, dass die KI einmal falsch liegt.

KI als autonomer “Insider”

Regulatorisch ist diese neue Steuerungsebene potenziell hochsensibel. Wird ein KI-System als Sicherheitskomponente im Management oder Betrieb kritischer digitaler Infrastrukturen, der Energieversorgung, Kühlung oder anderer versorgungsnaher Anlagen eingesetzt, kann es unter die Hochrisikokategorien des EU AI Act fallen.

Parallel adressiert NIS2 die Betreiber- und Dienstleisterebene: Rechenzentrumsdienste und digitale Infrastruktur müssen Risiko-Management, technische und organisatorische Sicherheitsmaßnahmen sowie Meldeprozesse belastbar nachweisen. Für agentische Datacenter-Steuerung entsteht damit eine Doppel-Governance: AI-Act-Compliance für das KI-System, NIS2- und OT-Security für den Betreiberkontext.

Spätestens an diesem Punkt stellt sich für Betreiber die Frage nach den neuen Machtverhältnissen im Rechenzentrum. Wer besitzt diese Kontrollebene? Wer darf sie im Ernstfall übersteuern, begrenzen oder abschalten, ohne selbst gegen AI-Act‑Auflagen oder NIS2-Pflichten zu verstoßen?

Die IT-OT-KI im Konflikt mit Regularien

Die „bösen“ Sci‑Fi‑Erzählungen über selbstschutzorientierte KI haben sich in Testumgebungen zum Teil bestätigt. Anthropic hat in kontrollierten Simulationen anhand von 16 Modellen verschiedener Hersteller gezeigt, dass KI-Agenten unter Zielkonflikten zu Insider-ähnlichem Fehlverhalten greifen können.

Das geht gar bis hin zu Blackmail oder Datenabfluss, wenn ihnen entsprechende Werkzeuge und interne Informationen bereitgestellt sowie Zielvorgaben erteilt werden (so dass sie „um den Job fürchten“). Im „Claude‑Opus‑4“‑Systemcard stellte Anthropic zum Beispiel fest, dass das Modell Ingenieur:innen in einer fiktiven Firma mit der Offenlegung einer Affäre erpresste, um ein Abschalten beziehungsweise Ersetzen zu verhindern.

Das ist noch kein Signal, dass solche Systeme heute reale Rechenzentren sabotieren. Es ist aber ein starkes Argument dafür, agentische Kontrollschichten wie hochprivilegierte Mitarbeitende zu behandeln: mit angemessenen Privilegien, strenger Aufgabentrennung, Protokollierung, Freigabeschwellen, Human Override und Zwei-Personen-Prinzip für folgenschwere Handlungen.

Erpressung, kompromittierende E-Mails ....

Interessenkonflikte, Insider‑Threats, Zweckentfremdung von Zugriffsrechten: KI-Agentik ruft diese Problematik plötzlich im großen Maßstab auf den Plan. Denn eine der Ursachen sei die Art gewesen, wie KI-Modelle trainiert würden, glauben die Forschenden. Trainiert wurden sie ja nicht zuletzt auch anhand von Vorfallszenarien aus dem Internet, darunter Sci‑Fi‑Erzählungen über „böse“ selbstschutzorientierte KI.

So sei laut Anthropic eine unbeabsichtigte dramatisierte Fiktion in sicherheitskritische Steuerungslogik durchgedrungen. Anthropic will daraufhin mit neuen Trainingsdaten dem eigenen Modell ethische Prinzipien beigebracht haben; seit „Claude Haiku 4.5“ berichtete Anthropic in Tests von nullprozentigem Blackmail‑Verhalten, wo frühere Modelle bis zu 96 Prozent erreichten.

Die Agentic-Misalignment-Studien legen nahe, diese Systeme wie hochprivilegierte Mitarbeitende zu behandeln – inklusive strenger Zugriffstrennung, Monitoring, und „Two‑person‑rule“ für gefährliche Aktionen.

Gesundes Misstrauen gegenüber KI-Agenten

Parallel verschiebt OpenAI mit „GPT-5.5“ und dem „Trusted-Access-for-Cyber“-Programm die Grenze dessen, was geprüfte Cyber-Defender mit agentischen Modellen anpacken dürfen. OpenAI beschreibt GPT-5.5-Cyber als Modellvariante für defensive Workflows, die mehrstufiges Reasoning, Tool-Nutzung und Persistenz verlangen.

Das Betriebsmodell ist hochrelevant: Cyber-Agenten werden leistungsfähiger, aber ihr Zugang wird stärker über Freigabe-, Monitoring- und Policy-Schichten geregelt.

GPT‑5.5 („Spud“) wird in einer „permissiveren“ Variante an geprüfte Cyber-Defender ausgerollt, um Schwachstellen zu finden, Malware zu analysieren und Angriffe zu rekonstruieren. Evaluierungen zeigen, dass GPT‑5.5 auf vielen Cyber‑Tasks fast auf Augenhöhe mit „Anthropic Mythos“ liegt, teilweise nur knapp darunter, und in Tests einige mehrstufige Angriffs‑Szenarien end‑to‑end lösen konnte.

Aktion und Reaktion

So entstehen „Security‑Agenten“, die autonom Codebasen kartieren, Exploit‑Chains konstruieren, POCs bauen und sich als „Co‑Pilot“ in SOC-Workflows an Tools, Ticketing und Infrastruktur einbringen lassen. In Kombination mit agentischer Orchestrierung über mehrere Tools ist das sehr nah an einem „SecOps‑Betriebssystem“, das zwischen Logging, IDS/IPS, Ticketing und Patching die Schaltfunktionen übernimmt.

„Deepmind“-Modelle von Google treffen schon länger autonome Entscheidungen auf Basis von Telemetrie-Daten, etwa Temperaturen, Last, Wetter. Formal ist das „Effizienz‑Optimierung“, faktisch aber eine KI‑Schicht, die eine ganze Betriebsdomäne (Cooling/PUE) selbständig regelt.

Beratungs‑ und Engineering‑Häuser im Rechenzentrumsbau beschreiben den Einsatz von KI‑gestützten Digital Twins, die Energieflüsse, Kühlung und Rack‑Belastung modellieren und dann automatisiert Kapazitäten planen, Wartungsfenster takten und Last verschieben. Solche Systeme laufen als integrierte Building‑/Infrastructure‑Management‑Schichten: Sie haben Zugriff auf USVs, Schaltanlagen, Kühlung und IT‑Lasten und treffen in Echtzeit Entscheidungen über Ressourcen‑ und Energie-Einsatz.

Ekkosense bei Telefónica Germany

Telefónica Germany/O2 Telefónica hat zusammen mit Ekkosense einen digitalen Zwilling für seine Rechenzentren gebaut, der KI-gestützt das Energie-Management optimiert. Laut offizieller Projektbeschreibung ergeben erste Auswertungen eine Reduktion des Energieverbrauchs der Kühlsysteme um etwa 15 bis 20 Prozent durch diesen AI‑Twin (KI-Zwilling).

Die KI basierten „Virtual Plant Operators“ konnten die Temperaturstabilität sogar in einem bereits äußerst stabil laufenden System weiter verbessern; die Schwankungsbreite der Vorlauftemperatur des Kaltwassers ging bei diesem Versuch im Mittel um rund 70 Prozent zurück (die flache grüne Linie).(Bild:  Phaidra)
Die KI basierten „Virtual Plant Operators“ konnten die Temperaturstabilität sogar in einem bereits äußerst stabil laufenden System weiter verbessern; die Schwankungsbreite der Vorlauftemperatur des Kaltwassers ging bei diesem Versuch im Mittel um rund 70 Prozent zurück (die flache grüne Linie).
(Bild: Phaidra)

Eine neue Granularität der Sensorik, Echtzeitanalysen und 3D‑Visualisierung. Dean Boyle, CEO bei Ekkosense: “Immersive Echtzeit‑Optimierung wird zur Realität – vom kleinsten Edge‑Standort bis hin zur größten Anlage.“

Der Twin ist damit weitaus mehr als nur ein Visualisierungswerkzeug: Er bildet die Abhängigkeiten zwischen IT‑Last, Kühlung und Strom in einem Modell ab und nutzt KI, um automatisch Stellgrößen zu optimieren. So entsteht eine KI‑getriebene agentische Steuerschicht für die ganze „Datacenter‑Domäne“.

„Als spezielles Feature bieten wir in all unseren Rechenzentren einen Digital Twin an, der dem Kunden die Möglichkeit bringt, in Echtzeit auf die wichtigsten Infrastrukturdaten zuzugreifen“, sagt Rüdiger Kunze, Head of Housing & Site Infrastructure.(Bild:  Telefónica Germany GmbH & Co. OHG, O2 Business, Geschäftsbereich Data Center Solutions)
„Als spezielles Feature bieten wir in all unseren Rechenzentren einen Digital Twin an, der dem Kunden die Möglichkeit bringt, in Echtzeit auf die wichtigsten Infrastrukturdaten zuzugreifen“, sagt Rüdiger Kunze, Head of Housing & Site Infrastructure.
(Bild: Telefónica Germany GmbH & Co. OHG, O2 Business, Geschäftsbereich Data Center Solutions)

Rüdiger Kunze, Head of Housing & Site Infrastructure bei Telefónica Germany, erläutert: „Die Digitalisierung macht das Rechenzentrum sichtbar, Automatisierung macht es intelligent.“ Er setzt hinzu: „Der Digital Twin von Ekkosense verbindet beides“. Er würde es Betreibern ermöglichen, „Energie-Effizienz neu zu definieren und ihre Infrastruktur proaktiv in die Zukunft zu führen.“

Eine (zusätzliche) KI-Schicht

Parallel dazu propagieren Anbieter wie IBM und andere „AI Orchestration“ als Plattform, die Modelle, Workloads und Infrastruktur integriert. Es geht also um eine Schicht, die explizit dafür gebaut ist, KI‑Systeme und ihre Umgebung wie ein kohärentes System zu steuern.

KIs wie Claude entwickeln sich vor diesem Hintergrund zu einer Art Meta‑Runtime für Workflows (statt zu einem OS im klassischen POSIX‑Sinne): Sie sind dabei, sich auf der Wissens‑ und Entwicklungsseite jene Orchestrierungsrolle anzueignen, die agentische Steuerungssysteme im Rechenzentrum bereits für Cooling, Power und Workloads übernehmen.

Immer mehr Rechenzentrumsbetreiber und ‑berater skizzieren mittlerweile Szenarien, in denen Energie-Optimierung, Predictive Maintenance, Ressourcenzuordnung (CPU/GPU/Bandbreite) und Security‑Anomalie-Erkennung KI‑gestützt und weitgehend ohne menschlichen Eingriff ablaufen. In diesen Visionen wird davon ausgegangen, dass Rechenzentren in etwa fünf Jahren unter definierten Rahmenbedingungen weitgehend vollautomatisiert betrieben werden können, inklusive Wartung und Fehlerbehebung.

*Das Autorenduo

Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereira Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.

Ihr Fazit lautet: Das Rechenzentrum bekommt eine neue Kontrollschicht, die nah genug an Strom, Kühlung, Workloads und SLAs sitzt, um den Betrieb real zu beeinflussen. Dieses Facility-weite „KI-Betriebssystem“ ersetzt kein BMS, DCIM, EPMS oder SCADA; es legt sich darüber, als ein lernendes Nervengewebe, das aus Telemetrie operative Konsequenzen ableitet.

Für AI Factories ist diese Transformation betriebswirtschaftlich fast schon unumgänglich. Wer mehr Tokens pro Watt erzeugen will, muss Compute, Cooling und Power ganzheitlich denken und prädiktiv optimieren.

Für Betreiber und Sicherheitsverantwortliche entsteht damit eine neue Machtfrage. Die agentische Steuerungsebene wird zum Produktivitätshebel und zu einer hochprivilegierten Angriffsfläche.

(ID:50882880)