Zentralisierte Energieräume für die Ära der 600-kW-Racks Kühl- und Stromversorgungskonzepte für Datacenter gehören in die Revision

Von Tom Ryan* 8 min Lesedauer

Anbieter zum Thema

Herkömmlichen Ansätze für die Kühlung und die Stromversorgung von Rechenzentren verbrauchen übermäßig viel Platz, Energie sowie Kapital und haben gleichzeitig Schwierigkeiten, die Nachhaltigkeitsanforderungen in Bezug auf einen geringeren Wasserverbrauch, niedrige Emissionen und höhere Ausfallsicherheit zu erfüllen. Das heißt: Die Kühlung aber auch die Ausfallsicherheit und die Stromversorgung gehören überdacht.

Bisherige Datacenter-Versorgungs- und Kühlungsverfahren stecken fest, so Tom Ryan. Er stellt ein Papier zur Verfügung, das einen Ausweg weist. (Bild: ©  Adisorn - stock.adobe.com / KI-generiert)
Bisherige Datacenter-Versorgungs- und Kühlungsverfahren stecken fest, so Tom Ryan. Er stellt ein Papier zur Verfügung, das einen Ausweg weist.
(Bild: © Adisorn - stock.adobe.com / KI-generiert)

Die Rechenzentrumsbranche befindet sich in einem tiefgreifenden Wandel, der durch die exponentiellen Anforderungen von Künstlicher Intelligenz, Hochleistungsrechnern und Maschinellem Lernen angetrieben wird. Herkömmliche Rechenzentren, die für eine Rack-Leistungsdichte von 5 bis 15 Kilowatt optimiert sind, sind für die heutigen 80 bis 136-Kilowatt-Racks schlecht gerüstet, ganz zu schweigen für die von den prognostizierten 600-Kilowatt-Dichten, die bis 2027/28 in den Roadmaps von Unternehmen wie Nvidia vorgesehen sind. Denn dieser Anstieg der Leistungsdichte zeigt die Grenzen konventioneller Kühlungs- und Stromversorgungsarchitekturen auf, die auf dezentralen luftbasierten Systemen und Stromerzeugungsanlagen pro Pod basieren.

Ich schlage einen Paradigmenwechsel hin zu zentralisierten "Energie-Hubs" vor - konsolidierte Knotenpunkte für Kühlung, Wärme-Abfuhr und Stromversorgungsinfrastruktur. Durch eine Integration von Warmwasser-Flüssigkeitskühlung mit gemeinsamen redundanten Systemen für Pumpen, Kältemaschinen, Trockenkühlern und Notstromversorgung, einschließlich Generatoren oder Batteriespeichersystemen, können Datacenter-Betreiber Folgendes erreichen:

  • skalierbare Unterstützung für Rack-Dichten von 80 bis 600 Kilowatt ohne Leistungseinbußen bei gleichzeitiger Nutzung von faktenbasierten Ausfallstatistiken zur Optimierung der Redundanz und zur Reduzierung von Over-Engineering
  • maximierte Möglichkeiten der Freien Kühlung, selbst in schwierigen Klimazonen, durch erhöhte Wassertemperatur und hybride Ausleitungsverfahren
  • erhebliche Verringerung des Kapitalaufwands (CapEx) und der Betriebskosten (OpEx) im Vergleich zu fragmentierten, auf Pods basierenden Designs.
  • Einhaltung der Uptime Institute Tier III/IV-Standards bei gleichzeitiger Anpassung an standortspezifische Service Level Objectives (SLOs) für die Betriebszeit durch datengesteuerte Risikobewertungen.
  • Verbesserte Nachhaltigkeitsmetriken, einschließlich Stromverbrauch, Effektivität des Wasserverbrauchs (WUE), Effektivität des Kohlenstoffverbrauchs (CUE) und Effektivität des aufkommenden Wärmeverbrauchs (TUE).

Die Evolution

Die Entwicklung der Energieversorgung von Rechenzentren spiegelt die allgemeine Entwicklung der Anforderungen an die Datenverarbeitung wider. In den frühen 2000er Jahren wurden Unternehmens- und frühe Cloud-Einrichtungen in der Regel mit 2 bis 6 kW/Rack betrieben, wobei zur Kühlung perimetergenaue Computerraumklimageräte (Computer Room Air Conditioning - CRAC) oder Computerraumlüftungsgeräte (Computer Room Air Handling - CRAH) verwendet wurden. Diese luftzentrierten Systeme reichten für den damals im Vergleich zu heute spärlichen Einsatz von Servern aus, erwiesen sich aber für die Skalierung ineffektiv.

In den 2010er Jahren wurden in den Hyperscale-Betrieben wie bei Google, Amazon und Microsoft 10 bis 30 Kilowatt pro Rack durch Innovationen wie Warm- und Kaltgangeinhausung sowie durch die Optimierung des Luftstroms im Doppelboden geradezu normal. Dieser Zeitraum markiert zugleich eine Verlagerung in Richtung Effizienz - die PUE-Werte sanken in optimierten Einrichtungen unter 1,5.

Die wachsende Lesitungsfähigkeit der IT-Komponenten, die zunehmende Dichte im Rack, lässt die Nachfrage nach Energie im Rack derzeit extrem ansteigen. (Bild:  Tom Ryan, September 2025)
Die wachsende Lesitungsfähigkeit der IT-Komponenten, die zunehmende Dichte im Rack, lässt die Nachfrage nach Energie im Rack derzeit extrem ansteigen.
(Bild: Tom Ryan, September 2025)

Mit dem Aufkommen von KI und und mehr HPC haben sich die Leistungsdichten drastisch erhöht. Moderne GPU-Cluster wie die auf „Nvidia DGX H100“ beruhenden Systemen übersteigen in dichten Konfigurationen routinemäßig 80 Kilowatt pro Rack, einige erreichen sogar 136 Kilowatt. Mit Blick auf die Zukunft werden rackscale-Integrationen wie die mit Nvidia „GB200 NVL72“-Plattformen mit 132 Kilowatt nominal bewertet, wobei Roadmaps bis 2027/2028 rund 300 bis 600 Kilowatt prognostizieren.

Die Herausforderung

Der Kern dieser Herausforderung ist die inhärente Ineffizienz des luftgekühlten Mediums. Die geringe Wärmeleitfähigkeit von Luft (circa 0,025 Watt pro Kubikmeter Kelvin - W/m3 K) und ihre volumetrische Kapazität (circa 1,5 Kilojoule/m3 K) begrenzen ihre Fähigkeit, Wärme ohne exorbitante Lüfterleistung und komplexes Luftstrom-Management auf über 30 bis 50 Kilowatt pro Rack zu bringen. Mit zunehmender Dichte führen Luftsysteme zu einem nichtlinearen Anstieg des Energieverbrauchs, der Geräuschentwicklung und der Komplexität der Wartung.

Platzmangel verschärft das Problem noch: Dezentrale Kältemaschinenanlagen und Generatorfarmen pro Hub dominieren die Flächennutzung und kollidieren mit dem städtebaulichen Druck und den Bebauungsbeschränkungen. Im Gegensatz dazu ist die volumetrische Wärmekapazität von Wasser etwa 3.500 Mal größer als die von Luft (4.200 kj/m3 K), was eine kompakte und effiziente Wärme-Übertragung ermöglicht.

Flüssigkühlung ist nicht vorzuziehen. Sie ist für zukünftige Dichten unvermeidlich.

Außerdem stehen Backup-Stromversorgungssysteme vor ähnlichen Skalierungsproblemen. Herkömmliche Dieselgeneratoren, die pro Pod eingesetzt werden, führen zu einer redundanten Infrastruktur, höheren Emissionen und einem größeren Bedarf an Kraftstofflagern. Die Zentralisierung schafft hier Abhilfe, indem sie die Ressourcen in effiziente Gemeinschaftsanlagen packt.

Die Tier Certification of Design Documents (TCDD) des Uptime Institute bietet einen grundlegenden Rahmen für die Ausfallsicherheit von Rechenzentren. Stufe drei erfordert gleichzeitige Wartbarkeit mit N+1-Redundanz in kritischen Systemen, die eine Wartung ohne Ausfallzeiten ermöglicht. Tier IV verlangt Toleranz über völlig unabhängige 2N aktive Pfade, die den Betrieb über einzelne Fehler hinweg sicherstellen.

Aus den Daten zur Betriebszeit geht hervor, dass 66 bis 80 Prozent der Systemausfälle auf menschliches Versagen und nicht auf Geräte-Ausfälle zurückzuführen sind. Bei der Planung muss die Wartungsfreundlichkeit im Vordergrund stehen, einschließlich sicherer Isolationszonen, standardisierter Verfahren (MOPs) und den Betriebsabläufen vor Ort (SOPs). Zentralisierte Systeme vereinfachen dies, indem sie die Anzahl der verteilten Komponenten reduzieren und fehleranfällige Eingriffe minimieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Anpassung der Normen an Flüssigkeitskühlung und zentrale Stromversorgung

Die ursprünglich auf Luft fokussierten Uptime-Tiers müssen für DLC (Direct Liquid Cooling)neu interpretiert werden. Zu den wichtigsten Überlegungen gehören redundante Kühlverteilungseinheiten (CDUs), Leckage-Erkennung und Flüssigkeits-Management zur Vermeidung von Korrosion. Bei der Energieversorgung erfordert die Entwicklung von Generator-zentrierten Aktualisierungen, inklusive Battery Energy Storage System-Modellen (BESS), um die netzinteraktive Ausfallsicherheit widerzuspiegeln, ohne die Erfüllung der Ebenen zu beeinträchtigen.

Die Topologie-Ebene des Uptime-Institute ist von vornherein konservativ, aber faktenbasierte Statistiken über Ausfallraten bieten einen Weg zur Optimierung. Empirische Daten zeigen, dass rund 70 Prozent der Ausfälle auf Betriebsfehler und nicht auf Hardware zurückzuführen sind. Moderne Komponenten wie DLC-Pumpen weisen eine hohe Betriebsdauer zwischen zwei Ausfällen (MTBF) auf, die nach Industrienormen oft über 100.000 Stunden liegt.

Durch die Umstellung auf probabilistische Risikomodellierung, beispielsweise Monte-Carlo-Simulationen und Fehlermöglichkeits- und -einflussanalysen (FMEA), können Betreiber akzeptable Risiken in Verbindung mit SLOs bewerten , zum Beispiel 99,99 Prozent Betriebszeit mit einer jährlichen Ausfallzeit von etwa 52 Minuten für nicht kritische Arbeitslasten. Dies ermöglicht schlankere Entwürfe, wie N+1-Redundanz, wo 2N ein Overkill ist, ohne die Tier-Prinzipien zu verletzen.

Die Risikobewertung

Um die Risiken zu bewerten, sollten Datacenter-Provider Telemetriedaten zu Komponenten sammeln, Ausfälle und Kaskaden ohne Fehlerbaumanalyse (FTA) modellieren und eine Kosten-Nutzen-Analyse durchführen, bei der die Kosten für Ausfallzeiten, etwa 10.000 Dollar pro Minute für Finanzdienstleistungen, gegen die Einsparungen abgewogen werden. Für zentralisierte Energiewerke bedeutet dies die Validierung der BESS-Durchlaufzeit von fünf bis 15 Minuten- über volle 2N-Generatoren in stabilen Netzen und möglicherweise die Einführung von Tier 3 plus für N +1 ohne nachweislich hohe MTBF.

Die Entwicklung bei herkömmlicher Bauweise(Bild:  Tom Ryyan)
Die Entwicklung bei herkömmlicher Bauweise
(Bild: Tom Ryyan)

Das Energy-Yard-Modell konsolidiert die Infrastruktur in einem einzigen modularen Knotenpunkt, der mehrere Datenhallen bedient. Die wichtigsten Elemente sind:

  • 1. Hauptanlage, Wassersysteme (FWS): doppelte Sammelleitungen (A und B) mit jeweils N+1-Pumpen und Sektionsventilen zur Isolierung.
  • 2. Wärme-Abfuhr: N+1 modulare Trocken- oder adiabatische Kühler für die Grundlastabfuhr, ergänzt durch wassergekühlte Kältemaschinen oder Verdunstungskondensatoren für Spitzenlasten. Wärmepumpen verlängern die Freie Kühlung durch Anhebung der Temperatur und ermöglichen die Wiederverwendung für Fernwärme.
  • 3. Sekundäres technisches Kühlsystem (TCS): 2N CDUs pro Reihe, die duale Verteiler tropffreien Rack-Anschlüssen speisen. Dies unterstützt die D2C-Kühlung direkt an den Chips.
  • 4. Integration des Kraftwerks: Zentralisierte Generatoren oder BESS-Anlagen ersetzen die einzelnen Per-Pod-Einheiten und reduzieren den Flächenverbrauch um bis zu 50 Prozent. BESS bietet Überbrückungsmöglichkeiten für kurze Ausfälle und minimiert die Diesellaufzeit - validiert durch Risikomodelle, die für moderne Systeme eine jährliche Ausfallrate von weniger als 1 Prozent aufweisen.

Die Entwickung beim Einsatz zentralisierter Versorgung(Bild:  Tom Ryan)
Die Entwickung beim Einsatz zentralisierter Versorgung
(Bild: Tom Ryan)

Vorteile der Zentralisierung

Die Zentralisierung bringt vielseitige Vorteile mit sich:

  • Flächeneffizienz - Ein einzige Einheit im Vergleich zu mehreren Pods schafft freie Flächen für die IT-Erweiterung
  • Erhöhung der Ausfallsicherheit - Echte N+1- oder 2N-Redundanz ist in einem konsolidierten Aufbau einfacher zu erreichen und zu überprüfen.
  • Energie-Optimierung - Wärmere Wasserkreisläufe - 32 bis 45 Grad - bedeutet die Minimierung der Freien Kühlung und das Erreichen eines PUE-Zielwerts unter 1,2.
  • Beibehaltung der Einfachheit - Das Isolieren einzelner Bereiche ermöglicht Hot Swaps ohne IT-Auswirkungen, unterstützt durch vorausschauende Analysen.

Das Design eines zentralisierten Energiecampus eignet sich für eine datengesteuerte Implementierung. Dazu wird modulare N+1/hybride Redundanz auf der Grundlage von MTBF-Daten, intelligenter Überwachung mit KI, vorausschauender Wartung benötigt, um Ausfälle zu vermeiden. Außerdem braucht es Digitale Zwillinge für Simulation diverser Szenarien.

Um ein solche von den Risiko-abhängigen Design zu implementieren, sollten Datacenter-Verantwortliche Pilotversuche mit hybriden Reihen mit unterschiedlichen Redundanzniveaus über einen Zeitraum von zwölf bis 18 Monaten etablieren, um Betriebsdaten zu sammeln und die gleiche Betriebszeit wie bei herkömmlichen Reihen zu gewährleisten.

Der Vorteil: Dieser Ansatz reduziert die Komplexität, senkt das Risiko von durch Menschen verursachten Ausfällen und optimiert gleichzeitig die Arbeitslasten bei hoher Dichte.

Temperatur- und Flüssigkeitsklassen

ASHRAE TC 9.9 definiert Flüssigkeitskühlungsklassen mit W4 (W = Water), die 32 bis 45 Grad Einlasstemperatur unterstützen, und W5 für mehr als 45 Grad, geeignet für moderne GPUs - etwa nach Nvidia- und AMD-Richtlinien- , die einen zuverlässigen Betrieb in diesem Bereich bestätigen. Der Hochtemperaturbetrieb reduziert das Ausfallrisiko in probabilistischen Modellen weiter, da die mechanische Belastung der Komponenten minimiert wird.

Für ein 136-Kilowatt-Rack mit einem Temperaturdelta von 10 K (∆T) ergeben sich Durchflussraten von etwa 11,7 Kubikmeter pro Stunde. Für eine Skalierung auf 600 Kilowatt sind etwa 51,6 m3/h erforderlich, was bei CDUs auf Reihenbasis und geringem Druckabfall machbar ist.

Anbieter wie Cool IT und Asetek bieten schlüsselfertige Systeme an. Die Systeme verfügen über im laufenden Betrieb austauschbare Komponenten, Lecksensoren und bevorzugte Racks.

Auswirkungen auf die Kennzahlen

Die Freie Kühlung wird aktiviert, wenn die Umgebungstemperaturen unter dem Niveau des Rücklaufwasser abzüglich des Einstiegslevels liegen, typischerweise fünf bis sieben Grad bei 32 bis 45-Grad-Schleifen. Damit steigen die Schwellenwerte auf 35 bis 60 Grad Umgebungstemperatur. Freie Kühlung ist in Nordeuropa nahezu ganzjährige möglich, in trocken-heißen Klimazonen, wie im Nahen Osten, lassen sich adiabatische Systeme im Sommer zuschalten. Sie erreichen etwa 60 bis 80 Prozent der Betriebsstunden.

Adiabatische Kühler mit geschlossenem Kreislauf senken den Wasserverbrauch auf nahezu Null. Der Branchendurchschnitt liegt bei etwa 1,9 Litern pro Kilowattstunde (l/kWh), während der Einsatz von Kältemaschinen den Carbon Usage Effectiveness-Wert senkt (CUE). Die TUE ist wiederum ein Maßstab für die ganzheitliche Bewertung der thermischen Effizienz, wobei zentralisierte Anlagen durch eine probabilistische Optimierung der Kühler- und Pumpenredundanz eine TUE von unter 0,1 erreichen können.

Zum Schluss: Generatoren pro Pod sind ineffizient. Eine zentralisierte BESS-Anlage mit Netzunterstützung reduziert die Investitionskosten (CapEx) um 22 Prozent bis zu 30 Prozent. und die Emissionen. Bei einer 10-Megawatt-Anlage ergibt dies etwa Einsparungen von 2 Millionen bis zu 5 Millionen Dollar bei der Backup-Stromversorgung und eine Flächenreduzierung von 25 bis 50 Prozent, also von von 20.000 Quadratmetern auf 50.000 Quadratmeter bei einer zentralisierten Anlage.

*Der Autor
Tom Ryan arbeitet bei dem Beratungsunternehmen PhillipsPage Associates (PPA) als Regional Manager - Middle East (M.Inst.R), Vereinigte Arabische Emirate. Der vorliegende Arikel ist aus seiner Veröffentlichung „Rethinking data center cooling and power resilience; Centralized energy yards for the era of 600 kW Racks.“ entstanden - mit seiner Zustimmung.

Bildquelle: Tom Ryan

(ID:50570973)