Stromversorgung von KI-Umgebungen Von kontinuierlichen Lasten zu volatilen Spitzen

Ein Gastbeitrag von Fabian Meyer* 6 min Lesedauer

Anbieter zum Thema

Die sichere und effiziente Versorgung von KI-Systemen erfordert eine grundlegende Neuausrichtung der Stromversorgungsinfrastruktur. Entscheidend ist dabei nicht mehr allein die Höhe der Dauerlasten, sondern auch die Geschwindigkeit und Häufigkeit der häufig extremen Lastschwankungen.

KI-Rechnereien verlangen nicht nur nach erheblich mehr Strom als sonstige IT-Workloads, sondern verändern auch die Lastprofile. Die USV muss ausgleichend tätig werden. (Bild: ©  Rangkas - stock.adobe.com)
KI-Rechnereien verlangen nicht nur nach erheblich mehr Strom als sonstige IT-Workloads, sondern verändern auch die Lastprofile. Die USV muss ausgleichend tätig werden.
(Bild: © Rangkas - stock.adobe.com)

Klassische Serverlasten folgen in der Regel einem gut vorhersehbaren Muster. Die Leistungsaufnahme verändert sich in Abhängigkeit von der jeweiligen Arbeitslast und bewegt sich innerhalb stabiler Leistungsbereiche, die sich nur über Sekunden oder Minuten stabilisieren.

Graphic Processing Unit (GPU)-basierte Rechenumgebungen weichen deutlich von diesem etablierten Lastverhalten ab. Sie arbeiten nicht nur mit einer deutlich höheren Leistungsdichte pro Rack, sondern weisen vor allem grundlegend andere Stromaufnahmemuster auf. Anstelle kontinuierlicher Laständerungen treten abrupte Übergänge zwischen Leerlauf und hoher Auslastung auf, die sich im Betrieb als stufenförmige, schnelle und hochdynamische Lastprofile äußern.

Dieses hohe Maß an Dynamik verändert die Anforderungen an den gesamten kritischen Energiepfad im Rechenzentrum grundlegend. GPU-basierte Workloads können kurzfristig Lastspitzen erreichen, die über der für den Dauerbetrieb ausgelegten Nennleistung (bis zu 150 Prozent) liegen.

Damit stellen KI- und High-Performance-Computing-Anwendungen (HPC) neue Herausforderungen für unterbrechungsfreie Stromversorgungssysteme (USV) dar, die ursprünglich für vergleichsweise gleichmäßige und vorhersehbare Lastprofile konzipiert wurden. Schutz- und Regelmechanismen vieler USV-Installationen reagieren auf solche schnellen Schwankungen anders als auf klassische IT-Lasten. Die Auswirkungen zeigen sich häufig erst zeitverzögert, etwa in Form unspezifischer Hardwareprobleme oder verkürzter Lebensdauer einzelner Komponenten.

Abbildung 1: Charakteristisches Lastverhalten von KI-Workloads (in Abbildung 1 und 2)(Bild:  Vertiv)
Abbildung 1: Charakteristisches Lastverhalten von KI-Workloads (in Abbildung 1 und 2)
(Bild: Vertiv)

Abbildung 2: Während klassische Server-Workloads linear zwischen 10 und 80 Prozent schwanken, zeigen KI-Systeme extreme Sprünge zwischen Idle-Zustand und Volllast auf.(Bild:  Vertiv)
Abbildung 2: Während klassische Server-Workloads linear zwischen 10 und 80 Prozent schwanken, zeigen KI-Systeme extreme Sprünge zwischen Idle-Zustand und Volllast auf.
(Bild: Vertiv)

Versteckte Überlastung und die Folgen für die Hardware

Die extremen Leistungsfluktuationen von KI-Workloads und HPC-Systemen können eine ganze Kaskade von Hardware-Problemen entlang des gesamten Stromversorgungspfads auslösen. In koordinierten GPU-Clustern führen überlagerte Lastspitzen zu plötzlichen Anforderungen an Server-Netzteile und angebundene Komponenten.

Diese müssen schnelle Stromänderungen kompensieren, was die thermische und elektrische Belastung von Kondensatoren und anderen elektronischen Bauteilen deutlich erhöht. Auch Hochstrom-Steckverbindungen sind zunehmend betroffen. Wiederholte stufenförmige Lastwechsel können zu erhöhten Kontaktwiderständen führen, die lokale Erwärmung und beschleunigte Alterungsprozesse begünstigen.

Mikrosekunden-Lastspitzen überfordern jedoch nicht nur die Server-Hardware, sondern belasten auch ungewollt die USV-Batterien, da USV-Anlagen die extremen Schwankungen nicht mehr über ihre interne Kapazität puffern können und dann auf die Batteriekapazität zurückgreifen müssen. Die daraus resultierenden wiederholten Mikro-Lade- und Entladezyklen verkürzen die Lebensdauer der USV-Batterien erheblich.

Abbildung 3: Reale Messdaten eines KI-Trainingszyklus: 2-Sekunden-Intervalle zwischen 90 Prozent Volllast und 50 Prozent Idle-Zustand demonstrieren das charakteristische Lastverhalten von GPU-Clustern.(Bild:  Vertiv)
Abbildung 3: Reale Messdaten eines KI-Trainingszyklus: 2-Sekunden-Intervalle zwischen 90 Prozent Volllast und 50 Prozent Idle-Zustand demonstrieren das charakteristische Lastverhalten von GPU-Clustern.
(Bild: Vertiv)

Messungen aus realen KI-Trainingszyklen verdeutlichen dieses schnelle und dynamische Verhalten. Innerhalb kurzer Zeitintervalle wechseln System zwischen Phasen hoher Auslastung und reduzierter Leistungsaufnahme. In der Folge werden Netzteile, Stromverteilungskomponenten und USV-Systeme wiederholt nahe an ihre betrieblichen Grenzen geführt. Gleichzeitig betreiben viele Rechenzentrumsbetreiber KI-Workloads bereits in bestehenden Infrastrukturen, ohne diese gezielt an die spezifischen Lastprofile solcher Anwendungen angepasst zu haben.

KI-ready USV-Systeme: Aktive Technische Anforderungen und Lösungsansätze

Um die Auswirkungen der Variabilität von KI-Workloads zu mindern, wurde in großen Vertiv-USV-Systemen wie der „Vertiv Trinergy“-USV und der „Vertiv PowerUPS 9000“ eine Reihe fortschrittlicher USV-Firmware-Regelungen entwickelt, die es der USV ermöglichen, die extreme Variabilität KI-getriebener Lasten aktiv zu steuern.

Anstatt die Batterien als passive Backup-Komponenten zu behandeln, implementieren diese Funktionen intelligente Regelstrategien, die die Interaktion der USV sowohl mit den Batterien als auch mit der vorgelagerten Infrastruktur optimieren. Die zwei entwickelten, sich ergänzenden USV-Regelfunktionen sind:

  • Battery Shield: Eine Regelungsfunktion, die eine unnötige Einbindung der Batterien bei schnellen Last-Transienten verhindert. Dadurch wird sichergestellt, dass die Energiereserven ausschließlich für Ausfallereignisse vorgehalten werden, während gleichzeitig die Batterielebensdauer und -zuverlässigkeit bei KI-unterstützten Lasten verlängert wird.
  • Input Power Smoothing (IPS): Ein dynamischer Lastmittelungsalgorithmus, der das Batteriesystem als kurzfristigen Puffer nutzt, um Leistungsspitzen am USV-Ausgang zu glätten. Durch das Herausfiltern schneller KI-Lastschwankungen wird die Eingangsleistung der USV stabilisiert und die Belastung von Versorgungsnetzen, Generatoren, Transformatoren und Schaltanlagen reduziert.

Zusammen bieten diese Funktionen einen umfassenden Ansatz zur Beherrschung der dynamischen und impulsartigen Eigenschaften von KI-Workloads.

Passive technische Anforderungen und Lösungsansätze

Die Bewältigung des charakteristischen Lastverhaltens moderner GPU-Cluster erfordert eine grundlegende Neuausrichtung der USV-Systemarchitektur, die weit über eine reine Erhöhung der Nennleistung hinausgeht. Erforderlich sind Systeme, die gezielt auf die dynamischen Lastprofile von KI-Anwendungen ausgelegt sind und kurzfristige Leistungspitzen aufnehmen können, ohne Schutzmechanismen vorzeitig auszulösen oder die Batteriesysteme unnötig zu belasten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Abbildung 4: Überlastkapazitäten der „Vertiv Trinergy“-USV-Serie: Das System kann kontinuierlich 110 Prozent der Nennleistung bewältigen und kurzzeitig bis zu 150 Prozent für eine Minute bei 25 Grad  - entscheidend für die Bewältigung von KI-Lastspitzen ohne Hardware-Schäden. Bei höheren Umgebungstemperaturen (40 Grad) reduzieren sich die Überlastzeiten entsprechend.(Bild:  Vertiv)
Abbildung 4: Überlastkapazitäten der „Vertiv Trinergy“-USV-Serie: Das System kann kontinuierlich 110 Prozent der Nennleistung bewältigen und kurzzeitig bis zu 150 Prozent für eine Minute bei 25 Grad - entscheidend für die Bewältigung von KI-Lastspitzen ohne Hardware-Schäden. Bei höheren Umgebungstemperaturen (40 Grad) reduzieren sich die Überlastzeiten entsprechend.
(Bild: Vertiv)

Moderne USV-Anlagen wie die Vertiv™ Trinergy™ -Serie wurden speziell für diese hochdynamischen Anwendungsszenarien entwickelt. Interne Energie- und Regelungskonzepte ermöglichen es, schnelle Laständerungen innerhalb der Leistungselektronik abzufangen, bevor Batteriespeicher einbezogen werden. Dadurch können transiente Leistungsspitzen gepuffert werden, ohne dass es zu einer übermäßigen Beanspruchung der Batterie kommt. Gleichzeitig berücksichtigt die Systemarchitektur die thermischen Auswirkungen abrupt wechselnder Lasten. Schnelle Änderungen der Leistungsaufnahme können zu Temperaturschwankungen in USV-Komponenten führen, die ohne geeignete Gegenmaßnahmen den Verschleiß beschleunigen würden. Abgestimmte Betriebsstrategien sowie die Integration in die Kühlungsinfrastruktur tragen dazu bei, diese Effekte zu begrenzen.

Vertiv Trinergy USV Überlastkapazitäten
Überlasttyp Bei 25  Grad Umgebungstemperatur Bei 40  Grad Umgebungstemperatur
Dauerbetrieb 110  Prozent kontinuierlich 110  Prozent für 550 Sekunden
Mittlere Überlast 125  Prozent für 10 Minuten 125  Prozent für 130 Sekunden
Hohe Überlast 150  Prozent für 1 Minute 150  Prozent für 25 Sekunden

Eine robuste Überlastfähigkeit spielt in diesem Kontext eine zentrale Rolle. Die USV-Serie „Vertiv Trinergy“ ist in der Lage, oberhalb der Nennleistung zu arbeiten und darüber hinaus für definierte Zeiträume erhöhte Lasten zu unterstützen. Dadurch lassen sich typische Lastspitzen von KI-Workloads bewältigen, ohne Abschaltungen zu riskieren oder Batteriesysteme zu überlasten. Bei erhöhten Umgebungstemperaturen verkürzen sich diese Zeitfenster entsprechend und müssen bei der Systemauslegung berücksichtigt werden (siehe: Tabelle).

Modernisierung bestehender Rechenzentren für KI-Lasten

Die Ertüchtigung bestehender Infrastrukturen für KI-Anwendungen erfordert eine durchdachte Strategie, bei der die USV-Anlage eine zentrale Rolle spielt. Ein schrittweises Vorgehen bietet sich dabei als praxisnaher Ansatz an.

Zunächst lässt sich durch intelligente Cluster-Planung und Workload-Steuerung die Lastverteilung optimieren. Eine räumlich verteilte Platzierung von GPU-Systemen über mehrere Rack-Ebenen und Versorgungsstränge vermeidet lokale Spitzen und gleicht den Strombedarf gleichmäßiger aus. Softwarebasierte Leistungsbegrenzungen kappen zusätzliche Lastausreißer und entlasten so Netzteile und USV-Systeme.

Im nächsten Schritt sind Anpassungen der elektrischen Infrastruktur erforderlich. Stromkreise und Zuleitungen, die für klassische Server ausgelegt wurden, benötigen bei stufenförmigen KI-Lasten andere Dimensionierungsreserven. Häufig ist eine gezielte Verstärkung der Versorgungspfade für GPU-Zonen notwendig, um die charakteristische Dynamik zuverlässig abzudecken. Parallel dazu sollte die physische Anordnung überprüft werden, um kritische Dichte-Bereiche frühzeitig zu erkennen.

Langfristig ermöglicht die parallele Integration moderner USV-Systeme für KI-Lasten eine sichere Migration. KI-kritische Zonen können schrittweise auf die neue Technologie umgestellt werden, während konventionelle IT-Lasten weiterhin von der bestehenden Stromversorgung abgewickelt werden. Diese Hybridlösung verteilt Investitionen über mehrere Jahre und erhält die definierten Service-Level-Ziele vollständig.

Total Cost of Ownership und Ausblick

Die dynamischen Lastprofile moderner KI-Systeme verursachen Kosten, die über den direkten Energieverbrauch hinausgehen. Durch schnelle und häufige Änderungen der Leistungsaufnahme verkürzen sich die Lebensdauern von Netzteilen, Steckverbindern und Batteriespeichern, was zu häufigeren Austauschzyklen führt.

Investitionen in USV-Architekturen, die speziell für KI-Lasten entwickelt wurden, wirken daher doppelt. Erweiterte Pufferkapazitäten und intelligente Energiespeicher-Management-Strategien reduzieren schädliche Mikro-Ladezyklen und verlängern die Lebensdauer kritischer Komponenten. Gleichzeitig schaffen modulare Skalierbarkeit und robuste Regelkonzepte die Voraussetzungen, um auch zukünftige GPU-Generationen mit noch dynamischeren Profilen zu unterstützen. Für Betreiber mit mehreren Standorten ergeben sich Standardisierungsvorteile durch einheitliche Technologie-Einsätze.

*Der Autor
Fabian Meyer verfügt über eine elektrotechnische Ausbildung und ist seit 2013 im Umfeld von USV-Anlagen und Rechenzentren tätig. Seit 2021 arbeitet er bei Vertiv, zunächst als Sales Engineer für AC Power. Seit 2023 ist er als Account Manager Enterprise in Nordrhein-Westfalen tätig und verantwortet Lösungen in den Bereichen AC/DC Power, Rack, PDUs, Thermal, Stromschienen sowie modulare Rechenzentren. Über die Vertiv-Technik sagt er zusammenfassend: USV-Systeme wie die Trinergy-Serie, die gezielt für diese dynamischen Anforderungen konzipiert wurden, kombinieren interne Energiereserven mit optimierten Regelstrategien und thermisch abgesicherten Betriebsmodi. Dieser Ansatz verlängert die Lebensdauer der Hardware, senkt die Betriebskosten und ermöglicht eine schrittweise Modernisierung bestehender Rechenzentren im Hinblick auf die zukünftige Generation von KI-Workloads.

Bildquelle: Vertiv

Artikelfiles und Artikellinks

(ID:50828914)