Open Compute Summit - Future Technology AI erzwingt neue Rechenzentrumskonzepte und OCP prämiert sie

Von lic.rer.publ. Ariane Rüdiger 5 min Lesedauer

Anbieter zum Thema

Der KI-Boom nötigt dazu, bisherige Rechenzentrumskonzepte radikal zu überdenken. Insbesondere das bisherige monolitische Design und das Energie-Management stehen auf dem Prüfstand, so führende OCP-Kräfte (OCP = Open Compute Project).

Ausblicke darauf, wie Rechenzentren mittelfristig aussehen und arbeiten bietet der „Futuretech Summit“ des Open Compute Project (OCP).(Bild:  frei lizenziert/Foupax /  Pixabay)
Ausblicke darauf, wie Rechenzentren mittelfristig aussehen und arbeiten bietet der „Futuretech Summit“ des Open Compute Project (OCP).
(Bild: frei lizenziert/Foupax / Pixabay)

Strom rein – Wärme raus, dazwischen möglichst viele Intel- oder AMD-Rechner, die möglichst gut ausgelastet gleichförmig vor sich hin arbeiten: Diese Vorstellung von Rechenzentren ist wohl schon heute zu einfach.

Doch was mit der explosionsartig expandierenden AI und den für sie nötigen Energiemengen auf die Branche zukommt, dürfte laut übereinstimmenden Prognosen alles bisher Dagewesene nochmals um Dimensionen übersteigen. Und zwar in Energiebedarf, Leistung und Dynamik. Dem ist mit den bisherigen Architekturen nicht mehr beizukommen.

Microgrids im Rechenzentrum

Die Zukunft großer Rechenzentren könnte im Aufbau von Microgrids liegen – für Strom und Wärme. Das jedenfalls glaubt Andrew A. Chien, der am Argonne National Lab der Universität Chicago forscht.

„Jeder will heute ein möglichst leistungsfähiges Rechenzentrum. In Wirklichkeit aber braucht man vielfältige Rechenzentrumstypen“, betont Chien. Sie würden sich in Workloads, Equipment, Stromversorgung, Kühlung und anderem unterscheiden, meinte der Wissenschaftler.

Der Digitale Zwilling für das Rechenzentrum

Deshalb hat die Universität bereits prototypische Hardware-Konfigurationen für bestimmte Gerätetypen entwickelt, die man kostenlos nutzen für die Entwicklung eigener Architekturen nutzen kann. Ihre Betriebsparameter werden nicht statisch optimiert, sondern mit Hilfe von Echtzeit-Telemetrie.

So entstehen die Daten für einen digitalen Zwilling der Rechenzentrumsinstallation. Auf dem lassen sich sowohl Konfigurationsänderungen und ihre Auswirkungen simulieren als auch die reale Situation virtuell abbilden. Die dafür nötige Software, „Exadigit“, steht jetzt in Version 2 auf „Github“ bereit.

Thermales Microgrid im Rechenzentrum speichert Kälte

Nötig sei deshalb einerseits ein thermales Microgrid, das den Kühlbedarf ausgleicht. Statt Kälte ad hoc zu erzeugen und zu verbrauchen, speichert es sie und stellt sie bei Bedarf bereit.

Google soll bereits mit Kältetanks im Untergrund arbeiten. Das Stichwort hierzu heißt Underground Thermal Energy Storage (UTES). Die Technologie wird unter anderem im Rahmen eines Projekts des US-Energieministeriums (DoE, Department of Energy) entwickelt und verwendet neuartige, in den fürs umstrittene Fracking entwickelte Bohrtechniken.

Rechenzentren müssen Umgang mit Stromnetz ändern

Gleichzeitig müsse sich auch die Interaktion mit dem Stromnetz ändern, sollen Datacenter sich bei dessen Betreibern nicht sehr unbeliebt machen, fordert Chien. Das ist heute nicht unbedingt der Fall: AI-Rechenzentren verbrauchen zum Beispiel sehr hohe Energiemengen in fürs Netz nicht günstigen Rhythmen und sind gleichzeitig hochempfindliche Verbraucher.

Die durch AI verursachten Lastschwankungen sind abrupt, kurzfristig, koordiniert und daher schwer zu managen.(Bild:  Universität Chicago/Chien)
Die durch AI verursachten Lastschwankungen sind abrupt, kurzfristig, koordiniert und daher schwer zu managen.
(Bild: Universität Chicago/Chien)

Denn die Rechenzentren reagieren auf so genannte Transienten (Einschwingvorgänge im Stromnetz) häufig mit einem Anlaufen der UPS, die dann das Datacenter kurzfristig vom Netz abkoppelt, obwohl, eigentlich Strom vorhanden ist. Das wiederum bringt das externe Netz durcheinander und erzeugt dort kurzfristige Kapazitätsverluste.

Kleine Schwankungen im Stromnetz sollen das Datacenter nicht irritieren

„Die Komponenten im Rechenzentrum müssen flexibel auf die kleinen Schwankungen im Stromnetz reagieren!“, fordert Chien. Spezielle Komponenten im Rechenzentrum müssten sowohl Bedarfsschwankungen im internen als auch Schwankungen im externen Netz erfassen und intelligent managen.

Dabei sollen sie natürlich weder das externe Netz beeinträchtigen noch Ausfälle der internen Systeme riskieren. Man brauche letztlich eine flexible Energiequelle zwischen Netz und stromverbrauchenden Rechnern.

"Middlebox" für Rechenzentren

Eine solche zwischen internem und externem Stromnetz vermittelnde Komponente enthält Superkondensatoren, Batterien, eigene Stromerzeuger, interne Steuerungsmechanismen, Reaktionsmechanismen auf Hochfrequenzen und so weiter.

Die „Middlebox“, wie Chien die neue RZ-Komponente nennt, entkoppelt Netz und Rechenzentrum. So wirken sich Ereignisse in einer der Sphären nicht mehr direkt auf die andere aus.

Die "Middlebox" sitzt zwischen RZ-Verbrauchern und Stromnetz und enthält vielfältige Komponenten, um interne Bedarfs- und externe Netzschwankungen auszugleichen und das RZ zu einem netzdienlichen Verbraucher zu machen. (Bild:  Universität Chicago)
Die "Middlebox" sitzt zwischen RZ-Verbrauchern und Stromnetz und enthält vielfältige Komponenten, um interne Bedarfs- und externe Netzschwankungen auszugleichen und das RZ zu einem netzdienlichen Verbraucher zu machen.
(Bild: Universität Chicago)

Dabei stellen sich laut Chien allerdings eine ganze Reihe neuer, bislang nicht beantworteter Fragen: Wer ist für die Middlebox organisatorisch zuständig, wer bezahlt und wartet sie? Wo überhaupt soll sie stehen? Im oder außerhalb des RZ? Damit wird sich die Branche in Zukunft befassen müssen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Preise in drei Kategorien

Besonders interessant sind die jährlich vom OCP ausgeschriebenen „Future Technology Awards“. Diesmal wurden sie in drei Kategorien verliehen: AI/HPC, Nachhaltigkeit und Gesamtpreis für das beste Paper von allen.

Der AI/HPC-Award ging an Zinc Five, einen Anbieter von Nickel-Zink-Batterien. Er stellte ein Konzept für dynamische Energiebereitstellung vor, das demnächst mit Produkten unterfüttert ist.

Nickel-Zink ideal für Rechenzentren

Nickel-Zink-Batterien gibt es schon. Sie sind extrem reaktionsschnell, sicher, umweltfreundlich, rezyklierbar und sehr langlebig. Andere Batteriechemien degradieren unter AI-Last schnell.

Aufgrund dieser Eigenschaften können mit ihnen ausgerüstet UPS plötzliche Leistungsspitzen in AI-Umgebungen ausgleichen. Gleichzeitig sind sie aber auch in der Lage, Ausfälle der externen Stromversorgung zu kompensieren.

Blitzschnelle Reaktionen und große Beständigkeit

Zinc Five publizierte folgende Testresultate:

  • Die Batterien wurden bei 60 Watt pro Zelle für 50 Millisekunden entladen und für 950 Millisekunden geladen.
  • Nach zehn Million dieser Zyklen hatte die Kapazität um nur 13 Prozent abgenommen.
  • Bis zu 10 Millionen Lade-/Entladezyklen seien denkbar.

Geplant sind mehrere UPS-Modelle, das früheste bereits im Jahr 2026, für unterschiedliche Zwecke. Das erste wird sich an Cloud-Provider richten.

Accelsius: Neues Kühlsystem für heiße GPUs

Den Preis im Bereich Kühlung erhielt Accelsius für eine neuartige zweiphasige Kühleinrichtung für GPUs. Sie verwendet ein neues Verfahren der Verdunstungskühlung.

Die dazu benötigte Komponente, der „DIrect to Chip Evaporative Cooler“ (DCEC) ist eine Komponente, die mit einem Wärmefluss von 400 Watt pro Quadratzentimeter fertig wird.

Accelsius`preisgekrönte zweiphasige direkte Chipkühlung setzt auf "Kühltürme" auf der Cold Plate.(Bild:  Accelsius)
Accelsius`preisgekrönte zweiphasige direkte Chipkühlung setzt auf "Kühltürme" auf der Cold Plate.
(Bild: Accelsius)

Die dafür vorgesehenen Kühlmittelverteiler (CDUs, Coolant Distribution Units) können derzeit bis 250 kW Rackleistung kühlen. Höhere Leistungen sind geplant.

Der DCEC besteht aus so genannten Mikropillar-Arrays, die in der Flüssigkeitszufuhr sitzen und wo die Flüssigkeiten des Kühl-Dielektrikums tröpfchenweise verdampfen. Dabei bestimmt die so genannte Kontaktwinkelhysterese, die freie Energie auf der Oberfläche, wohin genau die Tröpfchen fließen. Später kondensieren sie wieder und der Kreislauf beginnt von neuem.

Kühltürme auf dem Kühl-Array

Durch den speziellen Verdunstungsmechanismus, der sich in den kleinen „Kühltürmen“ abspielt, werden laut Accelsius der thermische Widerstand und die hydrodynamische Leistung ins Gleichgewicht gebracht.

Die CDU MR 250 erzeugt zwischen dem Wasserrückfluss von der Facility bis zur Sättigung mit Wärme nur eine Temperatursteigerung von 3,7 Grad Celsius. Das reicht, um die gesamten 250 kW zu kühlen. Getestet wird das System derzeit im ARPA-E-Coolerchips-Programm.

Gesamtpreis für neuartige direkte Chipkühlung

Der mit 20.000 Dollar dotierte Gesamtpreis ging an das spanische Startup Uniscool für sein universell verwendbares Kühlsystem mit Cold Plates. Die inzwischen in den USA patentierte Neuerung wurde innerhalb von zehn Jahren Forschung entwickelt. 2023 entstand der erste Prototyp.

Die Idee: Das Design der Kühlplatte umfasst eine Reihe von „Flossen“ innerhalb der Mikrokanäle des Kühlkörpers. Sie liegen auf der Seite, die dem Hitzeerzeuger zugewandt ist.

Flossen, die sich wie beim Fisch aufstellen könenn, stecken in den Mikrokanälen und heben sich da, wo es besonders heiß ist. Das beschleunigt den Abtransport der Wärme.(Bild:  UniSCool)
Flossen, die sich wie beim Fisch aufstellen könenn, stecken in den Mikrokanälen und heben sich da, wo es besonders heiß ist. Das beschleunigt den Abtransport der Wärme.
(Bild: UniSCool)

Die Flossen stellen sich an den Stellen auf, wo es besonders heiß ist. Das heißt, dass eine solche Cold Plate höchst individuell und genau lokalisiert auf die Entstehung von Hotspots reagieren kann.

Energie-Einsparung durch Thermo- und Flüssigkeitsdynamik

Je nachdem steigt aufgrund der aufgestellten Flossen die Kühlkapazität und die heißen Stellen führen nicht zu Temperaturschwankungen im Gesamtsystem. Uniscool-Kälteplatten brauchen nur halb so viel Energie fürs Kühlen wie Cold Plates mit einfachen Mikrokanälen.

Vergleich zwischen Kühlung mit UniSCools System "SmartCool" und konventionellen Mikrokanälen: Mit Smartcool bleibt es überall gleich kalt. (Bild:  UniSCool)
Vergleich zwischen Kühlung mit UniSCools System "SmartCool" und konventionellen Mikrokanälen: Mit Smartcool bleibt es überall gleich kalt.
(Bild: UniSCool)

Das Potential sei, so das Uniscool-Management, riesig: „Wäre die Technik in allen Rechenzentren installiert, könnte man damit jährlich den Kohlendioxidausstoß ganz Belgiens einsparen“, so ein Firmenvertreter, der die Technik auf dem OCP-Summit in San José vorgestellt hat.

Artikelfiles und Artikellinks

(ID:50613825)