Innovationssprünge eher auf der Hardware- als auf der Softwareseite Welche Kühlung, wie viel Strom fordert die KI und was ist Hype?

Von Technischer Redakteur M.A. Harald Lutz 9 min Lesedauer

Anbieter zum Thema

„Die Heterogenität in den Leistungsaufnahmen wird zu einer gewaltigen Herausforderung werden“, sagt Gunnar Schomaker. Der Autor Harald Lutz sprach im Auftrag von DataCenter-insider mit dem stellvertretenden Leiter und Geschäftsführer des Software Innovation Labs (SI-LAB) im Software Innovation Campus Paderborn (SICP) der Universität Paderborn.

Solange KI mit GPUs al la Nvidia und CPUs herkömmlicher Bauart gerechnet wird, ist die Frage nach genügend Strom und ausreichend Kühlung nicht weg zu diskutieren. (Bild:   SI-Lab – Uni Paderborn)
Solange KI mit GPUs al la Nvidia und CPUs herkömmlicher Bauart gerechnet wird, ist die Frage nach genügend Strom und ausreichend Kühlung nicht weg zu diskutieren.
(Bild: SI-Lab – Uni Paderborn)

Sie haben sich in der Branche vor allem, neben Frithjof Dubberke, als treibende Kraft und „Mastermind“ des Windcores-Projekts einen Namen gemacht. Können Sie einleitend den SICP und das SI-LAB an der Universität Paderborn noch einmal in Erinnerung rufen?

Gunnar Schomaker: Bevor ich auf den SICP eingehe, würde ich gerne einen kurzen Blick zurückwerfen: Die technologischen Grundlagen für die Idee zu Windcores sind weitaus früher entstanden als meine Mitwirkung im Software Innovation Campus Paderborn (SICP) und Windcores. Am Konzept und dem marktreifen Angebot haben sehr viele Menschen maßgeblich gearbeitet. Das war von Anfang an eine großartige Teamleistung.

Bereits vor der Energiewende wurden in dem Projekt „AC4DC“ am Oldenburger Forschungsinstitut für Informationssysteme erste Konzepte zu dezentralen, verteilten Rechenzentren entworfen. (siehe auch: „Rittal nutzt Ergebnisse von Projekt AC4DC Es geht um die optimale Lastverteilung in Rechenzentren“) Dabei ging es zusammen mit den Partnern Rittal und dem Borderstep Institut in erster Linie um Virtualisierung, IT-Lastverschiebung und den Potenzialen für mehr Nachhaltigkeit.

Einen zentralen Impuls in Richtung Energiequelle lieferte die Frage von Frank Koch (ehemals Microsoft): Warum verhalten sich Rechenzentren wie die Schwermetallindustrie? Es ist doch viel einfacher, sich dahin zu begeben, wo die Energie erzeugt wird, und auch die Kommunikationswege entsprechend zu legen, als anders¬herum.

Gunnar Schomaker:Die Universität Paderborn hat früh erkannt, dass Forschung und industrielle Praxis eng verzahnt werden müssen und das nicht nur projektbezogen, sondern dauerhaft organisiert. Daraus ist ein umfassendes Kooperationsangebot mit dem Label SICP - Software Innovation Campus Paderborn entstanden. Dank der Universität Paderborn konnten wir mit Hilfe des passenden Gebäudes ein Campus-Modell aufbauen, um unter einem Dach mit unseren Industriepartnern zusammenzuarbeiten.

Der wissenschaftliche Kern des Ganzen ist das SI-LAB als zentrale wissenschaftliche Einrich-tung der Universität Paderborn. Hier arbeiten Wissenschaftler und Wissenschaftlerinnen aus unterschiedlichen Fachbereichen und Lehrstühlen mit den unterschiedlichen Industriepartnern zusammen – trans- und multidisziplinär.

Können Sie ein Beispiel nennen?

Gunnar Schomaker: Nehmen wir unseren Kompetenzbereich Künstliche Intelligenz. Auf den ersten Blick erscheint KI als ein klassisches Informatikthema. In der Praxis ist KI jedoch deutlich breiter angelegt: Neben den Informatikern sind bei uns beispielsweise auch Kulturwissenschaftler eingebunden, die sich mit Fragestellungen zur Akzeptanz und Wirkung befassen, oder auch die Sportmedizin, wenn es um Analyse- oder Trainingsmodelle geht.

Durch diesen interdisziplinären Ansatz ergeben sich für uns ganz andere Systemgrenzen und Perspektiven. Denn wir betrachten Themen nicht isoliert aus einer Fachdisziplin, sondern im jeweiligen Anwendungskontext. Genau das macht es so spannend, denn dadurch entstehen innovative Fragestellungen und Lösungen.

Welchen Anteil haben die Kooperationspartner aus der Industrie an dem Paderborner Modell?

Gunnar Schomaker: Besonders hervorzuheben ist, dass die beteiligten Unternehmen nicht nur als Transfernehmer verstanden werden, denen wir wissenschaftliche Erkenntnisse „vermitteln“. Viel mehr bringen sie ihre eigene Expertise und damit ihr spezifisches Domänenwissen aktiv in die gemeinsame Forschung ein. Damit nehmen unsere Kooperationspartner eine tragende Rolle in den gemeinsamen wissenschaftlichen Projekten ein.

Wissenschaft und Industrie erarbeiten die Erkenntnisse gemeinsam. Dieser Ansatz ist zweifelslos aufwendiger als andere, aber wir sind fest davon überzeugt, dass er näher am konkreten Nutzen ausgerichtet ist als herkömmliche Forschung im sprichwörtlichen Elfenbeinturm. Bei uns arbeiten Unternehmen auch bilateral zusammen. Es ist völlig in Ordnung, wenn sich zwei Unternehmen zunächst allein mit einer Fragestellung befassen und uns erst zu einem späteren Zeitpunkt in den weiteren Verlauf einbeziehen.

Kühlung von KI-Rechenzentren

Gunnar Schomaker: Wenn man heute mit den großen Co-Location-Betreibern spricht, wird schnell deutlich, dass in puncto Kühlung mittlerweile auch dort ein Umdenken stattgefunden hat. Noch vor zwei bis drei Jahren war Flüssigkeitskühlung im klassischen Enterprise-Co-Location-Umfeld noch wenig verbreitet. Mit kleineren Rack-Dichten bis 10 kW sind damals industrielle Anwendungen hochverfügbar und sicher gelaufen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Mit dem Siegeszug der Künstlichen Intelligenz steht die Co-Location-Branche heute vor weit größeren Aufgaben, um perspektivisch zwischen 1 und 50 Megawatt elektrische Leistungsaufnahme kühlen und die entsprechende Abwärme abführen zu müssen. Können diese ungeheuren Leistungsdichten in KI-Rechenzentren überhaupt noch mit herkömmlicher Luftkühlung gestemmt werden?

Leiter und Geschäftsführer des Software Innovation Labs (SI-LAB) im Software Innovation Campus Paderborn der Universität Paderborn. (Bild:   SI-Lab – Uni Paderborn)
Leiter und Geschäftsführer des Software Innovation Labs (SI-LAB) im Software Innovation Campus Paderborn der Universität Paderborn.
(Bild: SI-Lab – Uni Paderborn)

Gunnar Schomaker: Zunächst sollte man die Größenordnung sauber einordnen. Ich persönlich kenne noch keine Systeme, die als Campusbau oder bei Hyperscalern über ein Gigawatt hinausgehen. Wenn man sich klassische Co-Location-Datacenter anschaut, liegen diese im ein- bis zweistelligen Megawattbereich. Wichtig ist daher, genau zu differenzieren, worauf sich diese Leistungsdichtenangaben und Kühlbedarfe beziehen: auf die Höheneinheit, ein einzelnes Rack, gegebenenfalls ganze Schrankreihen, etc.?

Als eine große Herausforderung sehe ich vor allem die zunehmende Heterogenität von Leistungsaufnahme und Kühlbedarf. Klassische Co-Location-Datacenter sind auf relativ homogene Profile ausgelegt. KI-Workloads verändern dieses Bild erheblich.

Lassen Sie mich das an einem Parkhausbeispiel veranschaulichen: Die Betreiber eines Parkhauses müssen dafür sorgen, dass die Parkplätze zu den gängigen Fahrzeugtypen passen. Genau dafür ist das Parkhaus dann auch optimiert. Wenn diese Fahrzeuge nun alle minimal klein oder maximal groß werden und untergebracht werden müssen, passt das ganze System nicht mehr und die Planung gerät an ihre Grenzen. Vor dem gleichen Dilemma stehen die Co-Location-Rechenzentren heute.

Wie sieht die Übertragung des Beispiels dann aus?

Gunnar Schomaker: Mit der wachsenden Verlagerung von KI-Workloads in Rechenzentren, sowohl für Training als auch Inferenz, sind im Wesentlichen zwei Betriebsmodelle denkbar. Im ersten Fall stellt der Anbieter selbst KI-Infrastruktur als Service bereit. Kunden beziehen dann Trainings- oder Inferenzkapazitäten analog zu Storage oder Compute. Gerade Inferenz eignet sich hier wahrscheinlich eher, da sie dauerhaft laufen und nah an Anwendungen betrieben werden könnte.

Im zweiten Fall bringt der Kunde eigene KI-Hardware ins Co-Location-Rechenzentrum und nutzt den Anbieter wie gehabt für Strom, Kühlung, Netzwerk und physische Sicherheit. Die Inferenz läuft dann wohl lokal auf dessen Hardware, während sehr energie- und leistungsintensives Training in spezialisierten Umgebungen ausgeführt würde, etwa bei Hyperscalern oder in dedizierten Hochleistungs-Rechenzentren.

Der Einfluss der funktionalen Trennung wird dadurch denke ich klar: Inferenz eher nahe an Anwendung und Co-Location, Training eher in speziell ausgelegten Hochleistungsinfrastrukturen. Die einheitliche etablierte Richtung gibt es ja aktuell noch nicht. Und mein Gefühl sagt: Hohe Energiebedarfe werden kostenoptimal platziert.

Rund die Hälfte aller IT-Investitionen weltweit wird derzeit in energie- und kühliintensiven Bereichen vorgenommen. KI-Anwendungen aber können aktuell nur in wenigen, hoch spezialisierten Rechenzentren, den so genannten KI-Fabriken, gehostet und gekühlt werden.

Die großen Co-Location-Anbieter sind dafür an ihren Standorten in Deutschland mit ihrem tradierten Geschäftsmodell derzeit offenbar noch nicht gerüstet. Verhilft die zunehmende Verbreitung von KI-Anwendungen heute der Wasser- und Flüssigkeitskühlung aus ihrem Dornröschenschlaf zum großen Durchbruch?

Gunnar Schomaker: Auch das muss sehr differenziert betrachtet werden. Ich bin durchaus bei Ihnen: Transatlantisch – oder wo auch immer – ist es derzeit sehr schwierig, dies abzubilden. Auf der einen Seite hat sich gesellschaftlich durch KI und Verfahren des Maschinellen Lernens – rechenleistungsintensive Softwareprozesse – eine starke Abhängigkeit vom internationalen Markt ergeben, wenn es um die Ausführungsorte geht.

Doch das ist letztlich eine Grundsatzfragestellung in der strategischen Ausrichtung: Woher kommt die benötigte Leistung? Was passiert, wenn die Leistung in der gewünschten Form nicht mehr verfügbar ist?

Andererseits muss ich hervorheben, dass das Thema KI-Modelle in der Presse und Politik häufig stark vereinfacht dargestellt wird. Dadurch werden unterschiedliche Varianten nicht ausreichend differenziert betrachtet. Dazu zählen unter anderem verschiedene methodische Ansätze – beispielsweise Large-Language-Modelle -, ebenso wie Fragestellungen nach der Parallelität und Synchronität von Systemen und damit auch der benötigten räumlichen Nähe. Hier fehlt leider oft die präzise Differenzierung, obwohl es ist fachlich möglich ist, die Methoden und einzelnen Anwendungsbereiche klar voneinander zu unterscheiden.

Innerhalb der KI und ML gibt es Methoden, die keine hohe Parallelität erfordern, was zwar grundsätzlich hohe Leistungsdichten benötige, in der praktischen Anwendung jedoch eher weitaus geringer ausfällt. Wenn alles über einen Kamm geschoren wird, kann man auch leider nur zu sehr unscharfen Schlussfolgerungen kommen. Hyperscaler pauschal als die ultimative Lösungsvariante für KI zu propagieren, da sie die einzigen seien, die dies leisten könnten, halte ich daher in der Kernaussage für nicht haltbar.

Wie sollte diese Differenzierung vorgenommen werden?

Gunnar Schomaker: Wenn ein konkretes Anwendungsproblem besteht, ist es wichtig, sich das Problem zunächst anzuschauen und festzustellen, welche klassischen Lösungsverfahren bereits existieren und welche alternativen Methoden sich aus dem Bereich der KI anbieten. Anschließend prüft man, was jeweils gewonnen oder verloren werden kann und welche Anforderungen sich daraus ergeben, also wie hoch die Parallelität ist ....

Auf dieser Basis lassen sich entsprechende Lösungsansätze entwickeln, die wir mit unseren Möglichkeiten evaluieren und erproben. In Paderborn haben wir das Glück, Zugang zum Center for Parallel Computing (PC2) als Teil des Verbunds für Nationales Hochleistungsrechnen zu haben. Dort können wir unseren KI-Workload platzieren , bei uns handelt es sich natürlich zunächst in vorindustriellen Anwendungen zu Forschungszwecken. Das dann in großen Skalen zu realisieren, damit es sich auch wirtschaftlich rechnet, ist ein weiterer Aspekt dabei.

Eine zwingende Notwendigkeit zu mega-konzentrierten, hoch skalierten Umgebungen sehe ich nicht. Zwar geht der Trend und die Versuchung in diese Richtung, aber ich bin fest davon überzeugt, dass es auch anders geht.

Holger Grauer, Geschäftsführer der Aixit GmbH, zeigt Gunnar Schomaker, wie DLC-Racks (Direct Liquid Cooling) Abwärme bereitstellen können.  (Bild:  SI-Lab – Uni Paderborn)
Holger Grauer, Geschäftsführer der Aixit GmbH, zeigt Gunnar Schomaker, wie DLC-Racks (Direct Liquid Cooling) Abwärme bereitstellen können.
(Bild: SI-Lab – Uni Paderborn)

Entgeht dem Standort Deutschland mit seinen meist international aufgestellten Co-Location-Betreibern nicht ein Riesengeschäft, wenn sie ihre jahrelang gepflegte Zurückhaltung gegenüber Wasserkühlung nicht zügig den Realitäten anpassen?

Gunnar Schomaker: Die derzeitigen Großinvestitionen werden aktuell vor allem dadurch getrieben, dass Unternehmen momentan in KI einen mächtigen Hebel zur Steigerung der Wertschöpfung sehen. Andernfalls würde wohl niemand Milliardenbeträge für einzelne Gigawattrechenzentren in die Hand nehmen.

Nehmen Sie aus der heutigen Perspektive einen klassischen Investitionszyklus solcher Infrastrukturen, zum Beispiel 15 Jahre für eine Windenergie-Anlage, und projizieren diesen Wert sehr sportlich auf ein Rechenzentrum. Schauen Sie auch in die Vergangenheit und stellen sich die Frage:

Wer hätte vor 15 Jahren den heutigen Status quo auch nur in Ansätzen prognostizieren und als Zukunft vorhersagen wollen? Und jetzt berücksichtigen Sie noch die zu erwartenden Technologieentwicklungen. Wenn keine Veränderung stattfinden würde, dann bekämen wir ein extremes Problem.

Aber wenn ich eines gelernt habe, dann das: Die IT-Systemlandschaft einschließlich der Domäne Wissenschaft hat es bisher noch immer geschafft, jeden auftretenden Engpass, etwa bei der CPU-Leistungsfähigkeit oder bei den Speicherkapazitäten, zumindest abzumildern.

Auch für das Thema Kühlung gibt es entsprechende Potentiale. Es gibt bereits Ansätze, KI-Workloads auch mit anderer Hardware zu betreiben. Ich kann mir beispielsweise vorstellen, dass in dem Thema Rechnen mit Licht große Chancen stecken, um die Leistungsbedarfe deutlich zu dämpfen

Die Podcast-Folge #61 der DataCenter Diaries findet sich auf Spotify, Apple Podcasts, Deezer und Amazon Musik.

Der Verlust über elektrischen Leitungstransport findet nicht statt. 10, 100 oder 1000-mal weniger Energiebedarf als beim herkömmlichen Computing könnte schon sehr viel bringen. Firmen wie Nvidia investieren sicher nicht ohne Grund in Silicon Photonics für Netzwerk-Interconnects oder Ähnliches. Eine Auswirkung auf weitere Bereiche wäre daher sehr vielversprechend.

Wie sehen Sie die weitere Entwicklung?

Gunnar Schomaker: Wir erwarten eher einen entscheidenden Innovationssprung auf der Hardwareseite als auf der Softwareseite. Im Digitaluniversum an sich gibt es zwar auch softwareseitig Potenziale, bloß sind die dafür notwendigen Veränderungen massiv und nur schwer durchsetzbar.

Auf der Hardwareseite sind diese wesentlich einfacher, aber trotzdem noch schwer genug zu realisieren. Vereinfacht gesagt: Wir stellen halt lieber auf Elektromobilität um, als den Fahrern zu erklären, wie man Energie-effizient fährt.

(ID:50782463)