Linkedin-Fundstück:Geplatzer Schlauch Wasser setzt KI-Cluster Schachmatt

Von Paul Mah* 1 min Lesedauer

Anbieter zum Thema

Wenn die Flüssigkeitskühlung ein Leck hat, ist das Einzige, was fließt, Panik. Nun, ein Leck in einem Rechenzentrum hat gestern einen GPU-Cluster zerstört. So ist es heute auf der Social-Media-Plattform „Linkedin“ zu lesen.

Das Bild, das ursprünlich einem anderen Beitrag bei DataCenter-Insider zugeordnet war, dient lediglich der Illustration und hat nichts mit dem beschrieben Vorfall zu tun. (Bild: ©   Евгений Вершинин - stock.adobe.com)
Das Bild, das ursprünlich einem anderen Beitrag bei DataCenter-Insider zugeordnet war, dient lediglich der Illustration und hat nichts mit dem beschrieben Vorfall zu tun.
(Bild: © Евгений Вершинин - stock.adobe.com)

Der Autor Paul Mah beruft sich mit seinem Post auf eine „sehr zuverlässigen Quelle“, die ihm offenbar ein Video, das das Desaster dokumentiert, zugespielt hat. Bevor er jedoch diese erläutert, beschreibt er zunächst das Wesentliche der Flüssigkeitskühlung im Rechenzentrum.

Flüssigkeitskühlung ist seinen Ausführungen zufolge „der letzte Schrei“. Dennoch warnt er in seinem Newsletter Unternehmen davor, diese Techniken zu überstürzen. Der Grund: Die meisten Nicht-AI-Workloads brauchten sie nicht.

Insbesondere weist er auf das Risiko von Wasser im Whitespace von Rechenzentren hin; denn

  • das Risiko von Leckagen sei nicht gleich null
  • Liquid Cooling sei komplexer als Luftkühlung und
  • - PG25, ein Propylenglykol-Gemisch mit etwa 25 Prozent Propylenglykol (in Volumenanteil) und 75 Prozent Wasser (plus entsprechende Korrosionsinhibitor-/Additivpakete), das üblicherweise verwendet wird, könne versagen.

Er räumt aber auch ein: „Natürlich erfordern die neuesten GPU-Server eine Direct-to-Chip-Flüssigkeitskühlung (D2C). Unternehmen, die KI-Workloads einführen, haben also möglicherweise keine andere Wahl.“

Was ist nun geschehen?

Gestern ist es „in einem Rechenzentrum in Südostasien“ zu einem Leck gekommen, das dann in der Folge einen Cluster der neuesten GPU-Servern außer Gefecht gesetzt hat. Der Grund: Offenbar ist ein oberirdisches Rohr geplatzt und hat ein Dutzend Regale in Mitleidenschaft gezogen.

Mahr schreibt: „Auf dem Video, das ich gesehen habe, war der Boden im Gang mit einer dicken Wasserschicht bedeckt. Mitarbeiter haben versucht, diese aufzuwischen."

Ich sei sicher, dass die meisten Regale als Vorsichtsmaßnahme abgeschaltet worden sind. Aber bei einem Wert von einigen Millionen Dollar pro Regal wäre schon der Schaden an einem einzigen Regal eine Katastrophe.

*Der Autor des Linkedin-Post
Paul Mah ist Executive Editor bei „w.media“ in Sigapur. Hier ist sein Linkedin-Post.

Bildquelle: Paul Mah/Linkedin

(ID:50572452)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung