Was passiert 60 Sekunden nach einem Totalausfall der Datacenter-Kühlung?



  • Der Schutz vor Überhitzung und Risiko-Management in Rechenzentren
    Was passiert 60 Sekunden nach einem Totalausfall der Datacenter-Kühlung?

    Home-Office, Online Shopping, danach auf der Couch Online-Videos gucken oder digital die sozialen Kontakte pflegen? Diese Dinge sind mittlerweile für viele Menschen zum Alltag geworden. Noch nie in unserer Geschichte waren wir so deutlich von unserer digitalen Infrastruktur abhängig, wie heute. In Zeiten hohen Bedarfs kommt es aber auch zu Häufungen von Ausfällen, Problemen oder Einschränkungen.

    zum Artikel



  • von Peter Starziczny aus LinkedIn:
    Grundsätzlich passiert in den ersten 60 Sekunden sehr wenig, wenn eine klassische Luftkühlung vorhanden ist. Nach einigen Minuten erwärmt sich die Lufttemperatur in Abhängigkeit der Raumauslastung. Erreicht die Temperatur eine kritische Größe (ca. 35°C) wird der Hardwareschutz aktiviert und die Hardware wird gezielt abgeschaltet um diese vor Schäden zu schützen. Für den Fall das ein Backup RZ vorhanden ist und die Aktivierung des Backup automatisiert erfolgt, übernehmen dann die redundanten IT_Systeme im Backup Rechenzentrum. Im besten Fall laufen alle Applikationen ohne Einschränkungen weiter.



  • Von Mathias Franke, Critical infrastructure resilience Expert, aus LinkedIn:

    Ein interessantes Projekt und eine vielversprechende Arbeit von W. Gao! Bei unserem letzten Integrationstest im März konnten wir ein Infrastruktur-Design testen, welches bei Totalausfall der Datacenter-Kälteerzeugung einen Weiterbetrieb der IT-Hardware über 43 Minuten unter Volllastbedingungen ermöglichte, bevor es zu einer Überschreitung der Grenztemperaturen kam. Selbst ein Double Point of Failure (DPoF) kann dadurch noch sicher beherrscht werden. Durch gezielte Optimierung der kritischen Infrastruktur wurde die Resilienz des Gesamtsystems erhöht.



  • Vielen Dank für den Beitrag.
    Grundsätzlich ist es nicht zu Pauschalisieren, dass nichts innerhalb der ersten Minute in einem Rechenzentrum geschieht, denn es passiert immer irgendetwas und oft sind schon die ersten transienten Marker entscheidend für die richtige Maßnahmen, die getroffen werden müssen. Diese Tendenzen gilt es mit seinen vielen physikalischen Einflussfaktoren für die Gebäudehülle bis hin zur einzelnen Rackposition zu modellieren. Hier existieren sehr viele Aussagen, die auf sehr subjektive Weise weitervermittelt werden, ohne oft den physikalischen Gesamtprozess (IT, Strömungsmechanik, Thermodynamik, Regelungs-/Automatisierungs-/Gebäudetechnik) vollständig nachvollzogen zu haben. Auch ist die Verschwiegenheit der einzelnen Betreiber hier ein erhebliches Problem bezüglich des Erkenntnisgewinns. Gerade neu angelerntem RZ-Personal fehlt oft die notwendige Erfahrung, um richtig mit einer Situation, die man nicht im 24/7-Fall üben kann, umzugehen. Georedundanzen sind ein erhebliches Problem für KMUs, denn nicht jeder Betreiber ist in der Lage auf kostenintensive Sicherheitsmaßnahmen oder Redundanzbetriebe zu setzen und kann sich nicht die wertvolle, zusätzliche Reaktionszeit nach einer Ausfallsituation erkaufen. Wir sind dabei besonders an kostenschonenden Maßnahmen interessiert, wie beispielsweise einer Notfallbelüftung für extrem belastete Rackpositionen und die Lastverschiebung innerhalb eines RZs (low-cost/high-impact), da vor allem inhomogene thermische Verteilungungen bedingt durch unterschiedliche Ausfallszenarien einen angepassten Handlungsbedarf benötigen. Wir konnten beispielsweise in numerischen wie realen Experimenten zeigen, dass nicht jede Ausfallsituation die gleiche thermische Wirkweise auf die einzelnen Rackpositionen hat. Wichtig ist es diese Wissenslücke in Form von unabhängiger und freier Forschung zu schließen und diese der breiten Masse zur Verfügung zu stellen, um eine sinnvolle Risikobewertung und Maßnahmen des eigenen Rechenzentrums vorzunehmen und können.
    Wenn Sie Informationen und Erfahrungswerte haben, die uns in unserem Unterfangen helfen können, dann würden wir uns auch sehr über einen persönlichen Austausch freuen.
    Beste Grüße
    Ken Jesse Lindenberg



  • Mich würde interessieren, ob (und wen ja, wie genau) bei der Simulation mit 6Sigma Room die thermische Speicherfähigkeit der IT-Komponenten selbst bei der instationären Berechnung berücksichtigt wird. Server haben ein recht hohe Masse und sind durch die intensive Durchströmung thermisch sehr gut an die Kühlluft angekoppelt. Wir (Knürr bzw. Emerson Network Power) haben vor Jahren bei Tests wassergekühlter Schränke bei hohen Leistungsdichten (15 - 20 kW/Rack) erhebliche Unterschiede beim Ausfall der Kühlung zwischen Heat Load Dummies (hohe Leistung, aber wenig Masse) und Servern (gleiche Leistung, aber sehr viel höhere Masse) festgestellt.
    Dr. Peter Koch



  • Hallo Herr Koch,

    In 6Sigma Room gibt es die Option für die Server eine generische Wärmekapazität bezogen auf die Servermasse zu berücksichtigen. Diese Option wurde hier genutzt. Der zweite Parameter in diesem Problem ist das Verhältnis zwischem direktem konvektivem Wärmeübergang (an die Luft) und Wärmeleitung im Server, wobei bei luftgekühlten Systemen zumindest nach Design der Wärmeübergang vornehmlich direkt konvektiv an die Luft erfolgt. Es darf meist nur ein kleiner Teil der Wärme indirekt über das Mainboard in das Gehäuse geführt werden. Auch hier können wir aktuell nur von generischen Verhältnissen ausgehen und würden dies zukünftig gerne genauer betrachten. Bei Ausfällen der Kühlung können sich die Wärme-Übergangs-Verhältnisse z.B. ungünstig verschieben was wir nicht untersucht haben. Ich kann mir vorstellen, dass dies bei wassergekühlten System und hohen Wassertemperaturen auch eine Rolle spielen kann, je nach Design.
    Ich stimme Ihnen zu, dass der Einsatz von Heat-Load-Dummies für zeitlich aufgelöste Ausfallbewertungen genau zu betrachten ist, auch wenn diese aus praktischen Gründen oft eingesetzt werden. Neben der Wärmekapazität unterscheiden sich diese von Servern manchmal hinsichtlich des Strömungswiderstands was bei off-point Zuständen im hydraulischen Verbund zu anderen Strömungsverhältnissen führen kann. Aus praktischer Sicht exisitiert dann die Frage wie Untersuchungen mit Heat-Load-Dummies vergleichbarer gemacht werden können. Wir haben in unserem Test-Rechenzentrum den Vorteil, dass wir Untersuchuchungen mit echter Hardware machen können um die Ergebnisse später für Vereinfachungen wie z.B. angepasste Heat-Load-Dummies zu nutzen.

    Freundliche Grüße
    Karsten Tawackolian


Log in to reply