Suchen

Der Schutz vor Überhitzung und Risiko-Management in Rechenzentren Was passiert 60 Sekunden nach einem Totalausfall der Datacenter-Kühlung?

| Autor / Redakteur: Ken Jesse Lindenberg und Karsten Tawackolian* / Ulrike Ostler

Home-Office, Online Shopping, danach auf der Couch Online-Videos gucken oder digital die sozialen Kontakte pflegen? Diese Dinge sind mittlerweile für viele Menschen zum Alltag geworden. Noch nie in unserer Geschichte waren wir so deutlich von unserer digitalen Infrastruktur abhängig, wie heute. In Zeiten hohen Bedarfs kommt es aber auch zu Häufungen von Ausfällen, Problemen oder Einschränkungen.

Firmen zum Thema

Fällt die Kältetechnik im Rechenzentrum aus, können schon Sekunden zählen bis Schaden am IT-Equipment auftritt.
Fällt die Kältetechnik im Rechenzentrum aus, können schon Sekunden zählen bis Schaden am IT-Equipment auftritt.
(Bild: © m.mphoto - stock.adobe.com)

Dass Software einen wichtigen Sicherheitsfaktor darstellt, ist bekannt. Einer der wichtigsten Faktoren für Rechenzentren ist aber auch die Funktion der Gebäude-Infrastruktur. Bei Ausfällen der Kältetechnik zählt jede Sekunde, um Schaden am IT-Equipment und wirtschaftliche Schäden abzuwenden. So ist ein Ausfall in vielen Fällen existenzbedrohend für die betroffenen Unternehmen (siehe: „Die Top-Drei der Ausfallrisiken im Rechenzentrum“.

Wertvolle Sekunden für den Notfall werden oftmals durch teure Redundanzen und überdimensionierte, ineffizient betriebene Kältetechnik erkauft. Ausfallstrategien können in einem echten Rechenzentrum, welches auf einen 24/7-Betrieb ausgelegt ist, meist nicht in der Realität geprüft werden.

Das Hermann-Rietschel-Institut der TU Berlin besitzt seit 2016 ein Forschungs- und Testrechenzentrum (FTRZ) mit fünf Server-Racks. Das FTRZ wurde mit dem Zweck gebaut, Risikoforschung in einer realen Testumgebung zu ermöglichen. Forschungsschwerpunkte sind die infrastrukturelle Sicherheit von Server-Räumen und die Entwicklung von physikalischen Prozessmodellen. Zudem sollen mögliche informationstechnische und gebäudetechnische Gegenmaßnahmen bei Ausfällen betrachtet werden.

Um aufzuzeigen, wie unterschiedlich die thermischen Auswirkungen auf Server aufgrund unterschiedlicher Ausfallszenarien der Kältetechnik sein können, wurde in einer Abschlussarbeit am HRI das FTRZ mit Hilfe numerischer Strömungssimulationen untersucht (Die Arbeit von W. Gao von diesem Jahr mit dem Titel „Computational Study of Failure Scenarios of the Cooling System in a Raised Floor Data Center“ ist auf Anfrage erhältlich.)

Hierfür wurde die Simulationssoftware für Rechenzentren „6SigmaRoom“ von Alpha Numerics eingesetzt. Das FTRZ wird frei und indirekt mittels Kreuzstromwärmeübertrager gekühlt. Fürr hohe Außentemperaturen steht eine adiabate Verdunstungskühlung zur verfügung. Im Simulationsmodell wird bei einer angenommenen Außenlufttemperatur von 33 Grad eine Kompressionskühlung nachgeschaltet.

Das FTRZ umfasst fünf einseitig kaltgangeingehauste Server-Racks mit jeweils 40 1U-Servern. Die Server laufen im Modell bei Volllast bei einer Gesamtleistungsaufnahme von 40,42 Kilowatt (kW). Der Umluftvolumenstrom wird über die statische Druckdifferenz zwischen Kalt- und Warmgang geregelt.

Bildergalerie
Bildergalerie mit 5 Bildern

Die Umgebungsbedingungen

Die Leckage zwischen Kalt- und Warmgang, welche ein bei Ausfallszenarien sehr wichtiger Faktor ist, wird mit 5 Prozent Leckagefläche zwischen den Servern berücksichtigt. Weitere Details finden sich in der Abschlussarbeit. Ein Modellbild ist in Abbildung 1, eine Systemskizze in Abbildung 2 und ein Simulationsbeispiel in Abbildung 3 dargestellt.

Insgesamt wurden acht Ausfallszenarien betrachtet, darunter Ausfälle der Ventilatoren, der Pumpe und des Kompressors. Exemplarisch werden drei Ergebnisse präsentiert: Der Totalausfall (TFF) aller Ventilatoren, der Ausfall der Umluftventilatoren (IFF) und der Ausfall der Außenluftventilatoren (EFF). Eine Annahme bei der Simulation ist, dass alle Server während des Ausfalls bei gleichem Server-Volumenstrom weiterlaufen. Der Effekt eines Ramp-Up der Serverventilatoren aufgrund der Temperaturerhöhung wird nicht betrachtet.

Als Vergleichsgrößen wird die gemittelte Temperatur über alle Server-Einlässe betrachtet. Das Temperaturlimit liegt bei maximal zulässigen 35 Grad. Eine weitere Ansicht, Abbildung 4, zeigt den Temperaturschnitt in einem Meter Höhe über dem Doppelboden für die beschriebenen Ausfallszenarien zu drei unterschiedlichen Zeitpunkten.

Vom Totalausfall der Kühlung bis zu Fehlleistungen der Komponenten

Abbildung 5 zeigt die Temperaturen im Kaltgang 60 Sekunden nach einem Totalausfall (TFF) der Kühlung. Es stellt sich eine ungleichmäßige Temperaturverteilung ein. Einzelne Server sind dadurch bei einem Ausfall früher betroffen. Anhand der räumlich aufgelösten Resultate der Strömungssimulation kann eine Strategie für eine Lastverschiebung bei einem Ausfall hergeleitet oder eine Verbesserung der Zuluftführung abgeleitet werden.

Abbildung 6 zeigt den mittleren Temperaturanstieg bei verschiedenen Ausfallszenarien. Dabei wurden sowohl Strömungssimulationen (CFD) als auch Messungen durchgeführt. Während bei den numerischen Simulationen eine Volllast angenommen wurde, konnte bei den Experimenten aufgrund von derzeitigen Beschränkungen des Aufbaus nur eine Messung bei Teillast (Server im Idle-Zustand) durchgeführt werden. Zukünftig ist geplant, Messungen für verschiedene Lastzustände durchzuführen.

Die Ergebnisse

Die Ergebnisse zeigen, dass bei Volllast innerhalb von wenigen Minuten kritische Temperaturen im Rechenzentrum auftreten. Können die Umluftventilatoren weiter betrieben werden (EFF), tritt aufgrund der besseren Nutzung der verbliebenen Luftkapazität im Rechenzentrum anfänglich ein langsamerer Anstieg der Temperatur auf. Im vorliegenden Fall ist der Gewinn hierbei jedoch sehr gering und nach weniger als einer Minute hat die Temperatur das gleiche Niveau erreicht wie beim Totalausfall (TFF).

Vorteilhafter zeigt sich der nur in der Simulation untersuchte Fall, dass nur die Umluftventilatoren (IFF) ausfallen aber die externen Ventilatoren des indirekten Luft-Wärmeübertragers weiterlaufen. In diesem Fall erhöhen die externen Ventilatoren auf die maximale Drehzahl.

An dieser Stelle zeigt sich der Vorteil einer möglichst geringen Leckagefläche zwischen Kalt- und Warmgang, da aufgrund der Server-internen Lüfter ein kleiner Volumenstrom weiter über den Wärmeübertrager gefördert wird. Dieser Effekt fällt je nach Systemwiderstand und Leckage größer oder kleine aus.

Das Unbekannte

Es ist dadurch ein deutlich langsamerer Anstieg der Temperaturen zu verzeichnen. Im Experiment zeigt sich auch bei alleinigem Ausfall der externen Ventilatoren (EFF) auch nach längerer Zeit ein niedrigerer Temperaturverlauf als beim Totalausfall (TFF). Es findet in diesem Fall somit noch eine restliche Wärmeabgabe nach Außen statt deren genaue Ursache noch geklärt werden muss.

Unbekannt ist beispielsweise die verbliebene Leistung des Wärmeübertragers bei einem Ausfall der externen Ventilatoren oder mögliche Leckage nach außen. In diesem Fall tritt auf der externen Seite ausschließlich freie Konvektion auf, die im regulären Betrieb nicht berücksichtigt wird.

Bildergalerie
Bildergalerie mit 5 Bildern

Im Simulationsmodell sind einige weitere Annahmen getroffen worden, welche durch zusätzliche Messungen überprüft und gegebenenfalls angepasst werden müssen. Dies betrifft das instationäre Verhalten des Wärme-Übertragers während des Ausfalls, den unbekannten Wärme-Übergang an den Raumumschließungsflächen, den Einfluss der Leckagen innerhalb des FTRZ auf das Strömungsverhalten und die Reaktion der einzelnen Server während des Temperaturanstiegs. Diese einzelnen Einflüsse möchten wir gerne in zukünftigen Forschungsprojekten systematisch untersuchen und bewerten.

Forschungspartner gesucht

Wir sind deswegen auf der Suche nach industriellen Forschungspartnern, besonders KMU, die sich vorstellen können in einer Forschungsinitiative zu den skizzierten Problemstellungen teilzunehmen. Gerne sind auch assoziierte Partner gesehen, die mit wertvollen Informationen oder Sachspenden einen Beitrag zu freier Forschung leisten wollen.

* Die Abbildungen und der Beitrag zur Untersuchung von Ausfallszenarien am Forschungs- und Testrechenzentrum am Hermann-Rietschel-Institut der TU Berlin stammen von Karsten Tawackolian und Ken Jesse Lindenberg. Das Institut fokussiert zusammen mit Dr. Ralph Hintemann vom Borderstep Institut und der DC-CE RZ-Beratung GmbH & Co. KG zur Zeit das Thema Ausfallszenarien in Rechenzentren als mögliches neues Forschungsfeld.

Da in diesem Bereich kaum freie Forschung betrieben wird, die sich mit den grundlegenden physikalischen Vorgängen im Rechenzentrum auseinandersetzt, wollen sich die Autoren diesem Thema verstärkt widmen. Gerade zu Zeiten, wo größere Umweltkatastrophen und längerfristige Outages durch Netzüberlastung drohen, sei dieses Thema sehr wichtig und auch für den Raum Deutschland immer mehr von Bedeutung. Die beiden halten fest: „Bisher stehen immer nur pauschale Aussagen oder spezifische Erfahrungswerte im Raum, wenn es um Ausfallsituationen geht: `Wenn Anlage X ausfällt, dann haben Sie maximal Y Minuten Zeit!´ oder `Wir haben damals innerhalb von 4 1/2 Minuten 60 Grad im Server-Raum gehabt´.

Zum inhaltlichen Einstieg in das Thema hat Tawackolian eine Masterarbeit betreut, die sich mit der numerischen (CFD) Untersuchung von Ausfallszenarien in unserem Forschungs- und Testrechenzentrum befasst. Hierfür wurde unter der Nutzung von 6SigmaRoom, die speziell für Simulationen von Rechenzentren ausgelegt ist, Ausfälle von zum Beispiel von Umluft-, und/oder Außenluftventilatoren oder des Teilbetriebes, Simulationen erstellt und bewertet. Auch sind exemplarische Messungen an dem erfolgt.

(ID:46499070)