Predictive Maintenance im Rechenzentrum

28.06.2016

Stillstände und Wartungsausfälle sind Gift für die Effizienz von Rechenzentren. Mit vorausschauender Wartung versuchen Betreiber, den Betrieb zu optimieren.

Die Kristallkugel auf den historischen Jahrmärkten ist den IT-Domänen »Analytics«und »Business Intelligence« gewichen. Klassisch genutzt werden sie zur Auswertung meist historischer Datenreihen, um Lehren aus der Vergangenheit zu ziehen und zu erklären, warum die Dinge sind wie sie sind. Heute treten ihre Nachfolger aus dem Bereich »Data Science« an, dem sagenumwobenen Orakel von Delphi Konkurrenz zu machen und einen validen Blick in die Zukunft zu werfen. Die hierfür genutzten mathematischen und analytischen Funktionen gibt es glücklicherweise nicht nur am siebten Tag eines Monats, und sie legen im Winter auch keine Pause ein wie das große Vorbild aus der griechischen Antike.

Die einfachste Form einer Analyse ist die reine Statistik – gängige Kennzahlen werden erfasst und gemäß ihrer Häufigkeit grafisch dargestellt. Ein deutlich höherer Informationsgehalt lässt sich durch das Einführen zusätzlicher Dimensionen erreichen. Hierbei handelt es sich um klassische Data-Warehouse-Technik (OLAP = Online Analytical Processing). Den höchsten Erkenntniswert liefert die vorausschauende Analyse, die das künftige Verhalten von Systemen anhand von Modellen prognostiziert, die sich aus historischen Verhaltensdaten speisen oder aus logischen Zusammenhängen ergeben. Dabei ist die Wirksamkeit der Vorhersage abhängig von der Qualität der Datengrundlage und des verwendeten Modells. Der Drei-Tage-Wetterbericht ist deshalb verlässlicher, weil das Datenmodell hierfür ausreichend komplex und zuverlässig ist, während die langfristige Wetterprognose an vielen »Unberechenbarkeiten« leidet.

Auch in Rechenzentren halten diese Verfahren zunehmend Einzug. Im Zentrum stehen Vorhersagemodelle für die vorausschauende Wartung (»Predictive Maintenance «), um Störungen zu vermeiden, während gleichzeitig die Wartungsintervalle anhand des tatsächlichen Bedarfs optimiert werden. Ein Beispiel: Filter von Klimageräten verschmutzen nicht gleichmäßig, sondern abhängig vom Staubgehalt der Luft. Hier sind Rechenzentren mit freier Kühlung in städtischen Bereichen (oder in der Nähe zu aktiven Vulkanen) im Nachteil gegenüber klassischen, isolierten Innenräumen. Deshalb ist es nicht sinnvoll, für beide Szenarien das gleiche zeitliche Raster für den Tausch oder die Reinigung der Filter in einem Wartungsvertrag festzuschreiben, sondern die Arbeiten abhängig vom Bedarf durchzuführen. Analog zu den Filtern sind natürlich auch Wartungsintervalle von Batterien der USVAnlage, Pumpen, Generatoren und andere RZ-Komponenten automatisiert anpassbar.

Da es andererseits nicht hilfreich ist, so lange darauf zu warten, bis der Filter vollkommen verstopft ist und das Gerät seinen Betrieb einstellt, muss der richtige Zeitpunkt unter Berücksichtigung des Vorlaufs für die Wartungsplanung vorherberechnet werden. Neben einfachen Ansätzen wie »Laufzeit« (Betriebsstunden) gibt es auch fortschrittlichere und zuverlässigere Verfahren, die aus Messdaten und Vergleichen Rückschlüsse auf den aktuellen Zustand ziehen: Ein verstopfter Filter bedeutet in seiner Konsequenz ja einen zu geringen Luftdurchsatz, was sich leicht erkennen lässt, wenn ein angepasster Algorithmus die Drehzahl der Lüfter und die tatsächlich erzeugte Luftmenge über deren Geschwindigkeit vergleicht. Für die Vorhersage von Veränderungen stellen Veränderungen selbst wieder die Basis dar, da die Systeme teilweise selbstlernend sind (Stichwort: Machine Learning) und immer mehr Einflussfaktoren in die Modelle aufgenommen werden.

Da Rechner heute ausreichend Leistung zur Verfügung stellen, laufen diese Berechnungen meistens in Echtzeit ab. Der große Nutzen von »Predictive Maintenance« ist das Erkennen von heraufziehenden technischen Problemen, bevor es zu einem Stillstand kommt. Gegenüber periodischen Wartungen ergeben sich sowohl eine Reduktion der Ausfallzeiten als auch kürzere Zeitspannen, in denen die Anlagenteile im Wartungsmodus inaktiv sind. Gleichzeitig sinken die Wartungskosten für den Erhalt des gesicherten Zustands deutlich, wenn man sich auf die erforderlichen Maßnahmen beschränkt und weniger Ersatzteile beschaffen muss.

Ein Produktiveinsatz ist heute in Rechenzentren vor allem bei Steuerungen neuer Kühlsystemgenerationen zu beobachten. Diese Systeme haben sich dabei längst bewährt und als zuverlässig erwiesen, sodass davon auszugehen ist, dass das Verfahren in nicht allzu ferner Zukunft als Off-the-Shelf- Technologie zum Stand der Technik wird. Das ist in jedem Fall eine gute Nachricht, denn derart effizient gewartete Rechenzentren könnten sich zunehmend den wirklich wichtigen Aufgaben widmen: etwa der vorausschauenden Berechnung einer zuverlässigen 14-Tage-Wetterprognose.