Suchen

Löschen, bevor es brennt Predictive Maintenance in Rechenzentren

Autor / Redakteur: Thomas Görres, Christoph Amann* / Ulrike Ostler

Wie muss ein Monitoring der Rechenzentrumsinfrastruktur heute aussehen? Was muss es leisten und welche Vorteile liefert es über die Kernaufgabe der Überwachung hinaus?

Firmen zum Thema

Mindestens so transparent wie in diesem Bild zum jüngsten Service von Prior1 „Onsite-Co-Location“ sollte die Datacenter-Inftastruktur-Überwachungs sein. Werden die richtigen Dataen gesammelt und analysiert, ist ein vorausschauendes Handeln, bevor Schaden entsteht, möglich.
Mindestens so transparent wie in diesem Bild zum jüngsten Service von Prior1 „Onsite-Co-Location“ sollte die Datacenter-Inftastruktur-Überwachungs sein. Werden die richtigen Dataen gesammelt und analysiert, ist ein vorausschauendes Handeln, bevor Schaden entsteht, möglich.
(Bild: Prior1)

Rechenzentren sind eine der zentralen Säulen für die Geschäftskontinuität moderner Unternehmen. Ohne IT-Infrastruktur und digitale Prozesse können heute nur die wenigsten ihr Geschäft ausüben. Fällt die IT aus, ist zumeist der gesamte Betrieb blockiert und zeigt negative Auswirkungen auf die Unternehmensergebnisse.

Die möglichen Folgen von IT-Systemausfällen reichen von einer unangenehmen Arbeitsunterbrechung, höheren Personalkosten, Umsatzverlusten, Vertrauenseinbrüchen bei Kunden und gröberen Imageschäden am Markt bis hin zu Schadenersatzansprüchen und Konventionalstrafen. Fakt ist: Von der Leistungsfähigkeit und der Zuverlässigkeit der IT beziehungsweise des Rechenzentrums hängt in der zunehmend digitalisierten Wirtschaft der Geschäftserfolg maßgeblich ab.

IT-Ausfälle haben häufig physische Ursachen

Entsprechend ihrer Bedeutung genießen IT-Ausfälle sowohl unternehmensintern als auch in der Öffentlichkeit große Aufmerksamkeit. Mittlerweile sind ungeplante IT-Stillstände in Unternehmen sowie deren Folgen und Kosten ein mediales Dauerthema. Dabei dominieren vorwiegend Ausfälle aufgrund von Cyber-Angriffen die Diskussion, etwa Denial-of-Service-Attacken, Kennwort- und Phishing-Angriffe sowie Schadsoftwarevorfälle mit und ohne Lösegeldforderungen.

Weniger Beachtung findet die Tatsache, dass mindestens die Hälfte der IT-Ausfälle in den deutschen Unternehmen schlichtweg physische Ursachen hat. Sie werden hervorgerufen durch Übertemperatur der IT-Infrastruktur, Netzausfall oder Defekte in der Unterbrechungsfreien Stromversorgung (USV), durch Schmorbrände und Feuer, Wasser, Stromüberlastung oder Einbrüche. Im Vergleich zu IT-Downtimes, denen Softwarefehler zugrunde liegen, dauern die Ausfallzeiten bei physischen Defekten meist länger und sie erzeugen auch höhere Kosten.

Paradigmenwechsel

Moderne Rechenzentren sind hoch komplexe Bereiche, was die Anforderungen an ihre Verwaltung, die Absicherung und ihre Überwachung deutlich erhöht. Dennoch ist ein ausgeklügeltes Monitoring essenziell, dient es doch dazu, das Geschäft aufrecht zu erhalten. Überwacht werden muss nicht nur die IT-Infrastruktur, also Server, Speicher und Netzwerk-Switches, sondern auch die Rechenzentrumsinfrastruktur, zu der etwa die Stromverteilungseinheiten, Generatoren, Klimageräte, Ventilatoren oder HLK-Geräte (Heizung, Lüftung, Kühlung) )gehören.

Thomas Görres ist seit 23 Jahren im Rechenzentrumsbau tätig. Seit 2019 hat er die Position als Geschäftsführer der Prior1 Colocation & Services inne.
Thomas Görres ist seit 23 Jahren im Rechenzentrumsbau tätig. Seit 2019 hat er die Position als Geschäftsführer der Prior1 Colocation & Services inne.
(Bild: Prior1)

Nach wie vor ist das Infrastruktur-Monitoring in vielen Unternehmen auf einen rein reaktiven Betrieb ausgerichtet. Erkennt das Monitoring-System ein Problem, erhält der firmeninterne IT-Administrator eine E-Mail und kann die nötigen Schritte setzen. Gelöscht wird also, sobald ein Feuer ausgebrochen ist.

Ein modernes Monitoring aber muss nicht nur in Echtzeit erfolgen und eine angemessene Reaktion auf Vorkommnisse ermöglichen, sondern datenbasiert und vorausschauend sein. Messdaten müssen erfasst, gespeichert, berechnet und präventiv analysiert sowie genutzt werden. IT-Ausfälle sollen idealerweise nicht nur schnell behoben werden, sondern erst gar nicht entstehen. Neben der Überwachung hat das Monitoring zudem die Aufgabe, Optimierungen im Rechenzentrum auf Basis der Messdaten zu ermöglichen.

Vollautomatisiert, proaktiv überwachen

Laut einer 2019 veröffentlichten weltweiten Umfrage von Logicmonitor unter 300 Entscheidungsträgern im IT-Bereich ließe sich über die Hälfte aller Infrastruktur-Ausfälle vermeiden. Voraussetzung: Unternehmen müssen entsprechende Warnsignale rechtzeitig und zuverlässig erkennen können.

Die notwendigen Tools dafür sind bereits am Markt. Monitoring-Systeme wie „Prior1 360“ fungieren nicht nur als Alarmsystem bei Vorfällen, sondern auch als Frühwarnsystem bei Risiken und helfen beim Entdecken von Schwachstellen oder Engpässen. Sie erlauben eine effizientere Steuerung des Rechenzentrums und ermöglichen dadurch den gezielten Kapazitätseinsatz sowie Kosteneinsparungen. Sensorgestützt lässt sich mit ihnen jeder Teilbereich eines Rechenzentrums permanent überwachen und somit auch optimieren.

Sammeln der richtigen Daten

Bei der Auswahl der relevanten Messdaten sollten erfahrene Spezialisten Unterstützung leisten. Denn prinzipiell sind in einem Rechenzentrum mehr als 1.000 Datenpunkte auswertbar. Allein bei einer Wasserpumpe könnten 30 bis 40 Kriterien, angefangen bei Drehzahl und Druck, überwacht werden.

Potenzielle Monitoring-Daten für „Prior1 360“
Potenzielle Monitoring-Daten für „Prior1 360“
(Bild: Prior1)

Es kommt also darauf an, die aussagekräftigsten Daten zu nutzen. Für Unternehmen, deren IT-Fachkräfte auch so schon mehr als ausgiebig beschäftigt sind, bietet sich die Full-Service-Variante des Monitoring an. Dabei wird die Planung und Umsetzung genauso übernommen wie der laufende Überwachungsbetrieb, der anhand von definierten Workflows automatisiert läuft.

Ein Beispiel: Zeigen die von den Sensoren erfassten Werte eine Unregelmäßigkeit an, informiert das System nicht den internen IT-Administrator, wie es bei herkömmlichen Lösungen der Fall ist. Informiert wird die Serviceleitstelle des Monitoring-Partners. Diese arbeitet im 24/7 Betrieb und weiß, was im jeweiligen Fall zu tun ist.

Ergänzendes zum Thema
Zu Prior1 360:

„Prior1 360“ lässt sich mit dem Begriff „vorausschauende Wartung“ erklären. Das Werkzeug nutzt Messdaten von Anlagen der Rechenzentrumsinfrastruktur für die Ableitung von Wartungsinformationen. Dadurch ist es möglich, präventiv einzugreifen und Anlagen frühzeitig vor Ausfällen zu schützen. Mithilfe des Werkzeugs lässt sich die Zuverlässigkeit der Datacenter Infrastruktur erhöhen. Instandsetzung oder ein Austausch kann eingeleitet werden, bevor es zu einem Ausfall kommt.

Dabei reichen die Maßnahmen von der Information des Wachdienstes vor Ort, der den Servicemitarbeiter ins Rechenzentrum einlässt, bis zur Begutachtung des aufgetauchten Verdachts oder zur Behebung des effektiven Vorfalles. Dadurch werden für die Überwachung des Rechenzentrums keine internen IT-Kapazitäten gebunden und dennoch alle wesentlichen Gefahren frühzeitig erkannt, gemeldet und bearbeitet, bevor es zu Ausfällen kommt.

Überwachung und Optimierung

Größtmögliche Verfügbarkeit ist der eine Baustein, Performance der andere. Daher spielen Leistungsindikatoren, wie die Auslastung der Systeme, der Wirkungsgrad der Kühlung oder die effiziente Energienutzung, im Rechenzentrumsbetrieb eine große Rolle. Monitoring-Tools, die alle Systeme kontinuierlich überwachen, liefern die nötigen Daten für Prognosen, anhand derer zukünftige Entwicklungen diagnostiziert werden können.

Christoph Amannarbeitet seit über 15 Jahre im Bereich Gebäude-Automation und Monitoring. Seit 2018 ist er bei der Prior1 im Bereich Planung und Beratung für Rechenzentren beschäftigt.
Christoph Amannarbeitet seit über 15 Jahre im Bereich Gebäude-Automation und Monitoring. Seit 2018 ist er bei der Prior1 im Bereich Planung und Beratung für Rechenzentren beschäftigt.
(Bild: Prior1)

So können versteckte Kapazitäten, aber auch bislang unentdeckte Schwachstellen, aufgespürt und Optimierungspotentiale genutzt werden. Das erhöht die Performance und Flexibilität, ermöglicht ein nachhaltiges, klimaschonendes Wirtschaften im Rechenzentrum und senkt gleichzeitig die Kosten.

Unternehmen, die ihr Augenmerk auf eine ganzheitliche Betrachtung ihres Rechenzentrums legen, können vom Einsatz solcher Überwachungswerkzeuge profitieren. Sie können Stillstände verhindern, die Effizienz des Rechenzentrums verbessern und zum Klimaschutz beitragen - und das, ohne die interne IT mit zusätzlichen Verantwortlichkeiten zu belasten und im Idealfall mit Kosteneinsparungen.

* Thomas Görres ist Geschäftsführer Prior1 Colocation & Services GmbH und Christoph Amann ist bei dem Unternehmen zuständig für Planung und Beratung von Rechenzentren.

(ID:46809302)