Software ist das Risikomonster für Rechenzentrums-Outages und SLAs die Fabelwesen

Die Datacenter-Ausfallstatistik des Uptime Institute Software ist das Risikomonster für Rechenzentrums-Outages und SLAs die Fabelwesen

02.06.2021Autor / Redakteur: lic.rer.publ. Ariane Rüdiger / Ulrike Ostler

In seiner jährlichen Analyse geht das Uptime Institute Rechenzentrumsausfällen weltweit nach. Besseres IT-Management und COVID-19 scheinen dazu beigetragen zu haben, dass weniger passiert ist als im vorangegangenen Berichtszeitraum.

Anbieter zum Thema

Vertiv GmbH

DAXTEN GmbH

DeRZ - Deutsche Rechenzentren GmbH

Uptime Institute

Rechenzentrumsausfälle werden nicht häufiger, aber teurer.
(Bild: gemeinfrei / Pixabay )

Fällt ein Rechenzentrum teils oder vollständig aus, ist das für den Betreiber der Super-GAU. Die in solchen Situationen entstehenden Schäden sind seit jeher hoch und nehmen weiter zu.

Obwohl die Datenlage zu den Kosten von Ausfällen eher schlecht ist, liefert Uptime in seiner Ausfallanalyse 2021 hierzu mit diesen Unsicherheiten behaftete Zahlen. So lag der Schaden im Jahr 2020, über das der 2021er Report berichtet, bei 56 Prozent der Ausfälle über 100.000 Dollar. Im vorherigen Bericht, dem Daten aus 2019 zugrunde lagen, befanden sich noch 60 Prozent der Ausfall-Fälle unter dieser Schwelle.

Die Dauer von Datacenter-Ausfällen entwickelt sich uneinheitlich. Während sich die Menge der Ausfälle, die bereits nach vier Stunden behoben waren, gegenüber dem Vorbericht um mehr als zwei Drittel verringerte (2019: 69, 2020:21) , gilt das Gegenteil für Störungen, deren Behebung vier bis zwölf Stunden dauerte (2019:26, 2020: 70). Sehr lange Störungen (über 24 Stunden) dagegen nahmen um die Hälfte ab, allerdings gehörten 2020 nur 13 Ausfälle zu diesem Typ.

Insgesamt steigt die Zuverlässigkeit von Rechenzentren

Die Zuverlässigkeit ist trotzdem gestiegen: Es gibt zwar mehr Ausfälle, sie nehmen aber langsamer zu als die rasant wachsende Zahl der Rechenzentren. Verteilte Resilienz und die dafür nötigen Softwaretechnologien befinden sich nach Auffassung des Uptime Institute „noch in den Kinderschuhen“. Das ist ein Grund dafür, warum Fehlkonfigurationen, Softwarefehler und Netzwerkprobleme einen größeren Anteil der Ausfälle verursachen als früher.

Der wichtigste Grund für Rechenzentrumsausfälle ist aber nach wie vor der Stromausfall mit 37 Prozent, danach folgen allerdings Software, IT-Systemfehler (22 Prozent), das Netzwerk (17 Prozent) und die Kühlung (17 Prozent). Erstaunlicherweise werden nur 2 Prozent der Ausfälle auf IT-Security-Ursachen zurückgeführt.

Bei den Ausfallursachen stehen Elektrizitätsprobleme nach wie vor an erster Stelle, allerdings holen Netzwerk- und Softwareprobleme auf.
(Bild: Uptime Institute)

Uptime gewinnt seine Daten aus unterschiedlichen Quellen: aus einer internen, vertraulichen Datenbank, aus selbst durchgeführten, globalen Umfragen unter Datacenter-Managern und aus den Medien, die inzwischen oft über größere Rechenzentrumsausfälle berichten. Außerdem werden ab dem aktuellen Jahrgang unwesentliche Ereignisse, die kaum oder keine Auswirkungen haben, nicht mehr in die Datensammlung einbezogen. Legt man die Berichte in Medien zugrunde, sind es sogar 42 Prozent der Ausfälle, an denen Software- oder Konfigurationsfehler schuld sein sollen.

Provider-Probleme nehmen stark zu

Trotz der Vorkehrungen, die kommerzielle Rechenzentrums- und as-a-Service-Anbieter treffen, entfallen fast drei Viertel (72 Prozent) aller für die Studie berücksichtigten Ausfälle 2020 auf diese Art von Rechenzentren. Das ist gegenüber dem Fünf-Jahres-Durchschnitt ein Anstieg um 19 Prozent. Das Uptime Institute erklärt ihn damit, dass Provider heute einen höheren Marktanteil hätten, wobei der Datenverkehr durch COVID-19 nochmals gesteigert wurde.

Nach Angaben des Uptime Institute haben 56 Prozent aller Organisationen, die Rechenzentren von Drittparteien nutzen, in den vergangenen Jahren ein durch diese Drittpartei verursachtes mittleres oder großes Problem erlebt. Überproportional auch im Vergleich zu den Vorjahren waren hier Cloud/Service- und Telekom-Provider von Ausfällen ihrer Rechenzentren betroffen, was auch auf die vermehrte Nutzung ihrer Services während der Pandemie zurückgeführt werden kann.

Provider-Ausfälle: Oft Software- und Konfigurationsfehler schuld

Bei Providern waren – anders als in der übergreifenden Analyse - Software- und Konfigurationsfehler die wichtigste Ursache von Ausfällen. Das deutet darauf hin, dass die sich derzeit rasant verändernden Softwaretechnologien, zum Beispiel in puncto Software-Container, entweder in sich noch instabil sind oder aber noch nicht sicher gehandhabt werden.

Meist lässt ausgerechnet die Unterbrechungsfreie Stromversorgung (USV) die Energieversorgung zusammenbrechen. USV-Fehler wiederum werden besonders gern von ausfallenden Lüftern, altersschwachen Kondensatoren und gealterten Batterien sowie selten von überlasteten Wechselrichtern verursacht.

Auch das Alter der Uninterruptible Power Supply spielt eine Rolle. Weitere wichtige Ursachen von Stromproblemen sind Transformatoren und Generatoren.

Netze werden gerne fehlkonfiguriert

Bei den Netzwerkfehlern liegen Konfigurationsfehler und Probleme, die bei Veränderungen an der Infrastruktur entstehen, vorn. Oft genug versagen auch die Verbindungen von Netzprovidern, Firmware- und Softwarefehler sind sehr verbreitet. Weitere Fehlerquellen: Unwetter und Naturkatastrophen, Netzüberlastung, korrupte Firewalls und Cyber-Angriffe. Besonders kritisch sind naturgemäß Kreuzungspunkte zwischen Netzverbindungen.

Die Kosten von Rechenzentrumsausfällen steigen weiter an - heute haben knapp 60 Prozent der Ausfälle Kosten ab 100.000 Dollar aufwärts.
(Bild: Uptime Institute)

Da Uptime Institute empfiehlt zur Vermeidung solcher Fehler vor allem Investitionen in Systeme und das Training der Mitarbeiter. Gern vernachlässigt werden Redundanz, ständige Überwachung, Diagnose von Fehlern und Investitionen in die schnelle Wiederherstellbarkeit.

Niemals unterschätzen: Human Error

Fehler, die Menschen machen, sind noch immer eine extrem häufige Ursache von Ausfällen. So legt die Analyse der Daten aus der internen Störungsdatenbank des Uptime Institute nahe, dass 63 Prozent der dort gespeicherten Fälle auf menschliche Fehler zurückgehen. Die aktuelle Analyse kommt quellenübergreifend darauf, dass an 42 Prozent der Ausfälle in den vergangenen drei Jahren Menschen maßgeblich beteiligt waren.

Dass Menschen Fehler machen, liegt gemäß den Analysen des Uptime Institute zumeist daran, dass sie vorgeschriebenen Prozessen nicht folgen oder dass diese Prozesse selbst falsch beschrieben oder konzipiert sind. Auch hier sollten Aus- und Weiterbildung sowie Übung das Schlimmste verhindern.

Gegen falsch designte Prozesse hilft nur mehr Sorgfalt bei ihrer Entwicklung. So sollten Prozesse unter realistischen Bedingungen getestet werden, ehe man sich auf sie verlässt. Das scheint häufig zu unterbleiben.

Märchen und Fabelkennzahlen

Warum auch immer es zu Ausfällen kommt – und drei von vier Befragten gaben an, dass sie in den vergangenen Jahren mindestens einen Datacenter-Ausfall erlebten – das Thema nimmt im Denken von Rechenzentrumsbetreibern breiteren Raum ein als bisher. 44 Prozent der befragten Rechenzentrumsbetrieber und sogar 59 Prozent der Hersteller und Lieferanten denken, dass die Beschäftigung mit Resilienzfragen in den vergangenen zwölf Monaten zugenommen hat. Das könnte beispielsweise auf gesetzlich verschärfte Zuverlässigkeitsanforderungen an Datacenter-Betreiber, in Europa etwa durch die DSGVO oder das nunmehr novellierte IT-Sicherheitsgesetz, zurückzuführen sein.

Eher kurze Ausfälle sind stark zurückgegangen, Ausfälle zwischen 4 und 12 Stunden haben stark zugenommen.
(Bild: Uptime Institute)

Es wird auch höchste Zeit, mehr über Resilienz nachzudenken. Denn die Uptime-Institute-Daten legen, so das Institut, auch noch einen anderen Schluss nahe: Gern veröffentlichen Rechenzentrums- und aaS-Provider Verfügbarkeitsdaten und SLAs, die zum Beispiel „drei bis vier Neunen“ versprechen. Das Institut kommt beim Abgleich der vorliegenden Informationen zu Zahl und Dauer der registrierten Datacenter-Ausfälle mit den SLA-Bedingungen zu dem Schluss, dass es sich hier oft genug um fromme Märchen handelt.

SLA-Illusionen

Das fängt schon damit an, dass der Zeitbezug von SLAs oft nicht klar ist: Wenn eine Verfügbarkeit von „x Neunen“ zugesichert wird, ist dies in der Regel ein Durchschnittswert. Ob die im Rahmen der Prozentzahl zu tolerierenden Ausfallstunden in Fünf-Minuten-Portionen übers Jahr verteilt oder auf einmal anfallen, steht oft nirgends.

Das ist aber entscheidend dafür, welche Auswirkungen Ausfälle (oder der eine große Ausfall) auf die Kunden haben. Das Uptime Institute rät Anwendern daher, sich lieber nicht allzu sehr auf derartige SLA-Angaben zu verlassen, sondern beispielsweise eigene Messungen zur Verfügbarkeit eines bestimmten Service vorzunehmen. Das gelte unabhängig davon, ob es sich um einen internen, einen externen oder einen Co-Location-Service-Provider handele.

Das ist ärgerlich. Die Branche sollte sich in ihrem eigenen Sinne überlegen, wie SLA-Vereinbarungen so ausgehandelt werden können, dass sie tatsächlich die im Normalfall zu erreichende Dienstgüte und -verfügbarkeit beschreiben.

(ID:47406011)