Datacenter-Ausfallanalyse 2023 des Uptime Institute Ausfallrate sinkt langsam – Kosten pro Ausfall steigen
Anbieter zum Thema
Rechenzentren- und IT-Service-Ausfälle sind häufig. Die Abhängigkeit von IT-Services erhöht die Kosten von Service-Unterbrechungen. Schulung hilft. Das sind einige wichtige Erkenntnisse aus dem neuen Outage-Report des Uptime Institute.

Die Ergebnisse zweier Studien (Uptime Institute Annual Global Data Center Survey 2022, 830 Teilnehmer, und Uptime Institute Data Center Resiliency Survey 2023, 739 Teilnehmer) bilden die Grundlage der diesjährigen Ausfallanalyse des Uptime Institute. Dazu kommt die Analyse von Ausfällen, über die Medien mehr oder weniger ausführlich berichtet haben. Sie wurden wegen ihrer geringeren Genauigkeit separat erfasst und ausgewertet.
Wie jedes Jahr teilt das Uptime Institute Ausfälle nach Schweregrad in fünf Kategorien von 1 (kurz, kein wesentlicher Einfluss) bis 5 (wie lange, umfassende Service-Unterbrechung, finanzielle Verluste und Sicherheitsimplikationen). Services mit Finanzschäden beginnen in Kategorie 3. Für die grobe Ausfallstatistik sind die Ergebnisse der letzten drei Jahre (2020 bis 2022) zusammengefasst und geglättet.
Das Uptime Institute betont, dass zwar die Zahl der Zwischenfälle absolut gestiegen sei, ihr Anteil wegen vermehrter Datacenter-Aktivitäten trotzdem langfristig leicht sinkt. So erlebten 2022 rund 60 Prozent aller Befragten irgendeinen Ausfall (nicht notwendig mit einem Service-Ausfall verbunden). 2021 waren es 69 Prozent, 2020 etwa 78 Prozent.
14 Prozent der 2022er Zwischenfälle gehören zu Kategorie 4 oder 5. Über die Jahre scheint allerdings der Anteil von Zwischenfällen ab Kategorie 3 abzunehmen: Während 2019 noch 41 Prozent der Ausfälle in diese Gruppen gehörten, waren es 2022 nur noch 32 Prozent.
Netzwerke verursachten IT-Service-Ausfälle
Bei den meisten Organisationen fielen in den vergangenen drei Jahren auch ganze IT-Services aus. Das lag meistens (31 Prozent) am Netzwerk, weitere wichtige Gründe waren Stromversorgung (23 Prozent), IT-Systeme und Software (18 Prozent), Third-Party-Services (10 Prozent) oder Kühlsystemprobleme (7 Prozent ). Keine Ausfälle verzeichneten nur 2 Prozent.
Die Cloud erscheint vielen aufgrund ihrer Erfahrungen nur eingeschränkt vertrauenswürdig. Nur 11 Prozent wollen ihr alle wichtigen Workloads anvertrauen, 18 Prozent sagen, sie sei nicht widerstandsfähig genug für irgendwelche Workloads. 11 Prozent machen dazu keine Angaben, der Rest liegt dazwischen. Das Uptime Institute rät Anwendern, die Cloud Services nutzen, vorläufig nicht zu viel Vertrauen in die Zuverlässigkeits- und Verfügbarkeitsangaben ihrer Provider zu setzen.
Komplexe Konfigurationen lassen Third-Party-Services abstürzen
Fallen Third-Party-Services aus, lag es zu 65 Prozent an Software- oder Konfigurationsfehlern, zu 53 Prozent an Netzwerkproblemen, zu 23 Prozent an mechanischen oder elektrischen Faktoren. Bei 17 Prozent waren Überlastung oder der fehlenden Kapazität schuld, zu 13 Prozent Cyber-Angriffe.
Uptime erfasste zudem 2022 genau 111 signifikante Ausfallereignisse, über die die Medien berichtet haben. Die Ursachen dieser Ausfälle lagen zu 18 Prozent in IT- oder Softwarefehlern, zu 17 Prozent in Glasfaserausfällen, bei 12 Prozent waren Netzwerksoftware- oder -konfigurationen schuld, in 11 Prozent der Fälle Cyber-Angriffe inklusive Ransomware. Weitere Gründe waren Stromversorgung und Netzverkabelung (je 9 Prozent), Brände (7 Prozent), Probleme mit Providern (7 Prozent), Kapazitätsengpässe und Kühlung (je 6 Prozent).
Im Fokus der Berichterstattung über derartige Ausfälle stehen naheliegenderweise die Anbieter kommerzieller Cloud-Services. 32 Prozent von ihnen waren Telekommunikationsanbieter, 30 Prozent Anbieter digitaler Services, 19 Prozent gehörten zu den Cloud-Giganten. Weiter waren betroffen: Finanzdienstleister, Regierungsstellen und Transportunternehmen.
Stromausfälle: Der Lüfter als Problemfall
Nun zu den Details einzelner Ausfallgründe. Stromausfälle waren mit 44 Prozent im Jahr 2022 der wichtigste Grund schwerer und langwieriger Ausfälle. Ihr Grund war zu 40 Prozent die UPS, zu 27 Prozent der externe Transformator und damit der Stromlieferant, zu weiteren 27 Prozent der Generator. Weitere wichtige Gründe waren die Steuerung (19 Prozent), die fehlerhafte Umschaltung zwischen einzelnen Strompfaden (1 7Prozent), ein Ausfall der internen Versorgung von Geräten mit nur einer Stromanbindung (15 Prozent) und zu 14 Prozent Fehler an der internen Stromverteilung.
Besonders fehlerträchtige Bauteile sind Lüfter, bestimmte Arten von Widerständen, Batterien und Wechselrichtern. Das Alter von USV-Anlagen und Generatoren und damit die sorgfältige, regelmäßige Wartung spielt eine wichtige Rolle.
Netze und Software: Der Teufel sitzt im Konfigurationsdetail
Für Netzwerkfehler, die, legt man alle Ausfälle zugrunde, meistgenannte Ausfallursache, waren drei dominante Gründe: Fehler, die beim Konfigurieren oder bei Veränderungen entstehen (45 Prozent), der Ausfall externer Netzwerke (39 Prozent) und Hardware-Ausfälle (37 Prozent). Demgegenüber blieben andere Fehlerursachen wie die Unterbrechung einzelner Leitungen (27 Prozent), Firmwarefehler (23 Prozent), Cyber-Angriffe (14 Prozent), Überlastung (12 Prozent), Wetter (7 Prozent) sowie korrupte Firewall- oder Routing-Regeln (6 Prozent) deutlich zurück.
Software- und IT-Systemfehler waren, so die Befragten, ebenfalls vor allem auf fehlgeschlagene Konfigurationen und Veränderungen zurückzuführen (64 Prozent). Firm- und Softwarefehler waren in 40 Prozent der Fälle verantwortlich, Hardwarefehler bei 36 Prozent, fehlende Kapazitäten lagen in 22 Prozent der Fälle vor, bei 14 Prozent schlug die Datensynchronisation fehl. In 10 Prozent der Fälle waren Cyber-Angriffe erfolgreich.
Menschliches Versagen: Schulung hilft!
Ausfälle aller Kategorien hatten auch 2022 häufig einen Anteil menschlichen Versagens. Dies gilt im langjährigen Durchschnitt für zwei Drittel bis vier Fünftel aller Ausfälle. Einflussfaktoren sind laut Uptime Institute unter anderem, ob Prozesse ausreichend vermittelt werden, Unterbesetzung, Übermüdung und kompliziertes Equipment.
Bei den relevanten Befragungen gaben 39 Prozent der Teilnehmer an, ein großer Ausfall sei durch menschliches Versagen verursacht worden. Doch zeigten sich die meisten überzeugt, dass es Abhilfe gibt: Über die Jahre haben immer mehr Befragte angegeben, derartige Ausfälle hätten sich verhindern lassen (2019: 60 Prozent, 2022: 78 Prozent).
Prozessbefolgung und Prozess-Design entscheiden
Laut den Angaben der Studienteilnehmer waren wichtigsten Gründe für den Anteil menschlichen Versagens das Nichtbefolgen vorgegebener Prozesse (47 Prozent) und falsch definierte Prozesse (40 Prozent). Dazu kommen Probleme im Design von Services ( 27 Prozent), Installationsprobleme (20 Prozent), Unterbesetzung (14 Prozent), zu seltene Wartung (12 Prozent) und mangelhaftes Datacenter-Design (12 Prozent).
Ebenfalls eine wichtige Erkenntnis: Die Kosten der Ausfälle steigen weiter. Während 2019 noch 60 Prozent der Befragten angegeben haben, die Ausfälle hätten unter 100.000 Dollars gekostet, sagen dies 2022 nur noch 29 Prozent. Andererseits geben 2022 ein Viertel an, Ausfälle hätten mehr als eine Million Dollar gekostet. 2019 waren es noch 11 Prozent.
Die Gründe liegen in der Inflationsrate, Strafzahlungen, kostenpfichtgen SLA-Unterschreitungen, gestiegenen Arbeits- und Dienstleistungskosten sowie teureren Ersatzteilen. Der Steigerungsprozess scheint ungebrochen: 2022 hat das Uptime Institute publizierte Ausfälle mit Einzelkosten von mehr als 150 Millionen Dollar angegeben. Dazu tragen auch härtere, strafbewehrte SLAs und eine härtere Regulierung, beispielsweise durch die GDPR, das zu erwartende KRITIS-Dach und das BSI-Gesetz 3.0 bei.
(ID:49295462)