Forrester-Report „The Changing Landscape Of IT Incident And Crisis Management”

Das Krisen und Risiko-Management muss sich wandeln

| Autor / Redakteur: Otto Geißler / Ulrike Ostler

Für die Bewältigung von kritischen IT-Problemen ist neues Denken gefordert.
Für die Bewältigung von kritischen IT-Problemen ist neues Denken gefordert. (Bild: gemeinfrei: Pixabay / CC0)

Automatisierung, Web-Scale-Engineering und Continuous Delivery verbessern die Stabilität digitaler Systeme. Trotzdem müssen laut Forrester Report „The Changing Landscape Of IT Incident And Crisis Management” bessere noch bessere Krisen-Strategien entwickelt werden, um Risieken besser abschätzen zu können und vor Betriebsausfällen zu schützen.

Die Computerausfälle, die zum Beispiel die zerstörerische „WannaCry“-Ransomware dem britischen Gesundheitsdienst (NHS) zufügte, haben gezeigt, dass die digitale Transformation unser Leben und unsere Sicherheit auch ernsthaft bedrohen kann. Zu Recht erhöhen Kunden sowie zahlreiche andere Interessengruppen ihren Druck auf die IT-Verantwortlichen, damit sie schneller und effektiver auf Betriebsstörungen oder Ausfälle reagieren.

Obwohl sich die digitalen Systeme stetig verbessern, können Risikofaktoren nie völlig ausgeschlossen werden. Zu den durch menschliche Fehler verursachten Störungen gesellt sich, dass in den Organisationen und Unternehmen alte Systeme nur selten vollständig durch neue ersetzt werden. Meist wird stattdessen eine neue Komplexität auf die bestehende Komplexität gelegt. Dies macht es für IT-Infrastrukturteams umso schwerer, Störfälle und Probleme zu diagnostizieren und zu lösen.

Ausfälle mit katastrophalen Folgen

In den vergangenen Jahren hatten viele bekannte Unternehmen und Organisationen wie zum Beispiel Barclays, New York Stock Exchange, Royal Bank of Scotland, Southwest Airlines und Verizon mit desaströsen Ausfällen zu kämpfen. Digitale Störungen in diesem Ausmaß bedeuten häufig eklatante Betriebsverluste, Markenschäden und in manchen Fällen sogar Beeinträchtigungen hinsichtlich der öffentlichen Sicherheit und Gesundheit.

Zum Beispiel verursachte im August 2016 eine Fehlfunktion am Hauptsitz der Fluggesellschaft Delta Airlines in Atlanta einen Stromausfall. Daraufhin mussten 2.300 Flüge storniert werden. Auslöser waren unzureichende Schutzmaßnahmen, die zu einer vollständigen Stilllegung des Betriebs führten. Gesamtkosten für das Unternehmen: 150 Millionen Dollar.

Bestehende ITSM-Ansätze sind unzureichend

Das herkömmliche ITIL-basierte IT Service Management (ITSM) zieht eine klare Grenze zwischen der Abteilung, die digitale Systeme entwickelt und den Problemen, die durch den Einsatz, Betrieb und Support dieser Systeme entstehen. Deshalb sollten die Entwicklungs- und Operations-Ansätze (DevOps) operative Teams bereits von Anfang an in den Entwicklungslebenszyklus integrieren und so einen Teamansatz zur Behebung von Fehlern in allen Phasen der Produktentwicklung unterstützen. Forrester empfiehlt IT-Infrastrukturteams beziehungsweise I&O-Profis eine Aufgabenteilung in drei Hauptbereichen: Service-Unterstützung, Proaktive Sanierung und schnelles Eingreifen.

Service-Unterstützung

Zu den Aufgaben gehören der tägliche Betrieb, die Einbindung von Event-Management und Telemetrie sowie Wartung der System- und Personaldaten als auch Koordination und Zeitmanagement. Darüber hinaus beinhaltet die Service-Unterstützung auch kontinuierliche Lösungen von unkritischen Vorfällen sowie Aktivitäten wie zum Beispiel Aufgaben der Bereitstellung und Support für Enduser.

Proaktive Sanierung

Da Probleme und Fehler immer wieder auftauchen, müssen IT-Infrastrukturteams beziehungsweise I&O-Profis sich im Vorhinein mit eingeübten Routinen zur Problemlösung vorbereiten. Eine weitere Aufgabe ist die Erstellung von Performance-Analysen, um etwaige Vorfälle vorherzusagen oder am besten gleich zu vermeiden. Übungen, Game Days und Chaos-Engineering gehören ebenfalls zu den vorbeugenden Maßnahmen, um die Systeme zu verbessern. Vor allem sollten diese Maßnahmen und Prozesse auf eine Rückkopplungsschleife zur Entwicklung verweisen.

Schnelles Eingreifen

Für den Ernstfall müssen Organisationen in der Lage sein, in kürzester Zeit ein verteiltes Team zusammenzustellen. Gleichzeitig müssen Ressourcen und Informationen aktiviert werden, um den gewohnten Service wieder herzustellen oder den drohenden Ausfall zu verhindern. Dabei sind ein großes Maß an Disziplin und standardisierte Abläufe unabdingbar. Zudem muss ein Teamleiter ernannt werden, der sicherstellt, dass alle Mitarbeiter ihren Aufgaben mit den dafür geeigneten Instrumentarien lösungsorientiert nachkommen.

Krisen-Management ist mehr als nur Routine

In den vergangenen zehn Jahren haben laut Forrester die führenden digitalen Organisationen wie Amazon und Etsy ein neues Denken entwickelt, wie sie mit kritischen IT-Problemen umgehen:

Geschwindigkeit und Qualität

Dafür sind schnellere, flexiblere, skalierbare und verfügbare Technologien erforderlich.

Von der Sicherheitsforschung lernen

Das Krisen-Management im digitalen Bereich steckt noch in den Kinderschuhen. Andererseits gibt es bereits viele Erkenntnisse aus der Sicherheitsforschung.

Von dem Incident Management System (IMS) lernen

Mitte der 2000er Jahre führte Jesse Robbins, Amazons „Master of Disaster“, das IMS als ein Handlungskonzept für Amazon ein. Dadurch konnten die formellen und informellen IT-Prozesse des Unternehmens verbessert werden.

Interne und externe Kommunikation unterscheiden

Organisationen müssen zwischen der Kommunikation mit dem Kunden beziehungsweise der Öffentlichkeit und der internen Kommunikation, die bei der Suche nach einer Lösung für den Störfall erforderlich ist, unterscheiden. Zum Beispiel nutzt Dreamlab, ein IT-Hub für Digitale Medien, und die Ringier Axel Springer Media-Gruppe, „Status Page“ für externe Kommunikation und „Victor Ops“ für die interne Zusammenarbeit der Teams bei Störfällen.

Aufarbeitung von Störfällen

Die Sicherheitsforschung fordert eine systematische und gründliche Untersuchung von IT-Störfällen. Wobei menschliches Versagen in dieser Disziplin keinen oder nur wenig Platz einnehmen soll, denn sie konzentriert sich auf den Kontext, der für die Ursache des Fehlers verantwortlich ist. Denn komplexe Systemausfälle werden in der Regel durch mehrere Faktoren ausgelöst.

Fehleranalysen als Input für Produktentwicklungen

Die Analyse der Ursachen von IT-Störungsfällen sollte immer ein Teil der Vorgaben zur Entwicklung bestehender und neuer Produkte sein. Führende Firmen setzen daher auf eine enge Rückkopplungsschleife, die sich von der Fehleranalyse bis zur Entwicklungsabteilung erstreckt.

Analysen mit integrierten Plattformen und Vorgehensweisen

Eine Automatisierung der kontinuierlichen Analysen und Lösungsfindungsprozesse verlangt eine Reihe von Tools und Funktionen. Die meisten, der von Forrester-Analysten interviewten Kunden verwenden Plattformen wie „Big Panda“, „Pager Duty“ und „xMatters“ für den Störfall-Alarm, die Störfall-Bestätigung und Kommunikation. Im Workflow-Bereich von Core-ITSM vertrauen viele Firmen auf Systeme wie Cherwell Software und Service Now. Für eine erfolgreiche Automatisierung sollten IT-Infrastrukturteams beziehungsweise I&O-Profis auch folgendes beachten:

Starre „Fallbearbeitungen“ vernachlässigen

Die Problemlöser müssen in der Lage sein, schnell zu erkennen, was vor sich geht und sich mit ihren Teamkollegen auszutauschen. Dabei helfen Smart-Ticketing-Anwendungen, zum Beispiel Service Now und „Jira“. Experten empfehlen auch Chat-Plattformen wie „Hip Chat“ und „Slack“. Für die Unterstützung des Lösungsprozesses eignen sich Produkte etwa Chat-Ops-Plugins wie „Hubot“.

Chatbots und kognitiven Suchlösungen

Kognitive Suchlösungen nutzen künstliche Intelligenz (KI) zur Verarbeitung, Organisation und der Analyse von digitalen Inhalten aus mehreren Datenquellen. Unternehmen wie Moogsoft und Squirro sind mit ihren Tools einer der Vorreiter bei der Anwendung neuer kognitiver und heuristischer Automatisierungs-Technologien für das Krisen-Management von Störfällen und digitaler Managementziele.

Erweiterte operative Analysen

Unternehmen sollen innovative operative Analysen einsetzen, um Probleme bei Störfällen zu lösen, um Beispiel mit der „Command Risk Heat Map“ von Squirro. Diese Technik ordnet jedem Befehl ein Risikoprofil zu – wie beispielsweise eine Datei verschieben, kopieren oder löschen – und kategorisiert diese nach einer Risikostufe.

Die Heat Map zeigt, ob jemand riskante Aktionen vollzogen hat, wer verantwortlich ist, wann es passiert ist und was die Wiederherstellung beschleunigt. Hierbei werden Daten verwendet, um Trends und Anomalien zu identifizieren sowie Lösungen zu empfehlen, die sowohl auf dem aktuellen Kontext als auch auf früheren Ereignissen basieren. Auf diese Weise sollen potenzielle zukünftige Probleme frühzeitig erkannt und beseitigt werden.

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45159567 / Software)