Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

IT-Zwischenfällen die Zähne zeigen Was ist Incident Management?

Autor / Redakteur: lic.rer.publ. Ariane Rüdiger / Ulrike Ostler |

Wenn etwas in der IT nicht rund läuft, braucht man ein Incident Management, um ungeplanten Zwischenfällen begenen zu können. Der Begriff bezeichnet den gesamten Prozess, von der Feststellung eines Problems bis zu dessen Behebung.

Anbieter zum Thema

Incident Management gehört zu den Standardaufgaben der IT-Administration
Incident Management gehört zu den Standardaufgaben der IT-Administration
(Bild: © djama - stock.adob.com)

Incident Management ist das Management jeglicher Zwischenfälle im IT-Betrieb. Es gehört zu den unverzichtbaren IT-Prozessen.Wann immer eine Anwendung nicht hochfährt, plötzlich Daten nicht zu finden sind oder eine Verbindung ausfällt, muss auf irgendeine Weise dafür gesorgt werden, dass der Betrieb schnellstmöglich weitergeht. Das ist die Aufgabe des Incident Managements.

Oft sind SLAs (Service Level Agreements) definiert, nach denen ein interner oder externer Dienstleister sich zu richten hat. Dann dürfte jede SLA-Verletzung als Incident gelten. Doch kommen Incidents selbstverständlich auch ohne jedes SLA vor.

Incident Management und IT Process Management

Betrachtet man Incident Management aus der Vogelperspektive, dann ist es ein wichtiger Teilprozess von strukturierten IT-Prozess-Management-Methoden wie ITIL (Information Technology Infrastructure Library). Die Durchführung von Incident Management ist aber selbstverständlich nicht davon abhängig, ob eine solche Methode eingesetzt wird. Vielmehr dürfte das Management ungeplanter Zwischenfälle jeder professionellen IT stattfinden, egal, wie es im jeweiligen Unternehmen bezeichnet wird.

Wichtig ist auch die Abgrenzung zum Nachbargebiet Problem Management: Es sorgt dafür, dass der Zwischenfall durch geeignete Vorbeugungsmaßnahmen möglichst nicht mehr auftritt. Incident Management ist nur am Nächstliegenden interessiert: The Show Must Go On! Der Rest, insbesondere die tiefer gehende Ursachenanalyse und -behebung, wird an den nachgelagerten Prozess, das Problem Management, weitergegeben.

Große und kleine Teams

Einen lahmen Provider bei Ablauf des Vertrages durch einen anderen auszuwechseln, ist also kein Incident Management. Letzteres endet dann, wenn der Betrieb nach einem aktuellen Ausfall wieder läuft – bis zum nächsten Incident.

Allerdings dürften sich beide Themen in vielen kleineren Unternehmen in derselben Person oder demselben Team bündeln, während es in großen Unternehmen mit entsprechenden IT-Teams getrennte Zuständigkeiten geben kann.

Das Schadereignis von Anfang bis Ende

Incident Management beginnt mit der Meldung und dem Erfassen des Ereignisses, in digitalen Umgebungen vorzugsweise mittels eines Ticketing-Systems. Meist werden solche Ereignisse auch getaggt, also durch wenige Stichworte kategorisiert, um sie nach der Ablage in einer Incident-Datenbank auffindbar zu machen.

Es gibt zahlreiche Anbieter von Ticketing-Systemen. Einige Beispiele sind Solarwinds, Jira, Zendesk, Zoho oder Mojo. Viele Anbieter offerieren das Ticketing als Teil einer umfassenderen Incident- oder Service-Management-Lösung. Solche Systeme bieten Servicenow, Realtech, Matrix42, OTRS und aus der Cloud, lizenzgebunden für den Vor-Ort-Einsatz oder in beiden Optionen an.

Die Support-Ebenen beim Incident Management

In der Regel werden eingehende Tickets automatisiert an einen zuständigen Mitarbeiter weitergeleitet. Dieser versucht so schnell wie möglich, eine Lösung oder zumindest einen Workaround für das Problem zu finden.

Kann der interne First-Level-Support oder der Help-Desk-Partner, mit dem man zusammenarbeitet, nicht helfen, tritt irgendwann – meist als Level-3-Support bezeichnet - der Support des Herstellers in Aktion, was die Chance, den Ausfall oder das Problem fürs Erste oder auch endgültig zu beheben, erhöht.

Eine Incident-Datenbank macht Lernen möglich

Eine durchsuchbare Incident-Datenbank dient meist als Dokumentation aller Tickets, Aktionen, des zeitlichen Verlaufs und der Lösung, die am Ende zur Beseitigung der Störung führt. Sie sollte zum Lieferumfang eines Incident-Management-Systems gehören, insbesondere dann, wenn es als Incident-Management- und -Response-Lösung beworben wird.

Dann können Mitarbeiter des Help Desk zunächst nachschauen, ob das gleiche Problem schon einmal vorgefallen. So lässt sich eine einmal gefundene Lösung immer wieder verwenden.

Intelligentes Incident Management

Eine neue Entwicklung ist es, das Incident Management als Cloud-Service anzubieten, die zur Speicherung der Ereignisse und Lösungen verwendeten Datenbanken mit KI aufzurüsten und die Reaktionen auf Zwischenfälle zu automatisieren. Vorreiter sind hier die Security-Anbieter. Sie unterhalten schon lange Einrichtungen, die alle möglichen Quellen, die Informationen zu Bedrohungen und Angriffen liefern, sammeln und analysieren, um ihre Kunden zu schützen.

Große Infrastrukturanbieter gehen seit geraumer Zeit in diese Richtung. Ein Beispiel ist HPE mit dem Werkzeug „HPE Infosight“. Zudem gibt es einen Trend hin zur Echtzeit-Analyse der individuellen Kundenumgebungen und zu proaktiver Fehlerbehebung – derzeit meist noch in Form von Tipps.

Angestrebt ist aber eine möglichst weitgehende Automatisierung der Reaktion auf Fehler und Auffälligkeiten. Dann liefert der Provider oder Anbieter schon mehr Bandbreite oder Storage, bevor es auf Netz oder Speichersystem zu eng wird.

(ID:46715373)