Wider die gefährliche Lücke zwischen DR-Theorie und -Praxis Damit die IT-Notfallplanung klappt - Tipps für ein Disaster Recovery

Autor / Redakteur: André Triebel / Ulrike Ostler

Disaster Recovery hilft Unternehmen im Katastrophenfall dabei, geschäftskritische Daten wiederherzustellen. Ziel ist es, Ausfallzeiten zu verringern oder ganz zu verhindern. Allerdings erweist sich die Realisierung eines schlüssigen IT-Notfallplans als Herausforderung für viele Unternehmen. Was gilt es zu beachten?

Firmen zum Thema

Dr. André Triebel, Business Solutions Consultant von Interoute: „Der Katastrophenfall ist gegenüber einem ´normalen` IT-Systemausfall deshalb so kritisch, weil zum einen die gesamte IT- Infrastruktur betroffen ist und zum anderen die Wiederherstellung ohne vorher getroffene Vorkehrungen sehr lange dauern kann. Daher empfehlen wir eine gründliche Vorbereitung. Hinzu kommt, dass unabhängig von deren konkreter Höhe, die Kosten und technischen Einschränkungen mit den steigenden Anforderungen an RPO und RTO ebenfalls steigen. Vor allem RPO-Ziele von unter acht Stunden können teuer werden.“
Dr. André Triebel, Business Solutions Consultant von Interoute: „Der Katastrophenfall ist gegenüber einem ´normalen` IT-Systemausfall deshalb so kritisch, weil zum einen die gesamte IT- Infrastruktur betroffen ist und zum anderen die Wiederherstellung ohne vorher getroffene Vorkehrungen sehr lange dauern kann. Daher empfehlen wir eine gründliche Vorbereitung. Hinzu kommt, dass unabhängig von deren konkreter Höhe, die Kosten und technischen Einschränkungen mit den steigenden Anforderungen an RPO und RTO ebenfalls steigen. Vor allem RPO-Ziele von unter acht Stunden können teuer werden.“
(Bild: Interoute)

Zumeist sind die geschäftskritische Prozesse zwar bekannt, welche IT-Systeme damit verbunden sind, aber selten. Die bei einer Katastrophe entstehenden Kosten sind ungewiss, ebenso wie der Preis und die technischen Randbedingungen der Einführung einer Disaster-Recovery-Lösung.

Die Einführung einer solchen Lösung startet in der Theorie mit einer Business-Impact-Analyse (BIA), die nach geschäftskritischen Prozessen und Anwendungen im Unternehmen fragt. In der Analyse geht es darum zu definieren, welche maximale Ausfallzeit von IT-Systemen (RTO) und welcher maximale Datenverlust (RPO) nicht geschäftskritisch sind.

Auf Basis dieser Werte können garantierte Verfügbarkeiten der IT bestimmt werden. Danach soll die Realisierung folgen. In der Praxis sind das aber nicht zwei Schritte, sondern bei guter Vorarbeit auf beiden Seiten viele Abstimmungsrunden, in denen Kunde und IT-Dienstleister eine technisch und kommerziell ausgewogene Lösung gemeinsam entwickeln.

Nur zwei Schritte zum Erfolg

Die anfangs sehr hohen RTO- und RPO-Anforderungen des Anwenders und die Kosten für die technische Umsetzung haben dann eine vertretbare Balance gefunden. Um diesen Prozess zu verkürzen, und somit wertvolle Projektzeit und –kosten einzusparen, empfiehlt Interoute (siehe: Kasten) das folgende, allgemein akzeptierte Vorgehen.

Erster Schritt: Die Kosten des Ausfalls der IT-Systeme im Fall eines Disaster-Recovery (DR, IT-Notfall) genau bestimmen:

Neben den schon genannten Umsatzausfällen sollten dabei unter anderem Reputationsschäden, verringerte Produktivität und Kosten der Wiederherstellung berücksichtigt werden. Drei Beispiele, die die Lücke zwischen Theorie und Praxis belegen soll:

  • Welche Umsatzausfälle sind bei einem Webshop zu erwarten? Diese lassen sich anhand von Umsatzzahlen der Vergangenheit recht konkret abschätzen.
  • Ab wann können Service Level Verträge (SLAs) mit Endkunden nicht mehr eingehalten werden? Neben Reputationsschäden können hier Kosten zum Beispiel durch Vertragsstrafen entstehen.
  • Was kostet es, wenn eine Kernanwendung wie ein ERP-System ausfällt und eine interne Abteilung mit 100 Mitarbeitern nicht arbeiten kann? Diese Kosten lassen sich nicht so einfach abschätzen.

Die Auswirkungen „klassischer“ IT-Vorfälle sind aus Erfahrungswerten bekannt und durch den Ausfall von Einzelsystemen leichter überschaubar. Diese wertvollen Informationen können dafür verwendet werden, abzuschätzen, was größere Ausfälle bewirken.

Dabei sollte erfasst werden, was ein Service-Ausfall für betroffene Personen, Prozesse und Kunden auf der „Zeitschiene“ bedeuten würde. Was sind die Auswirkungen von beispielsweise einer Stunde Nichterreichbarkeit einer Website, von vier Stunden Unterbrechung eines Produktionsprozesses X, oder von einem 24-stündigen Bruch eines SLA mit Endkunde Y? Die Kosten summieren sich entsprechend.

Zweiter Schritt: Die technischen Möglichkeiten und Kosten der DR-Lösung bestimmen:

Zur Vorsorge für den Katastrophenfalls hat der IT- und Kommunikationsdienstleister Interoute ein Metamodell entwickelt. Es kann helfen, DR-Wissenslücken zu schließen.
Zur Vorsorge für den Katastrophenfalls hat der IT- und Kommunikationsdienstleister Interoute ein Metamodell entwickelt. Es kann helfen, DR-Wissenslücken zu schließen.
(Bild: Interoute)
Die mögliche Realisierung der Zielvorgaben für RPO und RTO hängen auch von technischen Gegebenheiten ab. Daher sollten zunächst die Abhängigkeiten zwischen geschäftskritischen Anwendungen, Betriebssystemen, Datenbanken sowie Middleware untersucht werden. Leitfragen sind hier unter anderem:

  • Können Daten auf Ebene der Storage-Systeme repliziert werden? Gibt es Schnittstellen zwischen Betriebssystem und Storage-Systemen, um DR-Maßnahmen zu automatisieren?
  • Bei vielen Open-Source-Produkten, wie MySQL, ist es nicht ohne weiteres möglich, RPO- und RTO-Vorgaben von = 0 zu realisieren. Werden kommerzielle Erweiterungen (also Firmen, die technische oder Service-Erweiterungen für Open Source Produkte anbieten) nötig, die einem ursprünglichen Einsatzziel von Open Source entgegenstehen?
  • Inwieweit kann Virtualisierung genutzt werden, um automatisierte Failover-Szenarien zu realisieren? Wie weit sind die Disaster-Recovery-Standorte voneinander entfernt? Physikalisch sind nur bestimmte Latenzen auf gewissen Distanzen zwischen Rechenzentren möglich.
  • Welche Schnittstellen bestehen zu Cloud-Diensten? Gibt es eine performante Netzwerkverbindung zu Cloud-Diensten, um Failover-Szenarien zu realisieren?

Je genauer diese Fragen beantwortet werden, desto leichter fällt das Design einer technisch guten und wirtschaftlich ausgewogenen DR-Lösung.

Der Autor:

Dr. André Triebel ist Business Solutions Consultant bei der Interoute Germany GmbH.

(ID:37650820)