Suchen

Resilienz von Datenbanken und mehr Der Traum von der hundertprozentigen Ausfallsicherheit

| Autor / Redakteur: Robert Meiners* / Dr. Jürgen Ehneß

Unternehmen sind bestrebt, Ausfälle der IT aufgrund von Katastrophen, defekten Systemen oder auch Angriffen von Cyber-Kriminellen durch geeignete Maßnahmen und Technologien so weit wie möglich auszuschließen. Es gibt feingliedrige Abstufungen, angefangen bei redundant aufgebauten Kernsystemen über Backup und Recovery, Data Safety, Business-Continuity-Lösungen bis hin zu Strategien und Systemen, die automatisiert und selbstständig lernen, um das Ausfallrisiko tatsächlich auf Null zu setzen. Beim Letzteren spricht man von Resilienz.

Firmen zum Thema

Managementalptraum: Produktionsstillstand.
Managementalptraum: Produktionsstillstand.
(Bild: gemeinfrei / Pixabay )

Resilienz ist ein Prinzip sowie eine Kombination aus Strategie und modernster Technologie, welche die Ausfallsicherheit nach heutigem Stand der Möglichkeiten optimal gestaltet. Allerdings: Bei der großen Bandbreite an Möglichkeiten für die Ausfallsicherheit stellt sich eine entscheidende Frage: Welches Unternehmen benötigt welches Level an Ausfallsicherheit, und wer kann sich welche Lösung leisten?

Ausfallsicherheit ist mehr als nur ein Thema der IT

Ein Szenario: Server oder andere IT-Systeme fallen aus. Mitarbeiter haben keinen Zugriff auf wichtige Daten. Die Lieferkette kann nicht eingehalten werden, und es stehen in Folge auch die Maschinen in der Produktion still. Die Geschäftsführung, der Vertrieb, die Logistik, die Finanzabteilung und weitere Abteilungen rufen nach der IT und fordern, das Problem jetzt zu lösen. Dies ist kein unwahrscheinliches Szenario, es hat sich so oder ähnlich schon oft ereignet, aus ganz unterschiedlichen Gründen.

Und dennoch werden in vielen Unternehmen die Ausfallsicherheit und die Business Continuity eher stiefmütterlich behandelt. Ein bisschen Redundanz hier und ein Backup dort sollen dafür sorgen, dass im Falle einer IT-Störung das Geschäft möglichst schnell weiterläuft oder erst gar nicht zum Stillstand kommt.

Es gibt aber auch Firmen, die sich der Brisanz einer höchstmöglichen Ausfallsicherheit und Business Continuity sehr wohl bewusst sind. Dazu gehören vor allem große Konzerne, aber auch gelegentlich der gehobene Mittelstand. Die tatsächlich gelebte IT-Kultur der Ausfallsicherheit kann entscheidend zum Fortbestand eines Unternehmens beitragen. Sie ist wie eine Lebensversicherung: getragen vom Management und konsequent umgesetzt in der IT. Es geht um eine Disziplin zur Absicherung der Geschäftsabläufe, um extrem kritische Systeme wie etwa Enterprise-Datenbanken ausfallsicher zu gestalten. Es geht um Resilienz.

Resilienz in vier Stufen

Das Konzept der Resilienz bietet die heute maximal mögliche Sicherheit. Sie beschreibt die Fähigkeit eines Gesamtsystems, in zeitlich vertretbarer und effizienter Art und Weise Gefahren zu widerstehen und zu absorbieren, sich an Änderungen in der Gefahrenlage anzupassen und sich von deren Auswirkungen selbstständig zu erholen. Resilienz schafft eine Sicherheit, die manche Unternehmen tatsächlich anstreben (müssen). Denn Unterbrechungen im IT-Betrieb können manuell nur bis zu einer gewissen Systemgrenze gut gemanaged werden.

Je komplexer die IT ist und je mehr sie an den Systemgrenzen operiert, desto häufiger sind im Ernstfall Kaskadeneffekte zu erwarten, die mit traditionellen Bordmitteln nicht mehr beherrschbar sind. Ist dieses Potenzial in einem Unternehmen gegeben, ist die Resilienz die passende Antwort darauf. Das Konzept der Resilienz ist in vier Stufen definiert:

Die erste Stufe der Resilienz besteht darin, dass sich IT-Systeme von einem Ausfall weitgehend selbstständig erholen. Ein hoher Anspruch, der sich an einem Beispiel verdeutlichen lässt: Resilienz in der Stufe eins bedeutet, dass sich eine sehr große Datenbank nach einem Störfall eines Servers selbstständig erholt. Sind der fehlerhafte Server ausgetauscht und die Ursache der Störung behoben, werden die Ressourcen wieder auf alle verfügbaren Server sinnvoll verteilt, und die volle Performance wird wiederhergestellt – automatisch.

Die zweite Stufe der Resilienz handelt von der Absorption. Es geht darum, Störfälle automatisch abzufedern. Ein Beispiel: Fällt ein Hochleistungsserver aus, kann eine sehr große Datenbank auch von einem redundanten Server weiterhin ohne Performance-Einbußen bereitgestellt werden. Vielleicht sind Performance-Einbußen hinzunehmen, aber die Gefahr eines Totalausfalls wurde absorbiert – automatisch und streng nach Resilienz. Dadurch werden Systeme elastisch, flexibel und adaptiv.

In der dritten Stufe der Resilienz geht es ans Eingemachte, und zwar um die Beibehaltung der Funktionsfähigkeit auch am Rande der Systemgrenzen. In einer Grenzbelastung beispielsweise durch einen weitreichenden IT-Ausfall (50 Prozent und mehr) schaltet das System irrelevante Systeme automatisch ab oder fährt diese auf ein Minimum herunter, um die Aufrechterhaltung der wichtigsten Systeme im Kernbetrieb zu gewährleisten. Wo nicht-resiliente Konzepte zur Ausfallsicherheit schon lange komplett in sich zusammenfallen, sorgt die Resilienz auch bei massiven Störungen für eine möglichst minimale Beeinträchtigung der Betriebsprozesse.

Die vierte Stufe handelt von nachhaltiger Anpassungsfähigkeit der Systeme. Künstliche Intelligenz (KI) ist eine der neuen Technologien, die genau dafür sorgen. Fehler und Ausfallszenarien werden „gelernt“. Zwar kann ein Fehler einmal passieren. Jedoch ist nach dem Lernprozess durch die KI genau dieses Fehlerszenario ausgeschlossen. Und je intelligenter KI-Systeme werden, desto mehr kann Gelerntes auch auf andere Situationen adaptiert werden. Doch Resilienz in Stufe vier kann noch viel mehr: Sie sorgt dafür, dass die Systeme durch die Lerneffekte nicht nur ausfallsicherer sind, sondern sogar noch leistungsfähiger.

Fazit

Bis heute haben sich nur wenige hochspezialisierte Hersteller und noch weniger IT-Dienstleister auf Resilienz spezialisiert. Denn vor allem große Unternehmen oder Einrichtungen im Bereich kritische Infrastruktur können derzeit messbare Vorteile aus der Resilienz ziehen – sowohl technologisch als auch budgetär. Mittelfristig besteht jedoch ein hohes realistisches Potenzial, dass Resilienz zu einem Standard in sehr vielen Unternehmen werden kann.

Robert Meiners, Team Lead PreSales Germany bei MTI Technology.
Robert Meiners, Team Lead PreSales Germany bei MTI Technology.
(Bild: MTI Technology)

Erste Schritte sind getan, und wie bei vielen Prinzipien und Technologien in der Vergangenheit ist es eine kleine Gruppe, die sich neuen Möglichkeiten öffnet, bevor sie sich im Markt großflächiger ausbreitet. Nur wenige IT-Dienstleister sind heute in der Lage, Resilienz zu implementieren. MTI Technology ist der erste IT-Dienstleister in Europa, der sich der Resilienz im Rechenzentrum angenommen hat und Lösungen implementiert.

* Der Autor Robert Meiners ist Team Lead Presales Germany bei MTI Technology.

(ID:46855183)