Nicht jede Herausforderung, der Software und verteilte Systeme sich stellen müssen, lässt sich unbedingt vorhersagen. Doch mit Chaos Engineering können Probleme gezielt getestet werden. Das Resultat ist im Ernstfall ein verlässlicheres System.
Etliche Chaos-Engineering-Tools basieren auf der Idee des IT-Spezialisten Antonio Garcia Martinez, dass Affen eine Software nutzen und Fehler provzieren.
In der Softwarentwicklung liegt großes Augenmerk darauf, verlässliche, sichere und zuverlässige Systeme zu entwickeln. Im Englischen geht damit der Begriff „resiliency“ einher, zu Deutsch Elastizität, Belastbarkeit oder Robustheit.Mit Unit- und Integrationstest arbeiten Developer an der Zuverlässigkeit ihrer Software, doch in reellen Szenarien verteilter Systeme kommen diese Methoden an ihre Grenzen.
Moderne Systeme weisen so viele Komponenten und Komplexitäten auf, dass diese sich mit regulären Entwicklungsmethoden kaum mehr abdecken lassen. Chaos Engineering geht einen anderen Weg: Es wird gezielt versucht, das System kaputtzumachen und Fehler herbei zu führen, um festzustellen, wie die Systeme in unerwarteten Situationen reagieren.
Chaos Engineering – die digitale Chaostheorie mit dem prominenten Schirmherren
Die Technik des Chaos Engineering wurde in den vergangenen Jahren vor allem vom US-amerikanischen Streaming-Dienst Netflix voran getrieben. Auch wenn Netflix nicht derart mit digitalem Fortschritt assoziiert wird wie Apple oder Microsoft, besitzt das Unternehmen eine gigantische digitale Infrastruktur und legt entsprechenden Wert darauf, dass diese fehlerfrei funktioniert.
Chaos Engineering liefert dabei ein Entwicklungsmodell, in dem unerwartete Szenarien getestet werden und Software ganz gezielt an ihre Grenzen und darüber hinaus getrieben wird. In zeitgemäßen Systemen befindet sich eine für Entwickler unüberschaubare und wachsende Komplexität, die jederzeit unberechenbare Probleme aufrufen kann.
Dem liegt auch ein Umdenken zugrunde, weg vom Development-Modell, in dem keine Zusammenbrüche die Normalität sind, hin zum Denken, dass ein Crash unvermeidbar ist. Durch die Technik des Chaos Engineering können gezielter redundante Systeme geschaffen werden, so dass die Endkunden von Fehlern nicht mehr betroffen sind.
An einem einfachen Beispiel erklärt: Ein System ist für eine gewisse Maximalzahl an Abrufen pro Sekunde gebaut worden. Wie reagiert dieses System, wenn die Maximalzahl erreicht und überschritten wird? Wie reagiert welcher Teil der Software an welchen Punkten? Dabei müssen nicht alle getesteten Szenarien alltagsorientiert sein, ein spannender Teil des Chaos Engineering ist die Entwicklung hypothetischer Szenarien.
Wie funktioniert Chaos Engineering in der Praxis?
Ganz grob umrissen basiert der Prozess des Chaos Engineering auf dem Experimentieren mit den Grenzen einer Software. Hierzu wird zunächst ein stabiler Zustand definiert, in dem ein System als normal definiert arbeitet. Mittels einer Kontrollgruppe wird sichergestellt, dass es das chaotische Szenario ist, was das System beeinflusst, die Kontrollgruppe arbeitet außerhalb dieses Testszenarios weiter.
In das Testszenario werden nun Problemstellungen eingeführt (Servercrashs, defekte Festplatten, Ausfälle, Überlastungsszenarien). Dabei geht es im Chaos Engineering vor allem darum, den Umgang mit diesen Problemstellungen zu testen. Wie lassen sich die Grenzen eines Systems erweitern? Welche Redundanzen sind notwendig, um den bestehenden Service lauffähig zu halten? Und wie können gegebene Schwächen ausgemerzt werden?
Um mehr Vertrauen in ein System zu gewinnen, ist es essentiell, Fehler zu begrenzen und die stabile Systemzustände so weit wie möglich aufrecht zu erhalten. Gerade deswegen ist es unerlässlich, Systeme kritischen Tests auszusetzen und gezielt Fehler herbei zu führen.
Simian Army – ein Softwarebeispiel für Chaos Engineering
Um diese Tests in der Praxis durchzuführen, setzt Netflix auf die Software Simian Army. Diese Fehler-Suite simuliert (in den Worten des IT-Technikers Antonio Garcia Martinez im Buch „Chaos Monkeys“) eine Situation, in der Affen die Software nutzen und diverse Fehler herbei führen. Entsprechende Namen tragen verschiedene Testing-Tools.
Chaos Gorilla etwa deaktiviert eine gesamte Verfügbarkeitszone in der Server-Infrastruktur, Chaos Kong deaktiviert sogar eine gesamte Region in der AWS-Infrastruktur von Amazon. Byte Monkey testet Fehlerquellen im Java-Code von JVM-Anwendungen und Latency Monkey testet Verzögerungen in der Kommunikation wie sie etwa bei Netzwerkausfällen auftreten.
Die Komplexität dieser herbeigeführten Fehler zeigt bereits in den erwähnten Auszügen, wie großflächig Fehler in verteilten Systemen auftreten können. Neben Simian Army kommen auch Tools wie SIMOORG (Open Source) oder Monkey Ops (in Go implementierte Software) hierbei zum Einsatz.
Dabei bemerkt der Endkunde natürlich nichts von der Komplexität, die selbst kleinsten Operationen zugrunde liegt und soll diese auch nicht bemerken. Ausfall bedeutet für Unternehmen immer einen potentiellen Umsatzverlust und Chaos Engineering ist nur eine Methode, um Ausfälle unwahrscheinlicher zu machen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Chaos Engineering sichert dies in der Praxis ab liefert im Resultat fehlertolerantere Software und zufriedenere Kunden. Für IT-Developer bietet Chaos Engineering zudem eine reizvolle Methode, auch jenseits der Softwareentwicklung mal realistische, mal skurrile Fehlerszenarien zu testen. Dies verwischt die Grenze zwischen Softwareentwicklung und Qualitätssicherung, um mehr Stabilität und Resilienz zu kreieren.