Ohne belastbare und skalierbare Systeme laufen Unternehmen Gefahr, durch Ausfall- oder langsame Reaktionszeiten potenzielle Einnahmen und Kunden zu verlieren. Eine effiziente Lösung für den Aufbau stabiler Systeme ist Site Reliability Engineering (SRE), das bewährte Verfahren aus der Softwareentwicklung, dem Betrieb und der Systemverwaltung nutzt.
Agile Entwicklungspraktiken spielen eine entscheidende Rolle bei der Umsetzung von SRE.
SRE umfasst im Wesentlichen eine Reihe von Praktiken, die sich auf die Optimierung der Zuverlässigkeit von Diensten und Systemen konzentrieren. Dabei werden Software-Engineering-Prinzipien auf Infrastruktur- und Betriebsprobleme angewendet. SRE bietet einen Rahmen, damit digitale Systeme auch bei hoher Nutzung und Spitzenbedarf stabil und zuverlässig arbeiten.
Konkret geht es darum, die Systemleistung zu überwachen, Fehlern aktiv vorzubeugen, die Arbeit zu automatisieren, schnell auf Probleme zu reagieren, wenn diese auftreten sowie regelmäßig potenzielle Schwachstellen in bestehenden Systemen zu bewerten.
Zudem ist SRE auch kosteneffizient. Denn durch die Automatisierung bestimmter Prozesse und die Verbesserung ihrer Zuverlässigkeit können Unternehmen die mit Systemausfällen verbundenen kostspieligen Ausfallzeiten vermeiden. Der manuelle Aufwand reduziert sich, so dass Unternehmen ihre Ressourcen für höherwertige Aktivitäten wie die Produktentwicklung einsetzen können.
Allerdings erfordert SRE ein hohes Maß an technischem Wissen und ausgefeilten Tools, über die nicht jedes Unternehmen verfügt. Darüber hinaus fällt es vielen Organisationen schwer, eine Kultur zu schaffen und Prozesse aufzusetzen, die eine effektive Integration von SRE in ihre bestehenden Systeme und Abläufe ermöglicht. So wird das Change Management zu einem kritischen Erfolgsfaktor bei der SRE-Transformation.
Nachfolgende Best Practices sollten Unternehmen berücksichtigen, damit SRE dem Unternehmen den größten Mehrwert bietet:
Anwendung von Techniken zur Förderung der Resilienz
SRE-Teams müssen die Ausfallsicherheit bei der Konzeption und Architektur ihrer Systeme berücksichtigen. Sie sollten klare Service-Level-Ziele (SLOs) festlegen, die die Ziele für die Serviceverfügbarkeit und -leistung definieren. Service-Level-Indikatoren (SLIs), die einen Einblick in die Systemleistung nahezu in Echtzeit ermöglichen, können diese verfolgen.
Die Teams legen dann Leistungskennzahlen (Key Performance Indicators, KPIs) fest, die mit den Geschäftszielen übereinstimmen. Diese Metriken sollten regelmäßig überprüft werden, um sicherzustellen, dass sie relevant und effektiv bleiben.
Die Implementierung schneller, automatisierter Rollbacks kann dazu beitragen, den Schaden zu begrenzen, der durch fehlgeschlagene Bereitstellung entsteht. Darüber hinaus wird durch die Entkopplung von Systemen und Diensten gewährleistet, dass ein Systemausfall nicht auf abhängige Systeme übergreift. Teams können auch Chaos-Engineering-Techniken einsetzen, um die Widerstandsfähigkeit ihrer Systeme zu testen. Indem sie kontrollierte Ausfälle in das System einführen und dessen Reaktion bewerten, lassen sich proaktiv Schwachstellen erkennen und die Widerstandsfähigkeit verbessern.
Potenziellen Problemen zuvorkommen und sie verhindern
Eine weitere wichtige SRE-Praxis besteht darin, potenzielle Probleme zeitnah zu erkennen und zu lösen, bevor sie auftreten. Dies wird durch kontinuierliche Beobachtung von Systemen und Anwendungen, proaktive Tests und die Reduzierung des manuellen Aufwands durch Automatisierungswerkzeuge möglich. SRE-Teams arbeiten auch eng mit den Entwicklungsteams zusammen, um potenzielle Probleme in der Entwicklungsphase zu erkennen und sie zu beseitigen, bevor sie zu tatsächlichen Problemen werden.
Agile Development nutzen
Agile Entwicklungspraktiken wie DevOps spielen eine entscheidende Rolle bei der Umsetzung von SRE. DevOps-Teams arbeiten abteilungsübergreifend zusammen, vereinfachen den Softwareentwicklungsprozess und verkürzen die Zeit, die für die Bereitstellung von Funktionen benötigt wird.
Bei der Implementierung von Continuous Delivery und Deployment müssen die Teams sicherstellen, dass die Ausfallsicherheit des Systems nicht leidet. Die Verwendung von Canary Deployment, phasenweise Rollouts und Blue/Green-Deployment-Strategien können dazu beitragen, die Risiken abzuschwächen, die mit der kontinuierlichen Bereitstellung verbunden sind.
Bereit sein, auf Vorfälle zu reagieren
Unternehmen müssen Playbooks und Prozesse für die Reaktion auf Vorfälle entwickeln, die Abhilfemaßnahmen vorschreiben, wenn ein Vorfall eintritt. Die SRE-Teams sollten darin entsprechend geschult werden. Zudem helfen regelmäßige Übungen, um sicherzustellen, dass sie auf jeden Vorfall, der auftreten kann, vorbereitet sind.
Nach einem Vorfall sollten Überprüfungen ohne Schuldzuweisung folgen, um die Ursachen zu ermitteln, Pläne für Abhilfemaßnahmen zu entwickeln und letztendlich die Widerstandsfähigkeit zu verbessern. Die Überprüfung von Vorfällen liefert wertvolle Erkenntnisse über Systemschwächen, die die Teams nutzen können, um das System kontinuierlich zu verbessern.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Kontinuierliches Monitoring und Bewertung von Änderungen
SRE-Teams sollten die Auswirkungen von Änderungen am System kontinuierlich bewerten. Zudem sollten sie Maßnahmen ergreifen, um das Risiko potenzieller Probleme zu verringern, die durch solche Änderungen entstehen können. Kontinuierliche Tests von Änderungen und die Überwachung der Systemleistung sowie Metriken tragen dazu bei, potenzielle Probleme frühzeitig zu erkennen und das Risiko von Ausfällen zu reduzieren.
Die neuesten Trends im Blick halten
Schließlich sollten Unternehmen die neuesten Trends im Bereich SRE im Auge behalten. Dazu gehören der verstärkte Einsatz von künstlicher Intelligenz für die automatisierte Überwachung und Analyse, Cloud-native Entwicklungspraktiken und DevOps-Ansätze, die die Zusammenarbeit zwischen Softwareentwicklern und Betriebsteams priorisieren. Indem sie mit diesen neuen Technologien auf dem Laufenden bleiben, stellen Unternehmen sicher, dass ihre Systeme auch unter hohen Stressszenarien belastbar bleiben.
Insgesamt ist SRE ein leistungsfähiges Tool, das Unternehmen bei der Entwicklung zuverlässiger digitaler Systeme und Dienste unterstützt. Wenn man sich die Zeit nimmt, die Vorteile und aufkommende Trends zu verstehen, können Unternehmen ihre Ausfallsicherheit maximieren und Kosten und Unterbrechungen zu minimieren.
* Alok Uniyal ist Vice President & Leiter der IT Process Consulting Practice bei Infosys. Er ist spezialisiert auf die Unterstützung von Unternehmen bei der Einführung neuer Arbeitsweisen durch den Einsatz von Lean, Agile, DevSecOps, SRE und bei der Umstellung auf kundenzentrierte, produktgeführte Betriebsmodelle. Er leitet auch die Agile & DevSecOps Transformation innerhalb von Infosys.