Site Reliability Engineering oder kurz SRE ist ein von. Google entwickeltes Service-Management-Modell. Entwicklung und Betrieb großer verteilter Systeme werden dabei eng gekoppelt. Die Regelungsprozesse stellen eine Konkretisierung der DevOps-Philosophie dar.
Beim Site Reliability Engineering umfasst das Development-Team zusätzlich Mitglieder, die auch über einen Operations-Hintergrund verfügen.
Site Reliability Engineers schlagen eine Brücke zwischen Entwicklung und Betrieb, indem sie bei Themen der Systemadministration eine softwaretechnische Denkweise anwenden. Sie teilen ihre Arbeit gleichmäßig zwischen Betriebs- und Entwicklungsaufgaben auf. Der ideale Kandidat für einen SRE-Posten ist folglich entweder ein Software-Ingenieur mit einem belastungsfähigen Hintergrund als Administrator oder ein hoch qualifizierter Systemadministrator mit Erfahrung in Programmierung und Automatisierung.
SRE-Mitarbeiter untersuchen im Betrieb die Belastbarkeit und Schwachstellen der Systeme, um Optimierungs- und Skalierungsmöglichkeiten ausfindig zu machen. Daneben steht mit gleicher Priorität die Suche nach Lösungen, die Handhabung der Systeme zu vereinfachen. Erfahrungen im Betrieb großer IT-Infrastrukturen fließen so direkt in die Weiterentwicklung der Strukturen.
Zu dem Konzept gehört, dass SREs nicht mehr als die Hälfte ihrer Zeit für den Betrieb aufwenden. Eine Verletzung dieser Regel wird als Zeichen für eine mangelhafte Umsetzung angesehen.
Herkunft
Das SRE-Konzept wurde erfolgreich und bekannt durch die Firma Google, die es lange kultivierte, bevor das Unternehmen die Prinzipien öffentlich machte. Es hat dieselben Ziele der Prozessverbesserung wie die DevOps-Philosophie. DevOps wurde um 2008 herum geprägt und steht für eine Unternehmenskultur teamübergreifender Zusammenarbeit. Alle Instanzen sollen mit der gleichen Vision in Einklang gebracht, es soll gemeinsame Verantwortung zum Gelingen etabliert werden.
SRE und DevOps
Vor der Verbreitung von DevOps arbeiteten die Entwicklungs- und Betriebsteams unabhängig mit jeweils eigenen Zielen und Vorgaben. Um besser zu kommunizieren und reibungsloser zusammzuarbeiten, avancierten DevOps-Teams zu den wichtigsten in jedem Unternehmen.
DevOps und SRE dienen gleichermaßen dazu, die Kluft zwischen Softwareentwicklung und Softwarebetrieb zu verringern, mit dem Ziel, den Release-Zyklus bei komplexen verteilten Systemen zu verbessern. Das DevOps-Konzept definiert, wie die Ergebnisse aussehen sollten; es steht für einen kulturellen Wandel innerhalb eines Unternehmens. Bei SRE geht es darum, den theoretischen DevOps-Ansatz mit passenden Methoden und Werkzeugen als Arbeitsablauf zu gestalten.
SRE umfasst dabei die fortwährende Automatisierung manueller Aufgaben und die kontinuierliche Integration (Continuous Integration) und Auslieferung (Continuous Delivery). SREs übernehmen die Verantwortung für Betriebszuverlässigkeit und Automatisierung während des gesamten Infrastruktur-Lebenszyklus, überwachen Bereitstellung und Betrieb der Releases.
Die 5 Grundprinzipien der DevOps-Philosophie und ihre Umsetzung durch SRE
1. Organisatorische Silos abbauen
Große Unternehmen haben eine komplexe Organisationsstruktur mit einer Vielzahl von Teams, die häufig getrennt in "Silos" arbeiten. Jedes Team hat eine andere Sicht auf das Ganze, was Ineffizienz begünstigt. Die Aufgabe von DevOps und SREs ist es, die Teams untereinander besser auf die übergeordneten Ziele und auf eine gemeinsame Vision hin abzustimmen.
2. Fehlschläge als zum Prozess gehörig ansehen
DevOps geht davon aus, dass Fehlschläge zum Prozess gehören und hilfreich sind, um daraus zu lernen. SREs stellen sicher, dass es nicht zu viele Fehlschläge oder Ausfälle gibt. Dazu nutzen sie Formeln, um Misserfolge mit der Herausgabe neuer Versionen abzuwägen: Service-Level-Indikatoren (SLIs) und Service-Level-Ziele (SLOs). SLIs messen Ausfälle über die Zeit. Ein SLO ist eine Vereinbarung innerhalb eines Service-Level-Agreements über eine bestimmte Metrik wie Betriebszeit oder Reaktionszeit, die einzuhalten ist.
Aus der SRE-Perspektive ist eine klare Übereinkunft zwischen der Business- und der IT-Ebene erforderlich, um optimale Ziele für Service-Level-Ziele und Service-Level-Indikatoren festzulegen. Jede Verletzung führt dazu, die Ziele neu zu bewerten und zu optimieren.
Die SRE-Richtlinien ermutigen zu radikalen Veränderungen innerhalb bestimmter Grenzen. SREs verfügen über ein Risikobudget, um diese Grenzen zu testen und so potenziell schneller innovativ zu sein. SRE quantifiziert dieses akzeptable Risiko als "Fehlerbudget". Wenn die Fehlerbudgets erschöpft sind, verlagert sich der Schwerpunkt von der Entwicklung auf die Verbesserung der Zuverlässigkeit. Verfügbarkeit und Weiterentwicklung werden so ausbalanciert.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
3. Änderungen in schnellen kleinen Schritten umsetzen
Wie DevOps fördert SRE die kontinuierliche Verbesserung durch kleine und häufige Entwicklungsschritte. Bei kurzen Iterationszyklen sind etwaige negative Auswirkungen weniger gravierend, und risikoarme Verbesserungen können leicht (möglichst automatisiert) getestet und umgesetzt werden.
4. Gemeinsame Werkzeuge und Automatisierung nutzen
Inkompatibilitäts- und Integrationsprobleme zwischen Technologien verschiedener Anbieter, Epochen und Anwendungsfällen können selbst in einer DevOps-Umgebung Silos schaffen. SRE führt einheitliche Technologien und übergreifenden Informationszugriff in den verschiedenen IT-Teams ein. SRE fordert, dass alle Teams, die am gleichen Service arbeiten, die gleichen Technologien einsetzen.
SRE verfolgt den Grundsatz, manuelle Aufgaben zu automatisieren, die repetitiv und reaktiv sind und keine dauerhafte Verbesserung bringen. Die Automatisierung soll Kapazitäten freimachen für Arbeit, die langfristigen Nutzen bringt.
5. Reliability auf Messdaten gründen
Die Evaluierung geeigneter Ziele für Reliability (Zuverlässigkeit) ist für DevOps und SREs eine kontextbezogene Herausforderung. SREs stellen sicher, dass sich alle Ebenen im Unternehmen darüber einig sind, wie die Zuverlässigkeit zu messen ist und was zu tun ist, wenn der Wert nicht den Vorgaben entspricht.
Die DevOps-Schlüsselmetriken sind die Anzahl der Deployments in der Zeit, die Vorlaufzeit von der Zusage bis zur Freigabe, die Anzahl der fehlgeschlagenen Deployments und die benötigte Wiederherstellungszeit.
Die Grundlagen für SRE sind das Service-Level-Ziel (SLO) und der Service-Level-Indikator (SLI). SREs verwenden diese Metriken, um zu bestimmen, ob ein Release mit einer Änderung in Betrieb gehen wird oder nicht.