Selbstorganisierende Teams sind raus Nachhaltigkeit und Obser­va­bility als DevOps-Zufall - ein No-Go

Ein Gastbeitrag von Wilco Burggraaf* 9 min Lesedauer

Im digitalen Betriebsmodell von heute rücken zwei technisch nuancierte Themen in den Fokus der Geschäftsführung: Nachhaltigkeit und Observability. Einst als Domäne von technischen Spezialisten oder optionalen Erweiterungen betrachtet, sind sie heute von zentraler Bedeutung für die betriebliche Effizienz, die finanzielle Kontrolle und die langfristige Systemstabilität.

Wie können DevOps-Teams blinde Flecken vermeiden? Wie halten sie es mit der Nachhaltigkeit und Observability? (Bild:  Tanya - stock.adobe.com - KI-generiert)
Wie können DevOps-Teams blinde Flecken vermeiden? Wie halten sie es mit der Nachhaltigkeit und Observability?
(Bild: Tanya - stock.adobe.com - KI-generiert)

Trotz dieses Bedeutungswandels werden sie von vielen Unternehmen weiterhin als neu entstehende Eigenschaften behandelt. Es besteht merkwürdigerweise implizit Annahme, dass sich diese Fähigkeiten auf natürliche Weise entwickeln werden, wenn die Teams nur ausreichend motiviert, autonom oder agil sind. In der Praxis jedoch sind die Ergebnisse ungleichmäßig, die betriebliche Verschwendung nimmt zu und die Ausrichtung auf die geschäftlichen Prioritäten beginnt zu erodieren, wenn Nachhaltigkeit und Beobachtbarkeit den sich selbst organisierenden Teams überlassen werden.

Eigentlich ist das Ideal der Selbstorganisation von ansprechender Einfachheit. Die Teams entscheiden. Die besten Praktiken verbreiten sich organisch. Die Kultur soll das Verhalten steuern. Aber wenn es um systemweite Belange wie Infrastruktureffizienz, Telemetrie, Kostenbewusstsein und Wartungsfreundlichkeit geht, ist dieser Ansatz nicht skalierbar.

Er führt zu isolierten Spitzenleistungen, die von weit verbreiteter Ineffizienz umgeben sind. Die Teams arbeiten schnell zwar, aber oft in unterschiedliche Richtungen. Nachhaltigkeit und Observability erfordern ebenso wie Sicherheit und Konformität eine Struktur, Instrumentierung und aktive Verstärkung. Andernfalls müssen selbst sehr fähige Teams im Dunkeln improvisieren.

Wenn Autonomie auf blinde Flecken trifft

In jeder großen Organisation gibt es ein paar aus dem Alltäglichen ausgenommene Teams. Diese Teams optimieren ihre Bereitstellungen, schneiden toten Code ab, überwachen die tatsächliche Nutzung und verbessern die Systemstabilität mit minimaler Zeremonie. Sie verwalten mehr als nur Funktionen. Sie verwalten den Lebenszyklus, die Abhängigkeiten und die Auswirkungen auf das Geschäft.

Sie sind nicht immer finanziell oder personell besser ausgestattet. Sie sind einfach besser ausgerichtet. Ihre Führungskräfte verstehen, wie sich Architektur und Betrieb mit den Ergebnissen überschneiden.

Der Rest der Organisation ist nicht unvorsichtig. Sie sind beschäftigt.

Andere Teams arbeiten unter Lieferdruck. Ihre Leistung wird an der Geschwindigkeit der Funktionen gemessen, nicht an der Verschwendung von Infrastruktur. Ohne gemeinsame Signale oder klare Anreize haben sie wenig Grund, sich zu fragen, was ihre Änderungen in der Ausführung, Wartung oder Überwachung kosten werden. Und so kopieren sie Muster.

Sie übernehmen Protokollierungsvorgaben, Bereitstellungsvorlagen und Observability-Dashboards, die für den jeweiligen Dienst geeignet sein können oder auch nicht. Sie schreiten voran, ohne die Komplexität, die sie erben oder schaffen, vollständig zu überblicken.

Dies führt zu einer stillen Erosion. Die Dienste sind überdimensioniert, aber unzureichend instrumentiert. Protokolle sind umfangreich, werden aber selten analysiert. Pipelines werden bei Commits, die nichts Wesentliches ändern, automatisch neu aufgebaut. Diese Teams arbeiten hart, aber nicht immer im Einklang mit dem System. Ihre Optimierungen sind lokal.

Die Ineffizienzen sind global. Dies ist keine Frage der Absicht. Es ist eine Frage der Architektur und der Unterstützung. Ohne Struktur wird Autonomie zu Fragmentierung. Und Nachhaltigkeit wird unsichtbar, bis die Rechnung eintrifft.

Was bedeutet Nachhaltigkeit bei DevOps?

Nachhaltigkeit bei DevOps wird oft missverstanden. Es geht nicht nur um die Verringerung der Kohlendioxidemissionen oder die Optimierung für Green Computing. Diese Ziele sind wichtig, aber sie sind Teil eines viel umfassenderen betrieblichen Anliegens. Nachhaltigkeit bedeutet im Kern die Vermeidung von Anfälligkeit. Es bedeutet, Systeme aufzubauen, die effizient und wartbar sind und sich an langfristigen Werten orientieren.

Dazu gehören die richtige Dimensionierung der Infrastruktur, die Verringerung der Häufigkeit und der Kosten unnötiger Neubauten und die Ermittlung der Stellen, an denen die Bereitstellungspraktiken zu laufenden Gemeinkosten führen. Es bedeutet, die (Folge-)Kosten pro Funktion zu kontrollieren, und zwar nicht als theoretische Metrik, sondern als praktische Möglichkeit, die Architektur auf den Wert auszurichten.

Es geht darum, das Anwachsen der technischen Schulden zu begrenzen, die Zuverlässigkeit von Vorfällen zu verbessern und die stille Ausbreitung von nicht oder zu wenig genutzten Funktionen zu verhindern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
Toter Code sind nicht nur die Zeilen, die niemand aufruft.

Es ist der selten getestete Fallback. Der Endpunkt ohne Datenverkehr. Das Dashboard, das niemandem dient, aber an Betriebszeit-SLAs gebunden bleibt. All dies trägt zu einer Verzögerung des Betriebs bei. Wenn sie unbemerkt bleiben, werden die Systeme schwerfälliger, anfälliger und reagieren weniger schnell auf Veränderungen.

Nachhaltige Systeme altern gut. Sie sind standardmäßig beobachtbar, können schmerzlos getestet werden und sind flexibel, wenn das Unternehmen seine Richtung ändert. Nachhaltigkeit ist kein passiver Zustand. Sie ist das Ergebnis von Disziplin und Struktur.

Warum 'Bewusstsein' nicht funktioniert

Viele Unternehmen reagieren auf Lücken in der Nachhaltigkeit oder Beobachtbarkeit mit Sensibilisierungskampagnen. Sie erstellen Präsentationen. Sie verbreiten bewährte Verfahren. Sie fordern die Teams auf, mehr auf Cloud-Kosten zu achten oder Ressourcen zu kennzeichnen. Diese Bemühungen sind gut gemeint, aber unzureichend.

Bewusstseinsbildung führt nicht zu Verhaltensänderungen in großem Umfang. Die Struktur schon. Wenn ein Team hört, es solle sich mehr kümmern", aber keine Werkzeuge, keine Messgrößen und keine Verbindung zu seiner Arbeit sieht, führt dies zu Schuldgefühlen ohne Anleitung. Der Druck, sich zu kümmern, führt zu einer kognitiven Überlastung. Die Bereitstellung von Funktionen wird wieder aufgenommen, und die Nachhaltigkeitsagenda verblasst.

Vorbild Security: Unternehmen verlangen von ihren Teams nicht, dass sie sich alles merken. Sie automatisieren Schwachstellen-Scans. Sie erzwingen Linting. Sie definieren sichere Standardeinstellungen. Sie behandeln das Risiko als ein technisches und verfahrenstechnisches Problem, nicht nur als ein menschliches. Und weil sie die Sicherheit operationalisieren, sehen sie auch Ergebnisse. Nachhaltigkeit und Observability müssen auf die gleiche Weise behandelt werden. Sie erfordern Infrastrukturunterstützung, CI/CD-Integration und ausdrückliche Verstärkung.

Darauf zu hoffen, dass die Teams sich selbst Prioritäten setzen, die nicht gemessen werden, ist keine Befähigung. Es ist ein Verzicht.

Fürsorge muss durch Kontext und Fähigkeiten unterstützt werden. Andernfalls ist die Last ungleichmäßig verteilt und wird kaum aufrechterhalten.

Ein Zwei-Ebenen-Modell für erzwungene Nachhaltigkeit

Um vom Ziel zur Umsetzung zu gelangen, benötigen Organisationen ein Modell, das die Autonomie respektiert und gleichzeitig für Konsistenz sorgt. Eine zweischichtige Struktur hilft den Teams, ihre Absichten mit messbaren Ergebnissen in Einklang zu bringen.

Die erste Ebene ist in der CI/CD-Pipeline angesiedelt, wo statische Analysen und Integrationsprüfungen als Frühindikatoren für Ineffizienz dienen. Diese Prüfungen zeigen Muster wie überdimensionierte Konfigurationen, fest kodierte Umgebungsvariablen, ausführliche Protokollierungsvorgaben oder ressourcenintensive Logik, die sich nur schlecht mit der Nachfrage skalieren lässt.

Die statische Analyse allein liefert jedoch ein unvollständiges Bild. Um effektiv zu sein, muss sie mit Laufzeittelemetrie aus Test- und Staging-Umgebungen kombiniert werden. So wird beispielsweise ein potenzielles Speicherproblem, das bei statischen Prüfungen festgestellt wird, glaubwürdiger, wenn die Telemetrie eine hohe Speichernutzung bei Integrationstests bestätigt.

Ebenso lassen sich Warnungen vor übermäßiger Protokollierung leichter priorisieren, wenn die Laufzeitdaten die messbaren Auswirkungen auf die E/A- oder CPU-Nutzung zeigen. Diese Kombination aus statischer Erkennung und Feedback aus der Praxis macht die Erkenntnisse umsetzbar. Außerdem verlagert sich die Rolle des Tools von der Durchsetzung zur Befähigung, indem es den Teams hilft, zu lernen und sich zu verbessern, anstatt einfach eine Prüfung zu bestehen oder nicht zu bestehen.

Die erste Ebene bestht aus aus statischer Erkennung und Feedback aus der Praxis. Die zweite ist Validierung.(Bild:  © Dmitriy K. - stock.adobe.com - KI-generiert)
Die erste Ebene bestht aus aus statischer Erkennung und Feedback aus der Praxis. Die zweite ist Validierung.
(Bild: © Dmitriy K. - stock.adobe.com - KI-generiert)

Die zweite Ebene validiert, was in der Produktion geschieht. Hier messen Observability-Tools, ob die beabsichtigten Verbesserungen auch tatsächlich eintreten. Sie zeigen, ob eine Änderung den Speicherverbrauch reduziert, die Reaktionszeit verbessert oder die Fehlerquote bei der Bereitstellung verringert hat. Diese Laufzeitsignale liefern den Kontext. Sie schließen den Kreis zwischen Theorie und Ergebnis.

Das Wichtigste ist, dass diese Metriken mit den Geschäftsergebnissen in Verbindung stehen. Reduzieren wir die Kosten für die Bereitstellung neuer Funktionen? Erfolgt die Bereitstellung schneller und mit weniger Rollbacks? Verbessern die Teams ihre Systeme in einer Weise, die den Kunden und dem Unternehmen hilft?

Wenn die Entwicklungsteams sehen, dass ihre Bemühungen zu echten Verbesserungen führen, hört die Nachhaltigkeit auf, abstrakt zu sein. Sie wird zu einer Quelle des Stolzes und zu einem Druckmittel.

Aufbau eines institutionellen Gedächtnisses durch Handeln

Sobald diese Praktiken eingeführt sind, wächst ihr Nutzen. Die Teams beginnen zu erkennen, was funktioniert. Es bilden sich Muster heraus. Metriken sammeln sich an. Und mit der Zeit lernt das System.

Dies schafft die Möglichkeit zur Automatisierung. Die Dimensionierung der Infrastruktur kann auf der Grundlage der Nutzungshistorie vorhergesagt werden. Ineffiziente Codepfade können vor der Bereitstellung hervorgehoben werden. Funktionen mit geringem Engagement und hohen Kosten lassen sich für eine Stilllegung markieren.

Dies ist jedoch nur möglich, wenn die Organisation die Grundlagenarbeit geleistet hat. Sie muss Rückkopplungsschleifen schaffen. Es muss die manuelle Disziplin unterstützen, bevor es die Automatisierung aufbaut. Ohne dies wird kein KI-Modell oder Dashboard verwertbare Erkenntnisse liefern. Daten ohne Kontext sind Rauschen. Und Automatisierung ohne eine Basislinie ist reine Spekulation.

Neue Definitionen sind gefragt

Wenn Teams diese Feedback-Mechanismen verinnerlichen, lässt der Druck nach. Effizienz wird zum Standard. Entscheidungen werden datengesteuert. Eigenständigkeit wird sicherer. Und Best Practices verbreiten sich nicht durch Memos, sondern durch die tägliche Interaktion mit Tools und Ergebnissen.

Was jetzt zu tun ist

Die Führungsebene muss damit beginnen, Nachhaltigkeit und Monitoring/Observability neu zu definieren. Sie sind kein kulturelles Beiwerk. Sie sind operative Anforderungen. Sie wirken sich auf Gewinnspannen, Produkterfahrung und langfristige Lieferfähigkeit aus. Sie müssen mit der gleichen Ernsthaftigkeit behandelt werden wie die Betriebszeit oder die Reaktion auf Störungen.

Das muss sein

Die Unternehmen müssen die Teams mit den entsprechenden Werkzeugen ausstatten, damit sie handeln können. CI/CD-Pipelines müssen Standards für Effizienz und Observability durchsetzen. Produktionsumgebungen müssen die Ergebnisse validieren. Die Teams müssen nicht nur das "Was" sehen, sondern auch das "Warum". Und sie müssen wissen, dass der Erfolg nicht nur an den gelieferten Funktionen gemessen wird, sondern auch an der Qualität und den Kosten dessen, was in der Produktion läuft.

Auch die Governance muss sich weiterentwickeln. Sie darf nicht reaktiv oder hinderlich sein. Sie muss leiten, unterstützen und befähigen. Sie muss die Grenzen festlegen, innerhalb derer die Teams vertrauensvoll arbeiten können. Und sie muss für alle Teams die gleiche Messlatte anlegen, nicht nur für die Teams mit den erfahrensten Ingenieuren.

Schließlich müssen sich die Unternehmen zum Handeln verpflichten. Das Reden über Nachhaltigkeit wird den Kohlenstoffausstoß nicht verringern. Ein Posting über Beobachtbarkeit wird keine Ausfallzeiten verhindern. Nur die Umsetzung schafft Veränderungen. Und nur durch Wiederholung werden Fähigkeiten aufgebaut.

Hebelwirkungen

Bei dieser Arbeit ist jede Verbesserung wichtig. Jede Kennzahl, die verfolgt wird, jedes verschwenderische Muster, das angezeigt wird, jede nicht ausreichend genutzte Funktion, die nicht mehr eingesetzt wird - all diese Schritte schaffen eine Hebelwirkung. Sie setzen Kapazitäten frei, verringern die Betriebsschulden und bringen die Teams näher an das Unternehmen heran. Mit der Zeit wird das System besser. Und das Unternehmen gewinnt an Einblick, Kontrolle und Vertrauen.

Die Zukunft wird nicht allein auf Überzeugungen aufgebaut. Sie wird von Teams gestaltet werden, die handeln, lernen und sich verbessern. Durch Plattformen, die Orientierung und Unterstützung bieten. Und durch eine Führung, die versteht, dass Spitzenleistungen kein Zufall sind. Sie wird entwickelt, durchgesetzt und weitergegeben.

Auf diese Weise wird Nachhaltigkeit zum Standard. So hört die Beobachtbarkeit auf, eine reaktive Last zu sein, und wird zu einem proaktiven Vorteil.

*Der Autor
Wilco Burggraaf ist als Principal Lead of Green Software Engineering bei HighTech Innovators tätig. Dort setzt er sich mit Leidenschaft für Softwarepraktiken ein, die echte Auswirkungen haben. Er selbst sagt dazu: „Der Schwerpunkt meiner Arbeit liegt auf extremer Softwareleistung und der Entwicklung intelligenter, effizienter und umweltfreundlicher Systeme. Für mich geht es bei Innovationen nicht nur darum, Grenzen zu überschreiten - es geht darum, dies verantwortungsvoll zu tun und sicherzustellen, dass die Technologie zu einer nachhaltigeren Zukunft beiträgt.“
Seit Fazit lautet: „Und so entstehen selbstoptimierende Silos - nicht durch Zufall, sondern durch Struktur.“

Bildquelle: HighTech Innovators

Und so entstehen selbstoptimierende Silos, nicht durch Zufall, sondern durch Struktur.

(ID:50469237)