Wenn der Service streikt Wie sich SaaS-Ausfallzeiten professionell bewältigen lassen

Von Mandi Walls* 6 min Lesedauer

Anbieter zum Thema

Organisationen nutzen Software as a Service (SaaS) vor allem, um den Betrieb zu rationalisieren und ihre Produktivität zu steigern. Allerdings sind mit SaaS auch neue Abhängigkeiten und Risiken verbunden. Eine definierte Strategie und ein produktiver Ansatz helfen beim effektiven Umgang mit Ausfallzeiten.

Auch Software as a Service kann streiken.(Bild:  frei lizenziert: Gerd Altmann /  Pixabay)
Auch Software as a Service kann streiken.
(Bild: frei lizenziert: Gerd Altmann / Pixabay)

SaaS hat als Betriebsmodell die digitale Infrastruktur grundlegend verändert. Dieses Cloud-basierte Bereitstellungsmodell, bei dem Software zentral gehostet und lizenziert wird, bietet Unternehmen Kosteneffizienz, Flexibilität und Skalierbarkeit. Doch auch hier gibt es Ausfallzeiten.

Bei Ausfallzeiten unterschiedet man zwischen geplanten und ungeplanten Ausfallzeiten. Geplante Ausfallzeiten treten während definierter Zeitfenster für Wartungsarbeiten oder Upgrades auf. Hier ist es wichtig, alle Beteiligten – vor allem die Kunden – frühzeitig und regelmäßig zu informieren. Das beugt Überraschungen vor, wenn ein Tool nicht verfügbar ist.

Ungeplante Ausfallzeiten können durch eine Vielzahl von Faktoren verursacht werden. Dazu zählen Hardware-Ausfälle, Netzwerkprobleme, Konfigurations- oder Softwarefehler.

  • Ausfälle der Hardware können die Leistung beeinträchtigen oder die Anwendungen komplett unzugänglich machen.
  • Netzwerkprobleme beeinträchtigen die Qualität der Verbindung zur SaaS-Plattform bis hin zum Totalausfall.
  • Softwarefehler, Bugs oder Pannen können Fehler bei der Ausführung des Dienstes verursachen oder den Zugriff auf wichtige Funktionen verhindern.

SaaS-Anbieter müssen sich der Auswirkungen von Ausfällen auf ihr Geschäft bewusst sein. Insbesondere sollten sie die möglichen finanziellen Folgen kennen. Die Kosten für einen Ausfall zu kalkulieren, ist nicht immer einfach und erfordert eine ganzheitliche Betrachtung. Vor allem die indirekten Kosten werden bei einer Kalkulation oft vernachlässigt.

Indirekte Kosten

Indirekte Kosten entstehen durch finanzielle Verluste, welche sich durch die Nichtverfügbarkeit von SaaS-Anwendungen ergeben. Jede Minute Ausfallzeit kann zu Umsatzeinbußen, Produktivitätsverlusten und erhöhten Betriebskosten führen.

Die konkreten Kosten der Ausfallzeit variieren je nach Art des Unternehmens und der Dauer des Ausfalls. Auch die Folgekosten eines potenziellen Reputationsverlustes dürfen nicht vernachlässigt werden, wenn zum Beispiel ein Folge- und Neugeschäft aufgrund schlechter Erfahrungen oder Bewertungen nicht zustande kommt. Man spricht dabei auch von Opportunitätskosten (verpasste Geschäftschancen).

Direkte Kosten

Diese Kosten sind relativ leicht zu berechnen und beziehen sich speziell auf die Kosten der Server-Infrastruktur sowie auf die eventuell damit verbundenen rechtlichen Ansprüche von den Kunden einer SaaS-Plattform. Zu den direkten Kosten gehören Infrastruktur- und Wartungskosten und Pönalen (Strafen oder Gutschriften, wenn die Ausfallzeit den im SLA vereinbarten Schwellenwert überschreitet). Auch die Zeit, um die zugrundeliegenden Probleme zu identifizieren und zu beheben, gehört zu den direkten Kosten und darf in der Kalkulation nicht vernachlässigt werden.

Die Planung für SaaS-Ausfallzeiten

Um Ausfallzeiten effektiv zu bewältigen, müssen SaaS-Anbieter einen umfassenden Notfallplan aufstellen, der die notwendigen Schritte und Protokolle festlegt. Ein strukturierter Plan kann Unternehmen dabei helfen, die Auswirkungen auf die Kunden zu minimieren und einen reibungslosen Wiederherstellungsprozess zu gewährleisten.

Einige wichtige Maßnahmen für eine effektive Reaktion auf Ausfälle und die Wiederherstellung:

  • Schweregrad einschätzen, um die Prioritäten für die Behebung festzulegen.
  • Rufbereitschaft einrichten und jedem Teammitglied Aufgaben und eine Zeitspanne für die Reaktion auf einen Incident zuweisen
  • Rollen und Zuständigkeiten für jedes Teammitglied festlegen, das am Reaktions- und Wiederherstellungsprozess beteiligt ist
  • Proaktive Information aller Beteiligten über den Umfang der Auswirkungen eines Vorfalls und die Fortschritte bei der Behebung
  • Postmortem-Betrachtung durchführen

Kennt jeder seine spezifischen Aufgaben, erleichtert das eine koordinierte und effiziente Reaktion. Mit Transparenz und einem proaktiven Ansatz bei der Kommunikation können SaaS-Kunden sich versichern, dass der Ausfall bekannt ist und bereits an einer Lösung gearbeitet wird.

Unterschiedliche Kommunikationskanäle und eigene Statusseiten mit Informationen über die Fortschritte bei der Lösung des Problems stellen sicher, dass alle Stakeholder effektiv erreicht werden. Prioritäten bei der Problembehebung helfen bei der Ressourcenplanung und -zuweisung. Temporäre Workarounds können helfen, einen Dienst schnell wieder verfügbar zu machen und die Auswirkungen zu mildern, während der Vorfall behoben wird.

Danach hilft eine Postmortem-Betrachtung bei der Verbesserung von Prozessen und der künftigen Vermeidung ähnlicher Ausfälle. Dazu gehört die Dokumentation von Details des Incidents, eine Analyse der Ursache (Root-Cause-Analyse) sowie die Identifikation potenzieller Verbesserungen und Änderungen.

Das Verfolgen und Messen der Auswirkungen

Die Festlegung von Kennzahlen zur Erfassung der Auswirkungen von Ausfallzeiten ist entscheidend für die Bewertung der Wirksamkeit von Reaktionsmaßnahmen und eine kontinuierliche Verbesserung. Relevante Kennzahlen zur Erfassung von Auswirkungen sind beispielsweise:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
  • Mean Time to Acknowledge (MTTA) ist die durchschnittliche Zeit, die ein Support-Team benötigt, um das Problem zu bestätigen, nachdem es gemeldet wurde.
  • Mean Time to Resolve (MTTR) ist die durchschnittliche Zeit, die ein Support-Team für die vollständige Lösung eines Problems benötigt, nachdem es gemeldet wurde.
  • Service Level Objective (SLO) bezeichnet das Ziel für das Serviceniveau, das ein Unternehmen seinen Kunden bieten will. In der Regel wird ein interner Schwellenwert festgelegt, der erreicht werden muss.
  • Service Level Agreement (SLA) ist die formelle Vereinbarung zwischen einem Dienstleister und einem Kunden, in der die spezifischen Bedingungen und Garantien für das Niveau und die Qualität der Dienstleistung festgelegt sind.
  • Net Promoter Score (NPS) ist eine Kennzahl für die Kundenzufriedenheit. Gemessen wird die Wahrscheinlichkeit (z.B. durch Umfragen), dass Kunden das Produkt oder die Dienstleistung eines Unternehmens weiterempfehlen.
  • Markenstimmung bezieht sich auf die Stimmung und Wahrnehmung, die ein Kunde gegenüber einem Unternehmen/einer Marke hat. Sie kann durch eine Stimmungsanalyse des Kunden-Feedback ermittelt werden.
  • Umsatz gibt Auskunft über das Gesamteinkommen, welches ein Unternehmen mit seinen Produkten/Dienstleistungen erzielt. Diese Kennzahl kann indirekt die Auswirkungen der Kundenerfahrung widerspiegeln, da zufriedene Kunden eher zu Wiederholungskäufen neigen und zum Umsatz des Unternehmens beitragen.

Die Verfolgung und Messung relevanter Kennzahlen ermöglicht eine bessere Einschätzung der Auswirkungen auf das Kundenerlebnis und erleichtert eine kontinuierliche Verbesserung. Mit einem proaktiven Ansatz können SaaS-Anbieter die Widerstandsfähigkeit des Systems verbessern und ihren Kunden ein zuverlässiges und zufriedenstellendes Erlebnis bieten.

Vorbeugung von SaaS-Ausfallzeiten

Am besten ist es, wenn es erst gar nicht zu einem Ausfall kommt. Diese acht Schritte können zur proaktiven Verhinderung von Ausfallzeiten ergriffen werden:

Redundanz und Failover-Mechanismen: Redundanz bei kritischen Infrastrukturkomponenten minimiert einzelne Ausfallpunkte (Single Point of Failure). Dazu können Server, Load Balancer, Datenbanken und Netzwerkverbindungen gehören. Außerdem sollten Ausfallsicherungsmechanismen vorhanden sein. In solchen Hochverfügbarkeitsszenarien (HA) kann im Falle eines Ausfalls automatisch auf Backup-Systeme oder alternative Rechenzentren umgeschaltet werden.

Lasttests und Kapazitätsplanung: Mit regelmäßigen Lasttests lässt sich die Leistung von SaaS-Plattformen in verschiedenen Nutzungsszenarien beurteilen. Dies ermöglicht, potenzielle Engpässe oder Kapazitätsbeschränkungen zu erkennen, sowie eine angemessene Kapazitätsplanung zur Bewältigung von Lastspitzen.

Überwachungs- und Benachrichtigungs-Tools: Überwachungs- und Warnsysteme überwachen kontinuierlich den Zustand und die Leistung der Infrastruktur. Werden potenzielle Probleme proaktiv frühzeitig erkannt, können sie umgehend behoben werden – bevor sie zu größeren Ausfallzeiten führen.

Implementiere Automatisierung: Durch Automatisierung lassen sich häufig auftretende Probleme lösen, zum Beispiel der Neustart ausgefallener Dienste oder Probleme mit der Netzwerkverbindung. Dadurch werden manuelle Eingriffe minimiert und die Zeit bis zur Wiederherstellung verkürzt.

Rollback und Backups: Ein Rollback-Plan hilft, Änderungen rückgängig zu machen, etwa wenn bei Wartungsarbeiten oder Upgrades unerwartete Probleme auftreten. Backups von wichtigen Daten müssen regelmäßig durchgeführt werden. Tests zur Wiederherstellung beugen Überraschungen bei der Wiederherstellung im Ernstfall vor.

Regelmäßige Software-Updates und -Patches: Den Software-Stack mit den neuesten Patches und Sicherheitsupdates auf dem neuesten Stand zu halten, verringert das Risiko von ausnutzbaren Schwachstellen.

Praktiken des Änderungsmanagements anwenden: Methoden und Prozesse aus dem Änderungsmanagementverfahren in der Planung und Durchführung von Updates, Konfigurationsänderungen oder Systemmodifikationen sorgen für reibungslose Abläufe.

Abhängigkeiten von Dritten überwachen: Dienste von Drittanbietern, auf die eine SaaS-Plattform angewiesen ist, müssen identifiziert und in das Monitoring integriert werden.

*Die Autorin
Mandi Walls ist DevOps-Advocate bei Pagerduty. Dort unterstützt sie Technikunternehmen dabei, ihre Effizienz durch moderne IT-Praktiken bei ungeplanten IT-Vorfälle zu steigern. Sie spricht regelmäßig auf technischen Konferenzen und ist Autorin des Whitepapers »Building a DevOps Culture«, das von Verlag O’Reilly veröffentlicht wurde. Ihr Interesse gilt der Entwicklung neuer Tools und Workflows, die den Betrieb großer und komplexer IT-Systeme vereinfachen.
Ihr Fazit lautet:< SaaS ist aus der komplexen, digitalen Welt von heute nicht mehr wegzudenken. Damit sich Ausfallzeiten nicht negativ auswirken, müssen Anbieter und Anwender von SaaS-Angeboten einen proaktiven Ansatz verfolgen. Nur so lassen sich größere Ausfallzeiten und Folgeschäden, zum Beispiel in Form von Umsatzeinbußen, Produktivitätsverlust und Rufschädigung, vermeiden.

Bildquelle: Pagerduty

(ID:50081472)