In der IT lassen sich Ausfälle nicht vollständig vermeiden. Wer externe Infrastrukturen oder Cloud-Services nutzt, kann aber oft nur schwer herausfinden, bei welchem System der Fehler liegt. Daher benötigen Unternehmen umfassendes Monitoring, das unabhängig von der Infrastruktur eine einheitliche Sicht auf die Konnektivität bieten.
Um ein Monitoring über Unternehmens- und Cloud-Grenzen hinweg zu gewährleisten, müssten Admins ihre Augen und Ohnen überall haben, nicht nur an einer Stelle - oder ein Tools, das diese Überwachungsblicke erlaubt.
(Bild: Song_about_summer - stock.adobe.com)
Oh,oh! Vor kurzem wurden bei „Slack“ Bilder verschwommen oder ausgegraut angezeigt, so dass viele Nutzer keine Dateien hochladen oder Screenshots teilen wollten. Ursache waren zwei interne Prozesse, die zufällig zur gleichen Zeit liefen und die Datenbank-Cluster im Rechenzentrum überlasteten.
Die Suchfunktion von „Spotify“ lieferte wenig später keine Ergebnisse. Dabei funktionierte die Anwendung selbst, so dass nur die Backend-Such-API oder die API, welche die Suche initiierte, ausgefallen war.
Ein Stromausfall in einer Availability Zone von „Microsoft Azure“ führte dazu, dass einige Kunden nicht mehr auf „Azure SQL Database“ zugreifen konnten. Das „Playstation Network“ war für Nutzer nicht verfügbar, wahrscheinlich aufgrund eines Konnektivitätsproblems im „PSN“-Backend.
Zudem traten bei einigen Nutzern des Google Kalenders im Web und auf mobilen Geräten Probleme auf. Die Ursache war ein Software-Update, das unbeabsichtigt einen Fehler ausgelöst hat.
Ausfälle passieren – überall
Diese Beispiele vom 'Cisco Thousandeyes Internet Intelligence Team' zeigen, dass Server- und Netzwerk-bezogene Ausfälle aus verschiedenen Gründen und überall geschehen können – im eigenen Rechenzentrum oder dem Datacenter eines Cloud-Provider. Da Unternehmen heute zunehmend verschiedene Infrastrukturen und Cloud-Dienste nutzen, wird es immer schwieriger, die Problemursache schnell zu lokalisieren. Häufig schieben sich Cloud-Anbieter, Dienstleister und Kunde gegenseitig die Verantwortung zu – ebenso wie innerhalb des Unternehmens Anwendungs-, Server- und Netzwerk-Teams.
Gerade wenn die Ursache an Konnektivitätsproblemen zwischen den Infrastrukturen liegt, kann es lange bis zur Identifizierung dauern. Denn die internen Teams nutzen häufig unterschiedliche Monitoring-Tools, die jeweils nur den für sie interessanten Ausschnitt des Gesamtsystems zeigen. So kommt es häufig vor, dass für jedes Team alles in Ordnung erscheint, aber trotzdem die Nutzer nicht auf Dienste zugreifen können.
Noch schwieriger wird die Problemidentifizierung bei Cloud-Diensten. Hier wissen IT-Teams häufig nicht, ob und wann das Problem bei einem Anbieter auftritt – und bei welchem Provider. So ist unklar, mit welchem Team sie zusammenarbeiten müssen, um das Problem zu lösen. Zudem sitzen die IT-Teams von Kunde und Anbieter oft in unterschiedlichen Städten oder sogar Zeitzonen. Statt an einem Tisch das Problem zu diskutieren, werden häufig Mails oder Messages hin- und hergeschickt.
Tatsächlich ist die Angst vor solchen Situationen ein häufiger Grund, warum IT-Verantwortliche von Unternehmen kritische Anwendungen und Dienste lieber im eigenen Rechenzentrum belassen, selbst wenn Betriebs- und Wartungsaufwand dann deutlich höher sind. Denn mit den Prozessen lagern sie auch die Transparenz über die Abläufe aus.
Sie profitieren zwar von höherer Effizienz und schnellerer Skalierung, geben aber dafür die Kontrolle für einen reibungslosen Ablauf an den Dienstleister ab. Trotzdem bleibt die Verantwortung dafür gegenüber der Geschäftsführung und den Mitarbeitenden beim CIO.
Übergreifendes Monitoring-Tool
Je mehr verschiedene Clouds und eigene Infrastrukturen ein Unternehmen nutzt, desto wichtiger wird ein umfassendes Monitoring-Tool, das systemübergreifend und -unabhängig die genaue Problemursache lokalisieren kann. Damit hört das Fingerpointing auf. Und umso schneller können die verantwortlichen Teams an die Problemlösung gehen.
Dies gilt sowohl im eigenen Haus als auch in der Zusammenarbeit mit dem Cloud-Provider. Im Idealfall können dann sich abzeichnende Probleme schon gelöst werden, bevor sie die Nutzer überhaupt bemerken.
Aber auch wenn es nicht so schnell geht, bietet ein solches Monitoring-Tool den Vorteil, dass IT-Verantwortliche sofort die Geschäftsführung und Mitarbeitenden darüber informieren können, wo das Problem liegt, wer davon betroffen ist und eventuell wie lange es voraussichtlich andauert. Dann können die Betroffenen fundiert wählen, ob sie besser abwarten oder eine Alternative nutzen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Dies gilt auch für die IT-Verantwortlichen selbst. Fällt eine eigene Infrastruktur oder ein Cloud-Dienst aus, müssen sie entscheiden, ob sie die betroffenen Dienste und Anwendungen auf ein anderes System umschalten oder auf das Ende des Ausfalls warten. Hier spielen Überlegungen wie Kundenservice, Kosten, mögliche Sicherheitsrisiken und Datenverlust eine wichtige Rolle.
*Der Autor Marcus Gerstman ist Leader DACH und Zentraleuropa bei Cisco Thousandeyes. Sein Fazit lautet: Moderne Monitoring-Produkte geben so tiefe Einblicke in die Konnektivität von Multi-Infrastrukturen und Multiclouds als wären diese im eigenen Rechenzentrum. So lassen sich selbst kritische Anwendungen und Dienste an Provider auslagern, da IT-Verantwortliche weiterhin die reibungslose Bereitstellung kontrollieren und im Fehlerfall schnell reagieren können.