Websites down - Suche nach den Ursachen

Equinix, Ionos und Vogel - eine Chronik, ein Update Websites down - Suche nach den Ursachen

12.11.2023 Von Ulrike Ostler 10 min Lesedauer

Anbieter zum Thema

Alle kennen 'Murphy's Law' und in diesem Fall hat es die Portale von Vogel IT-Medien getroffen, also auch 'DataCenter-Insider', wenngleich nicht nur die. Die Newsletter ließen sich nicht versenden oder mit großer Verspätung, die Portale waren unerreichbar. Krise bei den IT-Dienstleistern, der hauseigenen IT-Mannschaft, bei den Redakteuren und im Verkauf.

Das Testbild aus den Anfängen des Farbfernsehens: Das so genannte FuBK-Testbild wurde laut Wikipedia n Deutschland gegen Ende 1973 eingeführt; FuBK steht für Funkbetriebskommission nach dem Pflichtenheft der ARD. Auf den Seiten unseres Portals war in den vergangenen Tagen nicht einmal ein solches zu sehen. (Bild: frei lizenziert: Christian Dorn / Pixabay) — Das Testbild aus den Anfängen des Farbfernsehens: Das so genannte FuBK-Testbild wurde laut Wikipedia n Deutschland gegen Ende 1973 eingeführt; FuBK steht für Funkbetriebskommission nach dem Pflichtenheft der ARD. Auf den Seiten unseres Portals war in den vergangenen Tagen nicht einmal ein solches zu sehen.
(Bild: frei lizenziert: Christian Dorn / Pixabay)

Alles begann am Montagmorgen mit der internen Nachricht: „Wir haben aktuell ein Problem mit einem Bestandteil unserer Infrastruktur.“ In der Folge ließen sich keine Newsletter versenden. IT-Dienstleister wurden mit höchster Priorität informiert.

Die Infrastruktur

Ein komplexer, verteilter Rechner- und Speicherverbund mag es gar nicht, wenn zweimal innerhalb kurzer Zeit der Strom weg ist: Vogel Communications, zu dem das Verlagshaus Vogel IT-Medien GmbH gehört und damit DataCenter-Insider, betreibt beim Cloud- und Hosting-Anbieter Ionos acht virtuelle Datacenter - vier am Standort Frankfurt und vier am Standort Karlsruhe.

Die Infrastruktur für die Content-Portale besteht aus 26 Servern exklusive Loadbalancer, Monitoring und Firewalls. Ansonsten teilt sich die IT wie üblich im Wesentlichen in:

ein Storage Cluster (Technologie: „Ceph“) mit drei Knoten, die redundant ausgelegt sind, um die Bilder, Videos und Texte zu verwahren, und

ein Compute Cluster (Technologie: „Red Hat Openshift“). Hier werden nach Bedarf die Applikationen, etwa die für die Content-Portale in der benötigten Anzahl skaliert, um der Last dynamisch standzuhalten.
Darüber hinaus gibt es dort Datenbanksysteme und wiederkehrende Tasks werden dort gestartet.

Alle Knoten arbeiten im Verbund und kommunizieren miteinander, um neue Aufgaben dem Knoten zuzuteilen, der gerade wenig zu tun hat. Außerdem sind alle Systeme redundant ausgelegt und auf verschiedene Verfügbarkeitszonen, wie Brandabschnitte und Netzanbindungen, verteilt.

Der Co-Location-Anbieter Equinix stellt die Rechenzentrumsinfrastruktur für Ionos zur Verfügung, etwa Platz, Security-Personal, Strom, Kühlung und Netzanbindung. In der Werbung des Unternehmens ist von 99.9999 Prozent garantierter Verfügbarkeit die Rede, das entspricht 31,56 Sekunden Downtime pro Jahr

Der Systemausfall ereilte die IT für die Content-Portale vor dem zu Beginn 2024 geplanten Umzug der jetzigen Systeme in eine neue Infrastruktur. Nach Angaben der hauseigenen IT-Abteilung arbeite sie seit einem Jahr an der Ablöse der Systeme.

Allerdings fädelte sich das Problem bereits am 3.November ein: Gegen 20:00 Uhr an diesem Freitag lief ein Zertifikat im Compute Cluster aus. Dieses wird benötigt, damit die Knoten miteinander und verschlüsselt kommunizieren können. Eine unverschlüsselte Verbindung ist zum Schutz der Daten undenkbar. Da jedoch die letzten Newsletter vor dem Wochenende schon verschickt waren und auch am Wochenende keine Arbeiten anstanden, blieb dies zunächst unbemerkt.

So lief scheinbar alles wie gewohnt. Tatsächlich aber konnte jede Änderung nicht mehr an die Master-Knoten also an die Verwaltungsinstanzen des Clusters weitergegeben werden. Umgekehrt konnten die Master-Knoten auch keine neuen Instruktionen senden, zum Beispiel: „stoße den Newsletter-Versand an“, „es gibt Änderungen an der Codebasis, updated euch“.

Zwar gehen am Samstag bereits erste Alerts ein, doch schienen sie nicht so ungewöhnlich, dass Panik angesagt gewesen wäre. Für Montag wurden vorsichtshalber Wartungsarbeiten angesetzt. Der Sonntag brachte keine besonderen Vorkommnisse.

Am Montag

Das änderte sich am Montag, den 6. November. Noch während die IT-Teams auf der Suche nach der Problemursachen sind, häufen sich die Alerts. Um 10:00 Uhr war klar: Die Newsletter lassen sich nicht versenden, Code-Updates sich nicht ausrollen, die IT kann sich nicht mehr mit dem internen Netzwerk und ebenso nicht mehr mit der Verwaltungsoberfläche des Compute Cluster verbinden.

Der IT-Dienstleister SVA System Vertrieb Alexander GmbH (SVA) wurde alarmiert. Denn während die hauseigene IT-Abteilung hauptsächlich aus Software-Entwickler:innen besteht, die sich um die Anwendungen kümmern, befasst sich der Dienstleister mit der IT-Infrastruktur.

Schnell war allen IT-Spezialisten klar: Im Best Case läuft ein Skript zum Tausch der Zertifikate und alles ist wieder gut. Im Worst Case aber lässt sich das Compute Cluster nicht mehr starten und alles steht still.

Das Ergebnis des Desasters interner IT-Systeme und Nachwirkungen des Stromausfalls. (Bild: Vogel It-Medien GmbH) — Das Ergebnis des Desasters interner IT-Systeme und Nachwirkungen des Stromausfalls.
(Bild: Vogel It-Medien GmbH)

Später am Nachmittag begann die Reparatur - Server für Server. Damit verbunden aber waren vergleichsweise kurze 'Downtimes', die Seiten, die Anwendungen, Artikel waren da, waren weg, waren da, waren weg .... Ab 17:30 ließen sich in Absprache mit den Redaktionen manuell zusammengestellte Newsletter verschicken. Erstes Aufatmen. Das Einspielen aller Bug-Fixes sollte um 20:00 Uhr abgeschlossen sein.

Allerdings haben die IT-ler am Montagabend diskutiert, den ohnehin für das Jahresende geplanten Wechsel von der von Cloudseeds gebauten auf eine neue IT-Infrastruktur vorzuziehen. Das aber bedeutete, die Vorbereitungszeit von zwei Monaten auf drei Tage zu reduzieren.

Am Dienstag

Die Webseiten waren wieder sichtbar, aber die Probleme mit den neu angestoßenen Prozessen oder auch die Verteilung von neuem Code, bestanden im Prinzip nach wie vor. „Wartungsbedingte Downtimes“ waren nicht auszuschließen.

Das Team arbeitete also mit Hochdruck an den Tasks, um die neue Infrastruktur in Betrieb nehmen zu können - bis in die Nachtstunden. Zudem wurde Cloudseeds kontaktiert; das Unternehmen sicherte für Mittwoch einen Experten zu.

Avisierter Abschluss der Reparaturen: Mittwochabend.

Am Mittwoch

In den Morgenstunden wird das Ursprungsproblem von Cloudseeds gefixt; die Portalseiten sind kurzfristig unerreichbar. Gleichzeitig ermöglicht die hauseigene IT als Fallback eine Umstellung auf die neue Infrastruktur.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Ende gut, alles gut? Was sich für die Betroffenen wie ein schlechter Witz anfühlte: Um 15:15 Uhr Totalausfall. Fünf Minuten später steht fest: Ein neues Problem: Ausfall beim Service-Provider Ionos, über den zahlreiche Medien alsbald berichten. Der Cloud-Anbieter nutzt derzeit 31 Rechenzentren in Europa und den USA für seine Dienste, von denen elf selbst betrieben werden. In diesem Fall lag das Problem beim Co-Location-Anbieter Equinix: Stromausfall.

Als erste Störmeldungen von Ionos online gehen, ist aber das Ausmaß jedoch noch nicht bekannt. Bei Vogel Communications und SVA wird darauf gewartet, dass das Problem behoben wird. Der Krisenstab, der für ein anderes Problem gegründet wurde, übernimmt nun die Kommunikation mit Ionos.

Screenshot des Status im „Ionos-Digital Datacenter Designer“(Bild: Gray Nicholas/ Vogel Communications) — Screenshot des Status im „Ionos-Digital Datacenter Designer“
(Bild: Gray Nicholas/ Vogel Communications)

Der Fallback-Plan ist keine Option mehr, da auch das neue virtuelle Datacenter in Frankfurt steht. Ernüchterung und Frustration. Es wird Abend. Dann ein erstes Aufatmen. Das Problem scheint gelöst, bei Ionos werden die ersten Kundenserver und -dienste gestartet.

Die Statements

Das Statement von Co-Location-Anbieter Equinix lautet wie folgt: Im 'FR7 International Business Exchange' (IBX) von Equinix in Frankfurt gab es am Dienstag, den 8. November, eine kurze Unterbrechung, die einige Equinix-Dienste beeinträchtigte. Die Situation wurde schnell unter Kontrolle gebracht und alle Dienste wurden wiederhergestellt. Die betroffenen Kunden wurden benachrichtigt.“ Die Mitteilung ist vom Donnerstagnachmittag und enthält den Zusatz: „Die Ursache des kurzen Ausfalls wird derzeit untersucht. Es gibt keine laufenden Probleme.“

Von Ionos kam nahezu zeitgleich folgende Nachricht:

“Gegen 15.15 Uhr am 8. November 2023 kam es in einem Frankfurter Rechenzentrum während Wartungsarbeiten zu einer teilweisen Störung der Stromversorgung. In der Folge waren einzelne 'Ionos Cloud'-Dienste nicht oder nur teilweise erreichbar. Wir haben gemeinsam mit dem Betreiber des Rechenzentrums mit Hochdruck an der Behebung der Störung gearbeitet. Gegen 20.20 Uhr war die initiale Störung behoben. In der Folge wurden die betroffenen Systeme wieder hochgefahren.

Gegen 7.30 Uhr am 9. November 2023 trat erneut eine kleinere Störung in der Stromversorgung bei einigen der am Vortag betroffenen Server-Racks auf. Gegen 9.15 Uhr war die Stromversorgung wieder hergestellt; alle Systeme werden sukzessive neu gestartet. Wann dies abgeschlossen ist, lässt sich derzeit noch nicht sagen.“

Es folgte der Zusatz: „Ionos untersucht die Ursache der Störungen in der Stromversorgung gemeinsam mit dem Dienstleister, um künftigen Ausfällen entgegenzuwirken. Wir informieren über den Fortschritt auf unseren Statusseiten“:

https://status.ionos.cloud/

https://www.ionos-status.de/

Bildergalerie

Auszug aus der Störungsliste am Donnerstag, den 9. November: Die Server sind betroffen. (Bild: Ionos)

Auch einige Websites funktionierten nicht.(Bild: Ionos)

Noch ein Dienst war ausgefallen. (Bild: Ionos)

Am Donnerstag

Am Donnerstag, den 9. November 2023 um 4:30 Uhr: Die hauseigene IT bekommt die ersten Meldungen, dass sich manche der Systeme wieder melden. Danach geht es Schritt für Schritt, wenngleich die Web-Seiten nach wie vor unauffindbar sind. Doch zum Beispiel gehen die Nutzer der Datenbanken wieder online. Die Index-Suchserver bauen ihre korrumpierten Indexe wieder auf. Einzelne kleinere Probleme werden Schritt für Schritt aus dem Weg geräumt. Die Dinge laufen gut…

Um 8:00 Uhr: Alles ist wieder zusammengebrochen. Das Problem scheint ein ähnliches wie bereits gehabt. Ionos stellt weder Zeithorizont oder Stabilität in Aussicht.

IT, das Legal-Team, das Marketing und die Redaktionen bereiten einen Notfall-Newsletter vor. Um 11:00 Uhr ist ein Server für das Notfallsystem im hauseigenen Rechenzentrum eingerichtet.

Um 15:00 Uhr startet Ionos die Inbetriebnahme der Kundenserver. Auch die Systeme von Vogel Communications erwachen zum Leben, allerdings nicht in operabler Reihenfolge. Zum Beispiel sind die Server da, aber auf der Ionos-Seite die Firewall und somit die Konnektivität nach außen nicht.

Es war beeindruckend, wie unermüdlich das Team der SVA von Beginn an uns mit jedem Problem zur Seite stand, uns auf Zuruf mit Ihren Experten vermittelte und Schritt für Schritt bis zur finalen Lösung begleitet hat. Deren Teamlead war genauso lange da wie wir. Das hat mich schwer beeindruckt.

Gray Nicholas vom IT-Team der Vogel Communications Group

16:00 Uhr: Alle Knoten funktionieren, aber jetzt haben diverse Systeme Probleme. Der Storage Cluster erlaubt keine Schreibzugriffe auf Grund von fehlender Redundanz. So können manche Dienste nicht auf die notwendigen Dateien zugreifen.

Zudem funktioniert die Authentifizierung der Verwaltungsoberfläche des Compute Cluster nicht. Die Loadbalancer produzieren Fehler. Der Event-Bus muss erneut repariert werden.

Scrennshot des Notsystems(Bild: Gray Nicholas/ Vogel Communications Group) — Scrennshot des Notsystems
(Bild: Gray Nicholas/ Vogel Communications Group)

Trotzdem: Es geht voran. Um 18:00 Uhr meldet das IT-Team die Einsatzbereitschaft des Notfallsystems, will heißen: Bricht die Stromversorgung erneut zusammen, könnte sofort auf dieses System gewechselt werden.

Die Webseiten existieren nach wie vor nicht. Die Not-Newsletter werden verschickt.

Der lange Donnerstag

Um 19:00 Uhr startet das IT-Team ein aktuelles Backup der Hauptdatenbank, um im Zweifel am nächsten Tag eine komplett neue Datenbank befüllen zu können.

Mein Team stellt die Arbeit ein, da ohnehin nur Tasks laufen, die automatisiert die Konsistenz von Daten prüfen. Ehrlich gesagt, warenich war auch einfach durch und wusste nicht, was in den nächsten Tagen noch kommen würde. Von Ionos gab es nach wie vor noch keine sichere Entwarnung.

Gray Nicholas vom IT-Team der Vogel Communications Group

In der Nacht von Donnerstag auf Freitag gibt es bei Ionos einen Netzwerkausfall.

Am Freitag

Das IT-Team arbeitet seit 6:00 Uhr wieder. So hat sich das Problem mit der Hauptdatenbank über Nacht und nach Konsistenzprüfungen weder von alleine gelöst, noch konnte das SVA-Team zaubern. Das IT-Team spielt das Backup in die neue IT-Infrastrukur ein. Doch die ist noch nicht fit genug, um einen kompletten Wechsel zu ermöglichen, nur die Datenbankstruktur ist einsatzbereit.

Nun wird festgelegt, in welcher Reihenfolge, welche Systeme den Betrieb aufnehmen sollen. Immer noch nervige Fehler. Um 14:00 Uhr hat SVA das Datenbank-Backup fast fertig. Im Hintergrund laufen die Tests für die Portalseiten und -Features: Artikel, Whitepaper, Galerien ... alles da. Die Zuversicht steigt, bald Entwarnung geben zu können.

Gegen 17:00 Uhr: Erneute Probleme mit dem Cluster. Code Änderungen gehen nicht mehr online. Entäuschung macht sich breit, da sich das IT-Team sicher war, dass es nur noch einer Änderung bedarf. ..... Im Nachgang bestätigt sich das: nur noch eine Änderung, nur noch ein Fehler. Zusammen mit SVA hat die Vogel-IT ihn identifizieren und packen können - die Container Library kann nicht mehr mit den Compute Servern sprechen.

Endlich: Es ist 17:17 Uhr am 10. November 2023: Die Website von „DataCenter-Insider“ ist wieder da. Jetzt wird für die Leser:Innen an einem ordentlichen Newsletter gewerkelt - mithilfe eines neuen und noch experimentellen Newsletter-Tools.

Gegen 22:00 Uhr: Ein Durchbruch. SVA konnte das Problem lösen und ein Update geht nach vier bis fünf Stunden endlich durch. Jetzt packt alle der Ehrgeiz: Der Feierabend wird weiter und weiter verschoben; denn es laufen Tests. Und: Die Systeme sind freigegeben. Aber die Newsletter nicht.

Der Sonntag

Sonntag ab 12:00 Uhr: Ein System ist vergessen und am Wochenende routinemäßig neu ausgerollt worden. Da dieses System aber mit nunmehr veraltetem Code ausgestattet war, hat das zu einer Flut an Fehlern geführt, die sich dann auch noch exponentiell im System vervielfältigt und erneut zum Kollaps geführt haben.

„Das stört keinen großen Geist“, sagte 1955 „Karlsson vom Dach“ und scheint auch das Motto der IT-Experten gewesen zu sein. Denn zirka eine Stunde später sind die Systeme wieder da.

Sonntag ab 17:00 Uhr: Alle Systeme befinden sich auf dem aktuellen Stand und die Newsletter können wie gewohnt versendet werden.

Mit dir wäre das nicht passiert?

Werde Teil des IT-Teams!(Bild: Vogel Communications Group) — Werde Teil des IT-Teams!
(Bild: Vogel Communications Group)

Gray Nicholas vom IT-Teams der Vogel Communications Group hat die Redaktion von DataCenter-Insider gebeten, auf diesem Wege bekannt zu machen, dass Verstärkung gesucht wird. „Dann hat das Ganze vielleicht noch etwas Gutes“, merkt er an.

Das bieten wir:

Eine attraktive Vergütung sowie eine offene, kollegiale Unternehmenskultur

Flexible Arbeitszeitgestaltung

Zahlreiche Entwicklungs- und individuelle Weiterbildungsmöglichkeiten

Hauseigene Kantine, ausgleichende Freizeitaktivitäten durch unsere Sport- und Hobby-Gruppen sowie ein umfangreiches Gesundheits-Management mit Gesundheitstagen, Massage-Angeboten, uvm.

Verschiedene Angebote zur Vereinbarung von Beruf und Familie (wie Kinderkrippenplätze, Unterstützung bei der Ferienbetreuung)

Deine Aufgaben:

Du konzipierst, entwickelst und implementierst Web-Applikationen zusammen mit einem innovativen Team

In Zusammenarbeit mit den Product Ownern optimierst du die entwickelten Applikationen kontinuierlich weiter und passt sie an neue Anforderungen, Trends und Erfordernisse an

Du stellst die hohe Standardisierung und Wiederverwertbarkeit in den Fokus und sorgst für ein optimales Zusammenspiel mit bereits bestehenden Applikationen

Du übernimmst entwicklungsbegleitend die Qualitätssicherung und Bereitstellung der Applikationen

[Anmerkung der Redaktion: Es geht nicht immer so hektisch zu, wie in den vergangenen Tagen. ]

Hier geht es zur Stellenausschreibung

(ID:49786170)