Equinix, Ionos und Vogel - eine Chronik, ein Update Websites down - Suche nach den Ursachen
Anbieter zum Thema
Alle kennen 'Murphy's Law' und in diesem Fall hat es die Portale von Vogel IT-Medien getroffen, also auch 'DataCenter-Insider', wenngleich nicht nur die. Die Newsletter ließen sich nicht versenden oder mit großer Verspätung, die Portale waren unerreichbar. Krise bei den IT-Dienstleistern, der hauseigenen IT-Mannschaft, bei den Redakteuren und im Verkauf.

Alles begann am Montagmorgen mit der internen Nachricht: „Wir haben aktuell ein Problem mit einem Bestandteil unserer Infrastruktur.“ In der Folge ließen sich keine Newsletter versenden. IT-Dienstleister wurden mit höchster Priorität informiert.
Allerdings fädelte sich das Problem bereits am 3.November ein: Gegen 20:00 Uhr an diesem Freitag lief ein Zertifikat im Compute Cluster aus. Dieses wird benötigt, damit die Knoten miteinander und verschlüsselt kommunizieren können. Eine unverschlüsselte Verbindung ist zum Schutz der Daten undenkbar. Da jedoch die letzten Newsletter vor dem Wochenende schon verschickt waren und auch am Wochenende keine Arbeiten anstanden, blieb dies zunächst unbemerkt.
So lief scheinbar alles wie gewohnt. Tatsächlich aber konnte jede Änderung nicht mehr an die Master-Knoten also an die Verwaltungsinstanzen des Clusters weitergegeben werden. Umgekehrt konnten die Master-Knoten auch keine neuen Instruktionen senden, zum Beispiel: „stoße den Newsletter-Versand an“, „es gibt Änderungen an der Codebasis, updated euch“.
Zwar gehen am Samstag bereits erste Alerts ein, doch schienen sie nicht so ungewöhnlich, dass Panik angesagt gewesen wäre. Für Montag wurden vorsichtshalber Wartungsarbeiten angesetzt. Der Sonntag brachte keine besonderen Vorkommnisse.
Am Montag
Das änderte sich am Montag, den 6. November. Noch während die IT-Teams auf der Suche nach der Problemursachen sind, häufen sich die Alerts. Um 10:00 Uhr war klar: Die Newsletter lassen sich nicht versenden, Code-Updates sich nicht ausrollen, die IT kann sich nicht mehr mit dem internen Netzwerk und ebenso nicht mehr mit der Verwaltungsoberfläche des Compute Cluster verbinden.
Der IT-Dienstleister SVA System Vertrieb Alexander GmbH (SVA) wurde alarmiert. Denn während die hauseigene IT-Abteilung hauptsächlich aus Software-Entwickler:innen besteht, die sich um die Anwendungen kümmern, befasst sich der Dienstleister mit der IT-Infrastruktur.
Schnell war allen IT-Spezialisten klar: Im Best Case läuft ein Skript zum Tausch der Zertifikate und alles ist wieder gut. Im Worst Case aber lässt sich das Compute Cluster nicht mehr starten und alles steht still.
Später am Nachmittag begann die Reparatur - Server für Server. Damit verbunden aber waren vergleichsweise kurze 'Downtimes', die Seiten, die Anwendungen, Artikel waren da, waren weg, waren da, waren weg .... Ab 17:30 ließen sich in Absprache mit den Redaktionen manuell zusammengestellte Newsletter verschicken. Erstes Aufatmen. Das Einspielen aller Bug-Fixes sollte um 20:00 Uhr abgeschlossen sein.
Allerdings haben die IT-ler am Montagabend diskutiert, den ohnehin für das Jahresende geplanten Wechsel von der von Cloudseeds gebauten auf eine neue IT-Infrastruktur vorzuziehen. Das aber bedeutete, die Vorbereitungszeit von zwei Monaten auf drei Tage zu reduzieren.
Am Dienstag
Die Webseiten waren wieder sichtbar, aber die Probleme mit den neu angestoßenen Prozessen oder auch die Verteilung von neuem Code, bestanden im Prinzip nach wie vor. „Wartungsbedingte Downtimes“ waren nicht auszuschließen.
Das Team arbeitete also mit Hochdruck an den Tasks, um die neue Infrastruktur in Betrieb nehmen zu können - bis in die Nachtstunden. Zudem wurde Cloudseeds kontaktiert; das Unternehmen sicherte für Mittwoch einen Experten zu.
Avisierter Abschluss der Reparaturen: Mittwochabend.
Am Mittwoch
In den Morgenstunden wird das Ursprungsproblem von Cloudseeds gefixt; die Portalseiten sind kurzfristig unerreichbar. Gleichzeitig ermöglicht die hauseigene IT als Fallback eine Umstellung auf die neue Infrastruktur.
Ende gut, alles gut? Was sich für die Betroffenen wie ein schlechter Witz anfühlte: Um 15:15 Uhr Totalausfall. Fünf Minuten später steht fest: Ein neues Problem: Ausfall beim Service-Provider Ionos, über den zahlreiche Medien alsbald berichten. Der Cloud-Anbieter nutzt derzeit 31 Rechenzentren in Europa und den USA für seine Dienste, von denen elf selbst betrieben werden. In diesem Fall lag das Problem beim Co-Location-Anbieter Equinix: Stromausfall.
Als erste Störmeldungen von Ionos online gehen, ist aber das Ausmaß jedoch noch nicht bekannt. Bei Vogel Communications und SVA wird darauf gewartet, dass das Problem behoben wird. Der Krisenstab, der für ein anderes Problem gegründet wurde, übernimmt nun die Kommunikation mit Ionos.
Der Fallback-Plan ist keine Option mehr, da auch das neue virtuelle Datacenter in Frankfurt steht. Ernüchterung und Frustration. Es wird Abend. Dann ein erstes Aufatmen. Das Problem scheint gelöst, bei Ionos werden die ersten Kundenserver und -dienste gestartet.
Die Statements
Das Statement von Co-Location-Anbieter Equinix lautet wie folgt: Im 'FR7 International Business Exchange' (IBX) von Equinix in Frankfurt gab es am Dienstag, den 8. November, eine kurze Unterbrechung, die einige Equinix-Dienste beeinträchtigte. Die Situation wurde schnell unter Kontrolle gebracht und alle Dienste wurden wiederhergestellt. Die betroffenen Kunden wurden benachrichtigt.“ Die Mitteilung ist vom Donnerstagnachmittag und enthält den Zusatz: „Die Ursache des kurzen Ausfalls wird derzeit untersucht. Es gibt keine laufenden Probleme.“
Von Ionos kam nahezu zeitgleich folgende Nachricht:
“Gegen 15.15 Uhr am 8. November 2023 kam es in einem Frankfurter Rechenzentrum während Wartungsarbeiten zu einer teilweisen Störung der Stromversorgung. In der Folge waren einzelne 'Ionos Cloud'-Dienste nicht oder nur teilweise erreichbar. Wir haben gemeinsam mit dem Betreiber des Rechenzentrums mit Hochdruck an der Behebung der Störung gearbeitet. Gegen 20.20 Uhr war die initiale Störung behoben. In der Folge wurden die betroffenen Systeme wieder hochgefahren.
Gegen 7.30 Uhr am 9. November 2023 trat erneut eine kleinere Störung in der Stromversorgung bei einigen der am Vortag betroffenen Server-Racks auf. Gegen 9.15 Uhr war die Stromversorgung wieder hergestellt; alle Systeme werden sukzessive neu gestartet. Wann dies abgeschlossen ist, lässt sich derzeit noch nicht sagen.“
Es folgte der Zusatz: „Ionos untersucht die Ursache der Störungen in der Stromversorgung gemeinsam mit dem Dienstleister, um künftigen Ausfällen entgegenzuwirken. Wir informieren über den Fortschritt auf unseren Statusseiten“:
Am Donnerstag
Am Donnerstag, den 9. November 2023 um 4:30 Uhr: Die hauseigene IT bekommt die ersten Meldungen, dass sich manche der Systeme wieder melden. Danach geht es Schritt für Schritt, wenngleich die Web-Seiten nach wie vor unauffindbar sind. Doch zum Beispiel gehen die Nutzer der Datenbanken wieder online. Die Index-Suchserver bauen ihre korrumpierten Indexe wieder auf. Einzelne kleinere Probleme werden Schritt für Schritt aus dem Weg geräumt. Die Dinge laufen gut…
Um 8:00 Uhr: Alles ist wieder zusammengebrochen. Das Problem scheint ein ähnliches wie bereits gehabt. Ionos stellt weder Zeithorizont oder Stabilität in Aussicht.
IT, das Legal-Team, das Marketing und die Redaktionen bereiten einen Notfall-Newsletter vor. Um 11:00 Uhr ist ein Server für das Notfallsystem im hauseigenen Rechenzentrum eingerichtet.
Um 15:00 Uhr startet Ionos die Inbetriebnahme der Kundenserver. Auch die Systeme von Vogel Communications erwachen zum Leben, allerdings nicht in operabler Reihenfolge. Zum Beispiel sind die Server da, aber auf der Ionos-Seite die Firewall und somit die Konnektivität nach außen nicht.
Es war beeindruckend, wie unermüdlich das Team der SVA von Beginn an uns mit jedem Problem zur Seite stand, uns auf Zuruf mit Ihren Experten vermittelte und Schritt für Schritt bis zur finalen Lösung begleitet hat. Deren Teamlead war genauso lange da wie wir. Das hat mich schwer beeindruckt.
16:00 Uhr: Alle Knoten funktionieren, aber jetzt haben diverse Systeme Probleme. Der Storage Cluster erlaubt keine Schreibzugriffe auf Grund von fehlender Redundanz. So können manche Dienste nicht auf die notwendigen Dateien zugreifen.
Zudem funktioniert die Authentifizierung der Verwaltungsoberfläche des Compute Cluster nicht. Die Loadbalancer produzieren Fehler. Der Event-Bus muss erneut repariert werden.
Trotzdem: Es geht voran. Um 18:00 Uhr meldet das IT-Team die Einsatzbereitschaft des Notfallsystems, will heißen: Bricht die Stromversorgung erneut zusammen, könnte sofort auf dieses System gewechselt werden.
Die Webseiten existieren nach wie vor nicht. Die Not-Newsletter werden verschickt.
Der lange Donnerstag
Um 19:00 Uhr startet das IT-Team ein aktuelles Backup der Hauptdatenbank, um im Zweifel am nächsten Tag eine komplett neue Datenbank befüllen zu können.
Mein Team stellt die Arbeit ein, da ohnehin nur Tasks laufen, die automatisiert die Konsistenz von Daten prüfen. Ehrlich gesagt, warenich war auch einfach durch und wusste nicht, was in den nächsten Tagen noch kommen würde. Von Ionos gab es nach wie vor noch keine sichere Entwarnung.
In der Nacht von Donnerstag auf Freitag gibt es bei Ionos einen Netzwerkausfall.
Am Freitag
Das IT-Team arbeitet seit 6:00 Uhr wieder. So hat sich das Problem mit der Hauptdatenbank über Nacht und nach Konsistenzprüfungen weder von alleine gelöst, noch konnte das SVA-Team zaubern. Das IT-Team spielt das Backup in die neue IT-Infrastrukur ein. Doch die ist noch nicht fit genug, um einen kompletten Wechsel zu ermöglichen, nur die Datenbankstruktur ist einsatzbereit.
Nun wird festgelegt, in welcher Reihenfolge, welche Systeme den Betrieb aufnehmen sollen. Immer noch nervige Fehler. Um 14:00 Uhr hat SVA das Datenbank-Backup fast fertig. Im Hintergrund laufen die Tests für die Portalseiten und -Features: Artikel, Whitepaper, Galerien ... alles da. Die Zuversicht steigt, bald Entwarnung geben zu können.
Gegen 17:00 Uhr: Erneute Probleme mit dem Cluster. Code Änderungen gehen nicht mehr online. Entäuschung macht sich breit, da sich das IT-Team sicher war, dass es nur noch einer Änderung bedarf. ..... Im Nachgang bestätigt sich das: nur noch eine Änderung, nur noch ein Fehler. Zusammen mit SVA hat die Vogel-IT ihn identifizieren und packen können - die Container Library kann nicht mehr mit den Compute Servern sprechen.
Endlich: Es ist 17:17 Uhr am 10. November 2023: Die Website von „DataCenter-Insider“ ist wieder da. Jetzt wird für die Leser:Innen an einem ordentlichen Newsletter gewerkelt - mithilfe eines neuen und noch experimentellen Newsletter-Tools.
Gegen 22:00 Uhr: Ein Durchbruch. SVA konnte das Problem lösen und ein Update geht nach vier bis fünf Stunden endlich durch. Jetzt packt alle der Ehrgeiz: Der Feierabend wird weiter und weiter verschoben; denn es laufen Tests. Und: Die Systeme sind freigegeben. Aber die Newsletter nicht.
Der Sonntag
Sonntag ab 12:00 Uhr: Ein System ist vergessen und am Wochenende routinemäßig neu ausgerollt worden. Da dieses System aber mit nunmehr veraltetem Code ausgestattet war, hat das zu einer Flut an Fehlern geführt, die sich dann auch noch exponentiell im System vervielfältigt und erneut zum Kollaps geführt haben.
„Das stört keinen großen Geist“, sagte 1955 „Karlsson vom Dach“ und scheint auch das Motto der IT-Experten gewesen zu sein. Denn zirka eine Stunde später sind die Systeme wieder da.
Sonntag ab 17:00 Uhr: Alle Systeme befinden sich auf dem aktuellen Stand und die Newsletter können wie gewohnt versendet werden.
(ID:49786170)