Ausgeknipst

Microsoft Azure fällt in Texas aus – DataCenter-Insider in Karlsruhe

| Autor: Ulrike Ostler

Blitz und Brand sorgen für RZ-Ausfälle
Blitz und Brand sorgen für RZ-Ausfälle (Bild: gemeinfrei - geralt/Pixabay / CC0)

Nachdem ein Microsoft-Rechenzentrum in Texas ausgefallen ist und am Dienstag einen Ausfall des Azure-Cloud-Dienstes verursacht hat, hat das Unternehmen ein Software-Update für seine Server herausgegeben, das weitere Probleme mit Nutzern von Diensten wie „Skype“ und „Office 365“ verursacht hat. DataCenter-Insider war Donnerstag offline.

Das fehlerhafte Software-Update der Microsoft-Produkte kam heraus, während die Azure-Anwender in den USA noch unter dem Ausfall des texanischen Rechenzentrums litten. Es begann um 17:30 Uhr UTC (hierzulande: 19:30 Uhr). Die Fehler wurden durch die Nachricht , dass ihr Service gedrosselt wurde, verursacht. Sie sollten nun weitgehend behoben sein oder werden.

Verursacht wurde der „Servicefall MO147606“ durch „ schlechtes Wetter" mitsamt Blitzeinschlägen. Die Kühlsysteme wurden überlastetet, die Server schalteten sich ab.

Ausfall von Vogel-Communications-Websites

Der Grund für den Ausfall von DataCenter-Insider und andere Medien von Vogel Communications GmbH & Co. KG war ein Brand und entsprechende Löschmaßnahmen bei Rechenzentrumsdienstleister Profitbricks in Karlsruhe. Die Systeme haben sich dadurch automatisch abgeschaltet.

Zur Erklärung teilt Profitbricks Folgendes mit: „Am 06.09.2018 kam es um 07:19 Uhr im Rechenzentrum unseres Partners Telemaxx in einem Segment, das Profitbricks mit Storage-Servern belegt hat, zur Auslösung einer Brandmeldung. Die Brandmeldung aktivierte das automatische Feuerlöschsystem in der entsprechenden Brandschutzzone.

Dieses System ist so ausgelegt, dass es den Raum, in dem der Brand vermutet wird, mit Stickstoff flutet. Die Raumluft wird augenblicklich dekomprimiert. Ein solcher Dekompressionsvorgang führt zur umgehenden Ersetzung der Raumluft durch das Brandschutzgas.

Wie die Wirkungskette zwischen Brandschutzmaßnahme und Auswirkung auf Speicherplatten genau ausgesehen hat, wird derzeit untersucht. Möglich wäre es - derzeit als Hypothese aufzufassen - dass die Kühlung der Festplatten durch den einströmenden Stickstoff unterbrochen wurde und manche Platte überhitzte. Gleichfalls könnte aber auch aufgrund von Vibration ein Lesekopfsprung erfolgt sein, da bei der Verdrängung eines Gases durch ein anderes eine gewisse Druckwelle im Mikrobereich nicht ausgeschlossen werden kann.

In der Folge waren manche betroffene Speicher zeitweise nicht verfügbar und neuen Provisionierungen temporär ausgesetzt, um den Betrieb der Storage-Server nicht anderweitig zu gefährden. Unsere Techniker begannen nach kurzer Einschätzung des Vorfalls sofort mit der Bestandsaufnahme des Schadens.

Insgesamt wurde nur weniger als 5 Prozent der Speicherfestplatten nachhaltig beschädigt. Alle anderen konnten nach und nach wieder in Betrieb genommen werden.

Derzeit wird an der Wiederherstellung der Redundanz der Daten aus dem betroffenen Brandabschnitt in einem nicht betroffenen Abschnitt gearbeitet. Angesichts der Speichermenge und der Vornahme der Redundanzwiederherstellung im laufenden Betrieb dauert der Replikationsvorgang noch an und wird vermutlich erst zu Ende der nächsten Woche komplettiert sein. Der Grund hierfür: Eingriffe in virtualisierte Systeme sind nur behutsam möglich, um die Virtualisierungslogik nicht zu beeinträchtigen.“

DataCenter-Insider war jedenfalls von kurz vor 10:00 Uhr bis gegen Mittag offline.

Ergänzung vom 10. September 2018:

Proftbricks teilt mit: „Folgende neue Erkenntnisse gibt es:

  • Vermutlich hat ein Softwarefehler in der Brandschutzmeldezentrale des Rechenzentrumsbetreibers einen Fehlalarm ausgelöst. Dieser Hypothese geht unser Data-Center-Partner derzeit nach.
  • Physisch beschädigte Festplatten, die es im Einzelfall gab, könnten hiervon betroffen gewesen sein, siehe Link
  • Der Betrieb für die Kunden läuft wieder komplett störungsfrei;Wiederherstellungsmaßnahmen sind weitgehend beendet.
  • Redundanzsysteme haben sich unter verstärkter Last als robust erwiesen.

Die Kunden erhalten einen umfangreichen 'Reason for Outage'-Bericht, der noch im Laufe des Abends versandt werden wird.“

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45486497 / News)