Auf schwachen Füßen

Das Problem am tiefsten Punkt eines Google-Stack

| Autor: Ulrike Ostler

Die zerquetschten Räder des schadhaften Server-Schranks bei Google.
Die zerquetschten Räder des schadhaften Server-Schranks bei Google. (Bild: Google)

Auch das noch: Zerquetschte Räder haben bei Google für eine Überhitzung der Racks und somit für eine „ungewöhnlich hohe Anzahl an Fehlern“ gesorgt. Laut Google sei das Problem behoben worden, bevor es zu spürbaren Auswirkungen auf die Nutzer habe führen können.

Kleine Ursache, große Wirkung, könnte man sagen. Offenbar haben die an die Server-Racks von Google montierten Räder das Eigengewicht des Server-Schranks nicht ausgehalten. Zur Info: Ein Server mit einer Höheneinheit wiegt etwa 12 bis 15 Kilogramm. So sind 1.000 Kilogramm auf einem Quadratmeter Stellfläche auch in `normalen´ Rechenzentren längst keine Seltenheit mehr, ein Rack mit dem Gewicht eines Kleinwagens auch nicht.

Jedenfalls berichtet Cloud-Lösungsarchitekten Steve Mcghee in einem Blog-Beitrag davon, dass die Teams, die für das „Site Reliability Engineering“ (SRE) verantwortlich sind, über die „ungewöhnlich hohe Anzahl an Fehlern“, die von einem unbenannten Rechenzentrum ausgingen, informiert worden sei.

Offenbar gehört diese Nachricht zu der Fehlerklasse „within error budget“, die die SRE-Teams mit dem Spruch kennzeichnen: „Im Google-Maßstab stehen die Chancen in einem Verhältnis von einer Million zu einer Million - immer wieder neu.“ Will heißen: Die Komplexität des Systems aus Google Search, Google Mail, Anzeigen, Cloud-Angeboten, Android, Google Maps und vielen weiteren Komponenten ist schier unendlich und Arten des Scheiterns, die es sonst nirgendwo gibt.

In diesem Fall hat ein Traffic- und Lastausgleichsteam darauf aufmerksam gemacht, dass einige (Google-Frontends) im Edge-Netzwerk von Google nicht richtig funktionieren. Häufig abgerufene Inhalte würden unsinnigerweise zwischengespeichert. Das Edge-Netzwerk ist die Art und Weise, wie Google sich mit ISPs verbindet, um Datenverkehr zu und von den Benutzern zu erhalten.

Folgeproblem

Das Problem hat ein zweites nach sich gezogen, das so genannte Route Flapping. Dieses wird durch pathologische Zustände verursacht - hervorgerufen etwa durch Hardware-, Software- und Konfigurationsfehler, intermittierende Fehler in Kommunikationsverbindungen sowie unzuverlässige Verbindungen innerhalb des Netzwerks -, die dazu führen, dass bestimmte Erreichbarkeitsinformationen wiederholt abgerufen und wieder zurückgezogen werden.

In Netzwerken mit Link-state-Routing-Protokollen erzwingt das Route Flapping eine häufige Neuberechnung der Topologie durch alle beteiligten Router. In Netzwerken mit Distance-Vector-Routing-Protokollen kann das Route Flapping bei jeder Zustandsänderung Routing-Updates auslösen. In beiden Fällen verhindert es die Konvergenz des Netzwerks.

Die Last der fehlerhaften Maschinen ist zunächst auf andere Ressourcen übertragen worden. Dann haben die Ingenieure das Problem auf ein einzelnes Rack isolieren und im Basissystemprotokoll des Racks die eigentliche Fehlermeldung entdecken können: „Package-Temperatur über dem Schwellenwert, CPU-Takt gedrosselt (Gesamtanzahl der Ereignisse = 1596886)“.

Schieflage

Bei weiterem Nachforschen hat sich gezeigt, dass die hinteren Räder des betroffenen Rack beschädigt gewesen sind. Dadurch hat sich der Turm nach vorne geneigt. Das wiederum hat den Fluss des Kühlmittels unterbrochen und zumindest einige CPUs haben sich bis zu einem Punkt erhitzt, bei dem die Drosselung eingesetzt hat.

Wie Google mitteilt, ist das Rack repariert. Danach hat der Konzern alle Racks, die mit baugleichen Rädern ausgestattet gewesen sind, ersetzt.

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46416054 / Racks)