Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

Verstopftes Nadelöhr Was ist Single Point of Failure–SPOF?

Von Manuel Masiero 3 min Lesedauer

Anbieter zum Thema

Ein Single Point of Failure tritt auf, wenn das Versagen einer einzelnen Komponente den Ausfall des kompletten Systems nach sich zieht. Im Datacenter-Umfeld finden sich solche Schwachstellen zum Beispiel bei Hardwarekomponenten wie bei der Unterbrechungsfreien Stromversorgung oder Servern, aber auch auf Software-Seite.

Kleine Ursache, große Wirkung: SPOFs treten meist in komplexen Systemen auf und lassen sich deshalb mitunter nur schwer aufspüren.(Bild:  frei lizenziert: Gerd Altmann /  Pixabay)
Kleine Ursache, große Wirkung: SPOFs treten meist in komplexen Systemen auf und lassen sich deshalb mitunter nur schwer aufspüren.
(Bild: frei lizenziert: Gerd Altmann / Pixabay)

Ein Single Point of Failure (SPOF), zu Deutsch einzelner Ausfallpunkt, ist Bestandteil eines Systems, Prozesses oder Netzwerks, dessen Funktionsstörung zum Ausfall des gesamten Systems führen würde. Ein SPOF kann sich nach dem Muster „schwächstes Glied der Kette verhalten“, also wie eine Komponente, deren Wegfall das Gesamtsystem augenblicklich zum Zusammenbruch bringt. Möglich ist auch ein Ausfall nach dem Kettenreaktions-Prinzip. Dabei beeinträchtigt der Ausfall einer Komponente nach und nach andere Komponenten in ihrer Funktionsfähigkeit so weit, bis schließlich das Gesamtsystem zum Stillstand kommt.

In Rechenzentren kann ein SPOF erhebliche Risiken für die Verfügbarkeit und Zuverlässigkeit der IT-Infrastruktur darstellen. Auftreten kann ein SPOF dort an jedem nicht-redundant ausgelegten hard- oder softwareseitigen Teil des Systems, so etwa bei der Stromversorgung, bei einem Netzwerk-Switch, Server, Kühlsystem oder bei einer Datenbank.

Für die Betreiber unternehmenskritischer digitaler Infrastrukturen gilt es, SPOFs zu identifizieren und zu beseitigen, denn manches darf schlichtweg nicht ausfallen – Stichwort Hochverfügbarkeit. Ausfälle kommen dennoch immer wieder vor, denn selbst eine Hochverfügbarkeit von 99,9999 Prozent bedeutet, dass pro Jahr Ausfallzeiten von 31,6 Sekunden zusammenkommen können.

Weg mit den SPOFs!

Es gibt mehrere bewährte Praktiken, um Single Points of Failure zu vermeiden und die Verfügbarkeit der IT-Infrastruktur zu verbessern. Eine der wichtigsten davon ist die Redundanz. Parallel dazu kann ein Risiko-Management mitsamt einer frühzeitigen Analyse potenzieller Schwachstellen dabei helfen, die Komplexität von Projekten und Systemen aufzulösen.

Redundanz: Für den Betrieb essenzielle Komponenten sollten doppelt oder vielfach ausgelegt und bei laufendem Betrieb auswechselbar sein. Dazu ist es beispielsweise nötig, mehrere voneinander unabhängige Stromquellen und unterbrechungsfreie Stromversorgungen (USVs) einzusetzen. Auf Netzwerkebene bietet sich die Multi-Chassis Link Aggregation (MLAG) an, die durch den Zusammenschluss mehrerer Switches Redundanz herstellt.

Failover-Mechanismen: Ein automatisches Failover stellt sicher, dass das System automatisch auf Backup-Komponenten umschalten kann, wenn ein Fehler auftritt. In diese Kategorie fallen auch Server-Cluster, um Anwendungen und Dienste auf mehrere physische Systeme zu verteilen.

Replikation, Backup und Disaster Recovery: Datenreplikation auf mehrere Standorte, regelmäßiges Anlegen von Backups und Testen der Wiederherstellungsprozesse. Kommt es zu einem Fehler, sollten auch Notfallpläne in der Schublade liegen, um schnell reagieren zu können.

Netzwerkdesign: Durch die Segmentierung des Netzwerks in mehrere Subnetze, die dann jeweils wie ein eigenes Netzwerk fungieren können, kann der Datenverkehr besser gesteuert und die Netzwerksicherheit erhöht werden. Zusätzlich bietet es sich an, Rechenlasten mittels Load Balancing gleichmäßig auf mehrere Server zu verteilen, um eine hohe Verfügbarkeit zu garantieren.

Monitoring und Wartung: Implementieren von Überwachungssystemen, um potenzielle Schwachstellen frühzeitig zu erkennen. Eine regelmäßige Wartung gewährleistet die Zuverlässigkeit der IT-Systeme.

Deutlicher Anstieg seit 2019: Fehler in der Stromversorgung sind laut der “Annual outage analysis 2023“j” des Uptime Insitute die mit Abstand häufigste Ursache für Ausfälle im Rechenzentrum.(Bild:  Uptime Institute)
Deutlicher Anstieg seit 2019: Fehler in der Stromversorgung sind laut der “Annual outage analysis 2023“j” des Uptime Insitute die mit Abstand häufigste Ursache für Ausfälle im Rechenzentrum.
(Bild: Uptime Institute)

Wenige, aber teure Ausfälle

Laut der Annual outage analysis 2023 des Uptime Institute waren 60 Prozent der befragten Organisationen in den letzten drei Jahren von Ausfällen in Rechenzentren betroffen. Der Anteil der als schwerwiegend eingestuften Ausfälle fiel im Untersuchungszeitraum zwar leicht von 8 auf 6 Prozent, doch insgesamt schlugen mehr als zwei Drittel der Ausfälle mit einem Schaden von mehr als 100.000 Dollar zu Buche. Hauptursache für die Ausfälle war in 44 Prozent aller Fälle die Stromversorgung, gefolgt vom Netzwerk (14 Prozent) sowie den IT-Systemen und der Kühlung (jeweils 13 Prozent).

Artikelfiles und Artikellinks

(ID:50155740)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung