Ein universelles Rezept für Datacenter-Redundanz gibt es nicht. Es ist aber auch mittlerweile klar: Weniger ist manchmal mehr. Ein erfolgreiches Redesign der Rechenzentrumsarchitektur beginnt daher mit einer Bestandsaufnahme – wohlgemerkt im Kontext geschäftlicher Anforderungen.
Redundanz ist für die Rechenzentrumsbetreiber ein wichtiges Thema, das zahlreiche Fallstricke birgt.
(Bild: stock.adobe.com / Aghavni)
Datacenter-Redundanz bezieht sich auf die Praxis, die Rechenzentrumsinfrastruktur mit zusätzlichen Komponenten über die erforderlichen Kapazitäten hinaus auszustatten und die übrigen Ressourcen, nicht zuletzt auch die Daten, in einem Datacenter-Verbund so einzurichten, dass die Dienste im Falle einer Betriebsstörung für ihre Nutzer weiterhin verfügbar bleiben oder sich zumindest – vollständig und in kürzester Zeit – in diesem Zustand wiederherstellen lassen. Redundanz geht ans Geld. Viele Unternehmen hinterfragen daher das Redundanzniveau, selbst wenn sie als Zielsetzung eine hohe Verfügbarkeit anstreben.
Zwischen „redundant ausgelegt” und „überflüssig“
Das Uptime Institute hat ein Tier-Klassifizierungssystem entwickelt, das Datacenter im Hinblick auf ihre Dienstverfügbarkeit in vier Leistungskategorien einteilt: die „taktischen“ Niveaus Tier I und Tier II sowie die „strategischen“ Niveaus Tier III und Tier IV.
Tier I: Erforderliche Grundkapazität. Ausfallsicherheit zieht gegenüber anderen Prioritäten klar den Kürzeren. Tier I bietet Schutz vor Störungen durch menschliches Versagen, aber nicht vor unerwarteten Ausfällen. Das Rechenzentrum muss für präventive Wartungsarbeiten und Reparaturen möglicherweise vollständig heruntergefahren werden, um das Risiko von ungeplanten Unterbrechungen und schwerwiegenden Folgen eines Systemausfalls zu minimieren.
Tier II: Stellenweise redundante Kapazitäten. Ein Tier-II-Rechenzentrum verzichtet auf die gleichzeitige Wartungsfähigkeit in allen kritischen Subsystemen, weswegen es ähnlich wie eine Tier-I-Facility mit einer Ausfallzeit selbst für planmäßige Wartungsarbeiten rechnen muss.
Tier III: Wartungsfähig im laufenden Betrieb. In einer Tier-III-Einrichtung können sämtliche Kapazitätskomponenten geplant außer Betrieb genommen werden, ohne die kritische Umgebung oder IT-Prozesse zu beeinträchtigen. Eine Fehlbedienung kann bereits einen Kapazitätenausfall nach sich ziehen.
Tier IV: Fehlertolerant und ausfallsicher. Ein Tier-IV-Rechenzentrum bietet die höchste Ausfallsicherheit. Jede einzelne Kapazitätskomponente und jeder Verteilungspfad verkraftet einen Ausfall, Fehler oder ein anderes ungeplantes Ereignis, ohne die Verfügbarkeit kritischer Infrastrukturen oder IT-Prozesse zu beeinträchtigen. Eine planmäßige Ausfallzeit ist nicht vorgesehen. (Ein Tier-IV-Rechenzentrum verfügt typischerweise über eine doppelte Stromversorgung mit getrennten Pfaden und Schaltungen, die unmittelbar belastungsfähig sind, sowie Redundanz in der Kühlung und anderen kritischen Systemen wie Netzwerk und Sicherheit.)
Das Bewertungssystem des Uptime Institute verlangt weder die Implementierung einer bestimmten Rechenzentrumsarchitektur noch gibt es konkrete Redundanzniveaus vor. Jede der TIER-Klassen definiert Anforderungen an die Dienstbereitschaft, nicht jedoch an ein bestimmtes Redundanzniveau – entgegen der allgemeinen Überzeugung. TIER-Zertifizierungen des Uptime Institute beschränken sich zudem auf Subsysteme zur Gewährleistung der Energieversorgung und Kühlung. (Die Klassifizierungsebene „Tier 5“ des Datacenter-Betreibers Switch liegt außerhalb des Klassifizierungssystems des Uptime Institute.)
Die Bewertung der Infrastruktur eines Rechenzentrums nach dem Klassifizierungssystem des Uptime Institute ist ergebnisorientiert und technologieagnostisch. Sie richtet sich weder an eine von oben vorgegebenen „Checkliste“ von Redundanz-Anforderungen, noch folgt sie einem verpflichteten „Kochbuch“, um die Innovation nicht zu ersticken.
eBook: Doppelt und dreifach ist out: Intelligenz schlägt Redundanz
eBook: Doppelt und dreifach ist out: Intelligenz schlägt Redundanz
„Doppelt (und dreifach)“ hält besser, klar. Doch Redundanz kostet Geld. Ist das denn wirklich der beste Weg?
Datacenter-Betreiber streben nach Höchstverfügbarkeit, Widerstandsfähigkeit und Zuverlässigkeit – neuerdings vor dem Hintergrund einer Rekordinflation, steigender Energiekosten und unsicherer Versorgung: Viele Unternehmen stellen sich insgeheim die Fragen: „Machen wir es jetzt richtig?“ und „Ist es denn nicht schon genug?“
In der technischen Umsetzung dieser Anforderungen schlummert massives Potenzial für die Senkung der Gesamtkosten kompromissloser Ausfallsicherheit. Erfahren Sie im eBook mehr dazu.
Verfügbarkeit versus Redundanz in der TIER-Klassifizierung des Uptime Institute
Die Entscheidung für das eine oder andere TIER-Niveau sollte sich nach der Risikobereitschaft einer Organisation richten und im Zusammenhang mit ihren Geschäftszielen stehen, empfehlen die Berater des Uptime Institute. Der Datacenter-Eigentümer sollte vor dem Festlegen des anzustrebenden TIER-Niveaus eine sorgfältige Prüfung der Facilities und der Zielsetzung durchführen, raten die Experten weiter. Denn bei Investitionsentscheidungen ohne ein definiertes Geschäftsziel würden viele Organisationen ihr Kapital in der Pfeife rauchen.
Der erste Schritt im TIER-Zertifizierungsprozess des Uptime Institute stellt die Analyse der Konstruktionsunterlagen dar. Für bestehende Rechenzentren beginnt der Prozess der Vorbereitung auf eine TIER-Zertifizierung mit einer Analyse von Defiziten (engl. Tier Gap Analysis). Auf den Prüfstand gelangen alle elektrischen, mechanischen, Überwachungs- und Automatisierungs- Teilsysteme (engl. Tier Certification of Design Documents). Mit der Design-Zertifizierung ist ein wichtiger Meilenstein erreicht. Sie gilt im Übrigen nur zwei Jahre lang. Danach beginnt die Implementierungsphase.
Bei der TIER-Zertifizierung der Datacenter-Anlage (engl. Tier Certification of Constructed Facility) führt ein Team von Beratern des Uptime Institute einen Besuch vor Ort durch, um etwaige Abweichungen von den Konstruktionsunterlagen zu untersuchen und die Einhaltung der Anforderungen der betreffenden TIER-Zertifizierung in Tests nachzuweisen. Selbst bei den am besten konzipierten und gebauten Anlagen kann es ohne ein gut entwickeltes, umfassendes Management- und Betriebsprogramm zu Ausfällen kommen. Die TIER-Zertifizierung für operative Nachhaltigkeit bewertet deswegen die gelebte Praxis des Tagesbetriebs (engl. Tier Certification of Operational Sustainability).
Durch die Zertifizierung auf allen drei Ebenen können die Eigentümer von Rechenzentren ihren Nutzern lückenlose Exzellenz nachweisen. Redundanz allein führt nicht zwangsläufig zu einer erheblichen Steigerung der Zuverlässigkeit der Arbeitslasten. Der TIER-Standard beschränkt sich zudem auf eine einzelne Standortanlage. Hohe Verfügbarkeit für Endbenutzer lässt sich aber auch durch die Integration komplexer IT-Architekturen und Netzwerkkonfigurationen erreichen, insbesondere durch den Einsatz synchroner Dienste an mehreren unabhängigen Standorten, ob durch die Georedundanz oder eine hybride Cloud. Der TIER-Standard lässt all diese Möglichkeiten außer Acht.
Redundante Geräte, die an einem Standort gemeinsam gelagert sind, bieten in der Regel lediglich eine erhöhte Ausfallsicherheit der betreffenden Subsysteme. Ihr Betrieb geht häufig auf Kosten eines erhöhten Energieverbrauchs, da sie möglicherweise nur im Bereitschaftsmodus ihr Schattendasein fristen. Die Fähigkeit der IT-Systeme, auf einen anderen Standort auszuweichen wird in der Zertifizierung des Uptime Institute nicht erfasst.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Georedundanz und ihre Tücken
Besondere Geschäftsanforderungen rufen häufig vollständig redundante Rechenzentren – Stichwort: Georedundanz – auf den Plan. Georedundanz löst die Schwachstellen von gemeinsam gelagerten redundanten Geräten. Bei diesem Ansatz steht das Failover- oder Backup-Equipment geografisch getrennt bereit. Dies soll die Wahrscheinlichkeit verringern, dass ein Standortausfall die Dienstverfügbarkeit beeinträchtigen kann.
Georedundanz verteilt das Failover/Backup-Equipment über zwei oder mehr geografisch (also nicht nur räumlich) entfernte Standorte, um die Wahrscheinlichkeit zu verringern, dass katastrophale Vorfälle zu Dienstausfällen oder Datenverlusten führen. Georedundanz löst dadurch die Schwachstellen gemeinsam gelagerter redundanter Geräte. Die Richtlinie „Kriterien für die Standortwahl höchstverfügbarer und georedundanter Rechenzentren“ des Bundesamtes für Sicherheit in der Informationstechnik (BSI) definiert die empfohlene Mindestdistanz für redundante Rechenzentren zur Gewährleistung der Höchstverfügbarkeit als 200 km.
Für Georedundanz gibt es zwei grundlegende Ansätze: Cold-Site und Hot-Site. Die Inbetriebnahme einer Cold-Site-Facility im Falle eines Falles kann ein langwieriger Prozess sein, der mit unerwarteten Inkompatibilitäten einhergeht und eine übermäßig lange Wiederherstellungszeit erfordert, von den hohen Kosten ganz abgesehen. Die Lösung besteht darin, den alternativen Standort oder die alternativen Standorte mit täglichen Arbeitslasten „in Schuss zu halten“. Diese Konfiguration wird als Hot-Site bezeichnet. Hot-Sites sind Failover-Standorte, die mit einer activeactive-Clusterkonfiguration betrieben werden.
In Hot-Site- oder active-active-Konfigurationen ist jeder Standort für bestimmte Anwendungen aktiv und fungiert als Standby für Anwendungen, die an einem anderen Standort aktiv sind. Diese Konfiguration schafft Widerstandsfähigkeit auf Standortebene und ermöglicht ein vollständiges Failover des Rechenzentrums. Dieser Ansatz kann zudem eine Kostensenkung ermöglichen, indem teure Infrastrukturen wie Generatoren und USV-Systeme überflüssig werden. Denn bei dieser Konfiguration kann das gesamte Rechenzentrum wegfallen – ohne Folgen für die Dienstverfügbarkeit.
Wer es richtig schlau anstellt, kommt auch mit einem geringeren Redundanzniveau sehr gut weg.
Ausgefuchst
Zu den bewährten Ansätzen für den Verzicht auf „(Über-)Redundanz“ zählen:
Intelligente Lastverteilung: Die Steuerung und Überwachung der Infrastruktur und Anwendungen durch intelligente Algorithmen in Echtzeit kann die Last auf Komponenten und Subsysteme umverteilen, um Engpässe zu vermeiden und ein optimales Risikoprofil zu gewährleisten. Dies verringert die Notwendigkeit einer Überdimensionierung redundanter Ressourcen. Durch den Einsatz von Künstlicher Intelligenz und Maschinellem Lernen können intelligente Systeme Prognosen und Vorhersagen über den zukünftigen Ressourcenbedarf treffen.
Intelligente Failover- und Failback-Mechanismen: Intelligente Systeme können automatisch erkennen, wenn eine Komponente oder ein System ausfällt, und nahtlos auf redundante Komponenten oder Systeme umschalten. Durch den Einsatz von intelligenten Überwachungs- und Steuerungsmechanismen lässt sich die Ausfallsicherheit verbessern und die redundante Infrastruktur effizienter auslasten.
Prädiktive Wartung (Predictive Maintenance): Intelligente Analyse- und Diagnosetools können den Wartungsbedarf von Komponenten vorhersagen. Anstatt präventive Wartung „auf Verdacht“ zu betreiben, können intelligente Systeme den Zustand der Infrastruktur kontinuierlich überwachen und Wartungsarbeiten prädiktiv auf Basis von Sensordaten und Analyseergebnissen einplanen. Diese Art von proaktiver Wartung zielt darauf ab, Ausfälle vorwegzunehmen, und kann helfen, die Anzahl der redundanten Komponenten, die ausschließlich zur Wartung vorgehalten werden, zu reduzieren.
Redundanz virtualisieren? Durch den Einsatz von Virtualisierungstechnologien und Cloud-Infrastrukturen lässt sich die Redundanz auf einer höheren Ebene umsetzen. Virtuelle Maschinen und andere Ressourcen lassen sich dynamisch provisionieren und verwalten, wodurch die Notwendigkeit redundanter physischer Komponenten im Idealfall sinkt. Intelligente Cloud-Plattformen im Rechenzentrumsverbund können auch mit Funktionen wie automatischer Skalierung und Lastverteilung auftrumpfen, um die Ressourcenauslastung zu optimieren, ohne zusätzliche physische Redundanz einzuführen.
Einige gängige Ansätze haben jedoch potenziell gravierende Tücken. Dazu zählt allen voran die virtuelle Konsolidierung. Die Virtualisierung von Servern, Netzwerken und anderen Ressourcen ermöglicht die Konsolidierung mehrerer virtueller Instanzen auf einer physischen Infrastruktur, um die Anzahl redundanter physischer Geräte zu verringern. Dieser Ansatz, bekannt als virtuelle Konsolidierung, kann sich sowohl positiv als auch negativ auf die Redundanz auswirken, abhängig von der Art und Weise, wie er implementiert wird. Einzelne Ausfallpunkte physischer Komponenten können zu Ausfällen einer hohen Anzahl verteilter virtueller Systeme führen. Das ist dann nicht im Sinne des Erfinders.
Durch Automatisierung und Orchestrierung lassen sich redundante Ressourcen und manuelle Eingriffe eliminieren – oder sie multiplizieren sich stattdessen außer Rand und Band. Intelligente prädiktive Analysen auf der Basis von Maschinellem Lernen und Künstlicher Intelligenz können eine intelligente Entscheidungsfindung ermöglichen. Sie können helfen, Infrastrukturressourcen dynamisch an die Anforderungen von Anwendungen und Diensten anzupassen, und so etwaigen Fehlgriffen der programmatischen Automatisierung und Orchestrierung entgegenwirken. Sie können außerdem Möglichkeiten zur Optimierung aufdecken, Engpässe erkennen und einen drohenden Leistungsabfall vorhersagen.
Das Failover auf Public Clouds ist ebenfalls ein zweischneidiges Schwert. Cloud-Computing-Plattformen ermöglichen den bedarfsgesteuerten Zugriff auf Ressourcen auf Anfrage, allerdings mit einem nicht unerheblichen OPEXAufschlag gegenüber On-Premise. Die Skalierbarkeit und Flexibilität der Cloud kann die Notwendigkeit redundanter lokaler Infrastrukturen reduzieren, sie kann jedoch auch eine permanente finanzielle Belastung bedeuten.
Fazit
Um Service-Level von Rechenzentrumsdiensten sicherzustellen und das Risiko von Unterbrechungen zu reduzieren, ist Über-Redundanz unterm Strich weder sinnvoll noch zwingend nötig.