Suchen

Zertifiziert unverwüstlich Von Tier IV zu Tier 5 Platinum: Zu viel des Guten?

| Autor / Redakteur: Anna Kobylinska und Filipe Martins / Julia Schmidt

Das rasante Innovationstempo der RZ-Branche hinterlässt keine Zweifel daran, dass aktuelle Zertifizierungen von RZ-Architekturen den Anforderungen der Praxis stets hinterherhinken. Diverse Marktakteure reiben sich beim Gedanken an neue Standards ja auch schon die Hände. Tier 5 Platinum gefälligst?

Firmen zum Thema

Auf allen Zylindern: Das erste Tier-5-Datencenter steht bei dem Colocation-Hyperscaler Switch in der nevadianischen Wüste und erfreut sich regen Zuspruchs.
Auf allen Zylindern: Das erste Tier-5-Datencenter steht bei dem Colocation-Hyperscaler Switch in der nevadianischen Wüste und erfreut sich regen Zuspruchs.
(Bild: Switch, Inc.)

Ob es darum geht, Investoren zu beeindrucken oder Kunden zu überzeugen – eine Tier-Zertifizierung des Uptime Institute, Inc. macht sich immer gut. Doch das System der Verfügbarkeitsklassifizierungsstufen (Tier I, II, III bis IV) ist bereits beinahe drei Jahrzehnte im Umlauf. Das Konzept greift an neuen Realitäten vorbei zunehmend ins Leere.

Switch, Inc., ein börsennotierter nordamerikanischer Colocation-Hyperscaler (SWCH an der NYSE-Börse), hält das System des Uptime Institute für unzureichend. Mit einem Zertifizierungsstandard namens Tier 5 Platinum will Switch ein alternatives Gütesiegel zur Klassifizierung von Rechenzentren geschaffen haben. Der RZ-Anbieter hat auch schon das erste Colocation-Rechenzentrum nach diesem Standard im U.S.-Bundesstaat Nevada im Betrieb.

Bildergalerie

Bildergalerie mit 11 Bildern

Abgestufte Kritik

Das bestehende Klassifizierungssystem des Uptime Institute ist in den vergangenen Jahren verstärkt ins Kreuzfeuer der Kritik geraten. Das Tier-Zertifizierungssystem des Uptime Institute umfasst die Stromversorgung, Kühlung und Sicherheit des physischen Gebäudes, lässt jedoch unter anderem so kritische Aspekte der Betriebsbereitschaft eines Rechenzentrums wie die Konnektivität und die Cybersicherheit außer Acht.

Das System beruht auf der Annahme, dass sich die Verfügbarkeit eines Rechenzentrums infolge der Nutzung von redundanten Komponenten – und dem daraus resultierenden Wegfall einer zentralen Schwachstelle („one single point of failure“, kurz SPoF) – verbessern müsste. Die höchste Verfügbarkeitsstufe, Tier IV, gilt allgemein als fehlertolerant und gleichzeitig wartungsfreundlich, aber nicht unverwüstlich.

Tier IV verlangt ein Höchstmaß an Verfügbarkeit mit einer garantierten Uptime von mindestens 99,995% (gegenüber 99,982% für Tier III). Das entspricht einer Ausfallzeit von maximal 26,3 Minuten pro Jahr. Zur Gewährleistung dieser Uptime müssen Rechenzentren eine 2N+1-fache Redundanz auf Infrastrukturebene (ein wesentlicher Unterschied gegenüber Tier III) aufweisen und nicht zuletzt auch noch über einen 96 Stunden langen Stromausfallschutz verfügen.

Jedes vierte Tier IV-zertifizierte Rechenzentrum Europas befindet sich in Luxemburg. Eines von drei der insgesamt 21 Rechenzentren Luxemburgs haben das Tier IV-Gütesiegel eingeheimst und dem kleinen Land die höchste Tier-IV-Dichte Europas beschert. Das macht sich gut – zumindest auf dem Papier. Denn das höchste Zertifizierungsniveau des Uptime Institute ist wegen der strengen Auflagen relativ kostspielig, ohne dass es einen ausfallsicheren Betriebsschutz der Anlage bescheinigt. So geht aus der Tier-IV-Zertifizierung beispielsweise nicht hervor, wie die RZen in Luxemburg einen Atom-GAU in dem französischen Atomkraftwerk Cattenom handhaben würden, welches von der Infrastruktur der Hauptstadt bloße 25 km entfernt ist.

Umgeschaltet

Für die Entwicklung der Kriterien des Tier-5-Platinum-Standards bekamen bei Switch zwei der ursprünglichen Autoren der Uptime-Tier-Klassifikationen den Zuschlag. Der Gründer und CEO des Unternehmens, Rob Roy, hatte hohe Ansprüche in einer praxisnahen Ausführung im Sinne. Die Switch-Bewertung fügt daher u.a. Komponenten wie Trägerredundanz, Standorte der Strom- und Kühlgeräte sowie Sicherheit zur Gesamtbewertung hinzu.

Das Tier 5 Platinum von Switch garantiert, dass die Strom- und Kühlsysteme eines Rechenzentrums fehlerresistent sind. Das Tier 5 Platinum von Switch berücksichtigt die Internetverbindung und Zuverlässigkeit von Carrier-Diensten, die physische Sicherheit, regionale Katastrophenrisiken sowie die Nachhaltigkeit und Energieeffizienz einer Einrichtung.

Das proprietäre DCIM von Switch wacht anhand von über 1000 Sensoren über die Gesundheit der IT.
Das proprietäre DCIM von Switch wacht anhand von über 1000 Sensoren über die Gesundheit der IT.
(Bild: Switch, Inc.)

Mehrere voll funktionsfähige Stationen innerhalb des elektrischen Rückgrats können die Steuerung und Überwachung von Schaltanlagen an drei verschiedenen Standorten vornehmen. Anstatt nur 12 Stunden lange kann das Rechenzentrum 100 Stunden lange fehlertolerante Standby-Leistung gewährleisten.

Allen Kunden eines Tier-5-Rechenzentrums stehen die Dienste von zehn direkt angeschlossenen Netzbetreibern über sechs Zugangspunkte auf mindestens zwei redundant ausgelegten Pfaden zur Verfügung. Die betroffenen Colocation-Kunden können bei Bedarf auf Dienste zur DDoS-Abwehr zurückgreifen.

Unter Schloss und Riegel

Eingesperrt: Die Tier-5-Spezifikation sieht die physische Absicherung eines jeden einzelnen Racks, Käfigs und IT-Raums einschließlich des Zugriffs auf kritische Anlagen und Systeme wie HVAC, die Energiezufuhr und Konnektivität.
Eingesperrt: Die Tier-5-Spezifikation sieht die physische Absicherung eines jeden einzelnen Racks, Käfigs und IT-Raums einschließlich des Zugriffs auf kritische Anlagen und Systeme wie HVAC, die Energiezufuhr und Konnektivität.
(Bild: Switch, Inc.)

Besondere Auflagen betreffen die Gewährleistung physischer Sicherheit. Ein Tier-5-RZ muss über die Fähigkeit zur physischen Absicherung eines jeden einzelnen Racks, Käfigs und IT-Raums einschließlich des Zugriffs auf kritische Anlagen und Systeme wie HVAC, die Energiezufuhr und Konnektivität. Das Sicherheitsteam führt mindestens halbjährlich eine Sicherheitsbedrohungsbewertung gemäß den in der Einrichtung festgelegten quantitativen und qualitativen Methoden durch.

Selbst architektonische Details finden im Kleingedruckten Berücksichtigung. Der Standard sieht unter anderem fensterlose Außenwände aus einem nicht brennbaren, nicht durchdringbaren Material wie Beton vor. Die Außentüren sind mit Stahlrahmen zu verstärken (z.B. mit Stahl versteift), vollständig mit Mörtel zu füllen und, falls unbemannt, ohne sichtbare Scharniere zu montieren.

Alles im Blick: Die fensterlosen Außenwände aus einem nicht brennbaren, nicht durchdringbaren Material verfügen über Lüftungsschlitze und Sicherheitskameras.
Alles im Blick: Die fensterlosen Außenwände aus einem nicht brennbaren, nicht durchdringbaren Material verfügen über Lüftungsschlitze und Sicherheitskameras.
(Bild: Switch, Inc.)

Ferner muss das Gelände über einen 2,10m hohen Zaun mit einem 18-Zoll hohen 3-Strang-Stacheldraht oder einem ähnlichen Hecht verfügen, der in einem Winkel von 45 Grad von dem Gelände nach außen hin geneigt ist. Zudem gilt es zu gewährleisten, dass sich dieser Zaun weder von einem Zufahrtsweg für Fahrzeuge noch von einem Fußgängerweg überbrücken lässt.

An allen Eingängen verfügt die Anlage über Zutrittskontrollmechanismen mit einer Personensperre.
An allen Eingängen verfügt die Anlage über Zutrittskontrollmechanismen mit einer Personensperre.
(Bild: Switch, Inc.)

An allen Eingängen verfügt die Anlage über Zutrittskontrollmechanismen mit einer Personensperre. Der physische Zugang erfordert einen Lichtbildausweis mit einer PIN-Nummer, biometrischer Authentifizierung und/oder unterliegt der Kontrolle durch ein Zwei-Personen-Integritätssystem (kurz: TPI). Das Zugangs- und Ereignisprotokoll wird 180 Tage lang aufbewahrt. Der Zutritt zu operativen Zonen unterliegt strengen Zugangskontrollrichtlinien. Bewegungsaktivierte Videoüberwachung von Serviceräumen und Eingängen mit 15 fps wird von Sicherheitsfachkräften laufend beaufsichtigt und 90 Tage lange archiviert.

Trockengelegt und unverwüstlich

Ein Tier-5-Rechenzentrum muss sich außerhalb eines 100-Jahre-Überschwemmungsgebietes befinden. Das gesamte Kühlwasser muss außerhalb der Gebäudehülle bleiben und darf nicht auf das Niveau des RZ-Bodens steigen.

In der Nachbarschaft dürfen sich keinerlei Einrichtungen befinden, die ein erhöhtes Risiko darstellen könnten. Die Räumlichkeiten können zudem alle notwendigen Maßnahmen zum „Schutz [von Menschen] an Ort und Stelle“ 4 Tage und 4 Stunden lang gewährleisten – nicht ganz so die typische COVID-19-Quarantäne, aber immerhin besser als nichts.

In allen IT-Räumen ist brennbares Material strikt untersagt. Die Gebäudetechnik muss auf eine Außenluftschadstofferkennung hin entsprechende Schutzmaßnahmen initiieren können.

Das Tier-5-Rechenzentrum von Switch greift auf Energiespeicher in einer N+1+Konfiguration zurück und bewacht die Reserven mit Hilfe eines fest installierten Überwachungssystems. Der Pfad kritischer Leistungsverteilung deckt mit seinen Überwachungsfunktionen die Stromkreise von der USV zu der Schalttafel ab. Bei 90% der Wartungsarbeiten am Standort kann die Leistungsversorgung A und B online bleiben. Das Rechenzentrum wird zu 100% aus erneuerbaren, lokalen Energiequellen versorgt und kann im Jahresdurchschnitt auf einen PUE-Wert von weniger als 1,3 verweisen.

Schotten dicht?

Bei Sicherheitsvorgängen sind „die strengsten gesetzlich zulässigen Tools“ zur Durchsetzung der physischen Sicherheit vorgesehen. Diese sind im globalen Maßstab jedoch nicht vergleichbar. Auch ist es nicht klar, welchen Beitrag zur Sicherheit biometrische Authentifizierungsmethoden leisten sollen, deren vielseitige Unzulänglichkeiten mehrfach nachgewiesen wurde und im Zusammenhang mit der rigiden Unveränderlichkeit biometrischer Daten ernsthafte datenschutzrechtliche Fragen aufwirft. (Beim Verlust eines Iris-Scans kann der Betroffene wohl kaum seine Iris austauschen, anders als einen kryptografischen Schlüssel oder einen Hardware-Tokengenerator.)

Bei Sicherheitsvorgängen sind „die strengsten gesetzlich zulässigen Tools“ zur Durchsetzung der physischen Sicherheit vorgesehen.
Bei Sicherheitsvorgängen sind „die strengsten gesetzlich zulässigen Tools“ zur Durchsetzung der physischen Sicherheit vorgesehen.
(Bild: Switch, Inc.)

Das Vorzeigedatencenter der Tier-5-Spezifikation verfügt über die Fähigkeit, auf unbestimmte Zeit, ohne auch nur einen Tropfen zusätzliches Wasser auszukommen. Das Konzept mag sich in der nevadianischen Wüste sicherlich gut bewährt haben, doch nicht jedem Standort wäre mit derart strengen Auflagen gleichermaßen gut gedient. Interessanter wäre sicherstellen zu können, dass eine künftig sicherlich unvermeidliche Stilllegung des Hyperscalers nicht-toxisches Wasser der Umwelt zurückgibt.

Der (bisher noch proprietäre) Standard Tier 5 war als ein Auftakt zur Erschaffung einer neuen quelloffenen Stiftung gedacht, der Data Center Standards Foundation (DCSF). Anders als das Uptime Institute mit seinem 4-Tier-Bewertungssystem sollte die neue Stiftung rein gemeinnützig aufgestellt sein und den Open-Source-Geist wiedergeben. Daraus ist bisher nichts geworden.

Das erste Tier-5-Datencenter im U.S.-Bundesstaat Nevada erfreut sich bei den Endnutzern regen Zuspruchs. In Europa setzt der Ableger von Switch, SUPERNAP International, vorerst jedoch auf die Tier IV-Zertifizierung unter anderem in seinem Datencenter im italienischen Milan.

TIER-Ready an der Edge

Das Uptime Institute versucht ja auch, mit der Zeit zu gehen. Im Rahmen des Zertifizierungsprogramms TIER-Ready hat das Uptime Institute vor ca. 3 Jahren die eigenen Tier-Standards auf vorgefertigte, modulare Edge-Datencenter erweitert und an die Gegebenheiten der Netzwerkkante angepasst.

TIER-Ready-Designs für vorgefertigte Edge-RZen sind unter anderem als Teil der Architektur EcoStruxure for Data Center von Schneider Electric verfügbar. Alle Referenzdesigns enthalten technische Dokumentationen, Schaltpläne, Layouts und vorab geprüfte Geräte im Einklang mit den Anforderungen des Uptime Institute.

Im März 2020 hat auch Vertiv eine Partnerschaft mit Uptime Institute zur Bereitstellung TIER-ready-zertifizierter PFM-Datencenter angekündigt. Im Rahmen der Partnerschaftsvereinbarung konnte Vertiv die TIER-Ready III-Entwurfsprüfung des Uptime Institute für seine SmartMod™-PFM-Infrastruktur für bis zu 10 Racks und 80 kW IT-Last bereits erfolgreich abschließen.

Einrichtungen auf der Basis von TIER-fähigen SmartMod-Lösungen sollen sich fortan „schnell und einfach“ für die TCCF-Zertifizierung (Tier Certification of Constructed Facilities) qualifizieren. Im Mai dieses Jahres erhielt auch die POD-Lösung von Delta Electronics das Zertifikat „Uptime Tier III Ready“.

Sobald eine Lösung als Tier-Ready abgestempelt ist, können Experten des Uptime Institute die Bereitstellung vor Ort besuchen und in eine der traditionellen Tier-Stufen (I bis IV) für vorgefertigte RZen einordnen. Diese Vorgehensweise soll die Zeit bis zur endgültigen Zertifizierung von circa einer Woche auf die Hälfte pro Anlage verkürzen. So entfällt außerdem die Notwendigkeit, die vollständige Prozedur für jeden einzelnen Edge-Knoten zu wiederholen.

Die Klassifizierung des Uptime Institute bescheinigt einem RZ oder einem RZ-Verbund keine lückenlose Ausfallresistenz, da der Standard ein Failover auf einen alternativen Standort nicht vorsieht. Somit stellt das Rechenzentrum selbst den so gefürchteten zentralen Ausfallpunkt dar. Erst eine standortunabhängige Betriebsbereitschaft mehrerer RZ-Anlagen würde den „Single Point of Failure“ eliminieren. Doch gerade das sieht die Klassifizierung ja nicht vor, ob für das Kern-RZ oder für die Edge.

Das Fazit der Autoren

Rechenzentrumsstandards strahlen bekannterweise eine positive Marketing-Wirkung aus. In der Realität hinken sie jedoch den Praktikabilitäten des RZ-Betriebs stets etwas hinterher. Obwohl nicht alle Vorgaben des proprietären Standards Tier 5 von Switch an jedem RZ-Standort Sinn machen, ist der eine oder andere visionäre Gedanke mit dabei.

*Das Autorenduo

Anna Kobylinska und Filipe Martins arbeiten für McKinley Denali Inc. (USA).

(ID:46627444)