Das Dickicht aus Datacenter-Bedrohungen

An Risiken für den Rechenzentrumsbetrieb mangelt es - gar nicht

| Autor: Ulrike Ostler

Qualitätsmängel und Fehlentscheidungen können richtig weh tun und das Gefahrenpotenzial für Rechenzentren ist hoch.
Qualitätsmängel und Fehlentscheidungen können richtig weh tun und das Gefahrenpotenzial für Rechenzentren ist hoch. (Bild: gemeinfrei - MikesPhotos/ Pixabay)

Sicher, die meisten Rechenzentrumsbetreiber haben Redundanzen eingebaut und irgendwo einen Notfallplan. Doch es gilt auch die Kosten für eines Rechenzentrums beim Bau und Betrieb im Blick zu behalten… Einzelne Risiken sind also doch nicht so bedrohlich? Doch welche? Béla Waldhauser, CEO der Telehouse Deutschland GmbH, gibt einen Überblick über die Gefährdungen und ein paar Best-Practice-Beispiele.

Eigentlich sind die Risiken schnell genannt: Naturkatastrophen, Umgebungs- beziehungsweise Standortrisiken, Kriminalität, Terrorismus und Vandalismus, technische und operative Risiken wie Produktmängel, Reparaturen, Brand, Hacker-Angriffe und Softwaremängel, fehlgeplante Prozesse, menschliche Unzulänglichkeiten, die Stromversorgung aber auch gesellschaftliche Ereignisse wie Streiks und Demonstrationen oder Pandemie und politische Vorgaben.

Einiges davon scheint völlig klar, etwa dass ein Rechenzentrum weder in einem Überflutungsgebiet, noch neben einem Atomkraftwerk oder in der Einflugschneise eines Flughafens stehen kann, anderes wie „Prozesse“ scheint hingegen erklärungsbedürftig und die Risiken fehlerhafter Software und Malware-Abwehr überlässt Waldhauser als Co-Location-Anbieter gerne seiner Kundschaft.

Die wesentlichen Risiken, die Béla Waldhauser, CEO der Telehouse Deutschland GmbH, nennt, auf einen Blick
Die wesentlichen Risiken, die Béla Waldhauser, CEO der Telehouse Deutschland GmbH, nennt, auf einen Blick (Bild: Telehouse/KDDI)

„Lage, Lage, Lage …“, hingegen ist sein Einstieg ins Thema Risikobewertung für Rechenzentren. Es sei wie bei allen guten Immobilien, der Standort des Rechenzentrums entscheidet, wie sicher und wirtschaftlich es geführt werden kann. „Wir wenden rund 80 Prozent der Kosten für die Kühlungsinfrastruktur auf, da ist die Summe, die wir für ein Stückchen Land aufbringen müssen, nicht kriegsentscheidend.“

In die Bewertung eines Grundstücks spielen Zugang, Glasfaseranbindung aus unterschiedlichen Richtungen und eventuell von unterschiedlichen Kabel-Providern, Anschluss an das Stromnetz – aus unterschiedlichen Richtungen – eine wesentliche Rolle. Auch Möglichkeiten Geothermie, Kyotoräder, Wasserspeicher oder Frischwasser zu nutzen, die Abwärme in Nah- oder Fernwärmenetzen zu nutzen, können bedeutsam sein.

Ergänzendes zum Thema
 
Über Telehouse

Die Naturereignisse

Doch wie steht es mit Erdbeben und Vulkanausbrüchen, Tsunamis und Tornados? „Tatsächlich“, so Waldhausen, „gibt es auch in Deutschland einige kleine Gebiete, die erbebengefährdet sind.“ Das gelte es damit zu berücksichtigen. Frankfurt am Main, Mainz und Wiesbaden lägen aber beispielsweise in der Zone 0; das Risiko sei hier also „minimalst“.

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat im Dezember 2018 seine Empfehlungen für einen Mindestabstand zwischen Rechenzentren, die sich Georedundanz sichern sollen von 5 Kilometer auf 200 Kilometer erhöht, um im Katastrophenfall bei großflächigen Ereignissen, vom Flächenbrand bis Sturm oder GAU den Betrieb in einem Ausfallrechenzentrum gewährleisten zu können. „Für mich entsteht dabei die Frage, wie bekomme ich im Notfall die richtigen Mitarbeiter so schnell in ein Rechenzentrum, das sich in 200 Kilometern Entfernung befindet?“ Allerdings sei ein Flächenbrand schon interessant.

Brände in Brandenburg, nahe Berlin

So hat es Anfang Juli hatte ein Großbrand auf dem ehemaligen Truppenübungsplatz in der Lieberoser Heide 400 Hektar Naturschutzfläche verbrannt - eine Fläche, so groß wie 560 Fußballfelder. Es war der größte Waldbrand seit Jahren in Brandenburg, aber schon der dritte auf dem Gelände innerhalb von zwei Jahren. Fast zeitgleich sind auf dem ehemaligen Truppenübungsplatz bei Jüterbog 200 Hektar Wald verbrannt. Ebenfalls im Juli fielen in Kiefernwalte rund Hektar Kiefernwald einem Brand zum Opfer. Im August sind dann gut fünf Hektar in Schönow, nahe Berlin, Opfer von Flammen geworden. Betroffen waren Flug- und Autobahnverkehr. „Was ein Feuer in Frankfurts Innenstadt anrichten würde…“, überlegt Waldhauser.

Gefördert wurde die Brände des vergangenen Jahres durch die lang anhaltende Hitze- und Trockenperiode, die auch ohne Brände in der Gegend den Rechenzentrumsbetrieb herausfordert. „Wir haben unsere Kühltürme inzwischen auf 42 Grad ausgelegt“, so der Co-Location-Manager. Doch auch der Winter könne es in sich haben, etwa Blitzeis. „Dann kommen nämlich die Tankfahrzeuge nicht durch, die unter Umständen die Notstrom-Anlagen befüllen müssen. „Jedenfalls“, schließt Waldhauser das Kapitel, „kümmere ich mich lieber um Hitze und Eis als um Tsunamis.“

Die Nachbarschaftsrisiken

Zu den Umgebungsrisiken gehören Kraftwerke jeder Art, Chemie-Anlagen, aber auch andere explosionsgefährtete Produktionsbetriebe, Flughäfen, Bahnlinien, und Straßen. Entscheidend sei hier schlichtweg der „Zerstörungsradius“ und im Einzelfall zu prüfen.

Ein häufig unterschätztes Risikopotenzial haben gesellschaftliche Ereignisse, von Fußballfesten bis Demonstrationen, Konferenzen, Messen und Streiks. In deren Folge sperren Polizei, Katastrophenschutz und Feuerwehr Straßen leiten den Verkehr und Menschenmassen um. „Wann, welche Maßnahmen genau unseren Betrieb treffen, ist nicht vorhersehbar. Allerdings bereiten wir uns grundsätzlich darauf vor, dass solche Störungen eintreten können, insbesondere außerhalb der ´normalen`Geschäftszeiten.

„Denn was sind die normalen Geschäftszeiten? Sagen wir einmal werktags von 08:00 bis 18:00 Uhr? Das ergibt in Summe 2.500 Stunden im Jahr, also etwa 28,5 Prozent aller Stunden. Damit liegen mehr als 70 Prozent außerhalb dieser normalen Geschäftszeit und ´Murphy´s Law` schlägt nur allzu häufig zu“: Es gibt eine Grippewelle, drei Mitarbeiter einer Schicht sind krank, der vierte bekommt ein Kind und durch einen Staatsbesuch sind die Zufahrtswege gesperrt. Damit wird aber auch klar, dass eine Unterbesetzung, etwa durch Fachkräftemangel ein erhebliches Sicherheitsrisiko darstellen kann.

Terror

Beim nächsten Risiko-Themenblock Kriminalität, Vandalismus und Terrorismus fallen Waldhausers Ausführungen vergleichsweise knapp aus: „Gegen Terrorismus kann man sich nicht schützen. Gegen Vandalen und Kriminelle haben wir diverse Sicherheitszonen, zum Beispiel 3,50 Meter hohe Zäune.

Nicht ganz so offensichlich wie Naturkatastropen bergen die hausgemachten Gefährdungen unter Umständen ein hohes Gefährdungspotenzial.
Nicht ganz so offensichlich wie Naturkatastropen bergen die hausgemachten Gefährdungen unter Umständen ein hohes Gefährdungspotenzial. (Bild: Telehouse Deutschland GmbH)

Alle Datacenter-Gestaltungsmaßnahmen, die während der Planung und Bau eines Rechenzentrums unberücksichtigt bleiben, bedeuten hernach eine Operation am offenen Herzen. Es lassen sich nicht einfach Löcher in die Hülle bohren - Staub gefährdet den IT-Betrieb und Löcher in der Außenhülle die Sicherheit der Anlage.

Fehler im Design, der Strom oder die Daten kommt zwar über mindestens zwei Anschlüsse ins Rechenzentrum, kreuzen sich zuvor aber in einem Knoten, lassen sich eigentlich nicht mehr beheben. So musste Hamburger Flughafen im Juni 2018, den Betrieb nach einem Kurzschluss einstellen; der zahlreiche weitere benachbarte Kabel beschädigte. So gab es zwar redundante Kabel, aber die lagen in einem Schacht. Betroffen war ein zentraler Bereich der Energieversorgung im flughafeneigenen Blockheizkraftwerk, so dass auch die Notstromversorgung nicht funktionierte.

Zu lernen ist daraus, dass ein single point of failure ausgeschlossen werden muss. Auf die Frage, ob der Co-Locator Telehouse/KDDI jeden physischen Server kontrolliere, den die Kunden im Datacenter installierten, verneint der CEO. „Manchmal kommen mehrere Tausend Server an. Die können wir nicht alle kontrollieren.“

Fehler in der Technik

Zuständig allerdings sei ein Co-Location-Betreiber für die hauseigenen Installationen, Wartungen, Reparaturen, den Produkt-Lifecycle und die Software, mit der die Anlagen überwacht würden. „Dafür haben wir rund 25.000 Sensoren auf dem Campus,“ so Waldhauser.

Trotzdem sei man vor Überraschungen nicht gefeit. „So sind mir im vergangenen Jahr einmal 500 der fünf Jahre alten Batterien für die USV-Anlage auf einmal abgeraucht. Die waren schlichtweg falsch installiert. Jetzt haben wird keine USV mit Batterien mehr, sondern Schwungrad-Technik“, berichtet der Telehouse-Manager.

Darüber hinaus sei die Lebensdauer der Technik insgesamt ein Problem. So sei die Telehouse Deutschland GmbH von 27 Jahren gegründet. Doch die Lebensdauer einzelner Gewerke werde zwischen 15 bis 25 Jahren kalkuliert. Da werde die Frage, ob Ersatzteile für die ein oder andere Technik überhaupt noch lieferbar sei, brisant. Außerdem müssen auch die Redundanzsysteme mitwachsen, beziehungsweise ebenfalls modernisiert werden.

Bewusstsein und geregelte Abläufe

Zugegeben, räumt Waldhauser ein, seinen in einem Rechenzentrumsbetrieb, etwa bis zum Jahr 2000, standardisierte Abläufe nicht immer im Fokus gewesen. Damals haben die Vertriebsmitarbeiter zum Beispiel die Technikräume hergezeigt. Das Bewusstsein und die Handhabe aber habe sich inzwischen grundlegend geändert. Als Beispiel nennt er die Zutrittsberechtigungen. Nur wer im System angelegt und angemeldet sei, dürfe die jeweilige Zone betreten. „Bei mir käme auch eine Bundeskanzlerin nicht ohne Voranmeldung rein.“

Waldhauser: „Bei mir käme auch eine Kanzlerin nicht ohne Voranmeldung ´rein."
Waldhauser: „Bei mir käme auch eine Kanzlerin nicht ohne Voranmeldung ´rein." (Bild: Telehouse/KDDI)

So müsse jeder Kunde Personen benennen, die Änderungen an seinen Installationen vornehmen dürfen, eine Buchhalterin kann das Rechenzentrum gar nicht betreten. Geregelt wird, wie lange die Aufzeichnungen der Sicherheitskameras aufbewahrt werden, bei Telehouse sind es 92, und dass nur Techniker die Technikräume aufschließen dürfen. Zudem gibt es standarisierte Prozesse für Lieferungen und wie viele Personen sich in sensiblen Bereichen aufhalten dürfen. Geregelt ist, wie weit der Pizzabote kommen darf, und unter welchen Umständen der Wachmann die Pizza entgegennehmen darf. Päckchen an der Hintertür gibt es nicht und wer, was wie putzt liegt ebenfalls fest.

Da Menschen generell ein Sicherheitsrisiko darstellten, egal ob Mitarbeiter, Dienstleister, Kunden oder Besucher, ließen gegenseitige Kontrollen und das Einhalten der definierten Prozesse keine Kompromisse zu. Auch bei der Qualität der Mitarbeiter und der Dienstleister gebe es keine Kompromisse. Schließlich kenne jeder aus der Branche die Geschichte, dass ein Mitarbeiter seine regennasse Jacke am Ausschalter aufgehängt habe, „jeder“. Erneut weist Waldhauser darauf hin, dass der Fachkräftemangel in diesem Zusammenhang ein „riesiges Problem“ sei.

Im Notfall

Da sich Notfälle trotz aller Vorkehrungen einstellten, müssen auch hier Standards definiert sein. Dazu gehört eine technische 24x7-Überwachung, aber auch die Anwesenheit von Mitarbeitern vor Ort. Dazu gehört aber auch ein Alarmierungs-Tool, mit dem sich im Zweifelsfall auch Hunderte von Kunden informieren lassen, über Kanäle, die auch funktionieren, wenn das komplette Datacenter ausfällt, oder Strom und Datenkommunikation für eine ganze Region.

Es muss ein Raum vorgesehen sein für den Krisenstab, der hier in ausgedruckter Form alle Notfallpläne im Zugriff hat. Auch Kommunikationsmöglichkeiten vor Ort muss es geben, eventuell per Walkie Talkies. Bei Telehouse gibt es Pylonen zum Absperren, Warnwesten und sogar Gummistiefel.

Probleme mit Stromschwankungen

Ein Sonderthema unter den Risiken für Rechenzentren stellt die Stromversorgung dar. Zum einen betrifft das die vergleichsweise kurzen Wege im Rechenzentrum selbst. Gefürchtet sind etwa so genannte Whisker (englisch: Schnurrhaar). Das sind Einkristalle – millimeterlang und nadelförmig wachsen sie in erster Linie auf glatten Oberflächen, etwa in den in der Elektrotechnik vorkommenden Zinnschichten. Unangenehm sind sie, weil diese Haarkristalle leitfähig sind und 10 und 50 Milliampere Strom führen können. Hat sich ein Whisker gebildet, kommt es beim Kontakt mit einem benachbarten Leiter zur Lichtbogenbildung beziehungsweise zu einem Kurzschluss. Da der Auslöser dabei verdampft, ist die Ursache später nicht nachweisbar.

Versiegt der Stromfluss für die Co-Locator in Frankfurt am Main schon bald?

Leitungs- und Planungsengpässe

Versiegt der Stromfluss für die Co-Locator in Frankfurt am Main schon bald?

23.01.19 - Hinter vorgehaltener Hand schon längst kein Geschäftsgeheimnis mehr: Am weltweit größten Datenumschlagplatz und ausgewiesenen Datacenter-Hotspot Frankfurt am Main haben viele der dort ansässigen Co-Location-Rechenzentren Probleme damit, den Energiebedarf für einen weiteren Ausbau decken zu können. Bestandsrechenzentren mit festen Stromzusagen dagegen müssen sich keine Sorgen machen. lesen

Ein ganz anderes Problem sind die Stromschwankungen im öffentlichen Stromnetz. Gefürchtet sind die so genannten Wischer, etwa durch Schwankungen im Niederspannungsnetz. Der Strom fällt beispielsweise durch Blitzeinschläge oder Erdschlüsse innerhalb von Sekundenbruchteilen komplett aus. Diese Netzwischer treten zeitlich meist unmittelbar vor einem Brownout auf. Brownout ist entweder eine gezielte Lastreduktion im Stromnetz bei drohender Überlastung - die Übertragungsnetzbetreiber nehmen große Stromverbraucher oder ganze Stadtviertel vom Netz - oder geschieht unkontrolliert. Dabei kommt es zu einer geringfügigen Spannungsabsenkung im Stromnetz.

Die Energiewende schleppt sich dahin; der Strom aus Kohle- und Atomkraftwerken wird fehlen.
Die Energiewende schleppt sich dahin; der Strom aus Kohle- und Atomkraftwerken wird fehlen. (Bild: Staffan Revemann/Telehouse)

So ist ein Teil der Aufgaben einer Unterbrechungsfreien Stromversorgung (USV), diese Schwankungen auszugleichen. Dennoch bleiben sie kritisch. Waldhauser weist zwar darauf hin, dass der lokale Netzbetreiber in Frankfurt am Main, in puncto Zuverlässigkeit im bundesdeutschen Vergleich besonders gut dastehe, doch insgesamt verschärfe sich die Situation. (Übrigens werden in den üblichen Statistiken Ausfälle unter drei Sekunden nicht erfasst.)

Man munkelt, dass in der Zeit in der der Bedarf um 700 Megawatt steigt, die Mainova-Tochter NRM Netzdienste Rhein-Main GmbH lediglich 400 liefern könne. Es hapere am Ausbau. Schuld sind nicht nur die Rechenzentren, sondern die generell boomende Metropole. Auf 3.000 Menschen, die in den kommenden Jahren nach Frankfurt ziehen kommen nach Schätzungen 4.000 neue Arbeitsplätze.

Das Energiewendeproblem grafisch auf den Punkt gebracht
Das Energiewendeproblem grafisch auf den Punkt gebracht (Bild: Telehouse/Staffan Revemann)

Wie Energiefachmann Staffan Revemann, immer wieder betont, trägt auch die Energiewende zu Unsicherheit bei. Die Schwankungen werden heftiger und die größeren kommen häufiger. Letztlich bedeuten Abschaltung der Atomkraftwerke, der Ausstieg aus der Kohleverbrennung und fehlende Stromtrassen ein Loch in der Menge, die zur Verfügung steht – wenn sie nicht aus anderen Ländern zugekauft wird.

Was meinen Sie zu diesem Thema?
Gute aber sehr sehr oberflächliche Betrachtung von Gefahren und Risiken. Auf wesentliche und...  lesen
posted am 26.03.2019 um 12:59 von PStavirz

Super Bericht - nüchtern, sachlich und ohne Euphorie. Mit dieser Kompetenz hat der RZ-Standort...  lesen
posted am 23.02.2019 um 15:13 von Unregistriert


Mitdiskutieren
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45756885 / Design und Umgebung)