Uptime Institute zum Status der Datacenter-Branche Flexibler, größer, verteilter - Rechenzentren unter Druck

Autor / Redakteur: Filipe Pereira Martins und Anna Kobylinska * / Ulrike Ostler

Die 11. jährliche Erhebung des Uptime Instituts zum Gesundheitszustand der Datacenter-Branche im zweiten Pandemiejahr lässt tief blicken. Rechenzentrumsbetreiber, -lieferanten und -besitzer kommen zu Wort und können über Wachstumsprognosen, Energie-Effizienz, Versorgungsketten, die Bedeutung von Fachkräften, Herausforderungen mit der Nachhaltigkeit und dergleichen andere Themen auspacken.

Firmen zum Thema

Der Datacenter-Markt entwickelt sich fast in Überschallgeschwindigkeit: problemlos ist das nicht.
Der Datacenter-Markt entwickelt sich fast in Überschallgeschwindigkeit: problemlos ist das nicht.
(Bild: Defence-Imagery auf Pixabay)

In seiner 11. „Annual Global Data Center Survey“ hat das Uptime Institut einmal wieder den Puls der Datacenter-Branche gemessen. Die Gesundheit von Rechenzentren als (geschäfts-)kritischen digitalen Infrastrukturen im zweiten Pandemiejahr kommt im Abschlussbericht zu dieser weltweit umfassendsten und ergebnisträchtigsten Meinungsforschung ans Tageslicht.

Der Studienbericht schildert eine Industrie, welche in Zeiten hoher wirtschaftlicher Unsicherheit im Zuge eines „signifikanten Wachstums“ am Anschlag ihrer Kapazitäten angekommen sein dürfte, die anfallenden Herausforderungen mit althergebrachten Ansätzen zu bewältigen. Betreiber, Eigentümer, Lieferanten und sonstige Versorger sitzen zusammen in einem Boot und paddeln um die Wette. Fortschritte sind inkrementell, Risiken wachsen.

Die Branche nähert sich kollektiv einer unsichtbaren Schallmauer.

Mach mal!

Im Jahr 2021 lag der durchschnittliche annualisierte PUE-Wert der Umfrageteilnehmer weltweit bei 1,57, was bedeutet, dass der Nicht-IT-Anteil des Rechenzentrumsbetriebs fast 60 Prozent zum Energieverbrauch der IT beiträgt. Das Resultat liegt knapp unter dem Vorjahreswert von 1,59 und steht im Einklang mit dem längerfristigen Trend: PUE-Fortschritte stagnieren.

Die Fortschritte bezüglich Power Usage Effectiveness (PUE) sind zum Stillstand gekommen.
Die Fortschritte bezüglich Power Usage Effectiveness (PUE) sind zum Stillstand gekommen.
(Bild: Uptime Institute)

Die Leistungsdichte von IT-Racks wächst, aber nur im Schneckentempo. Die meisten Teilnehmer der Umfrage haben ihre Möglichkeiten in dieser Hinsicht noch lange nicht ausgereizt. Die Leistungsdichte liegt in den meisten Fällen in der Regel deutlich unter 10 Kilowatt (kW) pro IT-Schrank, selbst an Vorzeigestandorten.

Noch erstaunlicher: Der Anteil von Rechenzentren, die mit einer maximalen Leistungsdichte einzelner Racks von mehr als 20kW angeben können, sei gegenüber dem Jahr 2018 gefallen (siehe Abschnitt „Eine Zweiklassen-Gesellschaft?“).

Nur wenige Betreiber haben Racks mit einer Leistungsdichte von mehr als 30 Kilowatt vorzuweisen. Ihr Anteil an allen Teilnehmern ist gegenüber dem Jahr 2018 sogar noch gefallen.
Nur wenige Betreiber haben Racks mit einer Leistungsdichte von mehr als 30 Kilowatt vorzuweisen. Ihr Anteil an allen Teilnehmern ist gegenüber dem Jahr 2018 sogar noch gefallen.
(Bild: Uptime Institute)

Defizite bei der Nachhaltigkeit

Die Analysten des Uptime Instituts bejammern in dem Abschlussbericht die lückenhafte Nachverfolgung von granularen Metriken der Energieeffizienz und Nachhaltigkeit. In vielen Rechenzentren kleinerer Größe und jenen im Privatbesitz zahlt die Stromrechnung die Immobilienverwaltung, die sich in Sachen IT-Betrieb kein Sagen nimmt oder keines bekommt.

Dieser Sachverhalt könne erklären, so Uptime Institut, warum die meisten Datacenter die tatsächliche Serverauslastung (server utilization), den wohl wichtigsten Faktor für die Gesamteffizienz der digitalen Infrastruktur, immer noch nicht verfolgten. Nur jeder zweite Betreiber (51 Prozent) interessiert sich für den Wasserverbrauch.

Noch weniger Betreiber erfassen die Emissionen (33 Prozent) oder die Entsorgung von Altgeräten (25 Prozent). Dies verdeutliche die „allgemeine Unreife des Rechenzentrumssektors bei der Einführung umfassender Nachhaltigkeitspraktiken“, so die Analysten.

Uptime (und Downtime)

Der wichtigste KPI (Key Performance Indicator) für ein Rechenzentrum sei die Dienstverfügbarkeit, schlussfolgert das Uptime Institut. Doch es werde immer schwieriger, diese Metrik zuverlässig zu verfolgen, da die Komplexität moderner Anwendungsarchitekturen gestiegen sei.

Bemühungen um die Reduzierung von Ausfallzeiten und die Bewältigung der Auswirkungen von Downtime zeigten gemischte Resultate. Der Einsatz moderner Systeme und Verfahren habe die Zuverlässigkeit des Rechenzentrumsbetriebs insgesamt etwas verbessert. Dies ließe sich jedoch möglicherweise zum Teil auch auf den Einfluss der Pandemie zurückführen.

Die Schwere der Betriebsstörungen (Severe/Serious/Significant) aus technischer Sicht blieb im Großen und Ganzen gegenüber den beiden vergangenen Jahren mehr oder weniger konstant. Doch der Anteil von Ausfällen mit erheblichen finanziellen Nachwirkungen ist stark angestiegen. Während im Jahre 2019 rund 28 Prozent von Dienstausfällen eine finanzielle Belastung zwischen 100.000 Dollar und einer Million Dollar nach sich zogen, fiele aktuell beinahe jede zweite Panne in diese Kategorie.

Die Gründe für die Ausfälle

Die wichtigste Ursache für Dienstausfälle sei mit Abstand die Stromversorgung (43 Prozent im Jahre 2021 versus 37 Prozent im Jahr zuvor), ausgelöst hauptsächlich durch Versagen von USV-Systemen, Umschaltern und Notstromgeneratoren. Probleme mit der Konnektivität (14 Prozent der Ausfälle), Kühlung (ebenfalls 14 Prozent der Ausfälle) und Software-/IT-Systemfehler (weitere 14 Prozent) teilten sich den Folgeplatz als die drei kollektiv zweithäufigsten Downtime-Auslöser.

„Mehrere Jahrzehnte der Entwicklung moderner Rechenzentren vermochten nicht, die Probleme zu beseitigen“, beobachten die Analysten von Uptime und warnen vorausschauend: Der zunehmende Einsatz erneuerbarer Energien im Stromnetz würde die Instabilität wahrscheinlich erhöhen und nicht verringern.

Für zwei in drei der Befragten hat hybride IT die Ausfallsicherheit verbessert. Jeder zehnte hat eher Nachteile zu vermelden. Jeder dritte hat auf die Frage keine Antwort parat.
Für zwei in drei der Befragten hat hybride IT die Ausfallsicherheit verbessert. Jeder zehnte hat eher Nachteile zu vermelden. Jeder dritte hat auf die Frage keine Antwort parat.
(Bild: Uptime Institute)

Die hybride IT habe die Resilienz der Arbeitslasten für mindestens 61 Prozent der Befragten verbessert. „Mindestens“, denn einer in drei wollte oder konnte dazu keine Aussagen treffen. (Mit der Problematik der hybriden IT befasst sich das kommende eBook „Wir wollen Hybrid!“)

Die Rückkehr aus der Public Cloud
Die Rückkehr aus der Public Cloud
(Bild: Uptime Institute)

Ein hoher und wachsender Prozentsatz der letzten „bedeutenden“ Datacenter-Pannen in Erinnerung hätte aus Sicht der Betroffenen durch „besseres Management und bessere Prozesse“ verhindert werden können. Doch insgesamt haben die Frage nach Erfahrungen mit menschlichem Versagen als einer Ursache für Rechenzentrumsausfälle nur 179 der insgesamt 801 Befragten beantwortet (22,34 Prozent).

79 Prozent dieser Teilnehmer hätten in den vergangenen drei Jahren mindestens einen Betriebsausfall erlebt, für den sich ein Mitarbeiter beschuldigen ließe. Doch andersherum wird ein Schuh daraus: Satte 21 Prozent der 179 Befragten, die sich dazu äußern wollten, haben ihre menschlichen Kollegen von der Verantwortung freigesprochen und die Schuld der Technik zugeschoben.

IT-Fachkräfte wandern stärker ab als noch vor drei Jahren.
IT-Fachkräfte wandern stärker ab als noch vor drei Jahren.
(Bild: Uptime Institute)

Datencenter, die mit „angemessenen Fachkräften“ gesegnet seien und „bewährte Praktiken und Verfahren anwenden“ würden, hätten weniger Ausfälle verzeichnet, schlussfolgern Analysten in ihrem Bericht. Einziges Problem: Auf die Frage nach ihrer größten Herausforderung führte jeder fünfte der Befragten den Mangel an qualifiziertem Personal an.

Unternehmen tun sich nicht nur damit schwer, qualifizierte Kandidaten für offene Stellen zu finden, sondern selbst die Abwanderung von bestehendem IT-Personal zu stemmen. Einer in drei (32 Prozent) der 118 Teilnehmer, die sich zu der betreffenden Frage in der aktuellen Umfrage geäußert haben, bestätigt diesen Sachverhalt anhand aktueller Erfahrungen ihrer Organisation. Diesen Antworten stehen nur 17 Prozent Bejahungen aus der Umfrage im Jahre 2018 gegenüber, als sich 91 Teilnehmer in die Karten schauen ließen.

Einer von drei Mitarbeitern, die die befragten Organisationen aktuell verlassen, würde dabei auch gleich die Industrie wechseln; nur zwei von drei Fachkräften bleiben der Datacenter-Industrie beim Jobwechsel erhalten. So kannbBeinahe jedes zweite Unternehmen (47 Prozent) qualifizierte Kandidaten für freie Stellen nur mit Mühe und Not finden. Das sind 9 Prozent mehr als vor drei Jahren.

Ärger mit USVs und das Aufkommen von Lithium-Ionen-Akkus

Blei-Säure-Batterien stellen für viele Rechenzentrumsbetreiber den größten Kritikpunkt bei USV-Systemen dar. Die Liste der Beschwerden reicht von dem hohen Platzbedarf über Anforderungen an die Kühlung und laufende Wartung bis hin zur relativ kurzen Lebensdauer der Batterien (je nach Zellendesign und Betriebsbedingungen nur maximal vier bis sechs Jahre).

Lithium-Ionen-Batterien (Li-Ion) gelten dank ihrer verlockenden Leistungsmerkmale und fallender Kosten als der Spitzenkandidat für die Nachfolge. Sie sind zwar ungefähr immer noch doppelt so teuer wie Blei-Säure-Batterien für die gleiche Kapazität, aber sie halten länger, brauchen weniger Kühlung und trumpfen unter anderem mit der Fähigkeit zum schnellen Lastabwurf.

Fast die Hälfte der befragten Eigentümer und Betreiber befragten Eigentümer und Betreiber haben Li-Ion zumindest für einige ihrer zentralisierten USV-Systeme bereits im Einsatz (zum Vergleich: Im Jahr 2019 waren es gerade einmal 28 Prozent). Weit weniger, nämlich gerade einmal 16 Prozent der Befragten, setzen verteilte USV-Systeme mit Li-Ion-Technik ein; das sind 4 Prozent weniger als noch im Jahr 2019, vor allem Nutzer von OCP-Designs und ähnlicher Open-Source-Initiativen in großen Rechenzentren.

Die Einführung von Brennstoffzellen konzentriert sich auch in größeren OCP-bestückten Rechenzentren und Hand verlesene Co-Location-Standorte. Das Interesse an Brennstoffzellen ist gering, wächst aber, da die Branche zunehmend nach Möglichkeiten sucht, die Abhängigkeit von Dieselgeneratoren zu reduzieren.

Der Überschallknall? Wachsen trotz stotternder Lieferketten

Der außergewöhnliche Kapazitätsverbrauch an vielen Standorten deutet auf ein kontinuierliches Wachstum der Branche hin. Dies steht im Einklang mit der allgemeinen Erwartungshaltung. Stotternde Lieferketten könnten diese Expansion jedoch ausbremsen und sich stattdessen in steigenden Preisen niederschlagen.

Die Mehrheit der Lieferanten erwartet in den kommenden zwei Jahren Probleme mit der Versorgung mit „wichtigen“ Produkten und Dienstleistungen für Rechenzentren. Dies dürfe sich auf Investitionsprojekte, auf die allgemeine Verfügbarkeit von IT-Ausrüstung oder auf Beides auswirken. Nur einer von vier Anbietern sieht derzeit keine Verzögerungen oder sonstige Unannehmlichkeiten „upstream“ in der Versorgungskette.

Fast ein Drittel der befragten Lieferanten erwartet, dass die meisten ihrer Kunden innerhalb von fünf Jahren Rechenzentren mit einer Gesamtleistung von 20 Megawatt oder mehr besitzen würden. Lieferanten würden bei dem Ausbau die Bedürfnisse der umsatzstärksten Kunden priorisieren.

Diese Strategie ist offenbar ein zweischneidiges Schwert. Denn 63 Prozent der Zulieferer machen sich gleichzeitig Sorgen, dass Cloud- und Internet-Giganten in den nächsten drei bis fünf Jahren den Wettbewerb zwischen Ausrüstungsanbietern einschränken könnten. Die Hälfte der befragten Lieferanten sieht sich schon heute am Anschlag ihrer Wettbewerbsfähigkeit im Geschäft mit den Hyperscalern (siehe dazu auch den Beitrag: „Zwei Interviews mit Béla Waldhauser, drei Autoren, ein Artikel; Am Puls von Co-Location - Der „Hyper-Squeeze“)

Die Kaufkraft der Internet-Giganten dürfte die Dynamik des Ökosystems verändern, glauben die Analysten von Uptime. Die Hyperscalers dürften mehr von ihrer Ausrüstung selbst entwickeln und die Marktposition der jetzigen Platzhirsche nehmen. Traditionelle Ausrüstungslieferanten könnten in dieser „neuen Normalität“ leicht den Kürzeren ziehen.

Eine Zweiklassen-Gesellschaft?

Mehr als ein Drittel der Befragten hat eine typische Rack-Dichte von weniger als 5 Kilowatt (modaler Durchschnitt), während nahezu die Hälfte der Teilnehmer von einer Rack-Dichte zwischen 5 und 10 Kilowatt spricht. Einrichtungen mit einer maximalen IT-Last von mehr als 3 Megawatt (MW) zeigten demnach eine Affinität zu leistungsstärkeren Racks mit 5 bis 10 Kilowatt (kW) im Vergleich zu kleineren Standorten. Rechenzentren mit einer Gesamtkapazität von über 5 MW hätten tendenziell eine noch höhere Rack-Dichte vorzuweisen.

Einen weiteren Unterschied konnten die Analysten in den größten Datencenter über 30 MW ausmachen: Racks mit einer Leistungsdichte im Bereich von 10 bis 20 kW seien hier im Vergleich zu kleineren Datencenter weitaus häufiger anzutreffen als solche unter 5 kW. Das sei nicht weiter erstaunlich.

Einrichtungen dieser Größenordnung würden im Normalfall Cloud- und Internet-Unternehmen bedienen, ob an ihrem eigenen Standort oder in einem gemieteten Rechenzentrum. Diese Kunden legten in der Regel einen gesteigerten Wert auf voll bestückte Schränke mit hochleistungsfähiger IT.

Die Leistungsdichte und der PUE-Wert

Eine ähnliche Korrelation ergebe sich zwischen Leistungsdichte und dem PUE-Wert. Je effizienter eine Einrichtung, umso wahrscheinlicher sei eine höhere modale durchschnittliche Leistungsdichte von Racks. Auch dafür fanden die Analysten eine plausible Begründung. Größere Rechenzentren seien in der Regel neuer und besser auf Effizienz getrimmt als kleinere Anlagen.

In Rechenzentren mit annualisierten PUEs über 1,6 dominieren offenbar Racks mit einer geringen Leistungsdichte von unter 5 kW. Diejenigen mit PUEs im Bereich von 1,3 bis 1,6 hätten überwiegend Racks zwischen 5 und 10 kW im Einsatz. Mehr als einer von sechs in dieser Gruppe mit niedrigerem PUE-Wert betreibe „typischerweise“ Racks mit einer Leistungsdichte von mehr als 10 kW.

An Standorten mit einem annualisierten PUE-Wert von 1,3 oder besser seien niedrige Rack-Dichten von weniger als 5 kW eher die Ausnahme; für mehr als einen Drittel der Befragten in dieser Gruppe hantiert vorrangig mit einer Leistung von über 10 kW. Die Analysten des Uptime Institute konnten somit in den Umfragedaten einen klaren Zusammenhang zwischen der Leistungsdichte und der Gesamtgröße und Energie-Effizienz einer Datacenter-Anlage erkennen.

Sie argumentieren, die Leistungsdichte von IT-Racks würde viele andere Entscheidungen beeinflussen, darunter jene rund um das Layout, die Kühlung und die Stromverteilung. Wer die Dichte erheblich unterschätze, müsse bei der Inbetriebnahme neuester IT-Systeme mit Schwierigkeiten rechnen und könne Stromausfälle erleben, sogar noch lange bevor die Datenhalle voll sei. Wer die Leistungsdichte grob überschätzt hätte, würde jetzt bares Geld verschenken.

Hinweis:Die Umfrage wurde am 22.09.21 um 16.00 Uhr in einem deutschen Webinarvorgestellt.

(ID:47691746)