Wiederverwenden und Aufpolieren von Datacenter-Hardware Re-furb im RZ: Berichterstattung aus der Hardware-Notaufnahme

Autor / Redakteur: Anna Kobylinska und Filipe Preia Martins* / Ulrike Ostler

Technik auf dem neuesten Stand halten und nachhaltig wirtschaften: Diese beiden Ziele sind für einige Unternehmen zwei Seiten derselben Münze. Software-optimiertes Refurbishing als eine Not-/Ausfall-Abwehrmaßnahme und der Wiederverkauf disaggregierter Systemkomponenten lassen Unternehmen aus ihren IT-Altlasten noch bare Münze schlagen.

Firmen zum Thema

'Grüner' Datenspeicher: In Storage-Geräten in „Lightning“-Architektur, einer Variante der OCP-Spezifikation „Knox“, nutzt Facebook naturfasergefülltes Polypropylen (NFFPP) unter anderem für die Herstellung von Festplattenadaptern.
'Grüner' Datenspeicher: In Storage-Geräten in „Lightning“-Architektur, einer Variante der OCP-Spezifikation „Knox“, nutzt Facebook naturfasergefülltes Polypropylen (NFFPP) unter anderem für die Herstellung von Festplattenadaptern.
(Bild: Open Compute Project)

Laut der neuesten zehnten jährlichen Umfrage des Uptime-Instituts im Datencenter-Sektor vom Juli 2020 dürfte auch im Jahre 2022 die Mehrheit der IT-Infrastrukturen (54 Prozent) im Rechenzentrum laufen. Die anhaltende Allgegenwärtigkeit von On-Premise-Computing müsste eigentlich zu verkürzten Hardware-Aktualisierungszyklen führen, zumal Unternehmen versuchen, die effizienteste Technologie für ihre Rechenzentren zu beschaffen.

Abbildung 1: Upgrade-Zyklen von Server-Hardware in 2015 und 2020: Die produktive Lebensdauer von Datacenter-Hardware hat im Laufe der vergangenen fünf Jahre zugenommen.
Abbildung 1: Upgrade-Zyklen von Server-Hardware in 2015 und 2020: Die produktive Lebensdauer von Datacenter-Hardware hat im Laufe der vergangenen fünf Jahre zugenommen.
(Bild: Uptime Institute)

Doch es scheint vielmehr das Gegenteil einzutreten. Die Länge der Aktualisierungszyklen nimmt nicht ab, sondern zu. Der häufigste Zeitraum zwischen Aktualisierungen beträgt derzeit bei den Umfrageteilnehmern fünf Jahre statt bloß drei Jahre wie noch im Jahre 2015. Das ist eine signifikante Veränderung in einem kurzen Zeitraum. Sie reflektiert im Grunde genommen den abnehmenden marginalen Leistungszuwachs durch neue Generationen von Hardware.

Abbildung 2: Server-Performance pro Watt als Funktion der Zeit bei theoretischer Auslastung zu 100 Prozent; die polynomielle Trendlinie der dritten Ordnung (der rote gepunktete Strich) verdeutlicht abnehmende marginale Leistungsverbesserungen.
Abbildung 2: Server-Performance pro Watt als Funktion der Zeit bei theoretischer Auslastung zu 100 Prozent; die polynomielle Trendlinie der dritten Ordnung (der rote gepunktete Strich) verdeutlicht abnehmende marginale Leistungsverbesserungen.
(Bild: Uptime Institute)

Die jährliche Zunahme der Stromverbrauchseffizienz (die sich im fallenden PUE-Wert reflektieren sollte) stagniert nämlich seit mittlerweile rund acht Jahren; mit dem Wegfall der Leistungsvorteile eines Generationswechsels von Rechenzentrumshardware fiel ein wichtiger Anreiz für kürzere Upgrade-Zyklen weg. Beim Mooreschen Gesetz ist auch schon länger „die Luft raus“. Die Leistungsdichte pro Rack steigt dementsprechend auch nur langsam an, vorrangig bei den Hyperscalern und erst mit dem Aufkommen neuartiger Arbeitslasten.

Abbildung 3: Die jährliche Zunahme der Stromverbrauchseffizienz von Datacenter stagniert seit mittlerweile rund acht Jahren.
Abbildung 3: Die jährliche Zunahme der Stromverbrauchseffizienz von Datacenter stagniert seit mittlerweile rund acht Jahren.
(Bild: Uptime Institute)

Doch Hardware-Upgrades einfach auf die lange Bank zu schieben ist auch kein Erfolgsrezept. Server und andere IT-Geräte der Rechenzentrumstechnik brauchen Wartung und Pflege. Berichte aus der Hardware-Notaufnahme zeugen von Materialermüdung mechanischer Bauteile, Staub und durchgebrannten Schaltkreisen aufgrund von lokaler Überhitzung.

Mechanische Bauteile wie Lüfter erzeugen Staub; elektromagnetische Felder und statische Aufladung an Prozessoren, GPUs, Speicherchips und Motherboards ziehen ihn an. Staub ist eine große Gefahr für empfindliche Elektronik im Serverraum. Denn er verstopft die Luftwege und speichert Abwärme. Die resultierende Überhitzung beeinträchtigt die Systemstabilität und verkürzt die Lebensdauer von Bauteilen. Datacenter-Entscheider suchen nach dem idealen Mittelweg.

Vorausschauend versorgen statt rücksichtlos entsorgen

Mit dem richtigen Timing für Hardware-Aktualisierungszyklen im Rechenzentrum steht und fällt die Rentabilität und die Verfügbarkeit von Arbeitslasten. Durch optimierte Hardware-Refresh-Zyklen könnten Unternehmen nicht nur die Anschaffungskosten neuer Hardware um 44 Prozent senken, sondern gleichzeitig ihren Elektroschrott um über 80 Prozent reduzieren und dabei die Leistung ihrer Datacenter-IT noch um 15 Prozent verbessern, hat Supermicro in einem Bericht Ende 2019 vorgerechnet.

Hardware-Upgrades können sich auf den Betrieb disruptiv auswirken und sind unterm Strich oft schlicht unrentabel. Viele Unternehmen schieben daher Investitionen in eine neue Generation von Hardware doch lieber auf die lange Bank. Mögen Enterprise-Anbieter die Vorteile kürzerer Aktualisierungszyklen auch nur so in den Himmel preisen, finden Unternehmen dafür kaum Rechtfertigung – selbst nicht die Hyperscaler.

Einige Unternehmen setzen bereits verstärkt auf die Kreislaufwirtschaft: Reparaturen, Refurbishing, Wiederverwendung beziehungsweise Wiedervermarktung von Komponenten und erst dann auf das Recycling von Rohstoffen. Zu den Vorreitern gehören die Hyperscaler.

Kreislaufwirtschaft für Rechenzentrumshardware: Wiederverwendung und Wiedervermarktung

Microsoft will bis 2030 die Menge an Elektroschrott in seinen Rechenzentren um 90 Prozent reduzieren. Auf dem Programm stehen hierzu Maßnahmen wie optimiertes Reparatur-Management, punktuelle Wiederverwendung von Bauteilen und das Recycling von Rohstoffen. Diese Aktivitäten möchte Microsoft größtenteils durch intelligente Software orchestrieren lassen.

Bereits beim Aussortieren abgenutzter Hardware möchte sich Microsoft maschinelles Lernen zunutze machen, verkündete Microsofts Präsident Brad Smith in einem Statement im August 2020. „Wir werden die Teile aussortieren, die wir selbst oder unsere Kunden für den einen oder anderen Zweck noch (wieder)verwenden oder die wir verkaufen können“.

Sparsamkeit ist dabei anscheinend nicht das einzige Ziel des Refurbishing. Es geht vielmehr um Optimierungen des Hardwaredesigns und der Versorgungskette. „Wir werden unsere Erkenntnisse über die Wiederverwendbarkeit, die Demontage, den Wiederzusammenbau und das Recycling von Rohstoffen in Zusammenarbeit mit unseren Design- und Lieferkettenteams nutzen, um die Nachhaltigkeit zukünftiger Hardware-Generationen zu verbessern.“

Der Ausbau des Sekundärmarktes für gebrauchte Rechenzentrumsgeräte dürfte auch kleineren Rechenzentren zugutekommen.

Abbildung 4: Ältere Server in Rechenzentren verbrauchen mehr Energie als neuere Systeme und leisten dennoch weniger.
Abbildung 4: Ältere Server in Rechenzentren verbrauchen mehr Energie als neuere Systeme und leisten dennoch weniger.
(Bild: Uptime Institute)

Cisco hat mit dem Programm Cisco Refresh bereits seit mehreren Jahren eine Refurbishing-Initiative im Gange, die Unternehmen „außergewöhnliche Discounts“ auf zertifizierte Gebrauchtgeräte zugutekommen lässt.

Abbildung 5: Auf und ab: Jede neue Lithographie-Generation (die bunten vertikalen Balken) verleiht den resultierenden Prozessoren ein eigenes Kosten/Nutzenverhältnis – ein Mix aus Compute-Leistung pro Watt (die orange Linie) und Stromverbrauch im Leerlauf (die blaue Linie)
Abbildung 5: Auf und ab: Jede neue Lithographie-Generation (die bunten vertikalen Balken) verleiht den resultierenden Prozessoren ein eigenes Kosten/Nutzenverhältnis – ein Mix aus Compute-Leistung pro Watt (die orange Linie) und Stromverbrauch im Leerlauf (die blaue Linie)
(Bild: Uptime Institute)

Scheckheftgepflegt! Bestandshardware in Schuss halten

Der Trend zur Reparatur und Wiederverwendung verschiebt den Zeithorizont vollständiger Hardware-Refreshes weiter in die Zukunft – sofern eine vorbeugende Instandhaltung die Hardware aus der Notaufnahme heraushält. Im DACH-Raum können Rechenzentrumsbetreiber Refurbishing-Expertise und Reparatur-Dienste von Unternehmen wie der Technogroup IT-Service GmbH in Anspruch nehmen.

In einer Umfrage der Technogroup gab jede dritte Organisation an, Datacenter-Hardware sieben bis zehn Jahre lange zu nutzen; weitere 28 Prozent halten einige Geräte sogar noch etwas länger in Schuss. Die herstellerragnostische Drittwartung von Datacenter-Hardware (TPM = Third Party Maintenance) soll Einsparungen von rund 70 Prozent gegenüber dem Herstellerservice ermöglichen, schrieb Gartner im Jahre 2019 in einem Bericht.

Das wohlüberlegte „Aussitzen“ von Hardware-Upgrades in Kombination mit disziplinierter Instandhaltung schafft zusätzlichen finanziellen Spielraum für strategisches Wachstum, ohne die Dienstverfügbarkeit aufs Spiel zu setzen. Wartungsfreundlichere Systemarchitekturen gestalten diese Aufgabe um Einiges einfacher.

Resource-Saving Architecture

Supermicro ist unter anderem Anbieter einer disaggregierten Systemarchitektur für Rechenzentren, die auf Ressourceneinsparungen bedacht ist. Beim Einsatz von 50.000 der „Microblade“-Server von Supermicro konnte ein Fortune-500-Großkonzern in einem seiner Rechenzentren den PUE-Wert auf bemerkenswerte 1.06 drücken.

Supermicro hat Wurzeln in Südostasien, den Hauptsitz im kalifornischen San Jose und Fertigungsstätte unter anderem in den Niederlanden. Das Unternehmen hat in März das nach eigenen Angaben nun das branchenweit umfangreichste Produktportfolio an Serversystemen mit „AMD Epyc 7003“ vorgestellt (siehe: „Die dritte Generation AMD Epyc; Supermicro stattet A+ H12 Server mit AMD Epyc 7003 aus“).

Das Multi-Node-, Multi-GPU-System „Supermicro A+ H12 Super Blade“ erzielt mit der dritten Generation von AMD Epyc Rekordergebnisse bei den critical-jOPS- und max-jOPS-Benchmarks (konkret eine Leistungssteigerung gegenüber der zweiten Generation von bis zu 36 Prozent).

Eine disaggregierte Architektur

Der Superblade-Server von Supermicro nutzt eine disaggregierte Architektur, welche das unabhängige Aufrüsten einzelner Systemkomponenten unterstützt. Jedes Blade besteht aus einem Speichermodul und einem abtrennbaren Compute-Modul mit CPUs und Speicher, die sich schneller auffrischen lassen als der Rest des Systems. Das Management der Infrastrukturkomponenten übernimmt „Supercloud Composer“, eine komponierbare Cloud Management-Plattform zur Verwaltung des Lebenszyklus disaggregierter Hardware-Architekturen und softwaredefinierter Rechenzentren.

Die TCO-Metrik (Total Cost of Ownership) könne die wahren Kosten von Hardware nicht adäquat wiedergeben, argumentiert Supermicro. Das Unternehmen setzt sich für eine alternative Bewertung ein, eine Metrik namens TCE, kurz für die Gesamtumweltbelastung von Hardware- und Infrastrukturkomponenten (Total Cost to the Environment).

Für Rechenzentren gebe demnach zwei Möglichkeiten, um die TCE zu optimieren: Zum einen könnten die Betreiber den PUE-Wert drücken und zum anderen das Aufkommen an Elektroschrott reduzieren.

Abbildung 6: Das Schicksal von Elektroschrott in 2019 und 2020
Abbildung 6: Das Schicksal von Elektroschrott in 2019 und 2020
(Bild: Supermicro)

Eines der wesentlichen Elemente einer TCE-Kalkulation ist das Schicksal von Altlasten-IT, also die Stilllegung von Servern und die Entsorgung von Elektroschrott. In der Supermicro-Umfrage von 2020 haben 54 Prozent der Befragten interne Richtlinien für die Stilllegung- und Wiederverwendung von IT-Altlasten, den sogenannten TCE-Plan. Fast 80 Prozent der großen Unternehmen befolgen streng ihre internen Richtlinien. Etwa 20 Prozent aller befragten Organisationen haben zwar TCE-Richtlinien, befolgen sie aber nicht genau.

Recycling und neue Werkstoffe

Ressourcenschonende Systemarchitekturen sind ja noch relativ neu; die Vorteile von Refurbishing sind auch noch nicht in allen Chefetagen angekommen. Selbst mit dem Recycling tun sich viele Organisationen schwer.

In einem von zehn der größten Unternehmen der Welt wanderten beim Ausmustern alter Datacenter-Hardware noch im Jahre 2019 die betreffenden Geräte im Wesentlichen auf die Müllhalde. 9 Prozent der von Supermicro befragten Entscheidungsträger in Großkonzernen sollen bestätigt haben, dass sie ihre Hardware entsorgen würden, ohne sich auf zertifizierte Recycling-Spezialisten zu verlassen. (Im Jahre 2019 hat Supermicro die Umfrage zu 80 Prozent in Nordamerika durchgeführt; verbesserte Zahlen ein Jahr später reflektieren eine breitere geografische Reichweite der Umfrage.)

Abbildung 7: Refurb-freundliche Modularität: „Wiwynn Yosemite V2“ von OCP ist ein hochverdichteter 4U-Server mit 16 Compute-Knoten, der ursprünglich PC+ABS nutzen sollte; Facebook konnte mit geringfügigen Anpassungen des Designs der Wände naturfasergefülltes Polypropylen einsetzen.
Abbildung 7: Refurb-freundliche Modularität: „Wiwynn Yosemite V2“ von OCP ist ein hochverdichteter 4U-Server mit 16 Compute-Knoten, der ursprünglich PC+ABS nutzen sollte; Facebook konnte mit geringfügigen Anpassungen des Designs der Wände naturfasergefülltes Polypropylen einsetzen.
(Bild: Open Compute Project)

Facebook möchte die Menge an nicht erneuerbaren, erdölbasierten Kunststoffen im Serverraum mit einem ganzheitlichen Ansatz minimieren. So hat das Unternehmen beispielsweise ein Material namens naturfasergefülltes Polypropylen (NFFPP) identifiziert. Dieses Kunststoffverbundmaterial wird zum Teil aus natürlichen, erneuerbaren Jutefasern hergestellt. Das Material verbrennt „sauber“, ohne Ausgasung und ohne die Abgabe von Schadstoffen.

Abbildung 8: Jute-Anbau für Hyperscaler: Die Stromschienenabdeckung und die Kabelclips für Racks gemäß der OCP-Spezifikation Open Rack lässt Facebook aus naturfasergefülltem Polypropylen (NFFPP) und damit teilweise aus nachwachsenden Rohstoffen fertigen.
Abbildung 8: Jute-Anbau für Hyperscaler: Die Stromschienenabdeckung und die Kabelclips für Racks gemäß der OCP-Spezifikation Open Rack lässt Facebook aus naturfasergefülltem Polypropylen (NFFPP) und damit teilweise aus nachwachsenden Rohstoffen fertigen.
(Bild: Open Compute Project)

NFFPP eignet sich für die Massenproduktion vieler kleiner Komponenten in der Serverherstellung, von Kabelklemmen über Kartenführungen, Luftleitbleche und andere Strukturbauteile bis hin zu Stromschienenabdeckungen. Es kommt bei Facebook in Systemen gemäß diverser OCP-Spezifikationen zum Einsatz, darunter Yosemite (Wände der Module), Open Rack (u.a. für Stromschienenabdeckung und Kabelclips), Knox/Open Vault/Lightning (für Festplattenadapter) und Honey-Badger-Module für Open Vault Storage (u.a. Schrauben).

* Das Autoren-Duo Anna Kobylinska und Filipe Pereia Martins arbeitet für McKinley Denali Inc. (USA).

(ID:47637739)