Lebensdauertests für Datacenter Mit ALT, HALT, HASS an die Grenze gebracht - Zuverlässigkeitsprüfungen für Rechenzentren

Von Molex 6 min Lesedauer

Anbieter zum Thema

Die Systementwicklung für den kontinuierlichen Betrieb in Rechenzentren geht mit speziellen Herausforderungen bei Zuverlässigkeitstests einher. Die Lösung: Komponenten extremen Umgebungsbedingungen aussetzen, um sie künstlich zu altern, und dann deren Leistungsfähigkeit testen.

Zuverlässigkeit mag eine scheinbar einfache Definition haben; die Beständigkeit, mit der ein Produkt über seinen Lebenszyklus hinweg die Erwartungen erfüllen muss, ist in der Praxis viel komplexer. (Bild:  Molex)
Zuverlässigkeit mag eine scheinbar einfache Definition haben; die Beständigkeit, mit der ein Produkt über seinen Lebenszyklus hinweg die Erwartungen erfüllen muss, ist in der Praxis viel komplexer.
(Bild: Molex)

Rechenzentren sind kritische Infrastrukturen für unsere zunehmend vernetzte Welt. Die Umgebungen, in denen sie betrieben werden, stellen für die Einrichtungen jedoch eine Herausforderung dar. Faktoren wie Hitze, Feuchtigkeit und Staub können zu Systemausfällen, Ausfallzeiten und Datenverlust führen. Dies unterstreicht die Notwendigkeit gründlicher Umgebungsprüfungen.

Da Rechenzentren rund um die Uhr (24/7) in Betrieb sind, müssen die Komponenten, die sie am Laufen halten, über einen langen Zeitraum auf Zuverlässigkeit geprüft werden. Unschwer zu erkennen, dass das ein schwieriges Szenario für kontinuierlich betriebene Geräte mit mehrjähriger Lebensdauer ist.

Werden Komponenten extremen Bedingungen ausgesetzt, die über das hinausgehen, was unter normalen Betriebsbedingungen der Fall wäre, können Entwickler beschleunigte Lebensdauertests Englisch: Accelerated Life Testing, Kurt ALT) ansetzen. Damit lässt sich schneller bestimmen, wann ein Teil ausfällt, um dieses besser für die beabsichtigte Umgebung zu optimieren.

Die Rolle von Molex auf dem Weg zum zuverlässigen Rechenzentrum

Als Branchenpionier in Hochgeschwindigkeitsanwendungen für Rechenzentren investiert Molex stark in das ALT-Umfeld und trägt aktiv zum OCP bei, unter anderem im 'Immersion Project'.das Unternehmen wolle zuverlässige Leistungsfähigkeit von Rechenzentren unabhängig vom Kühlmedium gewährleisten, heißt es von der Company. Das Angebot an Verbindungstechnik ist etwa darauf ausgelegt, die aktuellen und sich entwickelnden EIA-364- und OCP-Richtlinien zu erfüllen.

Accelerated Life Testing

Aber selbst ALT hat seine Herausforderungen. In Rechenzentren ist bisher die traditionelle Betriebsumgebung die Luftkühlung. Doch immer häufiger findet sich nun Flüssigkeitskühlung als bevorzugte Technik. Neueste Standards und Testmethoden berücksichtigen jedoch noch nicht die einzigartigen Variablen, die mit diesem Kühlungsansatz einhergehen.

Wie können Systemarchitekten und Entwickler von heute ihre Geräte für langfristige Zuverlässigkeit optimieren? ALT ist ein guter Ausgangspunkt.

Indirekte, manchmal direkte Luftkühlung ist der heutige Standadrd in Rechenzentren. Doch jetzt kommt die Direct-to-Chip-Kühlung und Immersion Cooling. (Bild:  Molex)
Indirekte, manchmal direkte Luftkühlung ist der heutige Standadrd in Rechenzentren. Doch jetzt kommt die Direct-to-Chip-Kühlung und Immersion Cooling.
(Bild: Molex)

Beschleunigte Lebensdauertests (ALT) sind der Prozess, bei dem Produkte oder Komponenten extremen Bedingungen außerhalb der Standardbetriebsparameter ausgesetzt werden. Dabei wird das Testobjekt künstlich gealtert, um Fehler zu identifizieren und die Leistungsfähigkeit unter normalen Betriebsbedingungen vorherzusagen.

Typische Bedingungen umfassen etwa Temperaturzyklen, Feuchtigkeit, Stöße und Vibration. Für ein Rechenzentrum, in dem Einrichtungen oft kontinuierlich und über längere Zeiträume betrieben werden, können traditionelle Tests Jahre dauern. ALT beschleunigt den Prozess und ermöglicht es einem Hersteller, Testzeiten erheblich zu reduzieren, die Produktentwicklung zu beschleunigen und die gesamte Produktlebensdauer zu bestimmen.

ALT-Methoden

Obwohl sie manchmal als unterschiedliche Testarten betrachtet werden, lässt sich ALT in zwei Kategorien unterteilen – quantitativ und qualitativ. Beides umfasst jeweils eine Vielzahl von Testarten.

Beim quantitativen ALT besteht das Ziel darin, die vorhergesagte Lebensdauer eines Geräts zu bestimmen, indem die Zeit bis zum Ausfall beschleunigt wird und Daten zur Messung der Zuverlässigkeit unter bestimmten Einflussfaktoren erzeugt werden. Dazu dient eine von zwei Methoden:

Beschleunigte Überlastung: Das ist die bevorzugte Methode für kontinuierlich betriebene oder stark genutzte Produkte, die Belastungen ausgesetzt sind, die über den normalen Gebrauch hinausgehen. Ein Bauteil oder eine Komponente kann beispielsweise unter der Annahme hoher Temperaturen ausgesetzt werden. Dieser Vorgang simuliert über verkürzte Zeiträume die normalen Temperaturbelastungen im Laufe der erwarteten Lebensdauer genau.

Ähnliche Tests werden für Faktoren wie Feuchtigkeit und Vibration durchgeführt. Aufgrund des Dauerbetriebs von Rechenzentren können beschleunigte Überlastungstests gar nicht unterschätzt werden.

Beschleunigte Nutzung: Für Produkte, die nicht kontinuierlich betrieben werden, eignet sich dieser Test, um den Ausfall schneller zu simulieren. Dabei wird eine Funktion schneller oder häufiger ausgeführt.

Steckverbinder werden so getestet, um ihre Verbindungszyklen zu bestimmen, also: Wie oft können sie verbunden und getrennt werden, ohne die Leistungsspezifikationen zu verletzen. Um den Test zu beschleunigen, kann der Verbindungs- und Trennprozess schneller erfolgen. Dabei bleiben die mechanischen Kräfte die gleichen wie unter normalen Betriebsbedingungen. Nur die Frequenz ändert sich.

Qualitative ALT-Methoden

Während quantitative ALT-Daten belegen, wie lange ein Produkt unter spezifischen Belastungen funktionieren kann, stellen qualitative ALT-Daten die Ursache des Ausfalls fest und werden oft anhand kleinerer Stichprobengrößen ermittelt. Qualitative ALT-Tests variieren, beinhalten jedoch Folgendes:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Hochbeschleunigte Lebensdauertests (HALT, Highly Accelerated Life Testing): Ein Produkt wird gleichzeitigen und unabhängigen Belastungen wie Temperatur und Vibration ausgesetzt, um festzustellen, wo und warum ein Ausfall auftritt. Obwohl die Belastungen gleich oder ähnlich zum quantitativen ALT sein können, ist das Ziel von HALT nicht zu messen, wie lange ein Produkt funktioniert, sondern wie es ausfällt.

Hochbeschleunigter Belastungstest (HASS, Highly Accelerated Stress Screen): Nachdem der HALT und das Design abgeschlossen sind, kann HASS als abschließender Test dienen, um die Zuverlässigkeit zu Beginn der Fertigung sicherzustellen. Obwohl HASS ein Produkt unter Test denselben Belastungen aussetzt wie HALT, wird HASS speziell als Teil des Produktions-Screening-Prozesses verwendet.

Variationen qualitativer ALT-Tests umfassen Shake-and-Bake-, Torture- und Elephant-Tests.

Auf der Molex-Seite heißt es: „Um die ständig steigende Nachfrage zu befriedigen, muss das moderne Rechenzentrum leistungsstarke Konnektivität, Zuverlässigkeit und Leistung mit optimaler Signalintegrität und Effizienz bieten.“(Bild:  Molex)
Auf der Molex-Seite heißt es: „Um die ständig steigende Nachfrage zu befriedigen, muss das moderne Rechenzentrum leistungsstarke Konnektivität, Zuverlässigkeit und Leistung mit optimaler Signalintegrität und Effizienz bieten.“
(Bild: Molex)

Shake-and-Bake-Tests (nach SAE International): Sobald Prototypen hergestellt sind, werden sie umfangreichen Tests in realen Umgebungen unterzogen, die die härtesten Bedingungen simulieren, denen die Geräte ausgesetzt sein werden . Diese Tests finden bei erhöhten Temperaturen und oft unter ständigen Vibrationen statt.

Torture-Tests (nach „Techopedia“: Zum Beispiel ist das ein Stess-Test für die Hardware-Bewertung eines digitalen Geräts, bei der das Gerät über einen längeren Zeitraum mit oder nahe der vollen Kapazität betrieben wird.

Elefant Test: Die Bezeichnung leitet sich von der Vorstellung ab, dass die getestete Ausrüstung so robust sein sollte, dass sie sogar das Gewicht eines Elefanten tragen könnte, was eine Übertreibung ist. Geprüft wird auf Belastungen etwa hinsichtlich Vibrationen, Tragfähigkeit, Sicherheit undZuverlässigkeit.

ALT-Tests von Steckverbindern: EIA-364

Der Standard EIA-364 „Electrical Connector/Socket Test Procedures Including Environmental Classifications“ legt empfohlene Mindesttestsequenzen und -verfahren für elektrische Steckverbinder und Sockel fest, einschließlich ALT. Jeder EIA-364-Standard bewertet spezifische Kriterien wie Einsteck- und Ausziehkraft (EIA-364-13), Feuchtigkeit (EIA-364-31), Haltbarkeit (EIA-364-09) oder Temperaturzyklen (EIA-364-110) und dient als Basis für die Leistungsbewertung von Steckverbindern basierend auf den Umgebungen, in denen sie eingesetzt werden.

Für Geräte in Rechenzentren ist der EIA-364-1000 „Environmental Test Methodology for Assessing the Performance of Electrical Connectors and Sockets Used in Controlled Environment Applications“ besonders relevant. Ursprünglich für Büroanwendungen entwickelt, deckt der ECIA-364-1000 Einrichtungen in moderaten, kontrollierten Umgebungen wie Rechenzentren ab. Obwohl EIA-364-Tests Empfehlungen und keine Anforderungen sind, sind sie zum Branchenstandard geworden und dienen als ALT-Richtlinien für viele Hersteller.

Herausforderungen von ALT in Umgebungen mit Flüssigkeitskühlung

Während EIA-364 und andere ALT-Standards klare Zuverlässigkeitsrichtlinien für Umgebungen mit traditioneller Luftkühlung bieten, ist ALT für Komponenten, die mit Flüssigkeit gekühlt werden, viel weniger definiert. Eine Herausforderung besteht darin, dass es bereits mehr als ein Dutzend proprietärer dielektrischer Flüssigkeiten auf dem Markt gibt, die alle unterschiedliche Eigenschaften mit sich bringen.

Wer heute Immersionskühlung im Rechenzentrum einsetzen möchte, muss sich unter anderem mit den möglichen Kühlflüssigkeien auseiandersetzen. Es soll Hunderte geben. (Bild:  Ulrike Ostler/OCP)
Wer heute Immersionskühlung im Rechenzentrum einsetzen möchte, muss sich unter anderem mit den möglichen Kühlflüssigkeien auseiandersetzen. Es soll Hunderte geben.
(Bild: Ulrike Ostler/OCP)

Ist die Folge nun, dass ein Hersteller ALT-Tests für mehr als zwölf Flüssigkeiten zusätzlich zu Luft durchführen muss? Werden verschiedene Produkte je nach Medium hergestellt werden müssen?

Das OCP-Immersion-Project (OCP = Open Compute Project) zielt darauf ab, diese Fragen und mehr zu beantworten, indem es Erkenntnisse von Branchenexperten nutzt, um eine Arbeitsgruppe zu bilden, die sich mit Flüssigimmersionskühlung befasst. War Luftkühlung die traditionelle Methode, um die Temperatur von Servern in Rechenzentren zu senken, hat sich die Immersions-/Tauchkühlung als Energie-effizienter und kostengünstiger erwiesen und benötigt weniger Platz.

Nicht alle Flüssigkeiten für die Immersionskühlung sind umweltverträglich. Das gehört mit zu den Herausforderungen, die gelöst werden müssen. (Bild:  Ulrike Ostler/OCP)
Nicht alle Flüssigkeiten für die Immersionskühlung sind umweltverträglich. Das gehört mit zu den Herausforderungen, die gelöst werden müssen.
(Bild: Ulrike Ostler/OCP)

Durch das Immersion Project arbeitet das OCP daran, standardisierte Definitionen, Spezifikationen, Kompatibilitätsanforderungen und bewährte Verfahren für Immersionslösungen als auch für immersionsbereite Komponenten zu erstellen. Hersteller sollen mithilfe von Organisationen wie dem OCP in der Lage sein, ein Produkt zu entwickeln, das in allen flüssig- und luftgekühlten Umgebungen zuverlässig funktioniert.

Für Systemarchitekten und Entwickler wird sich die Stückliste vereinfachen und das Risiko von Verwirrung und Fehlern minimieren. Und Entwickler freuen sich darauf, vorauszudenken. Eine kürzlich von Molex durchgeführte Umfrage rund um Zuverlässigkeits- und Hardware-Design hat ergeben, dass 51 Prozent der 756 Befragten bereits versuchen, mögliche zukünftige Zertifizierungen und Standards für Zuverlässigkeit zusätzlich zu den aktuellen Anforderungen anzustreben.

Weitere Informationen über die Zuverlässigkeits- und Hardware-Design-Umfrage finden sich hier.

(ID:50100243)