Der Spaceborne Computer von HPE

Die Reise zum Mars beginnt im Erd-Orbit

| Autor / Redakteur: Ariane Rüdiger / Ulrike Ostler

Am 14. August 2017 schickten HPE und NASA einen Supercomputer auf dem Raumschiff „SpaceX Dragon“ ins All. Ungefähr 5.000 Orbits und 250 Meilen über der Erde arbeitet das System seit seiner Installation und Inbetriebnahme im September 2017 nahezu problemlos.
Am 14. August 2017 schickten HPE und NASA einen Supercomputer auf dem Raumschiff „SpaceX Dragon“ ins All. Ungefähr 5.000 Orbits und 250 Meilen über der Erde arbeitet das System seit seiner Installation und Inbetriebnahme im September 2017 nahezu problemlos. (Bild: HPE)

Wenn irgendwann Menschen zum Mars fliegen sollen, können sie eines bestimmt nicht brauchen: Einen Bordcomputer, der ausfällt. Um dafür zu sorgen, dass ein derartiger Zwischenfall möglichst unwahrscheinlich wird, läuft derzeit das Experiment „Spaceborne Computer“.

Während die Internationale Raumstation (ISS) Tag für Tag die Erde umrundet, haben Menschen und Maschinen dort oben reichlich zu tun. Die Astronauten führen vielfältige Experimente selbst durch, mit anderen haben sie selbst nur am Rande zu tun, weil die Verantwortlichen fürs Geschehen sich nach wie vor auf dem Boden befinden.

Eines dieser Experimente ist der „Spaceborne Computer“. Mark Fernandez, der als Projektleiter bei HPE für das Projekt verantwortlich ist, führt den langwierigen Versuch vom Boden aus. Spaceborne ist das erste System aus COTS-Computern (COTS = commercial off-the-shelf) im All, die an Bord der ISS mehr als eine Billion Berechnungen pro Sekunde ausführen. Zudem haben sie Schwerelosigkeit und die einzigartigen Energie- und Kühlbedingungen sowie unvorhersehbare Strahlungspegel überstanden. Der geplante Zeitraum für den Test ist ein Jahr; etwa solange würde eine Reise zum Mars dauern.

Vor der Installation stand die Akzeptanz durch die NASA. Die Computer mussten rund 146 Sicherheitstests bestehen (für das Härten gab es weitere). Sodann musste einer der Raumstation-Bewohner die zwei 124 Pfund schweren und 14 Zoll hohen „HPE-Apollo-40“-Maschinen - dank der Schwerelosigkeit mit einer Hand - im Dachabteil eines der ISS-Arbeitsräume anbringen.

Beengte Verhältnisse

Einen anderen Stauraum gab es nicht. Im ISS-Arbeitsmoduls besuchte, das HPE auf der vergangenen Konferenz „HPE Discover“ in Las Vegas als Modell ausstellte, muss sich vor Klaustrophobie-Anfällen hüten. Jeder Zentimeter wird genutzt. Jede Wand, aber auch Decke und Boden sind voller verschraubter, detailliert beschrifteter Fächer, in denen sich mal Vorräte, mal die Hilfsmittel für alle möglichen Experimente verbergen.

Von Weltraumromantik keine Spur. In dem engen Modul. Es ist nur etwa neun Meter lang und vier Meter breit – allerdings sind das die Außenmaße, innen ist es enger. Die Wände sind zudem so beschriftet, dass jederzeit erkennbar ist, was beim Start oben, unten, rechts oder links war. „In der Schwerelosigkeit funktioniert die räumliche Orientierung sonst nicht“, erklärt Fernandez.

„Unser Ziel ist es, dass diese Geräte mindestens so lange ohne physische Eingriffe laufen wie die Anreise zum Mars dauert, nämlich mindestens ein Jahr“, erklärt Fernandez. Die Rechner wurden nicht verändert, sondern es handelt sich um Standard-Versionen, wie sie auch Kunden auf der Erde verwenden. Sie rechnen mit Zweisockel-x86-„Broadwell“-Prozessoren (Gen9), dazu kommt DDR4-Memory, wie es in HPE-Systemen verwendet wird.

Standard-Hardware mit ein paar Extras

Die Hardwarebasis ist damit dieselbe wie die im Supercomputer der NASA, „Pleiades“. Er steht im NASA Ames Research Center in Mountain View, Kalifornien und leistet 7 PFlops (Petaflops). Von diesen Compute-Knoten mit 20 internen SSDs und einem 56 Gigabit pro Sekunde (Gbit/s) schnellen optischen Interconnect gibt es im Spaceborne Computer zwei. Außerdem hat das System redundante Stromversorgungen und N+1 Lüfter. Rotierende Festplatten wurden nicht verbaut, ihre Kühlung hätte zu viel Energie verschlungen.

„Auf diesem Bildschirm, der sich in Wirklichkeit im Kontrollzentrum auf der Erde befindet, sehe ich, wie unsere Benchmarks laufen. Braucht das System für einen Benchmark zu lange, melde ich dem System eine Fehlerkondition“, Mark Fernandez, Projektleiter Spaceborne Computer bei HPE.
„Auf diesem Bildschirm, der sich in Wirklichkeit im Kontrollzentrum auf der Erde befindet, sehe ich, wie unsere Benchmarks laufen. Braucht das System für einen Benchmark zu lange, melde ich dem System eine Fehlerkondition“, Mark Fernandez, Projektleiter Spaceborne Computer bei HPE. (Bild: Ariane Rüdiger)

Das Betriebssystem ist ein unverändertes Red-Hat-Linux der Version 6.8. Darüber liegen allerdings einige HPE-Softwareschichten, die das System härten sollen. „Das Gerät leistet mit dieser Ausrüstung mehr als 1 Teraflop Spitzenleistung“, erkläutert Fernandez.

Mit der übrigen IT der ISS ist das System nicht verbunden. „Wir wollten einfach ausprobieren, wie das System mit den Beschleunigungskräften und den Vibrationen beim Raketenstart fertig wird und was es unter den rauen Umgebungsbedingungen in der Raumstation tut.“ Außerdem ging es Fernandez und seinem Team darum, festzustellen, ob das System tatsächlich im Stande ist, alle vorkommenden Anomalien selbst zu reparieren. „Natürlich sollte das System der Spaceborne Computer nicht nur einfach irgendwie rechnen, sondern richtig“, setzt der Wissenschaftler hinzu.

Erde an Spaceborne!

Überwacht werden die Digitalexperimente direkt von der Erde aus. Da sich die ISS in einem so genannten Low Earth Orbit bewegt, dauert die Übertragung in der Regel weniger als eine Sekunde. Pings verzögern sich um 700 bis 800 Millisekunden. Das wäre zwar für ein irdisches Telefongespräch relativ verheerend, für die in der Erdumlaufbahn stattfindenden Experimente reicht es aber vollkommen.

Vom Mond aus gesendet, würde ein Signal bis zur Erde zwei bis drei Sekunden brauchen, und vom Mars aus 24 Minuten. Allein das zeigt schon, dass die Systeme im Notfall autonom das Richtige tun müssen. Damit niemand unbefugt mithört, werden die Daten verschlüsselt über gesicherte Kanäle (Virtual Private Networks, VPN) übertragen.

Bisher sind die Ergebnisse der Versuche ermutigend. Auf den Rechnern laufen ständig fünf Benchmarks: ein Compute-intensiver, ein Ein-/Ausgabe-intensiver, einer, der das Memory besonders belastet und einer mit gemischten Anforderungen. „Außerdem darf die NASA einen Algorithmus auswählen, den sie für besonders wichtig hält“, berichtet Fernandez. Er erzeugt parallele Rechenlasten.

Das Labormodul der NASA, hier ein lebensgroßes Modell auf der HPE Discover in Las Vegas, bietet Wissenschaftlern während ihres Aufenthaltes auf der ISS einen Arbeitsplatz.
Das Labormodul der NASA, hier ein lebensgroßes Modell auf der HPE Discover in Las Vegas, bietet Wissenschaftlern während ihres Aufenthaltes auf der ISS einen Arbeitsplatz. (Bild: Ariane Rüdiger)

Was gerade läuft, kann Fernandez von der Erde aus steuern, er kann auch vorgeben, wie lange die Abarbeitung des jeweiligen Algorithmus dauern darf. „Wenn etwas länger dauert als geplant, melden wir dem System eine Fehlerkondition“, sagt Fernandez. Dann ist es dessen Aufgabe, das Problem selbsttätig wieder zu beheben. HPE hat für die dafür genutzte Software sieben Patente beantragt.

Die Algorithmen für automatische Reparaturen sind dabei so gestaltet, dass das Gerät stets versucht, einen optimalen Arbeitszustand aufrecht zu erhalten. Die zusätzlichen Hardwareschichten versuchen, Fehler selbst zu analysieren und entsprechende Konfigurationen vorzunehmen, damit es weitergehen kann.

Fällt beispielsweise ein Speichersegment aus, wird es isoliert und mit dem Rest des verfügbaren Speichers weitergearbeitet. Gibt eine Stromversorgung ihren Geist auf, rechnet das System im Zweifel langsamer. „Wir fahren unter höchster Last, weil wir wirklich testen wollen, ob das System kaputt geht“, betont Fernandez.

Und die Ergebnisse? Sie sind, so der Wissenschaftler, bisher höchst zufriedenstellend. Ende Juni lief der Spaceborne Computer, ein Gerät ohne Spezialhardware, bereits nahezu 320 Tage ununterbrochen. Er erreichte dauerhaft Leistungen von 1 TFlOPS/s (siehe: Was ist Performance in der IT?). Die Belastungen während Start und Flug waren bisher kein Problem.

Kühlung, Stromversorgung und Vernetzung – intern und mit der Bodenstation – funktionierten bislang einwandfrei. „Entgegen allen Unkenrufen gab es keine Probleme. Und wir sind jetzt sehr zuversichtlich, dass wir das angepeilte Jahr ununterbrochenen, störungsfreien Betrieb auch schaffen“, freut sich Fernandez. „Wir sind dabei zu beweisen, dass man für einen sehr hohen Grad an Ausfallsicherheit tatsächlich keine teure Hardware braucht.“

Es gibt zwar eine Zeitplanung für die Reise zum Mars, doch wie immer bei solchen weitreichenden Plänen ist es unsicher, ob am Ende alles wie geplant aufgeht. Es steht auch in Frage, ob am Ende tatsächlich die NASA als erstes auf dem Mars landen wird oder einer der Wettbewerber, teils aus der privaten Wirtschaft, die dieses Ziel ebenfalls ins Auge gefasst haben.

Für den Erfolg von Fernandez` Mission ist es allerdings gar nicht so wichtig, ob irgendwann menschliche Füße Marsboden betreten werden. Denn die Erkenntnisse über ausfallfreie, sich selbst reparierende Systeme können auch dazu genutzt werden, viele auf der Erde arbeitende Systeme grundlegend zu verbessern.

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45423534 / Server)