Regale_EU - eine Open-Source-Toolbox Forscher wollen den Strombedarf von Supercomputern senken

Von Andreas Th. Fischer fischer 5 min Lesedauer

Anbieter zum Thema

Das „Regale“-Projekt hat eine Open-Source-Toolbox zusammengestellt, mit der sich der hohe Energieverbrauch in Highend-Rechenzentren senken lassen soll.

Hintergrundbild einer Präsentation des „Regale“-Projekts; mit den Open-Source-Tools aus dem Vorhaben sollen selbst künftige Exascale-Computer Energei-effizienter als nach heutigem Stand möglich arbeiten können.(Bild:  Regale_EU)
Hintergrundbild einer Präsentation des „Regale“-Projekts; mit den Open-Source-Tools aus dem Vorhaben sollen selbst künftige Exascale-Computer Energei-effizienter als nach heutigem Stand möglich arbeiten können.
(Bild: Regale_EU)

High Performance Computing (HPC) erfordert enorme Mengen an Energie. In der Vergangenheit wurden daher schon einige Anstrengungen unternommen, um zunächst auf Hardware-Seite den hohen Energieverbrauch und den CO2-Fußabdruck in den Rechenzentren zu senken. So lässt sich etwa der Takt der Systeme reduzieren - das kann allerdings auch ihre Leistung senken. Eine weitere Möglichkeit ist der zunehmende Einsatz moderner Grafikbeschleuniger, wie sie von Nvidia und AMD hergestellt werden.

2021 haben dann 16 Organisationen aus sechs europäischen Ländern mit Regale_EU ein Gemeinschaftsprojekt gegründet, um den Energieverbrauch von Supercomputern auf Softwareseite zu senken. Zu den Teilnehmern gehören neben dem Lehrstuhl für Rechnerarchitektur & Parallele Systeme der Technischen Universität München (TUM), das Leibniz Supercomputing Centre, das griechische Institute of Communication and Computer Systems (ICCS) sowie weitere Universitäten, Forschungseinrichtungen, Rechenzentrumsbetreiber und andere Firmen aus Deutschland, Italien, Frankreich, Griechenland, Österreich und Spanien. Finanziell gefördert wird das Projekt aus mehreren nationalen Töpfen sowie vom European High-Performance Computing Joint Undertaking (JU).

Toolchain für nachhaltiges Supercomputing

Nun haben die Teilnehmer erste konkrete Ergebnisse vorgestellt. Im Februar dieses Jahres präsentierten sie eine Toolbox für nachhaltiges Supercomputing. Sie enthält eine Reihe von aufeinander abgestimmten Werkzeugen zur Überwachung und Kontrolle des Energieverbrauchs von Supercomputern und zur Entwicklung effizienterer Anwendungen.

Die Toolbox wird nach Angaben von Professor Georgios Goumas vom National Technical University of Athens (NTUA) und Eishi Arima von der TUM bereits in fünf wissenschaftlichen Pilotprojekten eingesetzt. Dort würden sie im Forschungsalltag getestet. Die Wissenschaftler erhoffen sich davon Erkenntnisse, wie sich die Software bei der Steuerung von Hardwarekomponenten sowie der Programmierung von Anwendungen schlägt.

In einem Interview mit DataCenter-Insider erläuterte Professor Martin Schulz*, Inhaber des Lehrstuhls für Rechnerarchitektur & Parallele Systeme an der TUM, dass „Supercomputer große Mengen an Leistung und Energie benötigen, um ihre Berechnungen durchzuführen“. Mit dem Eintritt in die Exascale-Ära, dabei handelt es sich um HPC-Systeme, die mit einer Milliarde Gleitkommaoperationen pro Sekunde arbeiten, würden diese Systeme aber größer und hungriger nach Energie. Die Senkung des Stromverbrauchs und der Energiekosten werde daher immer wichtiger.

Professor Martin Schulz*
Professor Martin Schulz, Inhaber des Lehrstuhls für Rechnerarchitektur & Parallele Systeme an der Technischen Universität München.

Bildquelle: Andreas Heddergott / TU Muenchen

Während sich bisherige Anstrengungen auf die Entwicklung Energie-effizienterer Hardware konzentriert haben, versucht das Regale_EU-Projekt nun auf Seite der Software noch mehr Energie durch effizientere Anwendungen einzusparen. Dazu hat das Forscherteam eine Software-Toolchain zusammengestellt, die die vorhandene Hardware ergänzt und Software zur Koordinierung von Threads, Prozessen, Knoten oder sogar Systemen enthält.

Das Ergebnis sei eine leistungsfähige und Energie-effiziente Lösung, die für den effizienten Betrieb großer HPC-Systeme eingesetzt werden könne. Damit sollen sich auch erhebliche Mengen an Energie einsparen lassen, ohne dass es zu größeren Leistungseinbußen kommt.

Die Architektur von Regale_EU mit den integrierten Open-Source-Tools.(Bild:  Regale_EU-Projekt)
Die Architektur von Regale_EU mit den integrierten Open-Source-Tools.
(Bild: Regale_EU-Projekt)

Ganz würden sich diese aber nie vermeiden lassen, so Professor Schulz. Für jede Anwendung und jedes System müsse man Abwägungen zwischen Energie und Zeit treffen. Das ließe sich nicht ganz verhindern, aber „durch geeignete Software erheblich verbessern“.

Es sei beispielsweise bekannt, dass Einsparungen bei der CPU-Leistung nur wenig Auswirkungen auf die gesamte Leistung haben, wenn sich eine Anwendung in einem Speicher-, Netzwerk- oder I/O-gebundenen Zustand befinde. Dank der im Stack enthaltenen Monitoring-Werkzeuge sei es möglich, die Leistung auf verschiedenen Ebenen sehr granular und zugleich hierarchisch zu steuern. Dabei kämen Modelle zum Einsatz, die die Auswirkungen der Maßnahmen auf die Leistung gut vorhersagen könnten.

Aufwand für die Umstellung

Der Aufwand, um Regale einzuführen, sollte nicht unterschätzt werden. Einige Betriebsabläufe müssen dafür nach Aussagen von Professor Schulz umgestellt werden.

Aktuelle Systeme würden sich für Energie-effiziente Entscheidungen auf die Hardware-Steuerung der Nodes verlassen. Regale verlagere dies von der Hard- auf die Software, die dann aber auch privilegiert behandelt werden müsse. Außerdem sei eine systemweite Datenerfassung und -analyse erforderlich.

Darüber hinaus müssten die Betreiber dem Stack auch vertrauen, so dass er autonome Steuerungsentscheidungen treffen darf, die normalerweise den menschlichen Administratoren vorbehalten bleiben. Daher seien noch Folgeanstrengungen in technischer, aber auch in politischer und administrativer Hinsicht erforderlich, um die Technologie zur Reife zu bringen und sie breit einzusetzen, erläutert Schulz. Folgeprojekte, an denen die bisherigen Regale-Partner wieder beteiligt sind, seien bereits in Planung und auf die kommenden vier bis fünf Jahre ausgelegt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die Voraussetzungen

Betreiber von HPC-Systemen, die sich für Regale interessieren, müssen auf ein mehrere Voraussetzungen achten. So sollten ihre Systeme über Funktionen verfügen, mit denen sie Daten zum Energieverbrauch auslesen und bewerten können.

Die Motivation für das „Regale“-Toolset auf der Applikationsseite(Bild:  Regale_EU)
Die Motivation für das „Regale“-Toolset auf der Applikationsseite
(Bild: Regale_EU)

Außerdem müssen auch kleinste Justierungen vorgenommen werden können. Beispiele sind etwa Leistungsregler für die Taktfrequenz, die per Software steuerbar sein müssen, da sonst keine Verwaltung des Stromverbrauchs möglich ist.

Viele dieser Funktionen sind nach Angaben von Professor Schulz in aktuellen HPC-Anwendungen zu finden. Die Zugangsberechtigungen müssen aber entsprechend konfiguriert werden, was in geteilten Umgebungen nicht immer leicht sei. Darüber hinaus benötigt der Stack Monitoring-Berechtigungen, um Anwendungen oder Hardware besser einschätzen zu können.

Ausweitung des Anwendungsbereichs

Der Wissenschaftler betont, dass Regale auf Standard-HPC-Systeme ausgerichtet ist, wie sie sowohl in Forschungsinstituten und Universitäten, aber auch in der Privatwirtschaft zu finden sind. Es spreche daher nichts dagegen, dass die Toolchain auch von Unternehmen genutzt werden könne.

Das Regale-Projekt hat auf seiner Webseite eine Liste der im Stack verwendeten Anwendungen veröffentlicht. Als Systemmanager kommt zum Beispiel der Ressourcen- und Task-Manager „OAR“ der University Grenoble Alpes zum Einsatz.

Zum Erfassen und Überwachen der Daten dient das Framework „Data Centre Data Base“ (DCDB) des Münchner Leibniz-Rechenzentrums. Es sammelt Umwelt-, Betriebs- und Leistungsdaten von Sensoren in Rechenzentren und den eingesetzten Hochleistungsrechnern. Alle Anwendungen sind Open Source.

Überschneidungen zum Deep-Sea-Projekt und Ausblick

„Deep-Sea“ ist ein weiterer Open-Source-Software-Stack für HPC-Systeme. Hier geht es nach Aussage von Projektkoordinator Hans-Christian Hoppe vom Jülich Supercomputing Centre (JSC) aber vor allem darum, „heterogene HPC-Systeme effizienter zu gestalten, betreiben und anzuwenden“.

Regale kann Deep-Sea um einen weiteren Stack ergänzen, der den Betrieb der Supercomputer nachhaltiger macht. Dabei gibt es durchaus Überschneidungen der Stacks, nur ihre jeweilige Zielrichtung ist anders. Während Deep-Sea eine flexible und dynamische Infrastruktur ermöglicht, kann diese dann von Regale zur Verbesserung der Energieeffizienz genutzt werden.

Nachdem sie ihren Stack der Öffentlichkeit vorgestellt haben, wollen sich die Teilnehmer an Regale auf Folgeprojekte konzentrieren, um die Umgebung auszureifen und die Integrationen in verschiedene System- und Software-Architekturen auszubauen. Auch das Thema Künstliche Intelligenz (KI) spielt dabei große Rolle. So ist nicht nur der Stromverbrauch in den Rechenzentren durch den KI-Boom erheblich gestiegen, die Technik hat nach Angaben der Forscher auch das Potential, die Energieverteilung in den Systemen zu optimieren.

(ID:50022986)