AI und Supercomputing Mehr Effizienz durch neue Hard- und Software-Ansätze

Von lic.rer.publ. Ariane Rüdiger 4 min Lesedauer

Anbieter zum Thema

Die AI- und Supercomputing-Gemeinde kommt auf den grünen Geschmack: Die nötigen Hardwareplattformen sollen effizienter werden, also mehr leisten und weniger verbrauchen. Einige Ansätze sind auf dem Weg.

Supercomputing und AI-Computing müssen dringend ihre Energie-Effizienz steigern.(Bild:  Regale)
Supercomputing und AI-Computing müssen dringend ihre Energie-Effizienz steigern.
(Bild: Regale)

Supercomputer und Energie-intensive AI-Maschinen mit reihenweise GPUs sind notwendig, um neue, bislang nicht rechenbare Aufgaben zu lösen oder mit großen Modellen zu arbeiten. Das wiederum soll dabei helfen, die großen Probleme der Gegenwart zu lösen.

Gleichzeitig sind sich aber auch alle einig, dass das Rechnen energiesparsamer vonstatten gehen muss. Frisst doch ein Superrechner schnell einmal den Strombedarf einer Kleinstadt auf.

HPC-Hardware und -Architektur made in EU

Inzwischen machen sich diverse Unternehmen, Projekte und Gruppen auf den Weg. Sie wollen in Europa mit Subventionen unterfüttert eigenständige Hochleistungsmaschinen bauen und entsprechende Tool-Software entwickeln.

Ein Beispiel für ein solches EU-Produkt ist der Prozessor „Prodigy“ von Tachyum. Er steckt nun in einer Maschine für die AI-Inferenz. Diese Hardware soll den bisherigen Designs mit reichlich GPUs und CPUs zeigen, was eine Harke ist.

Eigenes Exponentialdatenformat

Dafür wurde mit 4-Bit-TAI extra für die „Tachyum Prodigy ATX“-Plattform ein neues, sparsames Exponentialdatenformat definiert. Weiter arbeitet das System mit mehreren Verarbeitungsebenen mit dünn besetzten Matritzen.

Das sind Zahlentabellen, in denen die meisten Elemente den Wert Null haben. Dadurch, so Tachyum, werde es erheblich vereinfacht, LLMs zu verarbeiten.

Speicherriese Prodigy

Weiter hat der Prodigy-Prozessor außergewöhnlich viel Speicher. Er enthält bis zu 16 DDR5-Memorycontroller. Damit versucht das System, Speicherengpässe von vorn herein zu verhindern.

Nicht viel anders als ein ganz normaler Stand-PC: Das Gehäuse des schon ab 5.000 Euro erhältlichen AI-Systems „Tachyum Prodigy ATX“.(Bild:  Tachyum)
Nicht viel anders als ein ganz normaler Stand-PC: Das Gehäuse des schon ab 5.000 Euro erhältlichen AI-Systems „Tachyum Prodigy ATX“.
(Bild: Tachyum)

Ergebnis: Auf einem Prodigy mit 96 Cores und 1 Terabyte Memory kann ein „ChatGPT“-Modell mit 1,7 Trillionen Parameter laufen. Laut Tachyum wären dafür sonst 52 „Nvidia H100“-GPUs nötig. Sie würden entsprechend mehr kosten und Energie verbrauchen.

48-Core-Einstiegssystem für 5.000 Dollar

Tachyum bietet ein entsprechend designtes System mit einem Einstiegsprozessor mit nur 48 Kernen und 256 GB Memory für rund 5000 Dollar an. Es löst Interferenzaufgaben mit modernen LLMs.

Damit wäre AI-Verarbeitung auf spezialisierten hochleistungsfähiger Hardware und zu erträglichen Preisen Realität. Beim Supercomputing setzt man inzwischen auf die Entwicklung Energie-effizienter Tools und Tool-Verkettungen sowie auf neue Architekturen.

Mehr Effizienz durch Regale

Für mehr Effizienz gibt es zwei europäische Forschungsprojekte: „Regale“ und „Deep Sea“. Das Leibniz Supercomputing Centre in Garching und das Gauss-Zentrum für Supercomputing an der TU München sind in die Projekte involviert und tragen durch ihre Forschung zum nachhaltigeren Supercomputing bei. beispielsweise durch die Data Centre Data Base (DCDB).

Das Tool sammelt Umwelt-, Betriebs- und Leistungsdaten, die Sensoren in den Höchstleistungsrechenzentren und ihren Rechnern sammeln. Außerdem zeigt das Programm Möglichkeiten auf, Software oder wissenschaftliche Anwendungen an die Anforderungen bestehender Hardware anzupassen, um weniger Energie zu verbrauchen. Das Tool wurde auch in die Arbeit der beiden Projekte Deep Sea und Regale eingebracht. Beide Projekte starteten 2021.

Bei Deep-Sea entstehen ein integrierter Open-Source-Software-Stack und Programmierumgebungen für Exascale-HPC in Europa. Regale liefert Werkzeuge, die Supercomputing nachhaltiger machen. Das bedeutet im Einzelnen eine bessere Anwendungsleistung, höheren Systemdurchsatz, Minimierung der Leistungsdegradation im energiebeschränkten Betrieb und insgesamt geringeren Energieverbrauch.

Regale erstellt eine offene Architektur für zukünftige Supercomputer mit 10(hoch)18 und mehr Gleitkommaoperationen pro Sekunde. Außerdem entsteht ein weit entwickelter Prototyp.

Fünf Piloten entstehen

Letztlich sollen Mechanismen und Regeln gefunden werden, die das Supercomputing Energie-effizienter machen. Dafür werden bewährte Software-Elemente wie die oben erwähnte DCDB verwendet.

Um die Funktionstüchtigkeit der erarbeiteten Anwendungen zu testen, hat Regale fünf Piloten entwickelt. Einer befasst sich mit der Optimierung von hydraulischen Turbinen im industriellen Maßstab. Ein weiterer Prototyp ist ein im Vorbeifluss der Daten aktiver Workflow, der ständig und überall Sensitivitätsanalysen und das Training von Metamodellen übernimmt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Ein dritter Prototyp schätzt Unternehmensrisiken mit Hochleistungsdatenanalyse ein. Der vierte führt auf Erdbeobachtungsdaten komplexe geomorphometrische Modelle aus, um das Grundwasser zu messen und zu verwalten. Schließlich soll Pilot Nummer fünf helfen, bessere Auto-Stoßdämpfer aus karbonverstärkten Polymeren zu bauen.

Systemarchitektur mit vier Ebenen

Die allgemein verwendbare Architektur des Systems gliedert sich in vier Ebenen: die Workflow-Engine, einen Systemmanager, den Jobmanager und den Node Manager. Letzterer greift auf die einzelnen Knoten zu. Quer zu allen Ebenen liegt ein Monitor, der die Daten aus dem gesamten Architekturmodell überwacht.

Der Workflow-Manager (oberste Ebene) lässt die einzelnen Workflows ablaufen und orchestriert sie. Er reicht die einzelnen Jobs an den System Job Scheduler weiter. Außerdem liefert er Funktionen zum Schätzen der Bedarfe aller Aktoren.

Monitoring überwacht alle Systemebenen

Auf der Systemebene befinden sich Komponenten, die die einzelnen Jobs steuern und ihren Energieverbrauch überwachen, ihnen z.B. obere Energieverbrauchsgrenzen zuweisen. Die Monitoring-Komponente überwacht alle übrigen und erlaubt Suchen in den gespeicherten Daten.

Die im „Regale“-EU-Projekt erarbeitete Architektur soll helfen, Supercomputing effizienter und weniger stromfressend zu gestalten. (Bild:  Regale)
Die im „Regale“-EU-Projekt erarbeitete Architektur soll helfen, Supercomputing effizienter und weniger stromfressend zu gestalten.
(Bild: Regale)

Der Jobmanager optimiert die Ressourcen, die jedem Job zugewiesen wurden. Dazu gehört auch die Energie, deren Verbrauch vom Jobmanager optimiert wird. Außerdem liefert diese Ebene Hinweise für einen energieeffizienteren Betrieb.

Energieverbrauch jedes Knotens wird gedeckelt

Auf der Ebene des Knotenmanagers wird schließlich der Energieverbrauch der einzelnen Knoten per Hardwaresteuerung gedeckelt. Außerdem lassen sich Leistungs-/Energiestati definieren. Auch diese Komponente produziert Hinweise, wie sich mehr Energie-Effizienz erreichen lässt.

Darunter liegen die einzelnen Knoten, jeweils mit einem eigenen Job- und Node-Manager. Von den Ebenen darüber bekommen sie Hinweise zum optimalen Betrieb und optimalen elektrischen Bedingungen.

Softwarewerkzeuge für die einzelnen Ebenen

Für diverse Ebenen dieses Modells hat Regale bereits Softwarewerkzeuge entwickelt. Für das Monitoring werden beispielsweise die schon erwähnte DCDB und weiter „EAR“ und „Examon“ als zusätzliche Überwachungswerkzeuge vorgeschlagen.

Die „Regale“-Tool-Landschaft gruppiert sich um einen zentralen Pub-/Sub-Datenverteilmechanismus.(Bild:  Regale)
Die „Regale“-Tool-Landschaft gruppiert sich um einen zentralen Pub-/Sub-Datenverteilmechanismus.
(Bild: Regale)

Im Zentrum steht ein Pub/Sub-Datenverteildienst (DDS). Der Bibliotheks-Core speichert Datentypen in einer XML-Datei und parst sie dynamisch, sobald sie gebraucht werden. Dazu kommt der Knoten-Manager EAR. Die Client-Software heißt „Countdown“. Dazu kommt mit den Komponenten „Bridge“ und Examon die Software für den Monitoring-Server.

Damit steht zum ersten Mal eine Software-Architektur, die Höchstleistungsrechner auf jeder Stufe optimieren kann. Es wird sich zeigen, wie viel mehr Effizienz solche softwarebasierten Ansätze tatsächlich bewirken. Eines gilt ganz bestimmt: Je mehr Effizienz, desto besser und desto mehr Aufgaben lassen sich bewältigen.

Artikelfiles und Artikellinks

(ID:49975716)