Supercomputing und Modelltraining mit AMD Eviden und AMD liefern Europas neuen Exascale-Supercomputer

Quelle: Pressemitteilung AMD 6 min Lesedauer

Anbieter zum Thema

„Alice Recoque“ soll mehr sein als ein einzelner Supercomputer: Es ist das erste Exascale-System in Frankreich, wird aber zudem in ganz Europa KI- und Forschungskapazitäten erweitern und soll Energie-Effizienz sowie Souveränität gewährleisten.Außerdem spielt die AMD-Technik auch im „Zyphra Zaya1“-Modell für das KI-Training eine Rolle.

AMD feiert mit Eviden Erfolge im Supercomputing und mit IBM sowie Zyphra im Modelltraining. (Bild:  AMD)
AMD feiert mit Eviden Erfolge im Supercomputing und mit IBM sowie Zyphra im Modelltraining.
(Bild: AMD)

Alice Recoque wird der erste Exascale-Computer in Frankreichs sein und der zweite in Europa. Es soll ein Supercomputer der nächsten Generation, der den Bedarf an wissenschaftlichem Computing (HPC) und Künstlicher Intelligenz (KI) unterstützt und als KI-Fabrik dient. Eviden, ein Unternehmen der Atos-Group, und AMD sind für den Bau von Alice Recoque ausgewählt worden.

Dieses Projekt unter der Leitung von 'France Genci', betrieben von Atomic Energy Commission, CEA, wird eine Kapazität von mehr als einem ExaFlop pro Sekunde, das heißt: einer Trillion Berechnungen pro Sekunde, für wissenschaftliche Simulationen haben.

Diese extreme Leistung, die mehr Berechnungen entspricht, als die Menschheit in vier Jahren ununterbrochener mentaler Rechenarbeit leisten könnte, bedeutet eine fünfzigfache Steigerung der Rechenkapazität gegenüber dem bisherigen System, bei nur einer fünffachen Erhöhung des Stromverbrauchs.

Die Kosten und die Beteiligten

Dieses Projekt mit Gesamtkosten von 554 Millionen Euro über einen Zeitraum von fünf Jahren wird von EuroHPC JU finanziert, wobei die Mittel aus dem Programm „Digitales Europa“ (DEP) stammen, sowie vom Jules-Verne-Konsortium unter der Leitung Frankreichs durch Genci und CEA unter Beteiligung der niederländischen IT-Kooperation Surf und Griechenlands mit Grenet.

Der „Joliot/Curie“-Supercomputer gehört zu den Systemen, die in die Arbeit des noch zu bauenden Exascale-Rechners „Alice Recoque“ eingebunden werden. (Bild:  CEA)
Der „Joliot/Curie“-Supercomputer gehört zu den Systemen, die in die Arbeit des noch zu bauenden Exascale-Rechners „Alice Recoque“ eingebunden werden.
(Bild: CEA)

Alice Recoque wird im 'Very Large Computing Center' (TGCC) der französischen CEA installiert, in dem bereits von Eviden gebaute Systeme wie die „Joliot-Curie“-Maschine von Genci und die „Topaze“-Maschine der CEA untergebracht sind.

Eine KI-HPC-Fabrik

Alice Recoque soll sich mit den dringendsten gesellschaftlichen, wissenschaftlichen und industriellen Herausforderungen Europas befassen, indem sie traditionelle High-Performance-Computing- (HPC) und Künstliche Intelligenz- (KI) Workloads aus groß angelegten Simulationen, Datenanalysen und KI-Modellen kombiniert. Das Ökosystem wird die Klimamodellierung verbessern, Innovationen im Bereich Materialien und Energie beschleunigen, digitale Zwillinge für die personalisierte Medizin ermöglichen und die nächste Generation grundlegender europäischer KI-Modelle unterstützen.

Es wird sich auch mit der riesigen Datenmenge befassen, die von wissenschaftlichen Instrumenten wie Teleskopen, Satelliten sowie IoT-Geräten und KI-Anwendungen erzeugt wird, und damit Durchbrüche in mehreren Bereichen vorantreiben. Außerdem deckt Alice Recoque den gesamten Lebenszyklus von Computern ab.

Dieses Projekt ist eine Live-Implementierung der engen Zusammenarbeit und des Engagements von Eviden und AMD, mit einer erheblichen Investition in personelle und technologische Ressourcen. Das gesamte System wird durch die Netzwerktechnik von Eviden „BXIv3 mit der „Bull-Sequana XH3500“-Plattform verbunden sein, zusammen mit Speichersystemen von DDN. Die integrierte Netzwerkarchitektur mit einer Bandbreite von 10 Gigabit pro Sekunde und einer Kapazität von 100 Gigabit pro Sekunde unterstützt die Compute-Power.

Eine souveräne und kontrollierte Lieferkette

Alice Recoque-System soll zudem verschiedene europäische Technologien integrieren, darunter auch einige kritische Komponenten. Zum Beispiel geht es um eine weitere Partition mit der europäischen „Sipearl Rhea2“-CPU, um die Rechenkapazitäten des Systems zu erhöhen.

Da fast drei Viertel der Produktion der Bull-Sequana XH3500-Komponenten nach Europa verlagert wurden, gewährleistet Eviden vollständige Rückverfolgbarkeit, Einhaltung gesetzlicher Vorschriften und reduzierte geopolitische Risiken – im Einklang mit den Klimazielen Europas und zur Stärkung der digitalen Souveränität durch sichere, nachhaltige und leistungsstarke KI-HPC-Technologien.

Exascale mit möglichst wenig Ressourcen und Energieverbrauch

Alice Recoque besteht aus 94 Racks und wird voraussichtlich einer der leistungsstärksten Supercomputer in Europa für HPC-Workloads mit doppelter Genauigkeit sein. Auf dieser Grundlage wird er auch eine außergewöhnliche Speicherleistung bieten, die tiefere Einblicke, schnellere Simulationen und mehr wissenschaftliche Durchbrüche ermöglicht. Zugleich kommt der Supercomputer mit 25 Prozent weniger Racks und Komponenten als andere Exascale-Systeme aus und bietet eine um bis zu 50 Prozent besseren Energie-Effizienz pro GPU.

Die verbesserter Energie-Effizienz bei der Anwendungsauslastung wird voraussichtlich im Vergleich zu gleichwertigen Exascale-Systemen etwa 20 Prozent erreichen. Echtzeitüberwachung und Energieoptimierung ermöglicht die „Argos“-Software von Eviden. Zudem gibt es eine Direktflüssigkeitskühlung mit warmem Wasser zur Kühlung aller All-in-One-Rack-Komponenten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Angetrieben von „AMD Instinct MI430X“-GPUs unterstützt Alice Recoque fortgeschrittene KI-Datentypen, darunter FP4 und FP8, und bietet führende AI-Flops. Jede GPU verfügt über 432 GB HBM4-Speicher und 19,6 Terabit pro Sekunde (TB/s) Bandbreite.

Bildergalerie
Bildergalerie mit 17 Bildern

Damit die AMD Instinct-GPUs mit voller Kapazität arbeiten können und die Effizienz der verteilten Kommunikation gesteigert wird, wird das Alice Recoque-System über die hauseigene Verbindungstechnologie von Eviden, BXIv3, - und nicht über Nvidia- oder AMD-Technik- verbunden. Diese europäische Netzwerklösung soll die Souveränität erhöhen. Laut Eviden-Angaben verbindet sie alle Komponenten des Systems nahtlos miteinander, wodurch eine schnellere Anwendungsleistung und eine optimierte Ressourcennutzung erzielt werden.

Die Kennzahlen in der Übersicht:

  • Gesamtprojektkosten von 554 Millionen Euro über 5 Jahre
  • Spitzenleistung von 1 Exaflop, das heißt 1 Trillion Berechnungen pro Sekunde für Workloads mit doppelter Genauigkeit - Das entspricht mehr Berechnungen, als die Menschheit in vier Jahren ununterbrochener mentaler Rechenarbeit leisten könnte und rund 10 Millionen modernen Desktop-Computern.
  • Steigerung der Rechenkapazität des Supercomputing-Zentrums (TGCC) der CEA um das 50-Fache bei nur einer Verfünffachung des Stromverbrauchs
  • 94 Racks,
  • 280 Kilometer Verkabelung,
  • 280 Tonnen auf 174 Quadratmetern (Racks + Dienste + Verkabelung) - Das Gewicht entspricht 140 Elektrofahrzeugen oder 28 Stadtbussen.
  • 25 Prozent weniger Racks und Komponenten als andere Exascale-Systeme
  • Reduzierter Energieverbrauch: Verbesserte Energie-Effizienz der Anwendungs-Workloads, voraussichtlich um etwa 20 Prozent im Vergleich zu gleichwertigen Exascale-Systemen,
    und bis zu 50 Prozent bessere Energie-Effizienz pro GPU im Vergleich zu bestehenden Exascale-Systemen
  • 100 Prozent der Rack-Komponenten werden mit Warmwasser gekühlt

Philippe Lavocat, CEO Genci, fasst zusammen: „Im globalen Wettlauf um die Nutzung von Rechenleistung als Motor für wissenschaftliche Entdeckungen und Innovationen ist die Entscheidung von EuroHPC, Eviden auszuwählen und souveräne Technologien für den Exascale-Supercomputer Alice Recoque einzusetzen, ein entscheidender Meilenstein für Europa und Frankreich.“

Er verweist darauf, dass die Zusammenarbeit von Genci und allen Mitglieder des Jules-Verne-Konsortiums begonnen habe. „Alice Recoque ebnet den Weg für Post-Exascale-Dienste und wird Europa 'Beyond HPC' vorantreiben, indem es Hochleistungsrechner, Künstliche Intelligenz und Quantentechnologien zusammenführt, um die Wissenschaft zu stärken, Innovationen zu beschleunigen und unsere technologische Souveränität und globale Wettbewerbsfähigkeit zu stärken.“

AMD im Modelltraining

Ein wichtiger Erfolg für AMD ist indes, dass AMD Instinct GPUs und das „Pensando Networking“ des Unternehmens das Zyphra Zaya1-Modell für das KI-Training unterstützt haben. Zyphra veröffentlicht seine Ergebnisse auch in einem technischen Report, aus dem hervorgeht, dass „Zaya-base Llama-3-8B“ und „OLMoE“ übertrifft und dabei eine vergleichbare Leistung wie „Qwen3-4B“ und „Gemma3-12B“ erbringt.

Krithik Puthalath, CEO von Zyphra, weist zudem dauf hin, dass das Ganze auch noch Energie-Effizienter vonstatten geht: „Effizienz war schon immer ein zentraler Leitgedanke bei Zyphra. Sie bestimmt, wie wir Modellarchitekturen entwerfen, Algorithmen für Training und Inferenz entwickeln und die Hardware mit dem besten Preis-Leistungs-Verhältnis auswählen, um unseren Kunden Spitzenintelligenz zu bieten.“

Zaya1 spiegele diese Philosophie wider. „Wir freuen uns sehr, das erste Unternehmen zu sein, das groß angelegtes Training auf einer AMD-Plattform demonstriert. Unsere Ergebnisse unterstreichen die Leistungsfähigkeit der gemeinsamen Entwicklung von Modellarchitekturen mit Silizium und Systemen.“

Mit im Boot ist IBM. Die Unternehmen haben aufbauend auf früheren gemeinsamen Projekten zusammengerbeitet, um einen groß angelegten Trainings-Cluster zu entwickeln und einzurichten. Konkret besteht das System, das Anfang dieses Quartals vorgestellt wurde, „AMD Instinct MI300X“-GPUs mit der Fabric- und Speicherarchitektur von „IBM Cloud“ und bildet damit die Grundlage für das groß angelegte Vortraining von Zaya1.

Weiter geht`s

Puthalath will die Kooperation fortsetzen: „Wir freuen uns darauf, unsere Zusammenarbeit mit AMD und IBM bei dert Entwicklung der nächsten Generation fortschrittlicher multimodaler Basismodelle zu vertiefen.“

(ID:50637979)