Supercomputing neu gedacht

100mal effizienter bei 1018 Operationen pro Sekunde

| Autor / Redakteur: Estela Suarez* / Ulrike Ostler

Die Autorin Dr. Estela Suarez ist die Projekt-Managerin des EU-Projekts "DEEP" und "DEEP-ER" am Jülich Supercomputing Centre.
Die Autorin Dr. Estela Suarez ist die Projekt-Managerin des EU-Projekts "DEEP" und "DEEP-ER" am Jülich Supercomputing Centre. (Bild: Forschungszentrum Juelich GmbH)

Die Idee hinter „DEEP“ ist so einfach wie genial. Das Akronym steht für „Dynamical Exascale Entry Platform“. Das ist ist ein europäisches Supercomputing-Projekt unter der Leitung des Forschungszentrums Jülich. Es kombiniert intelligent und flexibel traditionelle Cluster mit einem „Booster“, einem Cluster von Beschleunigern, in einem einzigen Rechner.

Es liegt in der Natur der Sache, dass die Supercomputing Community von einem beständigen Streben nach „Höher! Schneller! Weiter!“ geprägt ist. Der nächste große Meilenstein der Branche sind so genannte ExaFLOP Systeme – Computer, die 1018 Rechenoperationen pro Sekunde ausführen können und somit um den Faktor zehn leistungsfähiger sind, als die derzeit schnellsten Höchstleistungsrechner weltweit.

Erst kürzlich erklärte Günther Öttinger, EU Kommissar für Digitale Wirtschaft und Gesellschaft, dass Europa bis 2025 genau so einen Rechner haben und damit mindestens in den weltweiten Top 5 der Supercomputer landen soll.

Aber so spannend die technologische Herausforderung an sich ist, einen immer größeren und schnelleren Rechner zu bauen, liegt die eigentliche Motivation darin, mit Hilfe von Höchstleistungsrechnern ein Maximum an wissenschaftlicher Erkenntnis zu erzielen. Hier stellt sich die spannende und zentrale Frage: Wie viele HPC-Anwendungen können tatsächlich von einem ExaFLOP Computer profitieren?

Keine Chance für "Weitermachen wie bisher"

Den Bau eines solchen Systems zu fordern ist leicht – ihn umzusetzen deutlich komplizierter: Verschiedene technologische Herausforderungen erlauben es nicht, einfach so weiterzumachen, wie bisher: Würde man heutige Systeme zu einer Leistung von einem ExaFLOP aufrüsten, müsste man daneben ein eigenes Kraftwerk bauen.

Die Community hat sich allerdings eine Obergrenze von 20 Megawatt für einen Exascale-Rechner gesetzt. Daher müssen Technologien entwickelt werden, die im elektrischen Leistungsbedarf 100-mal effizienter sind als heute. Da zudem die Ausfallwahrscheinlichkeit proportional zur Größe der Systeme anwächst, sind neue Konzepte zur Steigerung der Ausfallsicherheit der Maschinen unabdingbar.

Ergänzendes zum Thema
 
Über Estela Suarez

Der DEEP Supercomputer: 500 TFLOP/s Leistung in nur 1,5 Racks!
Der DEEP Supercomputer: 500 TFLOP/s Leistung in nur 1,5 Racks! (Bild: Forschungszentrum Juelich GmbH)

Für die meisten Anwendungen wird es hingegen am problematischsten sein, dass sich die Programmierbarkeit von Supercomputern mit vielen Millionen Rechenkernen sehr schwierig gestalten wird. Und nicht zuletzt ist die Skalierbarkeit der Simulationsanwendungen auf Höchstleistungsrechnern ein limitierender Faktor. Hier kämpft die Community mit dem so genannten Amdahlschen Gesetz. Dieses besagt, dass sich parallele Algorithmen nur soweit beschleunigen lassen, wie der Teil der Anwendung, der sich am wenigsten gut parallelisieren lässt.

Der Kampf gegen das Amdahlsche Gesetz

Eine Vielzahl heutiger HPC-Anwendungen koppelt Modelle, die unterschiedlich gut parallelisierbar sind und damit unterschiedliche Anforderungen an die zu nutzende Hardware stellen. Ein Beispiel ist die Simulation einer Gasturbine, bei der sowohl die Strukturmechanik der Turbine als auch die Verbrennungsdynamik der Treibstoffe simuliert werden sollen.

Heutige, homogene HPC-Systeme können diese Anwendungen nur unzureichend bedienen. Stattdessen besteht hier der Bedarf an Rechnern, die unterschiedliche Prozessortechnologien integrieren.

Genau hier setzt das europäische Forschungsprojekt DEEP (Dynamical Exascale Entry Platform) an, das vom Forschungszentrum Jülich geleitet wird und ein Konsortium von 16 Partnern aus acht europäischen Ländern vereint. Die Wissenschaftler wollen eine Brücke in die neue Ära bauen. Diese soll es ermöglichen, dass bestehende und zukünftige Simulationsanwendungen von immer leistungsfähigeren, heterogeneren HPC-Systemen profitieren können.

Das geniale Konzept

Heutzutage wird das Supercomputing von zwei Architekturansätzen dominiert. Auf der einen Seite findet man große Cluster, die leistungsfähige Server-Prozessoren verwenden und für Anwendungen gedacht sind, die eine große so genannte ‚single-thread performance’ benötigen. Auf der anderen Seite befinden sich Maschinen, die relativ leistungsschwache Prozessoren in extrem großer Zahl nutzen. Diese eignen sich besonders für sehr reguläre und damit gut skalierbare Codes.

Die grundlegende Idee von DEEP ist so einfach wie genial: Man verheiratet diese beiden Arten von HPC-Systemen und kombiniert ein traditionelles Cluster mit einem so genannten Booster – einem Cluster von Beschleunigern – in einem einzigen Rechner.

Damit lassen sich die unterschiedlichen Parallelisierungsgrade abbilden, die heutige Simluationscodes oft aufweisen: Solche Code-Teile, die nur begrenzt skalieren, laufen auf dem Cluster, Code-Teile, die hochskalierbar sind, auf dem Booster.

Die Umsetzung

So geradlinig die Idee, so komplex gestaltete sich allerdings die Umsetzung: Im Verlauf des DEEP Projekts haben mehrere Entwicklerteams daran gearbeitet, das Konzept in einem realen Prototyp umzusetzen – und zwar inklusive des dafür benötigten Systemsoftware Stacks.

Co-Design lautete hierbei das Zauberwort: Nur durch engste Zusammenarbeit zwischen den Hardware- und Software-Experten ließ sich sicherstellen, dass das System den Anforderungen der unterschiedlichsten Nutzergruppen gerecht wird. Das Ergebnis, der DEEP Supercomputer mit einer Peak Performance von 500 TFLOP/s verteilt auf nur 1,5 Racks, steht seit Herbst 2015 am Jülich Supercomputing Centre.

Das DEEP-Architekturkonzept: Ein Cluster von Intel-Xeon-Prozessoren kombiniert mit einem Booster aus Xeon-Phi-Beschleunigern
Das DEEP-Architekturkonzept: Ein Cluster von Intel-Xeon-Prozessoren kombiniert mit einem Booster aus Xeon-Phi-Beschleunigern (Bild: Forschungszentrum Jülich)

Bei dem Cluster-Teil der Maschine handelt es sich um eine serienmäßige Lösung – ein Warmwasser-gekühltes „Aurora“ Cluster des italienischen Herstellers Eurotech mit 128 Rechenknoten (jeder mit zwei „Intel Xeon E5“-CPUs), verbunden über ein Infiniband (QDR)-Netzwerk. Den Booster hingegen mussten die Entwickler der Partner Eurotech, Intel, Jülich Supercomputing Centre, Universität Heidelberg und des Leibniz-Rechenzentrums komplett neu entwerfen und bauen. Das System basiert ebenfalls auf der Eurotech Aurora-Technologie – allerdings mit speziell angepasstem Board-Design – und verfügt über 384 „Intel Xeon Phi“ (7120x) Co-Prozessoren, verbunden über ein Extoll-Netzwerk auf FPGA-Basis.

Die jüngste DEEP-Variante

Seit Anfang 2016 gibt es den Booster zusätzlich noch in einer alternativen Variante: Hierbei ist die Anbindung an das Extoll-Netzwerk über die neuen, leistungsfähigeren ASIC-basierten „Tourmalet“-Karten anstatt der FPGA-Implementierung realisiert.

DEEP GreenICE Booster kommt mit innovativer Kühlmethode: Immersion Cooling mit Novec Flüssigkeit.
DEEP GreenICE Booster kommt mit innovativer Kühlmethode: Immersion Cooling mit Novec Flüssigkeit. (Bild: Forschungszentrum Jülich)

Ein weiterer Unterschied beim „GreenICE Booster“ ist die Kühltechnik. Die Forscher nutzten die Gelegenheit, beim zweiten Prototypen eine weitere Kühlmethode zu testen: Eine innovative Tauch-Siede Kühlung, bei der die Komponenten in einer High-Tech-Flüssigkeit („Novec“) gebadet werden und der Kühleffekt durch einen Phasenübergang – letzten Endes das Sieden der Flüssigkeit – entsteht (‚Immersion Cooling’, siehe auch: Kühlen durch Kochen, 3M und Boston schicken Supermicro-Server zum Tauchen).

Die zentrale Herausforderung bei der Entwicklung bestand darin, den Booster – ein Cluster von Beschleunigern – so zu entwerfen, dass die Xeon-Phi-Prozessoren selbständig Booten können, also ohne den bisher (noch) notwendigen Umweg über Host-CPUs. Denn nur mit den selbst-bootenden Beschleunigern lässt sich die Flexibilität des Systems garantieren.

Selbst-bootende Beschleuniger

Sind in aktuellen, heterogenen Supercomputing-Architekturen gewisse Kombinationen von CPU und Beschleunigerkarten starr vorgegeben (je nach Bauart in der Regel 1:1 oder 1:2, seltener 1:4 oder in Ausnahmefällen 1:8), können Nutzer des DEEP-Systems die für sie optimale Zusammensetzung von Cluster- und Booster-Knoten vollständig flexibel wählen (n:m).

Der DEEP-Software-Stack sorgt für eine benutzerfreundliche Programmierumgebung.
Der DEEP-Software-Stack sorgt für eine benutzerfreundliche Programmierumgebung. (Bild: Jülich Supercomputing Centre)

Der eigens für die DEEP Maschine entwickelte Software-Stack ermöglicht es Anwendern, diese Aufteilung auf Cluster und Booster unkompliziert vorzunehmen. Die Systemsoftware basiert auf den im HPC-Bereich weit verbreiteten Programmiermodellen „OpenMP“ und „MPI“ und verbirgt die komplexe Hardware-Architektur für den Nutzer. Dieser muss sich lediglich überlegen, welche Teile seines Codes sich besser für das Cluster eignen, und welche idealerweise auf dem Booster laufen und wie viele der jeweiligen Prozessortypen benötigt werden.

Das globale MPI sorgt für eine hochperformante Kommunikation zwischen den verschiedenen Teilen des Systems. Die Aufteilung des Simulationscodes in hoch- und weniger skalierbar und die weiteren Optimierungen sind im Übrigen von Vorteil auf allen heterogenen Supercomputerarchitekturen.

Wer profitiert davon?

Im Projekt DEEP und seinem Nachfolger „DEEP-ER“, in dem vorrangig Lösungen für datenintensive Codes und die Steigerung der Ausfallsicherheit erarbeitet werden, sind insgesamt elf HPC-Codes aus verschiedensten Bereichen integraler Bestandteil der Forschungs- und Entwicklungsarbeiten: Von Astro- über Plasma- bis hin zu Geophysik, von Erdbeben- und Klima- bis hin zu Hirnforschung oder Radioastronomie.

Das Spektrum an Anwendungen aus Wissenschaft und Industrie wurde bewusst breit angelegt. Bei der Entwicklung der Prototypen sollten schließlich Anforderungen möglichst unterschiedlicher Simulationscodes berücksichtigt werden. Und Tests auf dem bereits laufenden DEEP Prototypen zeigen: Egal welche Anwendungen, egal wie deren Eigenschaften sind - aufgrund der hohen Flexibilität des Systems profitieren ausnahmslos alle Codes vom DEEP Cluster-Booster Ansatz.

Wie wirkt sich elektromagnetische Strahlung auf den Menschen aus? Das erforscht ein Team von INRIA (Frankreich) – unter anderem mit Hilfe des DEEP Supercomputers.
Wie wirkt sich elektromagnetische Strahlung auf den Menschen aus? Das erforscht ein Team von INRIA (Frankreich) – unter anderem mit Hilfe des DEEP Supercomputers. (Bild: Forschungszentrum Jülich)

Multiphysik und mutliskalen Anwendungen, die von Haus aus unterschiedliche Skalierungsmuster aufweisen, profitieren von einem perfekten „Mapping“ ihres Codes auf der System-Hardware. Hochskalierende Anwendungen laufen direkt auf dem Booster und greifen in manchen Fällen auf das Cluster zurück, um Input-Output-Vorgänge zu beschleunigen. Wieder andere Nutzer, integrieren zum beispiel Pre- und Post-Processing enger und erhöhen damit ihre „time-to-solution“, da in DEEP die vorhandene Hardware- und Software-Infrastruktur komplexere Workflows erlaubt.

Tauglich für viele Anwendungen, auch aus der Industrie

Genau deswegen ist diese Architektur besonders interessant für wissenschaftliche Rechenzentren, die typischerweise ein sehr breites Spektrum an Anwendern haben. Vor allem, weil die dynamische Reservierung von Rechnen-Ressourcen, die DEEP ermöglicht, die Nutzung des Systems deutlich erhöht und dadurch den Return on Investment (ROI) maximiert.

Wissenschaftler des Cyprus Institute (Zypern) erforschen den Klimawandel. Ihre multi-physikalischen Modelle benötigen neuartige Rechnerarchitekturen wie die von DEEP.
Wissenschaftler des Cyprus Institute (Zypern) erforschen den Klimawandel. Ihre multi-physikalischen Modelle benötigen neuartige Rechnerarchitekturen wie die von DEEP. (Bild: Forschungszentrum Jülich)

Nichtsdestotrotz ist der Cluster-Booster Ansatz auch eine spannende Alternative für Rechenzentren oder Anwender aus der Industrie, die hauptsächlich ähnliche Codes auf ihren Maschinen laufen lassen. Denn genau wie bei anderen Systemen auch, sollte man sich vor der Anschaffung intensiv Gedanken zu den Anforderungen an den Rechner machen. Da sich die Zusammensetzung aus klassischen Prozessoren im Cluster und Co-Prozessoren oder anderen Beschleunigern im Booster beliebig gestalten lässt, kann das System perfekt auf unterschiedliche Anforderungen maßgeschneidert werden.

Da die Entwicklungszyklen im HPC sehr kurz sind, mag die Hardware des aktuellen Prototyps bereits bald veraltet sein. Die DEEP Systemsoftware und die Programmierumgebung bleiben jedoch auch für zukünftige Systeme aktuell und erlauben es Nutzern, auch andere heterogene Systeme effizient zu verwenden, da die Anwendungen portabel sind. Zudem ist das grundlegende Cluster-Booster-Konzept zukunftsweisend und wird die Entwicklung künftiger Systeme maßgeblich beeinflussen, nicht zuletzt, weil es den Trend zu heterogenen Systemen aufgreift, dabei aber ganz klar den Fokus auf die Anforderungen von unterschiedlichsten Nutzergruppen legt.

Eine erste Installation im Regelbetrieb ist bereits geplant: Das Jülich Supercomputing Centre beabsichtigt demnächst seine „JURECA“-Maschine um einen 10 PFLOP/s Booster erweitern.

Hinweise:Ausführliche Informationen zum Forschungsprojekt DEEP und seinem Nachfolger DEEP-ER finden sich auf den Webseiten:

Das DEEP Projekt wurde von der Europäischen Kommission gefördert unter der Fördernummer: ICT-287530.

Bei Interesse an Tests mit dem Prototypen wenden sich Interessanten gerne an pmt@deep-project.eu.

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 44155927 / Komponenten)