Supercomputing mit Standardkomponenten und Open Source

Exascale für alle

| Autor / Redakteur: Matt Ziegler* / Ulrike Ostler

Das „Lenovo Think System 6SD50“ ist die Basis für etwa für den Supercomputer „SuperMUC-NG“ des Leibniz Rechenzentrums in München, ein Standard-Server, der allerdings mit Wasserkühlung arbeitet.
Das „Lenovo Think System 6SD50“ ist die Basis für etwa für den Supercomputer „SuperMUC-NG“ des Leibniz Rechenzentrums in München, ein Standard-Server, der allerdings mit Wasserkühlung arbeitet. (Bild: Lenovo)

Auf der Internationalen Supercomputing Conference (ISC) in Frankfurt Mitte Juni war Exascale-Computing Thema zahlreicher Vorträge und Gespräche. Auch in den Medien stößt das Thema seit einigen Monaten aus gutem Grund auf reges Interesse.

Seitdem im Jahr 2008 das HPC-System die Petascale-Grenze durchbrochen hat, haben Anwender, Tech-Unternehmen und Forschungseinrichtungen ihre ganz persönliche Sicht auf den „Heiligen Gral der Meilensteine im Computing“ – das Erreichen der Exascale-Marke - formuliert. Mittlerweile scheint dieser Meilenstein in Reichweite gerückt zu sein: Unternehmen und Konsortien haben ihre Pläne für den Bau der ersten Exascale-Systeme vorgestellt.

Im Bereich der Supercomputer spielt der „Wow!“-Faktor eine wichtige Rolle: Das nächstgrößere System, das nächste große Ziel und das sich brüsten mit schierer Größe und Geschwindigkeit. Supercomputing bedeutet, sich nie zufrieden zu geben und immer nach vorne zu schauen.

In die Zukunft gerichtete, vielversprechende Systemdesigns werden vorgestellt und die üblichen Verdächtigen aus Industrie und Forschung ringen um ihren Anteil an der Geschichte. Angesichts des Ausmaßes, des Umfangs und der Bedeutung des zu erreichenden Ziels ist das durchaus verständlich. Die logische Schlussfolgerung: Das Exascale-Rennen hat offiziell begonnen.

Ist die Vergangenheit ein Prolog für die Zukunft?

Schauen wir zurück und fragen wir, welche Errungenschaften und technologischen Fortschritte erforderlich waren, um die Petascale-Marke zu erreichen oder zu überwinden. Es ist mittlerweile elf Jahre her, seit „IBM Roadrunner“, der in den Los Alamos National Labs installiert wurde, die Petaflop-Barriere offiziell durchbrochen hat. Fast auf den Tag genau elf Jahre zuvor im Jahr 1997 durchbrach „ASCI Red“ in den Sandia National Labors als erstes System die Teraflop-Grenze.

Es dauerte elf Jahre, bis die Leistung um den Faktor 1.000 gesteigert werden konnte. Wo sind wir elf Jahre nach Roadrunner? Die Top-Systeme überschreiten heute die 200 PetaFLOPS-Schwelle - das entspricht nur etwa einem Fünftel des Leistungszuwachses, der im gleichen Zeitraum beim Sprung von ASCI Red zu Roadrunner erzielt werden konnte.

Der sich verlangsamende Fortschritt in Richtung Exascale ist in der Branche gut dokumentiert: Die Verlangsamung und schließlich das Aussetzen des Moore'schen Gesetzes, die Herausforderungen und die Kosten, um zu einer 7 Nanometer beziehungsweise einer besseren Prozessorfertigung zu gelangen und die technischen Herausforderungen bei der Installation eines Exascale-Systems. Allein die technischen Herausforderungen sind gewaltig.

Bergeweise Herausforderungen

Fragen der Energieversorgung und des Platzbedarfs, Kühlmöglichkeiten, die Skalierbarkeit von Netzwerken, das Systemmanagement, geeignete Gebäude und Einrichtungen. Trotz all der genannten Herausforderungen sollten wir heute dennoch bereits näher an der Exascale-Marke sein, als wir es derzeit sind. Als Branche haben wir also einen gewissen Nachholbedarf.

Interessanterweise veranlasst der Druck, die Leistungsnadel nach vorne zu drücken, die Supercomputer-Industrie derzeit dazu, den Blick auf die Vergangenheit zu richten. Lassen Sie mich das erklären! Vor Roadrunner basierten Systeme, die Performance-Meilensteine als erste erreicht hatten, oft auf proprietärer Technologie. Große Technologieunternehmen bauten riesige Systeme für eine Handvoll Kunden weltweit.

Supercomputer machten nur einen kleinen Teil des gesamten Computermarktes aus und Regionen ohne Supercomputer mussten sich auf wenige Systeme einigen, mit deren Hilfe sie – extrem mühsam und langsam – Forschung betreiben konnten. Fortschritte im Bereich Computing wurden auf den wenigen Spitzen-Rechnern erzielt und man hoffte, dass diese Fortschritte irgendwann in den Massenmarkt durchsickern würden. Roadrunner änderte dieses Paradigma.

Supercomputer aus Standardkomponenten

Wie schon seine Vorgänger im Supercomputing-Bereich wurde auch Roadrunner speziell für einen einzigen, besonders anspruchsvollen Kunden entwickelt. Auch Roadrunner stützte sich auf eine Allianz von Technologie-Schwergewichten, mit dem Ziel ein System zu entwickeln, das in der Lage sein würde, die Petaflop-Grenze zu erreichen und zu übertreffen. Doch worin sich Roadrunner von seinen Vorgänger unterschied, demokratisierte das High Performance Computing von Grund auf!

„Roadrunner", von IBM gebaut, war der erste Supercomputer, der aus bereits im Markt verfügbarer Commodity-Off-the-Shelf (COTS)-Technik bestand.
„Roadrunner", von IBM gebaut, war der erste Supercomputer, der aus bereits im Markt verfügbarer Commodity-Off-the-Shelf (COTS)-Technik bestand. (Bild: IBM/Lenovo)

Die Basis, aus der Roadrunner fußte, bestand aus bereits im Markt verfügbarer Commodity-Off-the-Shelf (COTS)-Technologie, anstelle von kundenspezifischen, proprietären Formfaktoren und Technologien, die eigens für das Projekt entwickelt wurden. IBM entschied sich mit Blick auf die Computing-Infrastruktur für seine „Bladecenter“-Server-Architektur mit „Opteron“-Prozessor von AMD.

Linux wurde als Betriebssystem gewählt, und „Extreme Cluster Administration Tool“ (xCAT) 2.0 Version (ebenfalls Open Source Software) wurde entsprechend angepasst, um das System-Management entsprechend skalierbar zu machen. Ein starkes Statement zugunsten von Open Source Technologie, die gekommen war, um dauerhaft zu bleiben!

Stärkung des Wettbewerbs

Roadrunner stellte das bisherige Konzept für den Bau eines Supercomputer auf den Kopf. In den frühen 2000er Jahren verbreiteten sich Supercomputer, die auf der Grundlage von Low-Cost, COTS-Komponenten und Open-Source-Software funktionierten, als neue Branchen von den Wettbewerbsvorteilen profitieren wollten, die eine intensive Forschung boten.

Linux als Betriebssystem in Verbindung mit x86-Prozessortechnologie bot einen offenen, kostengünstigen und leistungsfähigen Standard. Technologische Fortschritte, die im Bereich des Personal Computing begannen, fanden nun ihren Weg ins Rechenzentrum. Die wichtigste Veränderung war, dass nun mehrere Anbieter die gleiche Computing-Technologie anbieten konnten, was zu einem neuen, harten Wettbewerb führte.

„Low Cost“-Komponenten bestimmen seit „Roadrunner“ den Bau von Supercomputern mit. Doch neue Analysemöglichkeiten und manchmal sogar Anforderungen an Echtzeit sowie der Anspruch und das Muss Energie zu sparen sind die derzeitigen Ansprüche.
„Low Cost“-Komponenten bestimmen seit „Roadrunner“ den Bau von Supercomputern mit. Doch neue Analysemöglichkeiten und manchmal sogar Anforderungen an Echtzeit sowie der Anspruch und das Muss Energie zu sparen sind die derzeitigen Ansprüche. (Bild: IBM/Lenovo)

Parallel dazu boomte das Internetzeitalter und Zwei-Sockel-x86-Systeme wurden zum De-facto-Standard für ISPs und Hosting-Einrichtungen, die aufgrund ihrer Größe und ihrer Fähigkeit, den niedrigsten noch nachhaltigen Preispunkt zu erzielen, als „Hyperscaler“ bekannt werden sollten. Der Aufbau großer Systeme aus „Standard-Pizza-Box-Servern“ bot eine kostengünstige Möglichkeit zur Bereitstellung von IT. Riesige, je nach Bedarf skalierbare Systeme schufen Raum für universelle Linux-Cluster unter Verwendung von herkömmlicher Technologie und gängigen Software Tools.

Zurück zu den Spezialisten?

Es überrascht nicht, dass Regierungen, insbesondere die US-Regierung, an vorderster Front stehen, wenn es darum geht, die ersten Exascale-Systeme zu realisieren. Interessant ist, dass es dabei die Tendenz gibt, erneut auf die Verwendung proprietärer Technologien zurückzugreifen. Proprietäre Verbindungen, Racks, Kühlsysteme, Motherboards, Trays und nicht standardisierte Formfaktoren, sondern außergewöhnliche Formfaktoren - verfügbar bei nur einem Hersteller.

Die Verlangsamung der Entwicklung in Richtung Exascale hat diese Rückbesinnung angeheizt und tatsächlich ist es vorstellbar, dass ein solches proprietäres System als erstes die 1.000 PetaFLOPS Marke übertreffen wird. Ein solches System hätte jedoch wenig kommerziellen Reiz, da die meisten Kunden sich mittlerweile von der Bindung an einen einzigen Anbieter verabschiedet haben und die Entwicklung hin zu Exascale-Systemen auf Basis von offenen Standards verfolgen.

Bei Lenovo sind wir überzeugt, dass es gemeinsame Entwicklungen und Partnerschaften zwischen den besten und klügsten Köpfen bedarf, um große Herausforderungen wie das Erreichen der Exascale-Marke erfolgreich bewältigen zu können. Wir glauben, dass der bei der Entwicklung von Roadrunner gewählte Ansatz, der richtige war: Auf allgemein verfügbare Komponenten zu setzen und die Leistung dieser Standard-Technologien durch die Zusammenarbeit und gemeinsame Entwicklung mit Kunden und Partnern voranzutreiben.

Der Lenovo-Weg

Der Exascale-Ansatz von Lenovo vereint das Know-How, das wir aus zwei Jahrzehnten Entwicklungsarbeit unter offenen Standards gewonnen haben, mit den Erkenntnissen aus erfolgreichen Installationen bei Institutionen wie zum Beispiel dem Leibniz Rechenzentrum (LRZ) in München. Unsere Partnerschaft mit dem LRZ hat die Lenovo-Entwicklungsabteilung motiviert, die Leistung unserer Standardprodukte weiter zu steigern. Die Basistechnologie, die in „SuperMUC-NG“ (#9 im aktuellen TOP500 Ranking) im LRZ zum Einsatz kommt, steht heute für alle unsere Kunden weltweit zu Verfügung.

Der Cluster des „SuperMUC-NG“
Der Cluster des „SuperMUC-NG“ (Bild: © Erol Gurian 2018)

Lenovo wird auch weiterhin mit Kunden wie dem LRZ zusammenarbeiten, um die Entwicklung hin zu Exascale-Systemen der nächsten Generation voranzutreiben. der Ansatz, Entwicklungen in einem Bereich kaskadierend auf andere zu verbreiten, bildet den Kern des Selbstverständnisses von Lenovo. Unser oberstes Ziel ist es, unsere vertieften Partnerschaften und unsere eigenen Fähigkeiten zu nutzen, um Computing voranzutreiben und alle unsere Kunden von diesen Fortschritten profitieren zu lassen.

Wir verwenden Designs, die Industriestandards berücksichtigen - von der Infrastruktur über Formfaktoren bis hin zum Software- und System-Management. Wir wollen das Vermächtnis von Roadrunner fortsetzen, indem wir sicherstellen, dass die Entwicklungen im Bereich HPC für alle zugänglich sind. Anstatt den Blick zurück zu wenden und speziell designte, proprietäre Systeme zu entwickeln, die sich nur einige wenige leisten können, wird Lenovo weiterhin sicherstellen, dass alle Anwender von den Vorteilen technologischer Innovationen profitieren können.

Unser Ziel ist es, Exascale für alle zugänglich zu machen.

* Matt Ziegler ist Direktor HPC & AI Produkt-Management bei Lenovo.

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45996137 / Server)