Supercomputing und KI werden synonym

Neue Chips, neue Player, alte und neue Probleme Supercomputing und KI werden synonym

09.08.2019Autor / Redakteur: Michael Matzer / Ulrike Ostler

Die „ISC 2019“ hat deutlich gezeigt, dass Künstliche Intelligenz (KI) allmählich synonym mit High Performance Computing (HPC) wird. Im Wettrennen zu performanter KI-Technologie gibt es Gewinner und Verlierer – sowie ein paar nicht ganz unbedeutende Hürden.

Anbieter zum Thema

Stäubli TEC-Systems GmbH Connectors

Vertiv GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

War früher im Supercomputuing Echtzeit kein Thema, ändert sich das heute. Außerdem spielt die Künstilche Intelligenz, eine immer stärkere Rolle. War früher "Hauptsache preiswert" das stärkste Argument für die Hardware-Beschaffung, spielen heute Energie-Effizienz und die Flexibilität in der Nutzung eine Rolle um die Ressourcen für verschiedene Nutzer zugänglich machen zu können.
(Bild: ©rybindmitriy - stock.adobe.com)

Der HPC- und Chip-Markt befindet sich wegen KI in einem tiefgreifenden Wandel. Mario Morales, Analyst bei IDC, sagt, dass die bisherigen großen Spieler im Chip-Markt wie etwa Intel und Nvidia nicht automatisch die Gewinner von morgen sein werden. „Intel befindet in einem internen Umbau, um sich den Workloads, die KI verursacht, besser anzupassen.“

CPUs wie „Xeon“ von Intel, die laut Hyperion Research immerhin einen HPC-Marktanteil von über 94 Prozent innehaben, erledigen am besten den Inferenz-Teil im Deep Learning, während GPUs wie die von Nvidia – oder auch FPGAs – führend beim Training-Teil von KI-Modellen sind. Aber es kommt Konkurrenz auf.

Bildergalerie

Bildergalerie mit 11 Bildern

Es geht um die Verteilung eines großen Kuchens: IDC hat für Ende 2019 einen HPC-Marktumfang von fast 35,8 Milliarden Dollar vorausgesagt. Er soll sich bis 2022 verdoppeln. Als am schnellsten wachsendes Segment soll der Markt für HPC-Datenanalyse mit AI laut Hyperion Research bis 2023 um 30,3 Prozent zulegen.

KI-Intelligenz wandert an die Edge

Die Herausforderung für Intel & Co. liege laut Morales nun darin, dass KI erstens an die IT-Peripherie verlegt wird, wo die Daten erzeugt werden, etwa von IoT-Sensoren. Zweitens seien alle diese Endpunkte in Hunderten von unterschiedlichen Branchen platziert, vom Gesundheitswesen über Automobilbau bis zur Transportlogistik. „Es gibt bislang keine Architektur, die alle diese Branchen mit KI-Frameworks versorgen könnte“, so Morales.

Aber diese Frameworks werden bereits entwickelt, beispielsweise „Tensorflow“. Morales: „Es wird wohl ein Jahrzehnt dauern, bis eine solche Architektur alle Branchen mit Intelligenz versorgen kann, aber einige Anbieter arbeiten mit ihren Ökosystemen von Partnern daran.“

Mario Morales, Analyst bei IDC.
(Bild: Copyright 2016 Michael J. Palma /© IDC)

Das bedeutet auch, dass Platzhirsche wie Nvidia, AMD und Intel zunehmend Konkurrenz von den Hyperscalern bekommen werden: Google, Amazon und Facebook. „Diese bauen bereits längst ihre eigenen Chips“, oder lassen, wie Amazon, bei Intel bauen.

Weitere Rivalen sind laut Morales Startups, die ASICs und Appliances entwickeln. Graphcore etwa ist ein Chiphersteller, der ähnlich wie Intel und Nvidia Deep- und Machine Learning in eine massiv parallele Intelligence Processing Unit (IPU) packt. Das komplette ML-Modell ist im Prozessor untergebracht.

Intel für KI

Intel hat bereits reagiert. Es stellte auf der ISC zusammen mit Inspur eine KI-Appliance vor, die die Chinesen vermarkten. Eine weitere Kooperation ist der Chipriese mit Baidu eingegangen.

Wie Stefan Gillich, KI-Experte bei Intel, auf der ISC sagte, will Intel „in der zweiten Jahreshälfte“ zwei Nervana Neural Network Prozessoren auf den Markt bringen, je einen für das Training (NNP-T) und einen für die Inferenz (NNP-I). Mit Intel nGraph steht bereits ein quelloffener Modell-Compiler für verteilte Neuronale Netzwerke (DNNs) bereit.

Das Bild zeigt eines der Nahuku-Boards von Intel, die jeweils 8 bis 32 neuromorphe „Intel Loihi“-Chips enthalten, ist hier mit dem FPGA-Entwicklungskit „Intel Arria 10“ verbunden. Poihoiki Beach besteht aus mehreren Nahuku-Boards und enthält 64 Loihi-Chips. (Tim Herman/Intel Corporation)

„Mit DL Boost gibt es bereits Optimierungstechnologie in den Xeon-CPUs der zweiten Generation ebenso mit DAOS, Distributed Architecture Object Storage und Optane Data Center Memory“, so Gillich. Zwar seien die aktuellen Xeon-CPUs eine gute Plattform für KI-Prozesse, aber 2020 will Intel, wie verlautete, eigene Xe-GPUs auf den Markt bringen. Sicher ist sicher.

Arms Aufholjagd

„Arm befindet sich aufgrund der wachsenden Konkurrenz in einer Aufholjagd“, so der IDC-Analyst Morales. Das Arm-Projekt „Trillium“ bringt eine Reihe von Chips hervor, die Deep-Learning- und ML-Fähigkeiten auf Edge-Geräte bringen sollen, um etwa Objekterkennung erleichtern.

Weitere Chips mit Namen wie „Cortex“ und „Mali“ sollen die Leistung von Mobilgeräten verbessern, das „Pelion“-Projekt baut Arms Präsenz im IoT-Markt aus. „Die Partnerschaft mit Nvidia soll Arm helfen, auch im Rechenzentrum Fuß zu fassen.“

Achillesferse Energie-Effizienz

Woran Arm bei Trillium sofort gearbeitet hat, ist die Erhöhung der Speicher- und Energie-Effizienz solcher Neural-Prozessoren (NPUs). Denn Energie entwickelt sich nicht nur bei Next-Generation-Rechnern mit Exaflops-Leistung zum bedeutendsten Flaschenhals.

Würden Milliarden von Edge-Geräten Energie beanspruchen, bräche das Stromnetz im Handumdrehen zusammen. Deshalb hat Intel auf der ISC eine umfassende Energieverwaltung namens Global Extensible Open Power Management (GEOPM) angekündigt. Sie soll den Energieverbrauch eines Systems optimieren, indem es sich dynamisch den Anforderungen der wechselnden Workloads anpasst.

„Sie können schon heute einen Exaflops-Rechner bauen – solange die Halle groß genug ist und Sie genügend Energie für Betrieb und Kühlung bereitstellen“, gibt Michael Resch, Leiter des Höchstleistungsrechenzentrums Stuttgart, zu bedenken. Die Raumfrage sei derzeit das größere Problem. „Energie ist aber hinsichtlich der Kosten derjenige Faktor, der jedem am meisten Sorgen bereiten muss. Denn wenn man die Energie extern bezieht, stellen sich die Fragen a) der Bereitstellung und b) der kontinuierlichen Versorgung, die die Kosten für den verbrauchten Strom bestimmt.“

Die Entwicklung beim Energiebedarf

Resch nennt Zahlen, die einem Klimaschützer das Blut in den Adern gefrieren lassen dürften: „Bei der (jährlichen) Energiebereitstellung für ein Exaflops-System bewegen wir uns im zweistelligen Millionenbereich (in Euro). Hinsichtlich des kontinuierlichen Verbrauchs habe ich für Ende 2021 Zahlen gesehen, die sich zwischen 40 und 200 Megawatt pro Exaflops-System bewegen. Will bzw. muss man das machen?“ Exaflops bedeutet: Trillion FLOP/s, Gleitkommaoperationen pro Sekunde.

Als Wissenschaftler sollte man auf diese Antwort parat haben, findet Resch: „Er oder sie sollte sagen können: Wir haben dieses und jenes Problem, können es lösen, und ja, es ist diesen Energiebedarf wert.“ Resch nennt Forschungsbereiche, die mit Exaflops-Systemen erkundet werden: „Wir sehen interessante Ansätze beim Versuch, ganze Systeme in allen Details zu berechnen. Das wird bereits bei Rolls-Royce und bei General Electric vorangetrieben, ein Thema, das in USA und Großbritannien in den Vordergrund gerückt ist.“ Man werde in England demnächst ein Prä-Exaflop-System sehen.

Modular Supercomputing Architecture (MSA)

Wie ein moderne modulare Rechner-Architektur (MSA) aussehen kann, demonstriert nach Abschluss der ersten von drei Ausbaustufen des „Juwels“-Systems das Forschungszentrum Jülich, eines von drei oder vier Höchstleistungsrechenzentren in Deutschland. Das erste Modul von Juwels ist eine Cluster-Komponente (CM) mit über 2500 Rechnerknoten, von denen jeder mit je zwei Xeon-24-Core-Skylake-CPUs und 96 GB an Hauptspeicher ausgestattet ist.

Der „Deep-Est“-Prototyp am Jülicher Supercomputing Center (JSC). (Forschungszentrum Jülich / Ralf-Uwe Limbach)

Das ergibt einen Gesamtspeicher von 240 TB. Das zweite Modul soll der „Extreme Scale Booster“ (ESD) sein, das dritte das Data Analytics Module (DAM). Mehr über Extreme Scale Technologie („DeepEST“) und ihre in Europa verteilten Nutzer findet sich auf der FZJ-Webseite. Der Integrationspartner für das Gesamtprojekt ist Megware aus Chemnitz.

Datenwachstum und Entstehung laut IDC-Prognosen bis 2023
(Bild: IDC)

Neuer Storage-Standard

Das Thema Energie-Effizienz setzt auch im Storage-Bereich fort. Angesichts der explodierenden Datenmengen sind nach Ansicht von Hyperion Research Innovationen dringender in der Speichertechnik dringender denn je. Hersteller wie Supermicro bemühen sich, ihre Speichersysteme entsprechend zu gestalten. Supermicro stellte auf der ISC die branchenweit erste Familie von Server- und Storage-Systemen vor, die NVMe-Laufwerke des neuen Branchenstandards EDSFF (Enterprise and Datacenter Storage Form Factor) unterstützt (siehe auch: Enterprise and Datacenter Storage Form Factor, Supermicro-Server- und-Storage-Systeme mit EDSFF-UnterstützungEnterprise and Datacenter Storage Form Factor, Supermicro-Server- und-Storage-Systeme mit EDSFF-Unterstützung.) Das ermöglicht neue JBOF-Systeme (JBOF: Just a Bunch of Flash Drives).

Der „Supermicro Big Twin“ 2U Four-Node Server bietet zehn E1.S-Laufwerke plus zwei SATA M.2 pro Node. (Supermicro)

EDSFF soll als erste All-Flash NVMe-Spezifizierung eine höhere Speicherdichte, eine verbesserte Verwaltung und optimale thermische Effizienz bieten. EDSFF baut auf NVMe-Kapazitäten auf und liefert laut Hersteller den sechsfach höheren Durchsatz sowie eine Reduzierung der Latenz um den Faktor sieben im Vergleich mit herkömmlichem Flash-Speicher.

Darüber hinaus biete EDSFF ein langes (E1.L) und ein kurzes (E1.S) Format. Zahlreiche Hersteller unterstützen laut Supermicro bereits EDSFF. Und Kunden hätten damit mehr Speicheroptionen mit einer Dichte von bis zu einem oder einem halben Petabyte bei 1U.

(ID:46064225)