Vom Quanten-Chip bis zu One API Die künftige CPU- und GPU-Generation von Intel

Redakteur: Ulrike Ostler

Auf der Supercomputing-Konferenz 2020 „SC20“ hat Intel in der vergangenen Woche eine neue „Xeon“-Prozessorgeneration angekündigt. Sie trägt den Codenamen „Ice Lake“ und kommt als erste „Xeon-Scalable“-CPU mit dem PCIe-4.0-Bus. Zudem soll es 2021 vier neue GPUs geben, darunter „Ponte Vecchio“. Mit „OneAPI“ will Intel die dafür nötige Software erstellen helfen.

Firmen zum Thema

Auch Intel bastelt an einen Quanten-Chip. „Tangle Lake“ liefert 49 Qubits Leistung.
Auch Intel bastelt an einen Quanten-Chip. „Tangle Lake“ liefert 49 Qubits Leistung.
(Bild: Intel)

Trish Damkroger, Vice President und Leiterin der Abteilung für Supercomputing (HPC), hat auf der SC20, dass Ice Lake für eine Reihe von HPC-Workloads optimiert sei. Erhöhte Speicherbandbreite mit acht statt sechs DDR4-Speicherkanälen, eine völlig neue Kern-Architektur namens „Sunny Cove“, eine erhöhte Anzahl an Rechenkernen und schließlich die Unterstützung für den PCIe Gen4-Datenbus sollen Intel-Kunden helfen, komplexe wissenschaftliche Probleme in verschiedenen Disziplinen zu lösen, darunter Genomik, Materialwissenschaft und Wettervorhersage.

Damkroger wiest darauf hin, dass KI und HPC untrennbar verbunden seien. KI sei bereits vielfach in HPC-Workloads integriert, KI beschleunige und ersetze HPC-Workloads, etwa in Simulationen.

Bildergalerie
Bildergalerie mit 10 Bildern

Im Vorfeld waren die Beobachter der SC20 gespannt, wie die neue Xeon-CPU gegenüber Rivalen wie AMD mit Epyc, Nvidia mit ARM-Prozessoren (etwa im „Selene“-System) und IBM mit „Power 10“ abschneiden würde. Wie Damkroger sagt, hätten frühe Tests gezeigt, dass Zwei-Sockel-Systeme, die Ice-Lake-CPUs mit 32 Rechenkernen verwendeten, mit nur halb so vielen Rechenkernen bei spezifischen Workloads eine höhere Leistung aufwiesen als vergleichbare x86-Systeme mit 64-Kern-Prozessoren.

In ihrer Keynote ist Damkroker deutlicher: Der in den Disziplinen „Monte Carlo-Algorithmus“, „LAMMPS„ und „NAMD“ in die Schranken gewiesene Rivale sei der AMD Epyc-Prozessor (Codename „Rome“).

Leistungsvergleich

Allein Sunny Cove liefert eine ungefähr 18 Prozent höhere Leistung gegenüber dem merkmalmäßig identischen Vorgänger, was Befehle pro Uhreinheit (Instructions per clock, IPC) und Gleitkomma-Benchmarks (+38 Prozent) anbelangt. Ganz nebenbei wartet die neue Kern-Mikroarchitektur mit höherer Sicherheit auf: Total Memory Encryption, neuen Intel Software „Guard Extensions“ (SGX) und Support für Platform Firmware Resilience.

Software Guard Extensions sind eine Schutzschicht, die Applikationen eine gehärtete Kapsel im Speicher hinsichtlich vertraulicher Daten und Programmcode verschaffen soll. Diese vertrauenswürdige Ausführungsumgebung soll Daten und Code eine zusätzliche Ebene von Integrität besonders dann bereitstellen, wenn vertrauliche oder proprietäre Daten in föderierten Anwendungen für Analyse, Modellierung und Simulation geteilt werden.

AVX-512

Intel AVX-512-Instruktionen sollen doppelt so viele Gleitkommaoperationen (Flops) pro Zyklus wie AVX2-Befehle liefern. In HPC-Applikationen wie molekulare Dyanamik, Flüssigkeitsdynamik und Crash-Simulationen soll dies die Leistung deutlich steigern. Die IPC-Steigerung um 18 Prozent (s.o.) liefert noch mehr Speed.

Intel Speed Select

Mit Intel „Speed Select Technology“ (SST) will der Chiphersteller quasi drei Prozessoren in einem anbieten. Benutzer können nämlich zwischen drei Konfigurationen für Anzahl Rechenkerne/Frequenz/Stromaufnahme (in Watt) wählen, um die jeweilige Workload optimal zu unterstützen. SST erlaubt der Hardware die Kontrolle über die CPU-Frequenz, um eine kontinuierliche, präzise Abstimmung der Energieaufnahme auf die Anforderungen der Workload zu erlauben. Das ist für die Wiederholbarkeit von Tests und Ähnlichem unerlässlich.

Deep Learning Boost

Die KI-Beschleunigung „Intel Deep Learning Boost“ in Ice Lake soll konvergente HPC & KI-Workload viel effizienter machen. Sie stellt spezifische Instruktionen für Programme bereit, die von reduzierter (zum Beispiel Single Precision) oder gemischter Präzision (Single + Double Precision) in der Zahlenverarbeitung profitieren. Der Unterschied soll eine neunfache Steigerung der Inferenzleistung ausmachen.

Intel Optane Persistent Memory 200 Series

Die Unterstützung für „Optane 200“ soll Anwendungen größere Speicherressourcen und -persistenz bereitstellen. Das sei besonders wichtig für Exascale-Speicherpools bis hin zu Finanzmodellen. Die Optane-200-Serie liefere durchschnittlich 25 Prozent mehr Speicherbandbreite als der Vorgänger sowie eine Gesamtspeicher von 6 Terabyte pro Sockel, wenn DRAM und persistenter Speicher kombiniert würden.

Bildergalerie
Bildergalerie mit 10 Bildern

PCIe Gen 4

Die Unterstützung für den PCIe Gen 4 Bus soll die I/O-Bandbreite gegenüber PCIe 3.0 verdoppeln. PCIe Gen 4 beschleunige so den Datendurchsatz für FPGA- und GPU-Beschleuniger, die die Leistung von Machine- und Deep-Learning-Anwendungen steigern. Von der geringeren Latenz und höheren Bandbreite von PCIe 4 sollen auch Ethernet-Netzwerke und NVMe-Speicherbausteine der nächsten Generation profitieren.

Erste Nutzer

Die ersten Nutzer, die schon Ice Lake in ihren Rechenzentren einsetzen, sind der koreanische Wetterdienst KMA (mit 50 PetaFlops Rechenleistung), Oracle in der Cloud und schließlich die Max-Planck-Gesellschaft in ihrem „Raven“-System, das in Garching steht und 9 PetaFlops Leistung liefert. Die US-amerikanischen Energie-Forschungslaboratorien Argonne des Energieministeriums beabsichtigen, im Aurora-Supercomputer bereits die nächste 10-Nanometer-Xeon-Generation einzusetzen, die den Codenamen „Sapphire Rapids“ trägt (siehe: Abbildung ). So soll es 2022 gelingen, endlich die Exascale-Marke zu knacken.

Neue GPUs

Intel kündigt zudem vier neue GPUs an, die mit einer neuen Mikro-Architektur aufwarten. Alle tragen das Kürzel „Xe“ im Namen.

Die GPUs mit der Bezeichnung „Xe HP“ sollen im „Aurora“-Supercomputer verwendet werden, kündigt Damkroger an; denn sie seien für Datacenter- und KI-Workloads ausgelegt. Für HPC-Zwecke seien Xe HPC (Codename „Ponte Vecchio“) optimal, für Gaming Xe HPG und für Einsteiger- beziehungsweise integrierte Systeme „Xe LP“. „Eine Architektur, vier Mikroarchitekturen“, sagt Damkroger, „mit Leistungen von TeraFlops bis Peta-Ops.“

Die Entwicklungsumgebung One API

Jeff McVeigh, der Leiter der Abteilung für XPU-Produkte und Lösungen für Rechenzentren,erläutert, dass die neuen Architekturen in Xeon Ice Lake und den vier GPUs eine neue Programmierumgebung erfordern würden. Diese IDE mit der programmatischen Bezeichnung „One API“ soll bereits im Dezember 2020 verfügbar werden und heterogenes Programmieren für CPUs, GPUs und FPGAs erlauben.

Die One-API-Programme sitzen zwischen Prozessor und Middleware beziehungsweise Framework, um die Ausführung zu optimieren. McVeigh hat auf der SC20 One API, dessen Spezifikation im September veröffentlicht worden ist, als Industrie-Initiative vorgestellt, die allen offenstehe, deshalb sollen die nötigen Komponenten der Entwicklungsumgebung in der Intel DevCloud bereitstehen. Selbstredend ist der Download kostenlos.

Ausblick

Damkroger hat schließlich auf der letzten Folie ihren SC20-Vortrags einen Ausblick auf das gegeben, was Intel noch in der Pipeline hat: einen neuromorphen Chip mit dem Codenamen „Loihi“, der in den Sandia-Laboratorien Verwendung finden soll, und einen neuromorphen 64-bit-Chip mit dem Codenamen „Pohoiki“. Auch ein Quantenrechner-Chip mit dem Codenamen „Tangle Lake“ ist unter der Leitung von James S. Clarke in Arbeit. Der Chip liefert derzeit 49 Qubits Leistung.

Artikelfiles und Artikellinks

(ID:47004494)