Intel und Nvidia zur ISC Auf in die ExaFlops-Welt
Anbieter zum Thema
Zur Internationalen Supercomputing Conference (ISC) in Hamburg sind sowohl Intel als auch Nvidia und deren Partner mit Neuigkeiten gekommen. ExaFlops werden zum neuen Normal in der Superrechner-Welt.

„AI-accelerated HPC“ hieß das Motto von Intels virtueller Medienpräsentation der ISC mit den wichtigsten Neuerungen. Eine davon war eine Absage: Intel verschiebt die lange angekündigte Zusammenführung von CPUs und GPUs in den Next-Generation-XPUs der „Falconshores“-Produktreihe in die Zeit nach 2024. Falconshores, die nächste Generation kommen nun ausschließlich mit GPU-Funktionen.
Intel habe, was die Integration der beiden Techniken angeht, zu optimistisch kalkuliert. Es zeige sich, dass in dynamischen Umgebungen getrennte CPUs und GPUs besser performen. Integration, so Jeffrey McVeigh bei Intel Vice President und GM der Super Compute Group, lohne sich am ehesten da, wo Workloads ausgereift wären.
XPU nur für reife Workloads optimal
Das gilt also nicht im Bereich Artificia Intelligence (AI). Dort werden die Designs immer heterogener. Neben CPU und GPU gewinnen spezielle AI-Prozessoren an Boden. Relativer Verlierer ist die klassische CPU, eine schlechte Nachricht für Intel.
Der Hersteller versorgt diesen Bereich einerseits mit der „Xeon“-Serie (Zukunfts-Modelle: „Sierra Forrest“ und „Clearwater Forrest“). Dazu kommt der „Xeon Scalable“, 4. Generation. Die 5. Scalable-Generation („Emerald Rapids“) ist für Testkunden verfügbar, in Stückzahlen im vierten Quartal. Die nächste, sechste Generation, „Granite Rapids“, ist für 2024 angekündigt.
Sie soll unter anderem Multiplexer Combined Ranks DIMM (MCR DIMMs) nutzen. Dabei werden die DIMMs in zwei Gruppen aufgeteilt, die dann gemeinsam die CPU über einen Datenpuffer mit 128 Byte Gesamtbandbreite mit Daten versorgen. AMD verwendet diese Architektur bereits.
Gaudi 2 seit Anfang Mai
Die auf KI-Prozessoren spezialisierten „Habana-Labs“ von Intel präsentierten bereits Anfang Mai die zweite Generation des für Training und Inferenz von KI-Algorithmen vorgesehenen „Gaudi“-Prozessors.
Gefertigt wird er mit einem 7-nm-Prozess – beim Gaudi 1 waren es noch 16 nm. Der Chip hat 96 GB HBM2 E-Memory mit 2,45 Terabyte pro Sekunde Bandbreite. Integriert sind weiter 24 von 100 GBe RoCE RDMA-Netzadaptern, um für die Skalierung normales Ethernet verwenden zu können. Die dritte Generation befindet sich in Vorbereitung.
Weiter gehören zum GPU-Portfolio der HPC/GPU-Prozessor „Intel DC GPU Max“ und die auf visuelle Aufgaben spezialisierte „Intel DC GPU Flex“-Serie. Dazu kommen FPGAs.
Ponte Vecchio endlich fertig
Nach Ankündigung im Januar erreicht nun endlich die Beschleunigerserie Intel DC GPU Max (Codename: „Ponte Vecchio“) den Markt. Der Chip wird für HPC- und AI-Aufgaben eingesetzt. Integriert sind „Xe“-16 Links für die GPU-GPU-Kommunikation, so dass etwa 64 GB/s übertragen werden können.
Der Ponte Vecchio ist laut Intel die „einzige x86-CPU mit HBM-Stapelspeicher." 64 GB davon in vier Stapeln á 16 GB sind vorhanden. Pro Core sind das 2 GB.
Das HBM kann als Boot-Medium oder als Cache für DDR-Memory fungieren. Zudem lassen sich DDR und HBM getrennt betreiben, was Software-Änderungen erfordert.
Ein Produkt aus Serie wird gestrichen
Der Durchsatz des Prozessors soll 52 TeraFlops bei 64-Bit-Floating-Point-Berechnungen betragen. Verglichen mit einem Intel Xeon Scalable der dritten Generation reklamiert Intel eine je nach Algorithmus bis zu vierfache Leistung bei mehr als halbiertem Energieverbrauch.
Ein Produkt der Beschleunigerreihe, 1350, wurde wegen mangelnder Nachfrage bereits wieder aussortiert. Die verbliebenen Modelle der 1500er und 1100er Serie integrieren 128 beziehungsweise 56 Xe-HPC-Kerne.
Dell und Lenovo realisieren ein Vierfach-System („Intel Datacenter GPU Max Subsystem x4 OAM“), das am Juni für OEMs verfügbar ist, ab Juli in der „Intel Developer Cloud“. Supermicro und Inspur folgen im Juli mit dem für OEMs gedachten Subsystem „x8 UBB“ mit Stückzahlen ab Juli und Developer-Cloud ab Herbst. In begrenztem Umfang sind beide schon verfügbar.
Aurora Supercomputer - endlich fertig?
Der ExaFlops-Rechner „Aurora“ auf Intel-Basis, gesponsort vom amerikanischen Energieministerium, soll 2023 endlich von den Kooperationspartnern Intel und HPE Cray fertiggestellt und den Argonne National Labs übergeben werden.
Intel musste bereits Strafzahlungen leisten, weil der ursprünglich geplante Fertigstellungstermin weit verfehlt wurde. Die Leistung wird größer als 23 Exaflops (EFlops) sein.
Mehr als 10.000 Blades
Das System wäre der zweite ExaFlops-Rechner in den USA Die erste Exaflops-Maschine des Landes, „Frontier“, arbeitet mit AMD. Die Kosten belaufen sich auf eine halbe Milliarde Dollar.
Aurora besteht aus mehr als 10.000 Blades, die je zwei Xeons aus der Serie Sapphire Rapids und sechs Ponte Vecchio-Beschleuniger enthalten. Die Verbindung der Blades untereinander sichert HPE Cray „Slingshot“-Technologie. Sie ist Ethernet-kompatibel und schafft mehr als 1,2 Milliarden Pakete pro Sekunde und Port. Die Latenz des HDM-Speichers soll unter fünf Nanosekunden liegen.
Noch keine optische On-Chip-Connectivity
Optische Verbindungstechniken sind derzeit weder bei den KI-Prozessoren noch bei Falconshore-Produkten konkret geplant. Hier befinde man sich noch immer im Forschungsstadium.
Mit Aurora will Intel beispielsweise das Moleküldesign um 27 Prozent beschleunigen. Intel betont zudem die energiesparsame Arbeitsweise des Systems. Das Unternehmen will den Rechner trotzdem nicht zu Top-500-Wettbewerben einreichen.
OneAPI läuft weiter
Im Softwarebereich arbeitet Intel weiter an der Vereinheitlichung von Stacks. Der Hersteller startete bereits 2018 die „One API“-Initiative. Sie strebt offene, für mehrere Beschleunigerarchitekturen taugliche APIs an.
Ziel ist, dass Software nicht mehr umgeschrieben werden muss, wenn man sie auf anderen Systemtypen laufen lassen möchte. Die Technologie habe Implikationen für fast jede CPU und GPU auf dem Markt, ließ Intel verlauten.
Erst kürzlich hat der Hersteller die aktuelle Version seiner Tools (2023.1) veröffentlicht. Sie berücksichtigen auch die aktuellen Neuerungen der Intel-Prozessorarchitekturen und ermöglichen die Migration beispielsweise von „Dpecho“, einem Simulationsalgorithmus, von Fortran in SYCL. Die aktuellen „Codeplay-One-API“-Plugins für Nvidia und AMD werden weiterhin unterstützt.
Grünes Supercomputing mit Isambard 3
Der große Rivale Nvidia verkündete den geplanten Aufbau des neuen, besonders umweltfreundlichen Supercomputers „Isambard 3“ an der Universität Bristol zusammen mit HPE. Das System besteht aus 55.000 „Grace“-CPUs mit 144 „Neoverse-V2“-Cores von ARM. Es leistet 2,7 PetaFlops FP64-Berechnungen und verbraucht 270 Kilowatt.
Die Grace-CPU besteht aus zwei Chips mit je 72 Cores. Ian Buck, Vice President und Geschäftsführer des Bereichs Accelerated Computing bei Nvidia, postulierte eine zu erwartende „Welle neuer ARM-Supercomputer“.
Besonders für AI-Aufgaben eignen sich „Grace Hopper“- (benannt nach einer US-Programmiererin) Systeme, die eine Grace-CPU und eine Hopper-GPU über einen schnellen Interconnect verbinden. Systeme aus Prozessoren mit dieser Kombi mit AI-Leistungen bis 20 ExaFlops stehen etwa im Nationalen Schweizer Supercomputing-Zentrum und im Los Alamos National Laboratory (USA).
Kooperation mit Servicenow
Im Bereich generative AI hat Nvidia eine enge Partnerschaft mit Servicenow, selbst Nvidia-Kunde, geschlossen. Hintergrund: Unternehmensdaten sind in generativen AI-Modellen bislang nicht enthalten. Das wolle diese Kooperation ändern, erklärte Rama Akkiraju, Vice President AI for IT bei Nvidia.
Geplant sei, generative AI-Modelle aus „Nvidia Nemo“ mit Unternehmensdaten, jetzt denen von Servicenow zu füttern, damit sie am Ende unternehmensspezifische Fragen wie: „Wie binde ich mich als neue Mitarbeiterin ans Unternehmens-VPN an?“ beantworten können.
Automatisierung von Hepldesk-Aufgaben
Den Anfang soll dabei der IT-Bereich machen. Aufgaben wie Tickets, Ticket-Workflows, Incident-Bewertung, die automatische Lösung von Tickets, Root-Cause-Analyse und so weiter werden mit KI weitgehend automatisiert.
ServiceNow stellt hierfür seine eigenen Daten zur Verfügung. Allein durch eine Automatisierung der Ticket-Zusammenführung könne das Helpdesk-Personal sieben bis acht Minuten pro Fall einsparen.
Letztlich könnten auf diese Weise branchenspezifische Systeme entstehen. Sie können von individuellen Kunden angepasst oder mit Richtlinien versehen werden, die Compliance-Verstöße verhindern.
Vast Data erhält Nvidia-Zertifizierung
Nvidia vertieft auch seine 16-jährige Partnerschaft mit Vast Data. Der Anbieter einer Datenplattform mit KI-geeigneten Dimensionen hat die Zertifizierung als „Nvidia DGX Superpod“-geeignet erhalten.
Vast Data entwickelte aus der Nvidia-Kooperation heraus eine Speicherarchitektur, die konsequent auf Disaggreggation und gemeinsame Nutzung ausgelegt ist: „DASE“ = Disaggregated, Shared Everything. Sie verwendet Standard-NAS-Protokolle.
Nvidia DGS Superpod ist eine KI-Rechenzentrumsplattform, die Leistung je nach Bedarf für unterschiedliche Nutzer und Workloads bereitstellt. Ihre Basis sind die „Nvidia Tensorcore“-GPUs „H100“ oder „A100“.
(ID:49491024)