Intel Xeon 6900P und Gaudi 3 Xeon 6 mit P-Cores und Gaudi 3 jetzt verfügbar

Von Klaus Länger 4 min Lesedauer

Anbieter zum Thema

Nach dem „Xeon 6“ mit „E-Cores“ bringt Intel nun die „P-Core“-Variante des Prozessors. „Granite Rapids“, so der Codename der CPU, kann mit bis zu 128 Kernen aufwarten, ein gewaltiger Sprung für Intel. Zudem wird der KI-Beschleuniger „Gaudi 3“ allgemein verfügbar.

Mit bis zu 128 „Redwood-Cove-P“-Cores sollen die „Xeon-9600P“-Prozessoren endlich wieder die Leistungskrone unter den x86-Server-CPUs erringen. Das schafft der KI-Beschleuniger Gaudi 3 zwar nicht, denn er soll lediglich „Nvidia H100“-Tensor-Core-GPU schlagen können. Dafür überzeugt er laut Intel durch ein gutes Preis-Leistungs-Verhältnis.(Bild:  Intel Corporation)
Mit bis zu 128 „Redwood-Cove-P“-Cores sollen die „Xeon-9600P“-Prozessoren endlich wieder die Leistungskrone unter den x86-Server-CPUs erringen. Das schafft der KI-Beschleuniger Gaudi 3 zwar nicht, denn er soll lediglich „Nvidia H100“-Tensor-Core-GPU schlagen können. Dafür überzeugt er laut Intel durch ein gutes Preis-Leistungs-Verhältnis.
(Bild: Intel Corporation)

Bisher hatte Intel bei Server-Prozessoren immer das Problem, dass AMD bei den „Epyc“-Prozessoren deutlich mehr Prozessorkerne bieten konnte als die Xeon-CPUs. Die AMD Epyc-9004-Prozessoren der „Genoa“-Familie verfügen über bis zu 96 „Zen-4“-Cores und 192 Threads, die „Bergamo“-Modelle sogar über bis zu 128 „Zen4c“-Cores und 256 Threads, allerdings bei kleinerem Cache.

Diesen Rückstand hat Intel nun mit den Xeon-Prozessoren der „Serie 9600P“ aufgeholt, die ab jetzt verfügbar sind. Denn hier sitzen nun ebenfalls bis zu 128 Cores auf den insgesamt drei Compute-Tiles, die gemeinsam mit zwei IO-Tiles den Prozessor bilden. Somit bietet die CPU bis zu 256 Threads.

Granite Rapids, so der Codename der neuen CPU, ist die Performance-Variante von Xeon 6, bei der P-Cores der „Redwood-Cove“-Generation für die Rechenleistung zuständig sind. Der auf der Computex vorgestellte „Xeon 6700E“ bietet zwar bis zu 144 Kerne, allerdings nur langsamere E-Cores ohne Hyperthreading.

Bildergalerie
Bildergalerie mit 11 Bildern

Diese Prozessoren der „Sierra-Forest“-Baureihe sind denn auch eher für Anwendungen bestimmt, bei denen es auf viele aber sparsame Kerne ankommt, wie etwa das Webhosting. Granite Rapids soll dagegen mit einer deutlich höheren Leistung für rechenintensive Workloads aufwarten, genehmigt sich allerdings dafür auch bis zu 500 Watt TDP. Die Compute-Tiles von Granite Rapids fertigt Intel selbst im Intel-3-Prozess, für die IO-Tiles reicht der kostengünstigere Intel-7-Prozess aus.

Im ersten Quartal 2025 folgen die Xeon-Serien „6700P“, „650P und „6300P“ mit maximal 86, 48 und 16 Cores und entsprechend weniger Speicherkanälen. Sie sind dann für den kleineren Sockel „FCLGA4710“ bestimmt. Für den großen Sockel „LGA7529“ der Serie „9600P“ kommt ebenfalls Anfang 2025 der Sierra-Forest-Xeon 6900E mit bis zu 288 E-Cores. Bereits im Oktober will AMD die „Zen-5“-Epyc-Modelle der „Turin“-Generation vorstellen, an denen sich Granite Rapids dann messen muss.

Mehr Kerne und höhere Leistung pro Kern

Die Xeon-9600P-Familie besteht aus sechs Modellen mit 72, 96, 120 und 128 Prozessorkernen. Der L3-Cache ist damit zwischen zwischen 432 und 504 MB groß. Zudem stecken in jedem der Redwood-Cove-Cores noch 2 MB L2-Cache.

Alle Prozessoren verfügen über 12-DDR5-Speicherkanäle. Bei zwei Speichermodulen pro Kanal unterstützen sie maximal DDR5-5200, bei einem Modul DDR5-6400. Kommt es primär auf den Speicherdurchsatz an, dann sind sogar bis zu 8.800 MT/s Datendurchsatz möglich; denn als erster Prozessor unterstützt Granite Rapids die neuen Multiplexed-Rank-DIMMs (MRDIMM) ebenfalls mit einem Modul pro Kanal. MRDIMMs kombinieren im Prinzip mit Hilfe eines zusätzlichen zwei DDR5-DIMMs auf einem Modul und verdoppeln so die Bandbreite.

Zudem unterstützt der Prozessor Compute Express Link 2.0 (CXL 2.0) für alle drei Typen und für CLX Memory einen vom Betriebssystem unabhängigen Flat-Memory-Modus. Er soll durch die Verwendung von bis zu 768 GB DDR4 als CXL-Far-Memory die Kosten senken. Die Leistung soll dabei nur um etwa drei Prozent sinken, verspricht Intel. Insgesamt bieten die Granite-Rapids-Prozessoren bis zu 96 PCI-Express-Gen5-Links, die sich auch für CXL 2.0 nutzen lassen (siehe: „Speicherzentrierte Interconnects für KI-Beschleuniger; UALink, CXL & Co. - eine Revolte gegen NVLink von Nvidia“.

Bildergalerie
Bildergalerie mit 11 Bildern

Zwei verschiedene Clustering-Modi für den Zugriff auf den Speicher sollen unterschiedliche Anwendungen jeweils mit optimaler Performance laufen lassen. Der per Default aktivierte SNC3-Modus mit einem NUMA-Node pro Compute-Die ist laut Intel für Anwendungen, die mit NUMA-Systemen umgehen können, optimal, da hier die Latenzen niedriger sind. Für andere Anwendungen gibt es den HEX-Modus, bei dem alle drei Compute-Dies einen NUMA-Knoten bilden.

Für die Verbindung der maximal zwei Prozessoren pro Mainboard oder Node dienen zwei UPI-2.0-Links. Bei Systemen mit vier oder acht Prozessoren müssen also weiterhin Sapphire-Rapids-Prozessoren mit maximal 60 Cores pro CPU verwendet werden.

Im Vergleich zu Emerald Rapids, also der 5. Xeon-Scalable-Generation, stellt Intel eine 1,2-fache Leistung pro Core und eine um den Faktor 1,6 höhere Leistung pro Watt in Aussicht. Bei vergleichbarer Leistung soll die durchschnittliche TCO um 30 Prozent sinken.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die unterschiedlichen „Xeon-9600P“-Modelle im Überblick(Bild:  Intel Corporation)
Die unterschiedlichen „Xeon-9600P“-Modelle im Überblick
(Bild: Intel Corporation)

Für spezielle Aufgaben sind auch bei Granite Rapids die aus den Vorgängern bekannten Beschleuniger an Bord: der Data Streaming Accelerator (DSA), ein In-Memory Analytics Accelerator (IAA), der Dynamic Load Balancer (DLB) sowie QuickAssist Technology (QAT) für Datenkompression und Verschlüsselung.

Laut Intel soll Granite Rapids zudem der beste Prozessor für KI-Anwendungen sein. Er bietet ebenso wie seine Vorgänger neben AVX2 und AVX-512 zusätzlich die Advanced Matrix Extensions (AMX). Allerdings soll AMX beim Xeon 6 mit 96 P-Cores bei KI-Anwendungen wie einem LLM-Chatbot, KI-Zusammenfassungen, Sprachverarbeitung oder Bildklassifizierung die bis zu doppelte Leistung von „Emerald Rapids“ mit 64 Cores liefern. Einen AMD Epyc mit 96 Cores soll Granite Rapids noch deutlicher schlagen, da der AMD-Prozessor nicht über eine eigene Matrix-Engine verfügt.

Gaudi 3 für leistungshungrige KI-Anwendungen

Der KI-Beschleuniger Gaudi 3 ist nun endlich allgemein verfügbar. Der vom Intel-Tochterunternehmen Habana Labs entwickelte Chip verfügt über 64 Tensor-Prozessor-Cores, acht Matrix Multiplication Engines, 96 MB SRAM und 8 HBMe2-Stacks mit zusammen 128 GB Speichergröße und 3,7 TB/s Bandbreite. Zudem enthält er noch 24 200-GbE-Ports für die skalierbare Vernetzung.

Damit soll der Chip schnell genug sein, um bei GenAI-Anwendungen den „Nvidia-Tensor-Core“-GPUs H100 und H200 Konkurrenz zu machen. Dabei soll Gaudi 3 nicht nur in der Anschaffung weniger kosten als die Nvidia-Chips, sondern durch die Verwendung von Ethernet für die Chip-zu-Chip-Verbindung auch die Kosten für die Netzwerk-Infrastruktur reduzieren.

Bildergalerie
Bildergalerie mit 11 Bildern

Gaudi 3 kommt in mehreren Varianten auf den Markt: Als OAM-Karte HL-325L, als Universal Baseboard HLB-325 mit acht Prozessormodulen und als Dual-Slot-PCI-Express-Karte mit 600 Watt TDP.

Erste OEM-Systeme mit Gaudi 3 kommen im Oktober. Von Dell der Server „Poweredge XE6980“ und von Supermicro der schon mit Xeon 6 als Host-CPUs bestückte „X14“. Gemeinsam mit Dell arbeitet Intel zudem an Systemen für Retrieval-Augmented Generation (RAG).

Für die Evaluierung der KI-Lösungen rüstet der Prozessorhersteller die eigene „Tiber“-Development-Cloud mit Xeon-6- und Gaudi-3-Systemen aus. Letztere allerdings nur für ausgewählte Kunden. Parallel dazu wird das Software-Ökosystem für die neuen Prozessoren optimiert.

(ID:50185311)