Intel Xeon Scalable Gen2 und Xeon D-1600 Cascade Lake und Optane Persistent Memory: Intels Rezept für schnellere Server
Mit „Cascade Lake“ bringt Intel die zweite Generation „Xeon-Scalable“-Prozessoren auf den Markt. Der neue Prozessor ist für KI optimiert und wartet mit bis zu 56 Cores auf. Zudem stellt Intel den „Xeon D-1600“ vor und gibt eine Vorschau auf die FPGA-Zukunft.
Anbieter zum Thema

Intel beginnt auch im Datacenter den Druck durch AMD zu spüren. Mit bis zu 64 Cores soll die nächste Generation der „Epyc“-Prozessoren aufwarten, die AMD in diesem Jahr einführen will. Intel kontert schon im Vorfeld mit einem neuen Xeon-Spitzenmodell, das zwei Dies mit jeweils bis zu 56 Cores auf einem Package kombiniert.
Allerdings sind die „Xeon-Platinum“-Modelle der 9200er-Serie mit 32, 48 oder 56 Cores primär für Supercomputer gedacht. Sie warten mit zwölf DDR4-2933-Speicherkanälen und 80 PCIe-3.0-Lanes auf. PCIe 4.0, wie beim kommenden Epyc, wird nicht unterstützt.
Die BGA-Prozessoren der Platinum-9200-Serie werden nicht gesockelt, sondern paarweise auf Nodes verlötet. Dort kommunizieren sie über vier UPI-Verbindungen (Ultra Path Interconnect). Allerdings genehmigt sich der Xeon Platinum 9282 mit 56 Cores und 112 Threads auch bis zu 400 Watt. Die Fertigung der zweiten Generation der Xeon-Scalable-Prozessoren erfolgt weiterhin in einem optimierten 14-Nanometer-Verfahren.
Schnellere Speicher
Bei den Prozessoren für Mainboards mit LGA3647-Sockel und Chipsätzen der C620-Serie ist weiterhin mit 28 Cores das Ende der Fahnenstange erreicht. Allerdings unterstützen die sechs Speicherkanäle nun schnelleren Speicher sowie die allerdings noch raren 16-GBit-SDRAMs, die Speichermodule mit bis zu 256 Gigabyte (GB) ermöglichen. Somit sind bis zu 3 Terabyte (TB) Speicher pro CPU möglich.
Eine wichtige Neuerung beim Speicher ist die Unterstützung von „Intel Optane DC Persitent Memory Modules“. Diese Module mit 128 bis 512 GB nichtflüchtigem Optane-Speicher passen in die DDR4-Fassungen und können so den zur Verfügung stehenden Hauptspeicher vergrößern. Allerdings liegt die Bandbreite mit bis zu 8,3 GB pro Sekunde (GB/s) bei einem Drittel von DDR4-Speicher.
Die Latenz soll durch die direkte Verbindung zum Prozessor bei 180 bis 340 Nanosekunden (ns) liegen gegenüber etwa 70 ns bei DRAM. Ein Dual-Socket-System kann mit bis zu sechs Optane-Modulen bestückt werden.
Wandelbarer Speicher
Optane DC Persitent Memory kann in verschiedenen Modi genutzt werden. Im betriebssystemunabhängigen Memory Mode dient er schlicht zur Vergrößerung des Arbeitsspeichers. Der DDR4-Speicher dient in diesem Modus als Write-Back-Cache. In diesem Modus sind die in den Optane-Modulen gespeicherten Daten flüchtig.
Für den App-Direct-Modus, der einen zusätzlichen Tier zwischen DRAM und Block-Storage einzieht, ist die Unterstützung durch Betriebssystem und Applikationen notwendig. Der Speicher ist hier persistent. Genutzt werden kann dieser Modus mit Linux ab Kernel 4.7 oder Windows Server ab 2016.
Für Applikationen stellt Intel ein Persistent Memory Development Kit bereit. SAP hat „HANA“ bereits für „App Direct“ ausgelegt; weitere Projekte sind in Entwicklung. Mit Storage über App Direct kann er Optane-Speicher zudem als extrem schneller NVMe-Speicher dienenen.
DL Boost als KI-Beschleuniger
Mit „Deep Learning Boost“ (DL Boost) hat Intel in den Cascade-Lake-Prozessoren eine Technologie integriert, die KI-Inferencing-Workloads beschleunigt. Sie stellt ein „Vector Neural Network Instruction Set“ (VNNI) auf Basis von „AVX-512“ bereit, das Intel in Deep-Learning-Frameworks wie „Caffe“, „MxNet“, „PyTorch“und „Tensorflow“ integriert, um so die Zeit für das Training eines neuralen Netzwerks zu minimieren. Mit DL Boost und einer angepassten Caffe-Version beschleunigt der Cascade-Lake-Prozessor Xeon Platinum 8200 das vortrainierte „Convolutional Neural Network“ (CNN) „ResNet-50“ um den Faktor 2,4 gegenüber dem Skylake-SP-Prozessor Xeon Platinum 8100 mit AVX-512.
Die Anwendungsbereiche von DL Boost liegen vor allem im Deep Learning für die automatisierte Bilderkennung und Analyse. Für eine schnellerer Implementierung von Computer-Vision- und Deep-Learning-Lösungen stellt Intel eine eigene Distribution des „OpenVINO“-Toolkits bereit. „Siemens Healthineers“ nutzen eine Edge-Lösung mit Cascade-Lake-Prozessoren und OpenVINO für die KI-gestützte Segmentierung und Analyse von durch Magnetresonanztomographie gewonnenen Aufnahmen des menschlichen Herzens.
Schließen von Sicherheitslücken
Mit Cascade Lake hat Intel zudem einige Schutzmaßnahmen gegen Side-Channel-Sicherheitslücken wie L1TF und einige Spectre-Varianten in Hardware gegossen. Das bringt gegenüber Microcode-Patches Verbesserungen bei der Performance.
Einige Versionen des neuen Prozessors warten mit Speed-Select-Technology auf. Bei Ihnen ist der schnelle Wechsel zwischen drei Profilen mit jeweils einer unterschiedlichen Anzahl aktiver Kerne und Frequenzen möglich. So lassen sie sich schnell an unterschiedliche Workloads anpassen.
Intel bietet wie bei der ersten Generation des Xeon Scalable Dutzende von SKUs an, die Preise reichen von 213 Dollar für den Hexacore-Prozessor Xeon Bronze 3204 bis hinauf zu 13.000 Dollar für den Xeon Platinum 8280M mit 28 Kernen. Sie legen damit auf dem Niveau ihrer Vorgänger. Preise für die 9200er-Modelle nennt der Hersteller nicht.
Für Edge-Anwendungen: Xeon D-1600
Von anderem Kaliber wie die Cascade-Lake-Modelle ist der ebenfalls neu vorgestellte Xeon D-1600. Er ist ein hochintegrierter SoC mit zwei bis zu acht Cores für Intelligent-Edge-Anwendungen, Netzwerkvirtualisierung oder Midrange-Storage-Lösungen.
Der Fokus der Prozessoren liegt dabei laut Intel auf einer hohen Performance pro Core durch eine im Vergleich zum Xeon D-1500 erhöhte Taktfrequenz. Die SoCs unterstützen „Intel Quickassist“ für die Beschleunigung von Kryptografie und Datenkompression. Zudem bieten sie bis zu vier 10-Gigabit-Ethernet-Ports.
FPGA-Zukunftsmusik
Bei der Präsentation der neuen Xeon-Prozessoren gab Intel auch einen Ausblick in die FPGA-Entwicklung. Der Nachfolger für die noch mit Altera erworbenen „Stratix“-FPGAs wird der 10-nm-Chip „Agilex“. Beim ihm nutzt Intel zusätzlich Embedded Multi-Die Interconnect Bridges (EMIB) um das FPGA-Die mit weiteren Chiplets zu verbinden, um so schnell verschiedenen Versionen von Agilex für unterschiedliche Aufgaben zu schaffen.
Chiplets werden werden eine Cache- und Speicher-kohärente Verbindung zu Xeon-Sacalable-Prozessoren hergestellt, eine PCI-Express-Gen4 oder sogar Gen5-Anbindung realisiert oder 112G-Transceiver sowie HBM angebunden. Insgesamt verspricht eine Rechenleistung von 40 Teraflops bei halber Genauigkeit und damit 40 Prozent mehr Leistung als bei Stratix bei gleichzeitig 40 Prozent geringerer Leistungsaufnahme. Allerdings wird Agilex wohl kaum vor 2021 breiter verfügbar sein.
(ID:45848179)