Mit CPU-Schwung aus den Startlöchern Von Sapphire bis Ponte Vecchio: das Performance-optimierte Rechenzentrum

Von Anna Kobylinska und Filipe Martins* Lesedauer: 7 min

Anbieter zum Thema

Konferenzen wie die „AI Summits“ von Informa, die Anfang Februar in Amsterdam stattfand, oder die „SGTech Week 2023“, die in der zweiten Märzhälfe Vertreter der ITK-Branche nach Amsterdam verschlagen wird, sind wichtige Impulsgeber. Frisch aufgetankt mit neuen Ideen möchte so mancher dann mit Schwung neue Aufgaben anpacken. Stattdessen müssen sie über Leistungsengpässe ihrer Infrastruktur Dampf ablassen - manchmal zu unrecht.

Der `Sapphire Pool´ ist ein klarer, blauer Pool im Yellowstone National Park mit einem massiven Sinterrand, die gelbe und orangefarbene Thermophile enthalten. Vor einem Erdbeben im Jahr 1959 gab es einen Geysir. Heute beträgt die durchschnittliche Wassertemperatur 71 Grad bei einem pH-Wert von 7,9.
Der `Sapphire Pool´ ist ein klarer, blauer Pool im Yellowstone National Park mit einem massiven Sinterrand, die gelbe und orangefarbene Thermophile enthalten. Vor einem Erdbeben im Jahr 1959 gab es einen Geysir. Heute beträgt die durchschnittliche Wassertemperatur 71 Grad bei einem pH-Wert von 7,9.
(Bild: frei lizenziert: / Pixabay)

Wer mehr Puste braucht, muss investieren… manchmal mehr, manchmal auch weniger als gedacht! Stellschrauben der Leistungssteigerung im Rechenzentrum ließen sich traditionell an einer Hand abzählen: schnellere CPUs, flottere Hardwarebeschleuniger – ob ASICs, FPGAs, GPUs, DPUs oder sonstige xPUs – und zu guter Letzt ein „dickeres“ Netzwerkgewebe. Das eine greift zunehmend in das andere hinein.

Einfach mal am größten Schmerzpunkt aufrüsten ist bei den anspruchsvollsten Arbeitslasten längst nicht mehr ausreichend. Denn mit steigender Komplexität der Zusammenhänge nehmen auch die Stellschrauben der Leistungsoptimierung an Verzwicktheit zu.

Das Fazit des Autorenduos

Performance-Optimierung verteilter Arbeitslasten im Rechenzentrum legt an Verzwicktheit zu. Dafür vereinfacht sie sich auf der Systemebene mit der aktuellen Generation hybrider CPUs.

Intel Sapphire Rapids und das Feature-Feuerwerk der Rivalen

Nach jahrelangen Verzögerungen hat Intel Anfang des Jahres seine „Sapphire Rapids“ auf der Basis von „Xeon Scalable“-CPUs der vierten Generation vorgestellt, sowohl in der regulären als auch in der HBM-Variante, sowie seine Datacenter GPU „Max“-Serie, Codename „Ponte Vecchio“.

Seit Pat Gelsingers Rückkehr zu Intel in seiner neuen Rolle als CEO in 2021 hat sich der Launch wiederholt verschoben; der „Endspurt“ zog sich wie ein Kaugummi aufreibende zwei Jahre in die Länge. Jetzt ist es endlich so weit. Die Intel-Flotte von 52 CPUs muss sich jetzt gegen „AMD Epyc 9004 Genoa“ bewähren.

Die Saphire Rapids-Architektur bringt es auf bis zu 60 Kerne. Zum Vergleich: Die AMD-Prozessoren der Serie „9004 Genoa“ enthalten bis zu 96 Kerne auf der Basis der Zen-4-Mikroarchitektur.

Das Besondere an dem Intel-Chip sind spezielle Regionen zum Nachrüsten von Beschleunigertechnologien durch nachträglich zugekaufte Lizenzen. Lediglich in dem Spitzenmodell sind alle Beschleuniger-Engines bereits aktiviert.

Insgesamt hat Intel vier Arten von Beschleunigern für Saphire Rapids:

  • Der Data Streaming Accelerator (DSA) entlastet die CPU von Datenkopier- und Datentransformationsvorgängen,
  • Der DLB-Beschleuniger (kurz für Dynamic Load Balancer) sorgt für die Priorisierung von Paketen und den dynamischen Ausgleich des Netzwerkverkehrs auf die CPU-Kerne, wenn die Systemlast schwankt,
  • Der IAA (In-Memory Analytics Accelerator) hilft der Datenanalyse auf die Sprünge, indem es die CPU-Kerne unter anderem bei Datenbankabfragen entlastet,
  • Der QAT-Beschleuniger (Quick Assist Technology) steigert die Kryptografie- und Komprimierungs-/Dekomprimierungsleistung; er ist nicht neu, aber er befand sich bisher auf dem Chipsatz.

Was bringt das?

Diese neuen Beschleunigerregionen sollen die Leistung der CPU bei Aufgaben radikal steigern können. Intel spricht hierbei teilweise vom Faktor 10x bei KI-Arbeitslasten und Faktor 3X bei der Datenanalyse. Diese Leistungsvorteile setzen zum Teil speziell optimiertem Softwarecode. Für den QAT-Beschleuniger gibt es diesen bereits zu Genüge.

Intel hat nebenbei auch die Konnektivität der CPU aufgerüstet. Sie unterstützt PCIe 5.0, DDR5 (leider nur bis 1.5TB über 8 Kanäle pro Socket; Genoa bringt den Support auf 6TB über 12 Kanäle) und die CXL 1.1-Schnittstelle für Geräte des Typs 1 und 2.

In Sachen Energieverbrauch tun sich die beide CPU nichts. Intel Sapphire Rapids holt sich bis zu 350 Watt; das AMD-Spitzenmodell mit 96-Kernen hat eine Option für 400 Watt „Saugleistung“. Aber Saphire Rapids kann mit seinen Beschleunigerengines diskrete PCIe-Beschleuniger der Mitbewerber und damit ihren Energieverbrauch überflüssig machen, Genoa nicht.

AMD, ARM und Nvidia wollten dem feierlichen Turnaround beim Rivalen nicht tatenlos zuschauen. AMD hatte seinerseits auf der „Consumer Electronics Show“ in Las Vegas mit viel Fanfare die eigene Server-CPU Epyc 9004 Codename Genoa lanciert. Intels bevorstehende Ankündigung war schon geleakt. Lisa Su, AMDs Geschäftsführerin, wollte es sich nicht entgehen lassen, in ihrer Keynote die Luft aus Gelsingers Ballon zu nehmen.

In der letzten Minute ließ sie sich über die hybriden CPU-GPU-Beschleuniger „Instinct MI300“ sowie „Alveo A70“ in die Karten schauen. Alveo A70 von AMD ist eine Grafikprozessoreinheit (GPU) für spezialisierte Anwendungen wie Maschinelles Lernen, Computer Vision und HPC-Datenanalyse. Die GPU basiert auf der jüngsten RDNA-Architektur von AMD und ist ein Erbe der Versal-FPGAs von Xilinx „Everest“.

Stellschrauben der Leistungssteigerung? Festgerostet!

Moderne Anwendungsarchitekturen datenhungriger Arbeitslasten brauchen eine Datacenter-Infrastruktur mit einzigartigen Leistungsmerkmalen. Der Knackpunkt bei aktuellen Systemarchitekturen sei die Notwendigkeit, enorme Mengen an Daten- und Metadaten zwischen verteilten „Rechenelementen“ zu schieben, glaubt Rochan Sankar, CEO bei Enfabrica.

Dieses Problem gelte gleichermaßen für Rechenknoten, Arbeitsspeicher, den Datenfluss zwischen Rechen- und Speicherelementen und sogar zwischen verschiedenen Ausprägungen von Rechenleistung, seien es CPUs, GPUs, Hardwarebeschleuniger nach Maß oder sonst noch was auch immer anderes.

Das Wachstum groß angelegter KI-Arbeitslasten und hardwarebeschleunigter Rechen-Cluster schafft gleichzeitig Engpässe auf mehreren Ebenen von Datacenter-Interconnects. Dieses Argument vertritt neben Sankar auch Alan Weckel, Hauptanalyst der 650 Group. Eine architektonische Neuausrichtung sei schlicht unumgänglich.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Innovationen in der Architektur

An innovativen Ansätzen mangelt es zum Glück nicht. Auch hat der eine oder andere rebellische Standard wie CXL 3.0. (Compute Express Link) umwälzende Änderungen an den Leistungsmerkmalen der IT im Rechenzentrum 'angedroht'.

Dieser offene Standard, ein Amalgam aus „OpenCAPI“, „Gen-Z“ und anderen Bestrebungen, will die Art und Weise, wie Systeme und Rechenzentren aufgebaut und betrieben werden, von Grund auf umkrempeln - unter anderem mit einer Schnittstelle für den gestaffelten Zugriff von Hardwarebeschleunigern auf Pools von disaggregiertem Arbeitsspeicher.

Was passiert mit der Bestandshardware?

Einige Legacy-Systeme dürften sich mit ein paar kniffligen Upgrades als disaggregierte Infrastrukturen umwidmen. Die Hardware muss hierzu die physikalische Schicht und die Schnittstellen-Subsysteme von CXL 3.0 unterstützen.

Dann braucht man die passenden CXL-Treiber und eine aktualisierte Firmware. Schließlich müssen auch noch die betreffenden Anwendungen mit dem CXL 3.0-Standard zurechtkommen.

Begehrenswerte Leistungsmerkmale moderner Netzwerke resultieren nicht vorrangig aus der reinen Notwendigkeit, wachsende Datenmengen zu verarbeiten, sondern aus der verteilten Natur moderner netzwerkzentrischer Arbeitslasten.

Vernetzt, verwebt, beschleunigt

Es gibt einen Grund, warum Amazon Web Services seine „Nitro“- DPUs erfunden hat, warum Google sich mit Intel zusammengetan hat, um die „Mount Evans“-IPU zu entwickeln, warum AMD sowohl Xilinx als auch Pensando gekauft hat (die beide einen DPU-Bereich haben) und warum Nvidia Mellanox Technology gekauft hat. Die DPU entwickelt sich zu einem wichtigen Kontrollpunkt im Netzwerk und wird zunehmend zum Gatekeeper für Rechen- und Speicherleistungen. Dies ist der Grund, warum diese Hyperscaler und IT-Anbieter DPUs in der breiten Masse verbreiten möchten.

Mit der bloßen Latenzoptimierung ist aber noch nichts gewonnen. Die Messung der Latenz für ein einzelnes Paket ist nur dann ein guter Indikator für die resultierende Performance, wenn das Netz verlustfrei die Daten ins Ziel „abfeuert“ und nicht überlastet ist.

Echte Anwendungen senden große Datenpakete durch die Landschaft. Echte Netzwerke werden bis an den Anschlag beansprucht. In jedem Netzwerk gehen Pakete regelmäßig verloren oder werden durch temporär auftretende Hotspots und Datenstaus ausgebremst oder aufgehalten. Während die Sende- und Empfangsschnittstelle über den Nachschub verhandeln, langweilen sich die CPUs.

Die nachfolgende Intelligenz

Eine punktuelle Beschleunigung nützt nichts, wenn das verteilte System irgendwo bereits stottert. Gehen etwa Datenpakete im Netzwerk „flöten“, dreht gegebenenfalls ein ganzes Cluster vor sich hin Däumchen, bis sich Nachschub durch die Kommunikationswege durchwuzelt.

Entscheidend für die resultierende Gesamtperformance einer verteilten Anwendung ist nämlich die Fähigkeit, eine hinreichend große Anzahl von Datenpaketen fehlerfrei und flott ins Ziel zu routen, damit die CPUs auf vollen Touren laufen können, anstatt dass sich die Konnektivität zum Bremsklotz anderer Prozesse entwickelt.

Einfach mehr Bandbreite nachzurüsten, löst das Problem aber nicht. Die meisten Fabrics wie Infiniband und Protokolle wie TCP senden und empfangen Datenpakete sequenziell, eines nach dem anderen.

P99-Schwanzlatenz

Das war eine wirtschaftlich bedingte Design-Entscheidung beim Entwurf dieser Technologien. Als Resultat daraus ist es beim Einsatz dieser Technologien bis heute notwendig, die Nachrichten aus dem Netzwerk wieder sequenziell zu zusammenhängenden Datenblöcken zusammenzusetzen. Wenn auch nur ein einzelnes Paket verloren geht, bleibt alles stehen. Die Verarbeitung aller nachfolgenden Pakete in der Warteschlange verzögert sich, bis sich das verlorene Datenpaket „einfindet“. (Dieser Effekt wird im Branchenjargon „Head of Line Blocking“ genannt).

Traditionelle HPC-Umgebungen im Rechenzentrum hantieren unter anderem aus eben diesem Grunde mit Maschinenarchitekturen, die speziell für die Ausführung ganz konkreter Algorithmen entwickelt wurden. Das Design dieser Maschinen wird durch die Anforderungen konkreter Arbeitslasten bestimmt. Im HPC-Bereich ist es üblich, Maschinen auf den Code hin maßgeschneidert anzupassen und im Laufe der Zeit den Code für die Hardware noch weiter zu optimieren.

Brendan Bouffler, Leiter der Abteilung Developer Relations der HPC-Engineering-Sparte bei AWS, lenkt den Blick auf die „P99-Schwanzlatenz“, also die schlechteste Latenz von 99 Prozent aller Pakete. Darauf sollten seiner Empfehlung zur Folge die Datacenter-Betreiber mehr Aufmerksamkeit schenken.

Die Aussagekraft

Diese Metrik würde laut Bouffler über die „echten Netzwerkeffekte“ mehr aussagen als das Nettoergebnis aller verlorenen Pakete, Neuübertragungen und Überlastungen. Sie könne die Gesamtleistung von MPI-Anwendungen (Message Passing Interface) sehr akkurat voraussagen.

Letzteres hängt offenbar damit zusammen, dass unter anderem kollektive Operationen (wie „MPI_Barrier“ oder „MPI_Allreduce“) bis zur vollständigen Rank-Synchronisierung anhalten und erst danach zu einem entscheidenden nächsten Schritt übergehen. (MPI ist nicht von sich aus fehlertolerant: Die gesamte Auftragsausführung kann aufgrund eines einzelnen Ranks zusammenbrechen. HPC-Arbeitslasten wie die HPC-Blockchain BAASH implementieren daher die Handhabung von Ausnahmen in Anwendungscode.)

* Das Autorenduo Anna Kobylinska und Filipe Pereia Martins arbeitet für McKinley Denali Inc. (USA).

Artikelfiles und Artikellinks

(ID:49242527)