Pooling und Disaggregation, Inferenz und Streaming Intelliprop kündigte erste FPGA-Chip-Geräte für den Standard CXL 3.0 an

Von Michael Matzer |

Anbieter zum Thema

Der US-Hersteller Intelliprop hat drei Geräte vorgestellt, die den im August verabschiedeten CXL-3.0-Standard berücksichtigen, erweitert um die eigene Network Attached Memory (NAM) Technologie mit der Bezeichnung „Intelliprop Omega“. Es handelt sich um einen ASIC-Chip, eine damit bestückte Adapterkarte und eine „NAM Fabric Backplane“ für Server.

CXL 3.0 plus NAM erlaubt eine bessere Auslastung von Memory-Kapazitäten, denn sowohl das Bilden von Pools als auch ein Sharing wir möglich. Intelliprop will die Möglichkeiten geschickt ausspielen.
CXL 3.0 plus NAM erlaubt eine bessere Auslastung von Memory-Kapazitäten, denn sowohl das Bilden von Pools als auch ein Sharing wir möglich. Intelliprop will die Möglichkeiten geschickt ausspielen.
(Bild: gemeinfrei: PIRO4D / Pixabay)

Nachdem CXL 2.0 bereits von etlichen Herstellern umgesetzt wird, gehören die Intelliprop-Geräte ab 2023 zu den ersten mit CXL 3.0, ein Standard, der PCIe 6.0 unterstützt.

Das rasche Wachstum des Machine Learning- und KI-Marktes stellt die vorhandenen Rechnerarchitekturen vor eine Herausforderung. Sie können die für die Inferenz benötigten Daten gar nicht so schnell zwischen Storage, CPU und Hauptspeicher hin und her schaufeln, wie es nötig wäre, damit die Inferenz optimal ausgeführt werden könnte.

Die KI und ihre Anwendung wird ausgebremst. Hinzukommt, dass die Menge der Daten ständig zunimmt: Big Data, Streaming-Daten vom Edge nehmen ebenso exponentiell zu wie die Anzahl der IoT-Geräte.

Auf der anderen Seite ist jedoch zu beobachten, dass in großen Rechenzentren wie etwa bei Hyperscalern zwischen 50 und 60 Prozent des zugewiesenen Hauptspeichers ungenutzt bleibt. Dabei entfallen die Hälfte der Kosten eines Servers auf seinen Hauptspeicher. Die Hälfte aller Virtuellen Maschinen beanspruchen nicht einmal 50 Prozent des ihnen zugewiesenen Speichers.

Memory und Workload

Datenbanken wie etwa Data Lakes breiten sich aufgrund des begrenzten Speichers, der in anderen Servern bereitgestellt wird, über ganze Cluster aus, so etwa die DatenbankSAP HANA“ und die Suite „S/4 HANA“ – beide werden komplett im vorhandenen Hauptspeicher ausgeführt. Man müsste also Memory am besten dorthin verlagern, wo die Workload ausgeführt werden soll. Diese Verlagerung müsste von einer Art Hypervisor plus Memory Manager erledigt werden, damit der vorhandene Speicher stets optimal ausgelastet ist.

„Was gebraucht wird, ist die Entflechtung des Speichers“, sagt John Spiers, CEO des Anbieters Intelliprop. „Mit dem richtigen Werkzeug könnte dies helfen, die Auslastung und Nutzung aller Speichergeräte zu optimieren. Dieses Werkzeug ist die CXL-Technologie.“

Bildergalerie
Bildergalerie mit 10 Bildern

Die Standardisierung auf CXL würde dafür sorgen, dass auch die komplizierten Übergänge zwischen verschiedenen Protokollen und Schnittstellen, die mit RDMA verbunden sind, der Vergangenheit angehören. „CXL ist zehnmal schneller als RDMA“, erläutert Spiers.

Bekanntlich hat das CXL Konsortium Merkmale der Technologien Gen-Z (HPE) und OpenCAPI (IBM) entweder in den CXL-Standard übernommen oder ersetzt. Grundlage ist jedoch stets der PCIe-Bus von Intel. CXL 3.0 nutzt die jüngste PCIe-Version 6.0 und erlaubt damit einen doppelt so hohen Datendurchsatz wie CXL 2.0, das noch PCIe 5.0 nutzt. Die nächste Generation CXL 4.0 wird wiederum doppelt so schnell sein.

Intelliprop Omega

So weit, so schön, aber das ergibt noch keinen Memory Fabric, wie er nötig wäre, um die genannten Missstände zu beheben. Intelliprop Omega stellt diese Fabric-Lösung dar, aber mit zusätzlichen Leistungsmerkmalen. Network Attached Memory (NAM) fungiert als Memory Manager und weist große Memory-Pools dort zu, wo sie auf den Memory-Geräten gebraucht werden, also beispielsweise auch auf GPUs. Neue Geräte und Ressourcen lassen sich ohne Server-Downtime oder Reboot in Betrieb nehmen.

Datenmengen wie etwa in einer Datenbanktabelle müssen nicht verschoben werden, sondern werden föderativ mit mehreren Servern verknüpft. Der wichtigste Unterschied zu früheren Memory-Sharing-Technologien mit CXL: „Unsere NAM-Technologie arbeitet sowohl innerhalb, als auch außerhalb eines Servers.“ Die Standards CXL 2.0 und 3.0 lassen dies zwar zu, „aber NAM geht darüber hinaus.“

Der FPGA-ASIC-Chip, den Intelliprop im September einführt, ist die Grundlage für Omega. Ein FPGA ist individuell für spezifische Aufgaben programmierbar. „Ein Host Bus Adapter wird diesen FPGA-ASIC als nächstes nutzen und schließlich auch eine NAM Fabric Backplane für einen Server“, so Spiers.

Die Anwendungsfälle

Der Intelliprop-CEO sieht eine ganze Reihe von Einsatzgebieten für von Intelliprop Omega CXL/NAM. „Da es nun möglich ist, ganze Memory-Pools an die erforderliche Lokation zu bringen, Deep Learning, Machine Learning, Big Data, High Performance Computing (HPC) und schließlich sehr große Rechenzentren bei Hyperscalern und Konzernen, wo entsprechende Applikation große Mengen von RAM benötigen.“

Die Beispiele, die er anführt, sind Digital Banking, Genomik, Animation/Visual Effects, Kunden-Profiling und Recommendation Engines. Bei Meta, vormals Facebook, könnten sich beispielsweise 100.000 Server die gleichen Daten teilen.

Bildergalerie
Bildergalerie mit 10 Bildern

Denn:Mit Intelliprop Omega können sich CPUs und GPUs die gleichen Daten teilen und an der gleichen Datenmenge arbeiten. Ein weiterer Anwendungsbereich ist die Konsolidierung von OLTP-Datenbanken (OLTP: On-line transaction processing). Zu guter Letzt werde die Hardware besser genutzt und ihre Leistung gesteigert, denn wie gesagt, ist CXL mindestens zehnmal schneller als RDMA.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die Vorteile

Ganz konkret will Intelliprop mit Omega folgende Vorteile bieten:

  • Hinsichtlich der Performance wird „memcopy“ im Anschluss an einen Block-Storage-Lesevorgang eliminiert.
  • Durch das Memory Pooling (ab CXL 2.0) können mehrere Nodes gleichzeitig Inferenzen auf der Basis der gleichen Trainingsdaten ausführen.
  • Die Latenzzeiten, die von der jeweiligen Distanz zu einem abfragenden Node abhängen, werden viel kürzer sein als RDMA-basierende Lösungen.

Hinsichtlich der Skalierbarkeit, so Spiers weiter, kann ein Deep Learning Relationship Model, das sehr groß werden kann, über Dutzende von Nodes bis hin zu Tausenden von Nodes skalieren. Das Wachstum einer IT-Umgebung lässt sich mit CXL leicht realisieren.

Auswirkungen auf den Stromverbrauch

Nachhaltigkeit und Energiekosten werden immer wichtiger. Daher ist es relevant, dass der Stromverbrauch sinkt, weil die Daten im Netzwerk bzw. Cluster weniger Umwege machen müssen. Die Auslastung der Infrastruktur wird effizienter, was zu weniger Stromverbrauch pro Workload führt. Die in der Folge überarbeitete Composable Architecture wird sich hinsichtlich Nachhaltigkeit und Stromverbrauch beträchtlich von heutigen Strukturen unterscheiden.

Auf der Kostenseite wird der TCO sinken, weil sich die Nutzung von geteiltem schnellem DRAM und geteiltem langsamem SCM-Speicher kombinieren lässt. Mit einem automatischen Workload Scheduler könnte sich eine Workload auf eine entsprechende Mix-Nutzung verteilen lassen.

Die Differenzierung

„Wir unterscheiden sich vor allem dadurch, dass wir Memory auch außerhalb eines Servers skalieren und teilen können, also etwa in einem Cluster“, sagte Spiers. „Unser Memory Fabric arbeitet mit Parallelisierung durch dynamisches Multi-Pathing und schützt alle Übertragungen Ende-zu-Ende mit einem AES-XTS-256-Bit-Algorithmus.“

Weil das Memory Fabric einen direkten Pfad zwischen GPU und Hauptspeicher einrichtet, ist die Übertragungsgeschwindigkeit sehr hoch. Direct Memory Access (DMA) erlaubt auch die Übertragung zwischen verschiedenen Memory-Ebenen, ohne den Umweg über die CPU nehmen zu müssen. Das befreit die Rechenkerne einer CPU von Speicherverarbeitung.

Topologien, die nicht auf Verzeichnisbäume angewiesen sind, werden unterstützt, so dass sich Peer-to-Peer-Verbindungen herstellen lassen. Die Unterstützung für Multi-Fabrics und -Subnetze und verteilte Verwaltungseinheiten erlaubt die Management-Skalierung für große Deployments.

Der Ausblick

„Der FPGA-Chip ist bereits bei den Kunden in Erprobung“, sagte CEO Spiers. „Unsere drei Lösungen werden den vollen Leistungsumfang der Omega-Fabric aufweisen.” Der ASIC werde in 2023 erhältlich sein.

Das Wachstum des Marktes für “Composable disaggregated infrastructure”, in dem Intelliprop tätig ist, wird von IDC-Analyst Eric Burgener über fünf Jahre hinweg auf jährlich etwa 28,2 Prozent geschätzt, wobei diese Entwicklung in 2025 mit einem Marktumfang von 4,8 Milliarden Dollar ihren Höhepunkt erreichen dürfte.

(ID:48585774)