Expectedit-Lpool-Technik kann Milliarden sparen Effiziente KI im Rack-Maßstab geht über den Einsatz von GPUs hinaus

Von Ulrike Ostler 5 min Lesedauer

Anbieter zum Thema

Da KI-Modelle hinsichtlich Größe, Kontextlänge und Systemkomplexität umfangreicher werden, ist die Architektur der Host-Hardware derzeit der primäre Engpass. Das aber schränkt die Auslastung, Skalierbarkeit und Kosteneffizienz selbst der fortschrittlichsten GPUs ein. Fortschritte werden also ebenso sehr von der architektonischen Effizienz wie von der reinen Rechenleistung bestimmt.

Die Host-Komponenten sind alle da, nur müssen sie in einen gemeinsamen Pool, um eine Architektur zu bieten, mit der sich deren Potenzial für Workloads der Künstlichen Intelligenz ausschöpfen kann. (Bild: ©  k8most - stock.adobe.com)
Die Host-Komponenten sind alle da, nur müssen sie in einen gemeinsamen Pool, um eine Architektur zu bieten, mit der sich deren Potenzial für Workloads der Künstlichen Intelligenz ausschöpfen kann.
(Bild: © k8most - stock.adobe.com)

Burkhard Steinmacher-Burow, CEO der Expectedit GmbH, ist davon überzeugt, dass die KI-Branche in eine neue Phase eintritt, in der KI-Leistung nicht mehr allein durch die FLOPs der Beschleuniger bestimmt wird. Beschleunigt werde das zu einen dadurch, dass die Investitionen in KI-Infrastruktur weiterhin rasant ansteigen. Zugleich seien aber Hyperscaler und KI-Anbieter einem wachsenden Druck in Bezug auf Wirtschaftlichkeit, Kapitalallokation und Effizienz ausgesetzt, so dass die Toleranz gegenüber architektonischen Ineffizienzen rapide abnehme.

Dazu ein Beispiel: Moderne KI-Workloads wie groß angelegtes Trainings, Inferenz-Anwendungen mit langem Kontext, agentische Systeme und RAG, bewegen riesige Datenmengen zwischen GPUs, CPUs, Arbeitsspeicher, Speicher und dem Netzwerk. Doch heutige KI-Racks basieren nach wie vor auf fragmentierter Host-Hardware, wodurch Daten durch mehrschichtige Netzwerkstrukturen geleitet werden müssen, was Latenz, Stromverbrauch und Gesamtbetriebskosten erhöht. Infolgedessen werden KI-Systeme zunehmend nicht nur anhand ihrer Spitzenleistung bewertet, sondern auch anhand der Effizienz pro GPU, pro Watt und pro investiertem Dollar.

Im einzelnen kristallisieren sich weitere Problemfelder heraus:

  • Da KI-Kontexte immer umfangreicher werden und zwischengespeichert werden müssen, benötigten GPUs eigentlich den gesamten Speicher (GPU & CPU) in einem KI-Rack, um KV-Cache-Blöcke, RAG-Chunks und Zwischendatensätze von KI-Wissen optimal bereitstellen zu können.
  • KI-Trainings-Cluster sind von Tausenden auf Zehntausende von GPUs angewachsen, während die Netzwerkbandbreite nur langsam zugenommen hat. Aktuelle Veröffentlichungen von Tencent („Astral“), Alibaba („HPN“) und Enfabrica sowie die Bemühungen von Broadcom und weiteren Anbietern im Bereich Ultra-Ethernet und zeigen darüber hinaus, dass Netzwerküberlastung, mehrschichtige Fabric-Strukturen und Überlastungskontrollen zu Leistungseinbußen bei der KI führen. Ein einzelner KI-Job kann sich über zwei oder drei kostspielige Switch-Ebenen erstrecken, deren Gesamtlatenz dementsprechend das KI-Training verlangsamt.
  • Da Modelle Petabytes an Trainingsdaten verbrauchen und die Inferenz auf umfangreiche Abrufdatenbanken angewiesen ist, hat auch die Speicherbandbreite entscheidende Bedeutung erlangt. Die heutigen KI-Racks sichern Speicherinformationen jedoch noch nicht optimal im Cache, was zu häufigen und kostspieligen Übertragungen über das Rechenzentrumsnetzwerk führt.
  • Rechenzentren dimensionieren die Host-Hardware über dem, was tatsächlich benötigt würde, um die GPUs mit Daten zu versorgen. Dies erhöht die Investitions- und Betriebskosten, insbesondere da die Energiekosten steigen und Cluster auf 50.000 oder sogar 100.000 Beschleuniger skalieren.

Die KI-Branche investiert also Milliarden in modernste GPUs, doch die heutigen Host-Architekturen lassen einen Großteil dieses KI-Potenzials ungenutzt. Mit anderen Worten: KI nutzt teure KI-Beschleuniger nicht ausreichend aus, wie AWS, Meta und Google in ihren jüngsten Veröffentlichungen zur Systemarchitektur gezeigt haben.

Abbildung 1. a) Für kostengünstigere und leistungsstärkere KI-Workloads beseitigt der neue Lpool-Chip Engpässe bei der Host-Hardware-Unterstützung. b) Beim weltweit führenden „Nvidia NVL72“-Rack ist die Host-Hardware auf 18 Hosts verteilt, von denen jeder 4 GPUs unterstützt. Im Gegensatz dazu verfügt das Host36-Rack über einen einzigen rack-scale-Host, der durch Hinzufügen von Host-Switch-Chips zu einem minimal modifizierten NVL72-Design geschaffen wurde.(Bild:  Expectedit GmbH)
Abbildung 1. a) Für kostengünstigere und leistungsstärkere KI-Workloads beseitigt der neue Lpool-Chip Engpässe bei der Host-Hardware-Unterstützung. b) Beim weltweit führenden „Nvidia NVL72“-Rack ist die Host-Hardware auf 18 Hosts verteilt, von denen jeder 4 GPUs unterstützt. Im Gegensatz dazu verfügt das Host36-Rack über einen einzigen rack-scale-Host, der durch Hinzufügen von Host-Switch-Chips zu einem minimal modifizierten NVL72-Design geschaffen wurde.
(Bild: Expectedit GmbH)

Das Unternehmen Expectedit will mit einem Gegenentwurf dagegen antreten. Mithilfe der „Lpool“-Technik könne die Host-Hardware, CPU, Arbeitsspeicher, Netzwerk und Speicher, zu einem gemeinsamen, cache-kohärenten Host im Rack-Maßstab konsolidiert werden, der zudem alle Beschleuniger innerhalb eines KI-Racks unterstütze. Nach Unternehmensangaben lassen sich so grundlegende Engpässe beseitigen und KI-Systemen werde ermöglicht, unter zunehmenden Leistungs- und Kostenbeschränkungen effizienter zu skalieren.

Was tut sich?

Die Branche verfolgt in erster Linie drei Ziele: Nvidia, Broadcom und Enfabrica beispielsweise gestalten ebenfalls die Host-Hardware neu, um flachere Netzwerkstrukturen mit schnellerem Zugriff auf größere Speicher- und Speicherplatzpools zu schaffen. Dies geschieht durch den Einbau proprietärer Hardware oder Speicher-Rack-Subsysteme.

  • 1. So verfügen aktuelle KI-Frameworks über größere Caches und Zwischenspeicher. Analysen von Meta und Alibaba zeigen, dass eine Erweiterung des für GPUs verfügbaren effektiven Arbeitsspeichers und Speichers die Anzahl der Datenkopien reduzieren und den End-to-End-Durchsatz der KI verbessern kann.
  • 2. Außerdem gibt es zahlreiche Belege, dass für das Training von KI ein einstufiges Netzwerk oder die erste Ebene eines Netzwerks bevorzugt wird. Ein solches flaches Netzwerk beseitigt oder verringert Überlastungen innerhalb des Netzwerks, verbessert die Zuverlässigkeit, senkt den Stromverbrauch und erleichtert die Jobplanung.
  • 3. Die heutige Host-Hardware, Speicher, Speichermedien und Netzwerkschnittstellen, ist auf viele kleine Hosts verteilt. Eine konsolidierte, gemeinsam genutzte Host-Hardware verbessert die Auslastung und reduziert die Gesamtmenge an Hardware, die Kosten sowie den Energieverbrauch.

Die Lpool-Technik von Expectedit ist nach eigenen Angaben des Unternehmens auf die Branche und ihre Anforderungen abgestimmt. KI läuft auf Beschleunigern oder GPUs, unterstützt durch Host-Hardware (CPU, Arbeitsspeicher, Netzwerk, Speicher), wie in der Abbildung in a) dargestellt. In einem KI-Rack wie dem „Nvidia NVL72“ sind alle 72 GPUs im Rack miteinander verbunden, doch die Host-Hardware ist auf 18 Hosts verteilt, wie in der Abbildung unter b) dargestellt.

Am 24. April 2026 haben sich Klaus Entenmann (l.), Burkhard Steinmacher-Burrow von Expetedit und Ulrike Ostler, Chefredakteurin von DataCenter-Insider, im virtuellen Studio zum Gespräch getroffen. Alle Leserinnen und Leser dürfen mithören. (Bild:  Vogel IT-Medien GmbH)
Am 24. April 2026 haben sich Klaus Entenmann (l.), Burkhard Steinmacher-Burrow von Expetedit und Ulrike Ostler, Chefredakteurin von DataCenter-Insider, im virtuellen Studio zum Gespräch getroffen. Alle Leserinnen und Leser dürfen mithören.
(Bild: Vogel IT-Medien GmbH)

In der Folge #66 der DataCenter Diaries „'Effizienzsteigerung von bis zu 50 Prozent sind möglich', so zwei der Gründer von Expectedit, die über ihre Technologie sprechen“ geht es um innovative Serverarchitektur für KI und Energie-Effizienz, um europäische Chip-Entwicklung und Wettbewerbsfähigkeit sowie um zukunftssichere Rechenzentren und europäische Technologieträume.

Die Podcast-Folge #66 der DataCenter Diaries findet sich auf Spotify, Apple Podcasts, Deezer und Amazon Musik.

Die Lpool-Technik soll Engpässe bei der Host-Unterstützung beseitigen. Der Chip ermögliche einen neuen gemeinsamen Host auf Rack-Ebene, der alle KI-Beschleuniger innerhalb eines KI-Racks unterstütze, so Expectedit. Er biete eine neue Klasse von Interconnect-Komponenten auf Systemebene, die cache-kohärente Konnektivität über viele CPU-Sockel hinweg erlaubt, so dass diese als ein einziger Host betrieben werden können.

Das bedeutet unter anderem:

  • gemeinsam genutzte Host-Hardware im gesamten KI-Rack mit einheitlichem Zugriff auf Speicher, Speicherplatz und Netzwerk für alle GPUs
  • flache, einstufige Netzwerktopologien in großem Maßstab mit Tausenden von GPUs ohne Leistungseinbußen durch mehrstufige Netzwerkstrukturen
  • höhere Auslastung der Beschleuniger, geringere Kosten und geringerer Stromverbrauch
  • herstellerunabhängige Funktionen ergänzen Architekturen von Nvidia, AMD, Intel und den Hyperscalern
  • eine einzige Plattform für gemeinsame Systeminnovationen

Abbildung 2: Im Vergleich zur 1x-Basis-Host-Unterstützung im „NVL72“-Rack ermöglicht der 9-mal größere Shared Host kostengünstigere und leistungsstärkere KI-Workloads in Rechenzentren.(Bild:  Expectedit GmbH)
Abbildung 2: Im Vergleich zur 1x-Basis-Host-Unterstützung im „NVL72“-Rack ermöglicht der 9-mal größere Shared Host kostengünstigere und leistungsstärkere KI-Workloads in Rechenzentren.
(Bild: Expectedit GmbH)

Hier ein Beispiel für ein KI-Rack mit einem einzigen Host auf Rack-Ebene, wie in der Abbildung: Die Lpool-Chips und ein minimal modifiziertes NVL72-Design werden verwendet, um „Lpool36“ zu erstellen. Das daraus resultierende Lpool-KI-Rack ermöglicht es der gesamten Host-Hardware, alle KI-Daten im Rack zu unterstützen. Dadurch können das KI-Rack und seine KI-Daten jede GPU besser unterstützen, wie in Abbildung 2.

Abbildung 3: In einem Beispiel für ein reines Rail-Ethernet- oder Infiniband-Netzwerk sind 512 Lpool36-Racks mit jeweils 36 NIC-GPU-Paaren über 36 Switches verbunden, die jeweils mit einem Switch-Chip mit 512 Ports ausgestattet sind. Dieser Cluster verbindet 18.432 GPUs in einem einstufigen Netzwerk und bietet so die ideale Kombination aus höchster Bandbreite und niedrigsten Kosten für einen GPU-Cluster.(Bild:  Expectedit GmbH)
Abbildung 3: In einem Beispiel für ein reines Rail-Ethernet- oder Infiniband-Netzwerk sind 512 Lpool36-Racks mit jeweils 36 NIC-GPU-Paaren über 36 Switches verbunden, die jeweils mit einem Switch-Chip mit 512 Ports ausgestattet sind. Dieser Cluster verbindet 18.432 GPUs in einem einstufigen Netzwerk und bietet so die ideale Kombination aus höchster Bandbreite und niedrigsten Kosten für einen GPU-Cluster.
(Bild: Expectedit GmbH)

Wie in Abbildung 3 dargestellt, ermöglicht Lpool beispielsweise in einem idealen einstufigen Ethernet- oder Infiniband-Netzwerk den Einsatz von bis zu 18.432 GPUs; das sind neunmal mehr GPUs als beim konkurrierenden Ansatz von Enfabrica. Dabei handelt es sich um rail-optimierte KI-Cluster im Umfang von Hunderten von Racks, ohne die Engpässe, die mit mehrstufigen Netzwerkarchitekturen verbunden sind.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Integration, keine Konkurrenz

Lpool lässt sich in Standard-KI-Serverkonzepte mit vorhandener Host-Hardware integrieren. Die Host-Switch-Chiparchitektur ist herstellerunabhängig und für verschiedene CPU-Anbieter geeignet.

Lpool ist keine konkurrierende GPU-Lösung. Es handelt sich um ein Host-Hardware-System, das entwickelt wurde, um das volle Potenzial von Beschleunigern auszuschöpfen. Durch den Einsatz von Host-Hardware wie Lpool können Rechenzentren sowohl beim KI-Training als auch bei der Inferenz eine deutlich höhere Leistung, geringere Kosten und eine größere Skalierbarkeit erzielen. Diese Effizienzsteigerungen würden im gesamten Bereich der KI-Rechenzentren Kosteneinsparungen in Milliardenhöhe ermöglichen.

Burkhard Steinmacher-Burow

(ID:50817319)