Effiziente KI im Rack-Maßstab geht über den Einsatz von GPUs hinaus

Expectedit-Lpool-Technik kann Milliarden sparen Effiziente KI im Rack-Maßstab geht über den Einsatz von GPUs hinaus

28.04.2026 Von Ulrike Ostler 5 min Lesedauer

Anbieter zum Thema

Heidelberg iT Management GmbH & Co. KG

PANDUIT

Vertiv GmbH

PQ Plus GmbH

Da KI-Modelle hinsichtlich Größe, Kontextlänge und Systemkomplexität umfangreicher werden, ist die Architektur der Host-Hardware derzeit der primäre Engpass. Das aber schränkt die Auslastung, Skalierbarkeit und Kosteneffizienz selbst der fortschrittlichsten GPUs ein. Fortschritte werden also ebenso sehr von der architektonischen Effizienz wie von der reinen Rechenleistung bestimmt.

Die Host-Komponenten sind alle da, nur müssen sie in einen gemeinsamen Pool, um eine Architektur zu bieten, mit der sich deren Potenzial für Workloads der Künstlichen Intelligenz ausschöpfen kann. (Bild: © k8most - stock.adobe.com) — Die Host-Komponenten sind alle da, nur müssen sie in einen gemeinsamen Pool, um eine Architektur zu bieten, mit der sich deren Potenzial für Workloads der Künstlichen Intelligenz ausschöpfen kann.
(Bild: © k8most - stock.adobe.com)

Burkhard Steinmacher-Burow, CEO der Expectedit GmbH, ist davon überzeugt, dass die KI-Branche in eine neue Phase eintritt, in der KI-Leistung nicht mehr allein durch die FLOPs der Beschleuniger bestimmt wird. Beschleunigt werde das zu einen dadurch, dass die Investitionen in KI-Infrastruktur weiterhin rasant ansteigen. Zugleich seien aber Hyperscaler und KI-Anbieter einem wachsenden Druck in Bezug auf Wirtschaftlichkeit, Kapitalallokation und Effizienz ausgesetzt, so dass die Toleranz gegenüber architektonischen Ineffizienzen rapide abnehme.

Dazu ein Beispiel: Moderne KI-Workloads wie groß angelegtes Trainings, Inferenz-Anwendungen mit langem Kontext, agentische Systeme und RAG, bewegen riesige Datenmengen zwischen GPUs, CPUs, Arbeitsspeicher, Speicher und dem Netzwerk. Doch heutige KI-Racks basieren nach wie vor auf fragmentierter Host-Hardware, wodurch Daten durch mehrschichtige Netzwerkstrukturen geleitet werden müssen, was Latenz, Stromverbrauch und Gesamtbetriebskosten erhöht. Infolgedessen werden KI-Systeme zunehmend nicht nur anhand ihrer Spitzenleistung bewertet, sondern auch anhand der Effizienz pro GPU, pro Watt und pro investiertem Dollar.

Im einzelnen kristallisieren sich weitere Problemfelder heraus:

Da KI-Kontexte immer umfangreicher werden und zwischengespeichert werden müssen, benötigten GPUs eigentlich den gesamten Speicher (GPU & CPU) in einem KI-Rack, um KV-Cache-Blöcke, RAG-Chunks und Zwischendatensätze von KI-Wissen optimal bereitstellen zu können.

KI-Trainings-Cluster sind von Tausenden auf Zehntausende von GPUs angewachsen, während die Netzwerkbandbreite nur langsam zugenommen hat. Aktuelle Veröffentlichungen von Tencent („Astral“), Alibaba („HPN“) und Enfabrica sowie die Bemühungen von Broadcom und weiteren Anbietern im Bereich Ultra-Ethernet und zeigen darüber hinaus, dass Netzwerküberlastung, mehrschichtige Fabric-Strukturen und Überlastungskontrollen zu Leistungseinbußen bei der KI führen. Ein einzelner KI-Job kann sich über zwei oder drei kostspielige Switch-Ebenen erstrecken, deren Gesamtlatenz dementsprechend das KI-Training verlangsamt.

Da Modelle Petabytes an Trainingsdaten verbrauchen und die Inferenz auf umfangreiche Abrufdatenbanken angewiesen ist, hat auch die Speicherbandbreite entscheidende Bedeutung erlangt. Die heutigen KI-Racks sichern Speicherinformationen jedoch noch nicht optimal im Cache, was zu häufigen und kostspieligen Übertragungen über das Rechenzentrumsnetzwerk führt.

Rechenzentren dimensionieren die Host-Hardware über dem, was tatsächlich benötigt würde, um die GPUs mit Daten zu versorgen. Dies erhöht die Investitions- und Betriebskosten, insbesondere da die Energiekosten steigen und Cluster auf 50.000 oder sogar 100.000 Beschleuniger skalieren.

Die KI-Branche investiert also Milliarden in modernste GPUs, doch die heutigen Host-Architekturen lassen einen Großteil dieses KI-Potenzials ungenutzt. Mit anderen Worten: KI nutzt teure KI-Beschleuniger nicht ausreichend aus, wie AWS, Meta und Google in ihren jüngsten Veröffentlichungen zur Systemarchitektur gezeigt haben.

Abbildung 1. a) Für kostengünstigere und leistungsstärkere KI-Workloads beseitigt der neue Lpool-Chip Engpässe bei der Host-Hardware-Unterstützung. b) Beim weltweit führenden „Nvidia NVL72“-Rack ist die Host-Hardware auf 18 Hosts verteilt, von denen jeder 4 GPUs unterstützt. Im Gegensatz dazu verfügt das Host36-Rack über einen einzigen rack-scale-Host, der durch Hinzufügen von Host-Switch-Chips zu einem minimal modifizierten NVL72-Design geschaffen wurde.(Bild: Expectedit GmbH) — Abbildung 1. a) Für kostengünstigere und leistungsstärkere KI-Workloads beseitigt der neue Lpool-Chip Engpässe bei der Host-Hardware-Unterstützung. b) Beim weltweit führenden „Nvidia NVL72“-Rack ist die Host-Hardware auf 18 Hosts verteilt, von denen jeder 4 GPUs unterstützt. Im Gegensatz dazu verfügt das Host36-Rack über einen einzigen rack-scale-Host, der durch Hinzufügen von Host-Switch-Chips zu einem minimal modifizierten NVL72-Design geschaffen wurde.
(Bild: Expectedit GmbH)

Das Unternehmen Expectedit will mit einem Gegenentwurf dagegen antreten. Mithilfe der „Lpool“-Technik könne die Host-Hardware, CPU, Arbeitsspeicher, Netzwerk und Speicher, zu einem gemeinsamen, cache-kohärenten Host im Rack-Maßstab konsolidiert werden, der zudem alle Beschleuniger innerhalb eines KI-Racks unterstütze. Nach Unternehmensangaben lassen sich so grundlegende Engpässe beseitigen und KI-Systemen werde ermöglicht, unter zunehmenden Leistungs- und Kostenbeschränkungen effizienter zu skalieren.

Was tut sich?

Die Branche verfolgt in erster Linie drei Ziele: Nvidia, Broadcom und Enfabrica beispielsweise gestalten ebenfalls die Host-Hardware neu, um flachere Netzwerkstrukturen mit schnellerem Zugriff auf größere Speicher- und Speicherplatzpools zu schaffen. Dies geschieht durch den Einbau proprietärer Hardware oder Speicher-Rack-Subsysteme.

Wie kann das KI-Infrastruktur-Problem gelöst werden? Google Research veröffentlicht ein Forschungspapier, was einen Quantifizierungsansatz aufzeigt, der auf Ressourceneffizienz ausgelegt ist. (Bild: © SVasco - stock.adobe.com)

Das Bild soll einen futuristiscen Silicon-Photonics-Chip darstellen. (Bild: © Sawat - stock.adobe.com / KI-generiert)

Einer Arbeitsgruppe soll Spezifikationen für Optical Compute Interconnect erarbeiten, das heißt: für engere Integration von Optik mit Rechen- und Netzwerksilizium. Eine solche benötigt die KI-Rechnerei, die auf CPUs und GPUs basiert. (Bild: © xiden - stock.adobe.com / KI-generiert)

1. So verfügen aktuelle KI-Frameworks über größere Caches und Zwischenspeicher. Analysen von Meta und Alibaba zeigen, dass eine Erweiterung des für GPUs verfügbaren effektiven Arbeitsspeichers und Speichers die Anzahl der Datenkopien reduzieren und den End-to-End-Durchsatz der KI verbessern kann.

2. Außerdem gibt es zahlreiche Belege, dass für das Training von KI ein einstufiges Netzwerk oder die erste Ebene eines Netzwerks bevorzugt wird. Ein solches flaches Netzwerk beseitigt oder verringert Überlastungen innerhalb des Netzwerks, verbessert die Zuverlässigkeit, senkt den Stromverbrauch und erleichtert die Jobplanung.

3. Die heutige Host-Hardware, Speicher, Speichermedien und Netzwerkschnittstellen, ist auf viele kleine Hosts verteilt. Eine konsolidierte, gemeinsam genutzte Host-Hardware verbessert die Auslastung und reduziert die Gesamtmenge an Hardware, die Kosten sowie den Energieverbrauch.

Die Lpool-Technik von Expectedit ist nach eigenen Angaben des Unternehmens auf die Branche und ihre Anforderungen abgestimmt. KI läuft auf Beschleunigern oder GPUs, unterstützt durch Host-Hardware (CPU, Arbeitsspeicher, Netzwerk, Speicher), wie in der Abbildung in a) dargestellt. In einem KI-Rack wie dem „Nvidia NVL72“ sind alle 72 GPUs im Rack miteinander verbunden, doch die Host-Hardware ist auf 18 Hosts verteilt, wie in der Abbildung unter b) dargestellt.

Am 24. April 2026 haben sich Klaus Entenmann (l.), Burkhard Steinmacher-Burrow von Expetedit und Ulrike Ostler, Chefredakteurin von DataCenter-Insider, im virtuellen Studio zum Gespräch getroffen. Alle Leserinnen und Leser dürfen mithören. (Bild: Vogel IT-Medien GmbH) — Am 24. April 2026 haben sich Klaus Entenmann (l.), Burkhard Steinmacher-Burrow von Expetedit und Ulrike Ostler, Chefredakteurin von DataCenter-Insider, im virtuellen Studio zum Gespräch getroffen. Alle Leserinnen und Leser dürfen mithören.
(Bild: Vogel IT-Medien GmbH)

In der Folge #66 der DataCenter Diaries „'Effizienzsteigerung von bis zu 50 Prozent sind möglich', so zwei der Gründer von Expectedit, die über ihre Technologie sprechen“ geht es um innovative Serverarchitektur für KI und Energie-Effizienz, um europäische Chip-Entwicklung und Wettbewerbsfähigkeit sowie um zukunftssichere Rechenzentren und europäische Technologieträume.

Die Podcast-Folge #66 der DataCenter Diaries findet sich auf Spotify, Apple Podcasts, Deezer und Amazon Musik.

Die Lpool-Technik soll Engpässe bei der Host-Unterstützung beseitigen. Der Chip ermögliche einen neuen gemeinsamen Host auf Rack-Ebene, der alle KI-Beschleuniger innerhalb eines KI-Racks unterstütze, so Expectedit. Er biete eine neue Klasse von Interconnect-Komponenten auf Systemebene, die cache-kohärente Konnektivität über viele CPU-Sockel hinweg erlaubt, so dass diese als ein einziger Host betrieben werden können.

Das bedeutet unter anderem:

gemeinsam genutzte Host-Hardware im gesamten KI-Rack mit einheitlichem Zugriff auf Speicher, Speicherplatz und Netzwerk für alle GPUs

flache, einstufige Netzwerktopologien in großem Maßstab mit Tausenden von GPUs ohne Leistungseinbußen durch mehrstufige Netzwerkstrukturen

höhere Auslastung der Beschleuniger, geringere Kosten und geringerer Stromverbrauch

herstellerunabhängige Funktionen ergänzen Architekturen von Nvidia, AMD, Intel und den Hyperscalern

eine einzige Plattform für gemeinsame Systeminnovationen

Abbildung 2: Im Vergleich zur 1x-Basis-Host-Unterstützung im „NVL72“-Rack ermöglicht der 9-mal größere Shared Host kostengünstigere und leistungsstärkere KI-Workloads in Rechenzentren.(Bild: Expectedit GmbH) — Abbildung 2: Im Vergleich zur 1x-Basis-Host-Unterstützung im „NVL72“-Rack ermöglicht der 9-mal größere Shared Host kostengünstigere und leistungsstärkere KI-Workloads in Rechenzentren.
(Bild: Expectedit GmbH)

Hier ein Beispiel für ein KI-Rack mit einem einzigen Host auf Rack-Ebene, wie in der Abbildung: Die Lpool-Chips und ein minimal modifiziertes NVL72-Design werden verwendet, um „Lpool36“ zu erstellen. Das daraus resultierende Lpool-KI-Rack ermöglicht es der gesamten Host-Hardware, alle KI-Daten im Rack zu unterstützen. Dadurch können das KI-Rack und seine KI-Daten jede GPU besser unterstützen, wie in Abbildung 2.

Abbildung 3: In einem Beispiel für ein reines Rail-Ethernet- oder Infiniband-Netzwerk sind 512 Lpool36-Racks mit jeweils 36 NIC-GPU-Paaren über 36 Switches verbunden, die jeweils mit einem Switch-Chip mit 512 Ports ausgestattet sind. Dieser Cluster verbindet 18.432 GPUs in einem einstufigen Netzwerk und bietet so die ideale Kombination aus höchster Bandbreite und niedrigsten Kosten für einen GPU-Cluster.(Bild: Expectedit GmbH) — Abbildung 3: In einem Beispiel für ein reines Rail-Ethernet- oder Infiniband-Netzwerk sind 512 Lpool36-Racks mit jeweils 36 NIC-GPU-Paaren über 36 Switches verbunden, die jeweils mit einem Switch-Chip mit 512 Ports ausgestattet sind. Dieser Cluster verbindet 18.432 GPUs in einem einstufigen Netzwerk und bietet so die ideale Kombination aus höchster Bandbreite und niedrigsten Kosten für einen GPU-Cluster.
(Bild: Expectedit GmbH)

Wie in Abbildung 3 dargestellt, ermöglicht Lpool beispielsweise in einem idealen einstufigen Ethernet- oder Infiniband-Netzwerk den Einsatz von bis zu 18.432 GPUs; das sind neunmal mehr GPUs als beim konkurrierenden Ansatz von Enfabrica. Dabei handelt es sich um rail-optimierte KI-Cluster im Umfang von Hunderten von Racks, ohne die Engpässe, die mit mehrstufigen Netzwerkarchitekturen verbunden sind.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Integration, keine Konkurrenz

Lpool lässt sich in Standard-KI-Serverkonzepte mit vorhandener Host-Hardware integrieren. Die Host-Switch-Chiparchitektur ist herstellerunabhängig und für verschiedene CPU-Anbieter geeignet.

Lpool ist keine konkurrierende GPU-Lösung. Es handelt sich um ein Host-Hardware-System, das entwickelt wurde, um das volle Potenzial von Beschleunigern auszuschöpfen. Durch den Einsatz von Host-Hardware wie Lpool können Rechenzentren sowohl beim KI-Training als auch bei der Inferenz eine deutlich höhere Leistung, geringere Kosten und eine größere Skalierbarkeit erzielen. Diese Effizienzsteigerungen würden im gesamten Bereich der KI-Rechenzentren Kosteneinsparungen in Milliardenhöhe ermöglichen.

Burkhard Steinmacher-Burow

(ID:50817319)