Schlaue Kisten für den KI Einsatz on-premises Die AI-Fabrics sind da!

Von Anna Kobylinska und Filipe Martins* 11 min Lesedauer

Anbieter zum Thema

Hochintegrierte Rechenkisten, vollgestopft mit Hardwarebeschleunigern, gleiten vom Lifter auf den Asphalt der Serverlandschaft, mancherorts unter freiem Himmel. Sind sie gut angekommen, sind sie auch schon betriebsfertig: nur anschließen und losrechnen. Bloß beim Bestellen müssen Kunden gut aufpassen!

Inferenz- und Reasoning-Modelle sind deutlich rechenintensiver als noch vor einem Jahr angenommen: mindestens 100x mehr Compute-Leistung und 10x höhere Kosten. Aber On-prem ist günstiger als Cloud und das ist der Grund fü viel schlaues Blech. (Bild:  Midjourney / KI-generiert)
Inferenz- und Reasoning-Modelle sind deutlich rechenintensiver als noch vor einem Jahr angenommen: mindestens 100x mehr Compute-Leistung und 10x höhere Kosten. Aber On-prem ist günstiger als Cloud und das ist der Grund fü viel schlaues Blech.
(Bild: Midjourney / KI-generiert)
Ach, die KI-Fabriken, die dicken Stromfresser,
sie brummen leise, je größer, je besser...
Oh, du liebes Kilowatt,
bis selbst das stärkste Netz zu zittern hat.
Silizium und Glasfaser unter Volldampf im Rack:
Wer kauft da schon eine Katze im Sack? .

Zu meinen, die Unternehmen hätten die Qual der Wahl, wäre in diesem Fall untertrieben. Kaufen oder mieten? Bauen? Retrofit? Jetzt gleich oder noch etwas warten - und falls ja, wie lange und worauf jetzt genau? Muss man das Rad neu erfinden oder kann man es irgendwo abgucken?

KI mit Standortvorteil

Der Begriff „KI-Fabriken“ bezieht sich einmal auf ganze Facilities, ein anderes Mal auf einzelne Hochleistungsmaschinen. So pfiffig und treffend ist es formuliert, dass diese Dualität irgendwie sitzt.

Die Rack-skalierten KI-Fabriken vereinen in einem Gehäuse alles, was es braucht, um „Intelligenz zu produzieren“, wie es Nvidia-CEO Jensen Huang zu sagen pflegt. Sie erbringen ihre Rechen-Power direkt, wo sie gebraucht wird: am Entstehung- und Sicherungsort der Daten.

Anbieter wie Dell Technologies, HPE, Lenovo und Supermicro liefern sich ein halsbrecherisches Innovationsrennen um die leistungsfähigsten, effizientesten und flexibelsten Infrastrukturen für den Edge- und Rechenzentrumseinsatz. In der Tat haben die Unternehmen jetzt die Qual der Wahl. Lediglich Warten ist keine gute Option.

Jeff Clarke ist Vice Chairman und COO bei Dell Technologies. (Bild:  Dell Technologies)
Jeff Clarke ist Vice Chairman und COO bei Dell Technologies.
(Bild: Dell Technologies)

Bis 2028 sollen laut Jeff Clarke, Vice Chairman und COO bei Dell Technologies, ein Drittel aller Interaktionen mit generativer KI auf autonome Agenten zurückgreifen. Die Entwicklung von Agentic-Systemen und Reasoning-Engines treibt den Bedarf an Compute- und Dateninfrastruktur massiv nach oben, kein Ende in Sicht. (Siehe dazu auch den Bericht „Agenten im Rechenzentrum zerstören Paradigmen“)

Moderne Inferenz- und Reasoning-Modelle seien deutlich rechenintensiver als noch vor einem Jahr angenommen, sagt Clarke. Sie würden mindestens 100x mehr Compute-Leistung verschlingen als man vor einem Jahr angenommen hatte, und das Wachstum setze sich fort. Inzwischen hätten sich die Kosten pro Token im Laufe der letzten vier Jahre geviertelt (siehe hierzu auch: „Repatriation =: aus allen Wolken gefallen!“).

Die Kosten, die nächste neue große Entwicklungsstufe von KI-Modellen zu trainieren, seien laut Clarke um den Faktor 10x höher als jene für die Generation davor. Dennoch würden heute mehr Grundlagenmodelle entstehen als noch vor einem Jahr. Viele Unternehmen setzen demnach zur Senkung der Kosten auf dedizierte KI-Fabriken vor Ort.

On-Prem ist kostengünstiger als Public Cloud

„Auf dem Boden der Realität“ sind KI-Arbeitslasten wesentlich günstiger als in der Cloud, bestätigt eine Analyse von ESG/Omdia, die im Jahre 2024 im Auftrag von Dell Technologies durchgeführt wurde. Wenn Unternehmen die Inferenz eines 70-B-Parameter-LLM (Llama 3, RAG-Workflow) im eigenen Rechenzentrum auf einer „Dell AI Factory“ ausführen, sinken demnach die Vierjahres-Gesamtkosten (TCO) gegenüber einer tokenbasierten GPT-4o-API um den Faktor 2,9 (bei geringer bis mittlerer Auslastung) bis 4,1 (bei hoher Auslastung). Beim Vergleich mit gleich dimensionierten IaaS-Instanzen einer Public Cloud reduziert die Dell AI Factory die Vierjahres-TCO der Llama 3-Inferenz um 2,1-fach bei geringem bis mittleren Inferenzvolumen und um 2,6-fach bei hohem Inferenzvolumen.

Vierjahres-TCO einer „Dell AI Factory“ im Vergleich zu einer Token-basierten GPT-4o-API nach Auslastung.(Bild:  ESG/Omdia-Analyst Paper, 2024)
Vierjahres-TCO einer „Dell AI Factory“ im Vergleich zu einer Token-basierten GPT-4o-API nach Auslastung.
(Bild: ESG/Omdia-Analyst Paper, 2024)

Je höher das Inferenzvolumen, desto stärker schlagen die variablen Cloud-Gebühren zu Buche, während die fixen On-Prem-Kosten pro Anfrage sinken. Deshalb steigt der Kostenvorteil der Dell AI Factory von rund 2,1× (5 000 User, IaaS-Vergleich) bis 4,1× (50 000 User, API-Vergleich) mit zunehmender Auslastung.

Laut der von Dell Technologies beauftragten ESG/Omdia-Analyse können Unternehmen die Inferenz eines 70-Milliarden-Parameter-LLM (Llama 3, RAG-Workflow) also bis zu 62 Prozent günstiger auf einer Dell AI Factory im eigenen Rechenzentrum ausführen als auf vergleichbar dimensionierten Public-Cloud-IaaS-Instanzen – und bis zu 75 Prozent günstiger, wenn man statt IaaS eine tokenbasierte GPT-4o-API heranzieht.

Gesamtkosten einer „Dell AI Factory“ versus Public-Cloud-IaaS bei Llama 3-Inferenz mit 70 Milliarden Parametern unter Einsatz von RAG über die Laufzeit von vier Jahren in Abhängigkeit von der Auslastung.(Bild:  ESG/Omdia-Analyst Paper, 2024)
Gesamtkosten einer „Dell AI Factory“ versus Public-Cloud-IaaS bei Llama 3-Inferenz mit 70 Milliarden Parametern unter Einsatz von RAG über die Laufzeit von vier Jahren in Abhängigkeit von der Auslastung.
(Bild: ESG/Omdia-Analyst Paper, 2024)

98 Prozent der von ESG/Omdia befragten Unternehmen haben die Gesamtbetriebskosten (TCO) für ihre KI-Workloads in der Public Cloud bis auf den Cent kalkuliert. Trotzdem laufen im Durchschnitt rund 79 Prozent ihrer produktiven KI-Anwendungen nicht in der Public Cloud, sondern on-Premises, im eigenen Rechenzentrum oder am Edge.

Die Public Cloud bleibt zwar ein gangbares Versuchslabor für Pilotprojekte, geht im Produktivbetrieb jedoch offenbar mit einem Kosten- und Kontrollaufschlag einher, den viele Organisationen nicht in den Kauf nehmen wollen. Doch es geht nicht nur um die Kosten, sondern auch um die Sicherheit und Governance, insbesondere in stark regulierten Branchen wie dem Finanz- und Gesundheitswesen.

Mit Klasse und Masse

Man brauche nicht zwingend gleich „die neuesten GPUs, um zu starten,“ argumentierte Jeff Clarke, Vice Chairman und COO bei Dell Technologies, in seiner Keynote auf der Dell Technologies World 2025 in Las Vegas. Es gebe ja eh kein „one size fits all“ in Sachen KI. Man müsse bloß irgendwo anfangen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Er spricht aus Erfahrung. Dell Technologies ist selbst eine Anwenderorganisation, die KI-Fabriken im großen Maßstab einsetzt. Das Unternehmen habe über 900 KI-Projekte gestartet, um Prozesse zu automatisieren und zu optimieren, so Clarke.

Laut Clarke habe Dell nur dieses Jahr bereits doppelt so viel in KI-Projekte investiert, wie die NASA im Projekt Apollo für den ersten Mondflug veranschlagt haben soll. Die Investition mag sich bei Dell ausgezahlt haben. Das texanische Unternehmen sei inzwischen die Nummer Eins in KI-PCs, die Nummer Eins in KI-Servern und die Nummer Eins in KI-Storage — nicht schlecht für „das erste Rodeo“, um bei einer texanischen Metaphor zu bleiben, nämlich die erste Generation von „KI-Infrastrukturen für die Massen“. (

[Anm.d. Red.: Dell führt laut IDC im gesamten x86-Server-Umsatz und interpretiert es als KI-Führerschaft; explizite KI-Server-Ranglisten sind bisher nicht öffentlich bekannt.]

Die größten Herausforderungen sieht Clarke in der Skalierung der KI und in der Datenaufbereitung. Die Entwicklungen im Bereich Künstlicher Intelligenz (KI) gingen so rasant vonstatten, dass traditionelle Standardisierungsorganisationen wie IEEE oder IETF kaum noch damit Schritt halten könnten, geschweige denn, der Branche den Marsch blasen.

Ken Durazzo, VP AI Centric Engineering bei Dell Technologies, sieht dienen Umstand als einen Bremsklotz für die KI-Adoption. Dringend benötigte Standards entstünden aus seiner Sicht viel zu langsam; andere seien weitgehend überflüssig.

Agenten-basierte KI-Architektur: Mehrere autonome Agenten planen und handeln gemeinsam und greifen dabei auf gemeinsame Daten zu, um dann etwa physische Geräte zu steuern.(Bild:  HTC Inc.)
Agenten-basierte KI-Architektur: Mehrere autonome Agenten planen und handeln gemeinsam und greifen dabei auf gemeinsame Daten zu, um dann etwa physische Geräte zu steuern.
(Bild: HTC Inc.)

Die Industrie bräuchte aus seiner Sicht schneller praxisnahe Branchenstandards zur Gewährleistung der Interoperabilität von Agenten, beispielsweise Model Context Protocol (MCP). Ohne solche „Schraubgewinde“ drohe ein Wildwuchs inkompatibler Agenten-Frameworks.

Unter der Leitung von Ken Durazzo, 'Mr. Agentic AI', entwickelt Dell Technologies einen Agentic Runtime Layer, der – ähnlich einem Betriebssystem – verschiedene domänenspezifische LLMs, Retrieval-Augmented-Generation, Guardrails und Tool-Aufrufe zu zusammensetzbaren „Agenten“ verbindet. Jeder Workload ruft nur jene Komponenten ab, die er wirklich braucht, keine Monolithen. Das senkt Kosten und vereinfacht Governance.

„Die AI Factory with Nvidia“ bündelt eben jene Agentic-Werkzeuge mit „Poweredge“-GPU-Servern, „Powerscale“-/„Project-Lightning“-Storage und „Nemo“-Microservices. Dell bewirbt explizit die Fähigkeit, „digitale Teamkollegen“ - sprich autonome Agenten - daraus zu bauen. Das Ziel: Mehrere LLMs als kooperierende Agenten zu nutzen – sicher, skalierbar und unter eigener Datenhoheit.

Ken Durazzo ist Vice President von Dell Research Office bei Dell Technologies. (Bild:  Dell Technologies)
Ken Durazzo ist Vice President von Dell Research Office bei Dell Technologies.
(Bild: Dell Technologies)

Das Team von Ken Durazzo hat in den letzten zwei Jahren ein internes Reifegradmodell für die Markteinführung von KI-Anwendungen entwickelt. Dieses Modell adressiert zentrale Herausforderungen wie Datenbereinigung (Stichwort: Datenhygiene), die Balance zwischen internen und externen Datenquellen, die Messung des ROI (Return on Investment) sowie die Definition geeigneter Use Cases. Das Modell ist zwar bisher noch nicht veröffentlicht, bildet aber bereits die Grundlage für die interne KI-Strategie von Dell und als eine Leitplanke für die Anwenderorganisationen.

Neben Nvidia arbeitet sein Team mit Open-Source-Communities und Branchenkonsortien zusammen, um Agentic-Bausteine (RAG-Libraries, Guardrail-Kataloge, Benchmark-Suites) zu kuratieren. Dadurch sollen Unternehmen ihre Agenten on-prem oder auf der Netzwerkkante schneller und reibungsloser ausrollen können.

Ein Dell für jedes KI-Modell

Dell Technologies konnte binnen eines Jahres - vom Main der Einführung 2024 bis Mai 2025- für seine KI-Fabriken bereits über 3.000 Kunden gewinnen. Das Herzstück der AI-Factory bilden Hochleistungsserver der „Poweredge XE“-Serie, darunter „Poweredge XE9780“, „XE9785“, „XE9785L“. Bestückt mit bis zu acht „Nvidia HGX B300“ GPUs oder „AMD Instinct MI350“-Beschleunigern und wahlweise „Intel Xeon 6“ oder „AMD Epyc 9005“ liefern sie extreme Parallelverarbeitung für jüngste Foundation Models und generative KI.

Luftgekühlt belegen sie 10 Höheneinheiten; die direkt-flüssig-gekühlten Varianten „XE9780L“/„XE9785L“ hat Dell auf je 3U komprimiert. Dell Poweredge XE9680 zählt zu den am schnellsten wachsenden Produkten des texanischen Anbieters in der ganzen 30 Jahre langen Geschichte der Poweredge-Produktlinie.

Der Dell PowerEdge XE9680L markiert einen Evolutionssprung in der XE-Serie. Er bringt die Power von bis zu acht HGX B200/H200 in eine energieoptimierte, vorintegrierte DLC-Umgebung für KI-Fabriken, GPUaaS-Angebote oder Edge-Knoten mit extremen Rechenanforderungen. Das Angebot adressiert Cloud-Service-Provider und Near-Edge-Deployments, die bei maximaler Performance gleichzeitig Kühlungs- und Energie-Effizienz benötigen.

L wie Liquid: „Dell XE9680L“ ist eine der branchenweit dichtesten x86-Rack-Scale-Serverlsysteme für das Nvidia 8-fach „HGX B200“ GPU-Setup und eine hochkomprimierte direkt flüssigkeitsgekühlte Maschine im 6U-Formfaktor mit frontseitigen NVMe-Bays für extreme KI-Trainingslasten. (Bild:  Dell Technologies)
L wie Liquid: „Dell XE9680L“ ist eine der branchenweit dichtesten x86-Rack-Scale-Serverlsysteme für das Nvidia 8-fach „HGX B200“ GPU-Setup und eine hochkomprimierte direkt flüssigkeitsgekühlte Maschine im 6U-Formfaktor mit frontseitigen NVMe-Bays für extreme KI-Trainingslasten.
(Bild: Dell Technologies)

Die aktuelle Weltspitze für große On-Premises-KI- und HPC-Fabriken hat Dell mit den XE8712 und XE9712 erobert. Beide zielen auf die Bereitstellung maximaler Dichte und Energie-Effizienz für Training und Inferencing von Trillionen-Parameter-Modellen. XE9712 ist Dells Superpod-Hardware für Multi-Rack-KI-Cluster und Trillionen-Parameter-Modelle, speziell für den Betrieb als hochskalierende, vernetzte KI-Fabrik mit Spitzenleistung und -Effizienz

Für rechenintensive KI- und HPC-Workloads bietet Dell mit dem Poweredge XE7745 eine der flexibelsten luftgekühlten On-Premises-System für Deep Learning, Inferencing und generative KI. Das System basiert auf einer offenen PCIe-GPU-Architektur und unterstützt bis zu 288 Gigabyte GPU-Speicher. Es führt wahlweise LLMs oder umfangreiche multimodale Netze aus.

Links im Bild: „Dell Poweredge R760“, ein universeller 2U-Node auf dem „Poweredge XE8545“- GPU-Beschleunigerknoten für HPC/KI basierend, rechts: „Dell Poweredge XE9680“ in luftgekühlter Ausführung mit bis zu acht „Nvidia H100“-Beschleunigern. (Bild:  Dell Technologies)
Links im Bild: „Dell Poweredge R760“, ein universeller 2U-Node auf dem „Poweredge XE8545“- GPU-Beschleunigerknoten für HPC/KI basierend, rechts: „Dell Poweredge XE9680“ in luftgekühlter Ausführung mit bis zu acht „Nvidia H100“-Beschleunigern.
(Bild: Dell Technologies)

Mit IRSS-Architektur (IRSS = Integrated Rack Scalable Systems) kann Dell seine KI-Server bündeln und bis zu 192/256 „Blackwell“-GPUs in einem einzigen Rack bereitstellen. Die Systeme bewältigen sowohl reine On-Premises-Arbeitslasten als auch hybride Szenarien. Sie unterstützen direkte Flüssigkeitskühlung, redundantes Power-Management, bieten Blind-Mate-Anschlüsse und ein flexibles Management für GPUaaS-Szenarien.

Systeme wie die XE-Serie bieten pro Knoten bis zu acht 800-Gigabit-Ethernet-Schnittstellen, verbunden über „Dell Powerwwitch SN5600“ und „Nvidia Spectrum-X/Quantum-X800“. So lassen sich auch verteilte Modelltrainings mit extrem hohem Datenvolumen realisieren.

Rückansicht des „Dell Poweredge XE9680“ in der luftgekühlten Variante: Zwölf Hot-Swap-Lüfter und redundante 2.800-Watt-Netzteile sichern Kühlung und Strom für bis zu acht Nvidia-GPUs.(Bild:  Dell Technologies,)
Rückansicht des „Dell Poweredge XE9680“ in der luftgekühlten Variante: Zwölf Hot-Swap-Lüfter und redundante 2.800-Watt-Netzteile sichern Kühlung und Strom für bis zu acht Nvidia-GPUs.
(Bild: Dell Technologies,)

Für Unternehmen, die ihre KI-Fabriken am liebsten vor Ort betreiben wollen – Stichwort „Edge-to-Core-Deployment“ – bietet Dell kompaktere Edge-Formate an, darunter die robusten „Poweredge XR“-Server. Diese lassen sich direkt in Produktionslinien oder Forschungsumgebungen integrieren, so dass sie dort mit lokalen Daten in Echtzeit rechnen.

Die KI-Systeme von Lenovo

Lenovo setzt bei KI-Fabriken auf eine modulare Plattformstrategie mit validierten Referenzarchitekturen. Alle Systeme sind schlüsselfertig, hochgradig skalierbar und sofort in produktive KI-Landschaften integrierbar.

Für KI-Modelltraining, Inferenz und rechenintensive Industrie-Workloads bietet Lenovo mit dem „Thinksystem SR685a V3“ mit AMD-Prozessoren und dem „Thinksystem SR680a V4“ mit Intel-CPUs zwei eng verwandte Maschinen im 8-U-Formfaktor an.

Ein „Thinksystem SR685a V3“ von Lenovo adressiert anspruchsvolle KI- und HPC-Arbeitslasten.(Bild:  Lenovo)
Ein „Thinksystem SR685a V3“ von Lenovo adressiert anspruchsvolle KI- und HPC-Arbeitslasten.
(Bild: Lenovo)

Der 3U-Server SR675 V3 bleibt der Skalierbarkeits-Champion im Lenovo-Portfolio. Das System bietet bis zu acht Double-Wide-Beschleuniger, „Nvidia H100“/„H200“/„B200“, „L40S“ oder „AMD Instinct MI300X“; alternativ „HGX H200“-Module mit „NVLink“ sowie „Neptune-Hybrid“-Kühlung.

Die Architektur unterstützt bis zu acht Nvidia H100/B200 oder AMD Instinct-Beschleuniger und schafft mit „GPU as a Service“ (GaaS) und Cloud-Bursting flexible Brücken in hybride Szenarien. Die Lenovo-KI-Fabrik kann damit entweder durch kurzfristige On-Prem-Ressourcenerweiterung oder über elastische Auslagerung in Public-Cloud-Umgebungen dynamisch wachsen oder schrumpfen.

Mit „Truscale GPU as a Service“ stellt Lenovo GPU-Leistung im Pay-per-Use-Modell bereit. Die Hardware wird im Rechenzentrum des Kunden installiert und betrieben, bleibt also unter dessen Hoheit. So profitieren Unternehmen von Datensouveränität, geringer Latenz und Investitionsschutz, während sie gleichzeitig die finanzielle Flexibilität eines Cloud-ähnlichen Service-Modells erhalten ohne große Investitionen vorab.

Ein „Lenovo Thinksystem SR780a V3“ unterstützt bis zu acht „H200“ Tensor Core GPUs von Nvidia.(Bild:  Lenovo)
Ein „Lenovo Thinksystem SR780a V3“ unterstützt bis zu acht „H200“ Tensor Core GPUs von Nvidia.
(Bild: Lenovo)

Bei Spitzenlasten oder unvorhersehbarem Ressourcenbedarf kann die On-Premises-Infrastruktur des SR675 V3 dynamisch in die Cloud „aufplatzen“. Lenovo arbeitet hier mit Partnern wie Microsoft (Azure), aber auch mit anderen Hyperscaler.

„Lenovo Lico“ und ergänzende Management-Tools orchestrieren diese Hybridisierung unter Einhaltung sämtlicher Compliance-Vorgaben. So läuft die lokale KI-Fabrik dauerhaft on-Premises, kann aber bei erhöhtem Bedarf nahtlos zusätzliche GPU- und andere Compute-Kapazitäten aus der Cloud anfordern und somit bei Lastspitzen elastisch skalieren.

Im Rahmen der „Hybrid AI Advantage“-Plattformen erhalten Unternehmen komplette, validierte KI-Architekturen. Sie kombinieren Lenovo-Server wie „SR675 V3“, „SR685a V3“und „SR680a V4“ mit Nvidia-GPUs und Netzwerkkomponenten mit einer vollständigen Management- und Software-Suite. Branchenspezifische Lösungen, etwa für die Fertigung, den Einzelhandel oder das Gesundheitswesen, sind über „Lenovo AI Library“ und ein umfassendes Partnerökosystem verfügbar.

Die Hybrid-AI-285-Plattform, eine der fest definierten Plattformen innerhalb des breiten Hybrid AI Advantage-Programms, kombiniert Referenzarchitekturen von Nvidia auf Basis der Blackwell- und Hopper-Serie mit Hardware von Lenovo und integriert optional die Spectrum-X-Netzwerktechnik von Nvidia, „Bluefield“-DPUs und, oder „IBM Watsonx“. Die Zahl 285 steht hierbei für 2 CPUs, 8 GPUs und 5 Netzadapter.

HPE Private Cloud AI

HPE bietet eine KI-Fabrik unter der Bezeichnung „HPE Private Cloud AI“ an. Es ist ein On-Premises-Angebot für den Betrieb auf unternehmenseigener Hardware. Zentrale Alleinstellungsmerkmale umfassen Multi-Tenancy, Mandantenschutz und abgeschottete Netzbereiche (Stichwort: Air-Gapping).

Zwar ist eine Integration von hybriden Modellen über „HPE Greenlake“ möglich, zum Beispiel ein Cloud-Bursting, das Grundkonzept bleibt jedoch konsequent On-Premises und ermöglicht jederzeit einen rein lokalen, abgeschotteten Betrieb. Das HPE-Portfolio an KI-Fabriken umfasst den Server „HPE Cray XD690 Gen2“ sowie „HPE Proliant DL380a Gen12“ und „Proliant DL380a Gen12“.

HPE Cray XD690 Gen2 Server basiert auf Technik der Supercomputing-Sparte von HPE (Cray EX/XD) und ist mit zwei Intel Xeon 6 CPUs und bis zu 6 Nvidia H200/B200 GPUs ausgestattet. Der optional D2C-flüssiggekühlte HPE Proliant DL380a Gen12 kommt mit zwei AMD Epyc 9004/9005 und bis zu acht Nvidia B100/H100 oder AMD MI300X daher. Der Proliant DL380a Gen12 verfügt über zwei „AMD Epyc Bergamo“- CPUs und bis zu vier GPUs und ist für Energie-effiziente KI-Inferenz konzipiert.

Den KI-Sever „HPE ProLiant Compute XD685-L„“ ist mit Direct-Chip-Cooling versehen. Er sit mit  acht Nvidia-Beschleunigern versehen. (Bild:  HPE)
Den KI-Sever „HPE ProLiant Compute XD685-L„“ ist mit Direct-Chip-Cooling versehen. Er sit mit acht Nvidia-Beschleunigern versehen.
(Bild: HPE)

Ergänzt werden die Systeme durch „HPE Alletra X10000“- Storage, optimiert für KI-Datenpipelines, und ein Netzwerk mit 400 bis 800 GbE-Anbindung. Diese Architektur ermöglicht hochskalierbares, datensouveränes KI-Modelltraining auf Weltklasseniveau und adressiert besonders regulierte Branchen.

*Das Autorenduo

Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.

Der Shift zu On-Premise-KI wird durch drei Hauptfaktoren angetrieben:

Erstens steigen Cloud-Kosten bei kontinuierlichen KI-Workloads exponentiell.

Zweitens fordern regulierte Branchen (Finanzwesen, Healthcare, Government) ein Grad an Datenkontrolle und Compliance, welches eigene Infrastrukturen bevorzugt.

Drittens können moderne KI-Fabriken mit niedrigeren Latenzen und höherer Performance trumpfen.

Dell Technologies positioniert sich mit seinen KI-Fabriken als unbestrittener Innovationsführer hyperskalarer Leistung mit unübertroffener Systemdichte. Mit der disaggregierten IRSS-Architektur und Infrastrukturangeboten wie dem „Poweredge XE8712“ mit 144 „Nvidia Blackwell“-GPUs pro Rack oder „XE9712„“ mit bis zu 72 GPUs als „Superpod“ setzt das Unternehmen Maßstäbe.

Lenovo verbindet dynamische Skalierbarkeit mit Kosteneffizienz. Das „Truscale“-GPUaaS-Modell ermöglicht die Bereitstellung von GPU-Ressourcen im Pay-per-Use-Modell direkt im eigenen Rechenzentrum. Cloud-Bursting ermöglicht hybride Skalierbarkeit unter Wahrung von Datensouveränität.

HPE setzt mit der „Private Cloud AI-Plattform“ auf sichere, mandantenfähige KI-Infrastrukturen. Die Kombination aus „HPE Compute XD690“, „Proliant DL380a Gen12 AI Optimized“ und bis zu 16 „Nvidia H200“-GPUs pro Server adressiert explizit regulierte Branchen mit strengen Compliance-Anforderungen.

(ID:50491595)