Mehr Rechendichte fördert Leistung bei gesteigerten Anforderungen und Kosten. Das Uptime Institute schätzt, dass mit stärker verteilten GPU-Architekturen auch Bestandsrechenzentren effizient KI-Modelle trainieren können. Unklarheit besteht allerdings durch fehlende Vergleichs-Benchmarks und eine schwer berechenbare Marktdynamik.
Laut Uptime Institute-Schätzungen können stärker verteilte GPU-Architekturen auch Bestandsrechenzentren mit Luftkühlung Zugang zu anspruchsvollen KI-Workloads verschaffen.
(Bild: ChatGPT 5)
Während das Training der größten Sprachmodelle wohl auch weiterhin gigantischen KI-Fabriken vorbehalten sein wird, werden bei der Entwicklung und Anpassung eher leichtgewichtiger und spezialisierter Modelle Kapazitäten für jenseits der Hyperscaler-Welt auch für Training-Workloads gefragter.
Dabei basiert die Performance aktueller KI-Hardware auch auf einer immer höheren Rechendichte. Es geht dabei nicht nur um mehr Halbleiter auf einem Chip, sondern auch um kürzere Signalwege und geringere Latenzen zwischen Schlüsselkomponenten.
Doch bis zu welchem Punkt bedeutet mehr Rechendichte auch mehr Kosten- und Betriebseffizienz? Sind wir an einem Punkt angelangt, an dem zwar hochdichte GPU-Racks klar die maximale Leistung bieten, aber stärker verteilte Ansätze KI-Workloads auch für Bestandsrechenzentren attraktiv machen können?
„Die meisten Organisationen werden feststellen, dass die Auswahl des passenden Grades an Rechendichte alles andere als trivial ist“, betont Daniel Bizo, Research Director des Uptime Institute, in einem Intelligence Update. „Der Balancepunkt [zwischen Leistung] und Kosten ist [oft] unklar. Ein Maß an Verdichtung kann mehr Performance bei geringeren Kosten liefern, wie Datacenter-Spezialisten intuitiv wissen. Doch starke Verdichtung verursacht zusätzliche Kosten für IT-Hardware wie auch für infrastrukturelle Aufrüstung“.
Nur wenige Datacenter schaffen 132 Kilowatt pro Rack
„Nvidia GB200 NVL72“-Racksysteme bringen 72 „Blackwell“-GPUs in einem flüssigkeitsgekühlten 19-Zoll-Rack unter.
(Bild: Nvidia)
Ein einleuchtendes Beispiel ist die aktuelle Generation der KI-Beschleuniger von Nvidia. Ein „NVL72“-System bringt 72 „Nvidia Blackwell“-GPUs in einem herkömmlichen 19-Zoll-Rack unter. Die Leistungsaufnahme? Bis zu 132 Kilowatt pro Rack.
Bei solchen Rechendichten ist Flüssigkeitskühlung für die Hauptkomponenten Pflicht. Jedes Rack stellt zudem nicht nur die Stromversorgung auf eine Belastungsprobe, sondern – mit je 1,4 Tonnen Gewicht – auch die Traglasten der Doppelböden.
Gewiss können auch Datacenter jenseits der Hyperscaler für Training-Workloads neu geplant werden. Bei den Bestandsrechenzentren sieht die Lage aber anders aus: 2024 gaben nur ein Prozent der Betreiber in einer Befragung für den „Uptime Institute Global Data Center Survey“ an, Racks mit über 100 Kilowatt Leistung einzusetzen.
Kann eine geringere Dichte helfen, KI-Hardware alltagstauglicher zu betreiben? Das Auszeichnungsmerkmal von „NVL72“-Systemen ist die Kommunikation aller 72 GPUs untereinander über die besonders schnelle Kupferverbindung „Nvlink“. Nutzt man stattdessen weniger rechendichte Racks mit 8 Servern à 8 GPUs, sinkt zwar die Maximalleistung pro Rack auf eher zu bewältigende 80–90 Kilowatt bei einem Drittel weniger Gewicht, Performance-Verluste durch die Kommunikation der Server untereinander über Glasfaser statt Nvlink machen den Ansatz aber wirtschaftlich unattraktiv.
Obwohl die reine GPU-Leistung im Vergleich zu „NVL72“-Systemen lediglich um 11 Prozent geringer ausfällt, braucht man laut Schätzungen des Uptime Institute geradezu „50 Prozent mehr Racks für die gleiche Leistung“ und um 25 Prozent mehr GPUs (960 statt 720). „Hardware- und Netzwerkkosten werden Einsparungen bei Stromversorgung und Kühlung deutlich übersteigen“, so Bizo. Dieser Weg wäre allenfalls für solche Geschäftsfälle interessant, wo einige eingesparte Wochen durch die Installation weniger anforderungsvoller Systeme entscheidend sind.
Mit größerer Verteilung ist KI-Training auch im Bestandsrechenzentrum möglich
Die Schätzungen des Uptime Institute von Rechendichte-Optionen verschiedener GPU-Architekturen bei vergleichbarer Leistung.
(Bild: Uptime Institute)
Die Kalkulation ändert sich allerdings, wenn man GPUs noch stärker verteilt. Ein Rack mit maximal vier Servern à acht „Blackwell“-GPUs verbraucht zum einen unter 50 Kilowatt und kann mit guter infrastruktureller Vorbereitung effektiv mit Luft gekühlt werden, so dass für viele Bestandsrechenzentren erst damit Training-Workloads greifbar werden.
Zum anderen bräuchte man in diesem Fall laut Uptime Institute-Schätzungen weniger GPUs insgesamt als in der 64-GPU-Konfiguration (864 statt 960), um eine mit „NVL72“ vergleichbare Performance zu erreichen. Zusammen mit den geringeren Strom- und Kühlungsanforderungen könnten die Einsparungen für viele Rechenzentren die schiere Zahl benötigter Racks (27 im Vergleich zu 10 „NVL72“-Systemen) ausgleichen. Mit solchen verteilten Architekturen könnten sich Bestandsrechenzentren auch an komplexere Modelle heranwagen.
Wo schon für das verteilte Modell-Training zwischen Rechenzentren, wie es die Hyperscaler in großem Stil einsetzen, erst wenige Benchmarks öffentlich verfügbar sind, wurden zu den tatsächlichen Performance-Verlusten durch verteilte Architekturen innerhalb eines Rechenzentrums, soweit ersichtlich, bislang keine belastbaren Metriken publiziert.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die vom Uptime Institute angestellten Schätzungen sind zwangsläufig tentativ. Bislang „reichen die öffentlich verfügbaren Daten nicht aus, um fundierte Abwägungsentscheidungen zwischen Leistungsfähigkeit, Kosten und Bereitstellungsgeschwindigkeit von KI-Compute-Clustern zu treffen“, räumt Bizo ein, diese seien aber angesichts des KI-Booms dringend gefragt. Bizo und das Uptime Institute werden sich verstärkt ihrer Erforschung zuwenden.
„Ein klassisches unmögliches Dreieck“
Reaktionen zu Perspektiven verteilter KI-Trainingslasten auf Betreiber- und Herstellerseite fallen auf Anfrage von DataCenter-Insider gemischt aus. Akzeptiere man deutliche Einschränkungen, könne Daniel Bizos Rechnung durchaus aufgehen, meint Abel Liu, AI Infrastructure Architect beim Singapurer Netzwerkkomponenten-Hersteller Naddod. So bieten „in lebensnahen Szenarien in Enterprise- und Colocation-Umgebungen Architekturen auf Basis von HGX- oder PCIe-GPU-Servern oft einen praktischeren Kompromiss zwischen Kosten und Leistung“ als hochdichte GPU-Racks.
Gewiss müssen Entwickler dann „deutliche Einschnitte in der Gesamtleistung für KI-Workloads“ hinnehmen, könnten aber dennoch auch Trainings-Workloads auf „Hardware mit geringerer Leistung, geringerem Stromverbrauch [und] bei kleineren Clustern“ in „älteren Rechenzentren [oder] an Standorten mit begrenzter Stromverfügbarkeit“ betreiben.
„Ultra-Scale-Cluster wie NVL72 oder sogar NVL576“ hingegen würden auch weiterhin vor allem dann ideal sein, wenn „das Budget keine Rolle spielt“ und „man extreme Leistung anstrebt. Dann muss man auch die Konsequenzen einer hohen Leistungsdichte akzeptieren, darunter erhöhte Anforderungen an Kühlung und Stromversorgung sowie die Notwendigkeit von Investitionen in innovative Infrastruktur-Designs“.
Training fordert Verdichtung, bei Inferenz ist die Welt entspannter
Joachim Astel, Mitgründer und Vorstand beim Datacenter-Betreiber Noris Network hingegen verweist zwar auf klare Vorteile verteilter GPU-Architekturen bei Inferenz-Workloads, betont aber auch eine weiterhin deutliche Grenze zwischen flexiblerer Inferenz und maximal leistungsdichter Hardware für Trainingsaufgaben. „Bei Modell-Berechnungen sind die aktuellen Entwicklungen von immer höherer Verdichtung natürlich sehr zielführend. Kürzere Abstände zwischen einzelnen KI-Chips sorgen für niedrigere Latenzen und damit für höhere Rechengeschwindigkeiten“.
Das sei auch heute keine alleinige Domäne von Hyperscalern mehr. Denn die Anwender in verschiedenen Branchen wie „Automotive, Banking, Public Sector, Berufsgeheimnisträger und viele mehr eint das Thema Datensouveränität. Die Daten dürfen nicht in einer Hyperscaler-Cloud landen, da oftmals Modelle mit sehr sensitiven Daten genutzt werden sollen“.
So habe Noris Network auch im Colocation-Bereich „schon Erfahrungen mit der aktuellen Nvidia B100/B200/GB200 Generation und einer Leistungsdichte von circa 130 Kilowatt pro Rack“. Dafür nutzt Noris dicht platzierte Dell-Racks mit Wasserkühlung. „Wir haben uns darauf spezialisiert und liefern ‚von der Stange‘ KI-Container mit 600 Kilowatt Verbrauch zusammen mit entsprechenden Serverschränken sowie Strom- und Klimatechnik schlüsselfertig auf den Campus des anfragenden Unternehmens oder der Behörde“. So würde sich für das eigentliche Training auch weiterhin eine maximal leistungsdichte Architektur für die Kunden lohnen.
Ein Rack für luftgekühlte GPU-Server mit einer Maximallleistung von 50 kVA für Inferenz-Workloads bei Noris Network.
(Bild: Noris Network)
Hingegen sei bei Inferenz, vor allem bei Nutzerzahlen unter 10.000, „die Welt viel entspannter. Hier muss man nicht so hoch verdichten, weil die einzelnen KI-Karten unabhängig voneinander für verschiedene Nutzungsszenarien arbeiten. Diese könnte man in einem Rechenzentrum verteilen oder wie in unserem Fall aktuell bis zu 30 oder im Einzelfall 50 Kilowatt pro Rack dimensionieren.
Das geht in unserem Fall mit Luft-Kühlung, da wir dank ‚Kyoto Cooling‘-Konzept mit hohen Luftvolumenströmen innerhalb der Rechenzentrumshalle kühlen“. Die Variante einer indirekten freien Kühlung mit Einsatz eines rotierenden Wärmerads fordert keine anspruchsvolle Luftführung und kann auch bei hohen Außentemperaturen eine hohe Kühlleistung bereitstellen. „Dadurch haben wir keine Hotspots durch hohe Hitzelast bei KI-Verbrauchern wie in klassischen Rechenzentren“.
Hohe Rechendichte reduziert auch Umwelt-Footprint
Zugleich würden bei beiden Arten von Workloads, bei Traning wie Inferenz, „Rechenzentren natürlich das Bestreben haben, möglichst wenig Fläche für genutzte IT-Hardware zu verwenden, um den Footprint für das Environment gering zu halten“, so Astel. Ihr Interesse decke sich hier durchaus mit der Tendenz von Nvidia, „seine hohe Integrationsdichte stärker zu fokussieren, weil durch die hohe Integration natürlich die Preise in der Herstellung fallen“.
Jenseits der Entwicklung verteilter Architekturen sieht Astel deutlichere Potenziale bei einer effizienteren Wasserkühlung, wo aus Noris-Perspektive „noch einige Optimierungsmöglichkeiten bestehen. Hier ist ‚German Engineering‘ gefragt“. Dass auch deutsche Unternehmen klare Nischen im KI-Wettbewerb besetzen können, würden dabei solche „Hidden Champions“ wie Zeiss SMT und Trumpf zeigen, welche entscheidende Bestandteile von EUV-Lithographie-Systemen herstellen und so unverzichtbar für die Produktion miniaturisierter Halbleiter für KI-Chips sind.
Entwicklungsdynamik von KI-Architekturen schwer absehbar
In Bezug auf beides, Kühlung wie Hardware-Architekturen, bestehen allerdings weiterhin große Unsicherheiten über künftige Dynamiken, warnt Astel. Möglichst flexible Projekte seien „für die heutige Zeit die intelligenteste Planung, da man aktuell wirklich noch nicht absehen kann, wie die weitere Entwicklung konkret aussehen wird“. So werde auch „unser neuer Rechenzentrums-Bauabschnitt BA3 in Nürnberg-Süd modular aufgebaut werden“. Das ermögliche es Noris, „je nach Energiedichte-Anforderung von KI die Rechenzentrumskapazität dynamisch auszustatten“.
Die Frage, bis zu welchem Punkt genau sich mehr Rechendichte für KI-Workloads lohnt und wann stärker verteilte Architekturen Sinn machen, bleibt so weiterhin offen, zumindest jenseits der maximal leistungshungrigen Foundation Models. Praktische Erfahrungen mit stärker verteilten KI-Architekturen werden aber gewiss je stärker zunehmen, je mehr nicht nur Inferenz-Aufgaben, sondern auch das (Nach-)Training spezialisierter Modelle jenseits von Hyperscaler-Rechenzentren zum Unternehmensalltag gehören wird.