KAYTUS

https://www.kaytus.com/de

24.06.2026

ISC 2026: KAYTUS präsentiert mit „KSManage Ultra“ eine intelligente KI-Managementplattform im Rack-Maßstab

Plattform bietet umfassende Transparenz, integriertes In-Band- und Out-of-Band-Systemmanagement, beseitigt Leistungsengpässe und maximiert die Effizienz von KI-Fabriken.

Hamburg/Singapur, 24. Juni 2026 – KAYTUS, ein führender Anbieter flüssigkeitsgekühlter KI-Infrastrukturlösungen, präsentiert auf der ISC High Performance (Hamburg) mit „KSManage Ultra“ seine intelligente Infrastrukturmanagement-Plattform der nächsten Generation, die speziell für sogenannte KI-Fabriken (AI Factories) entwickelt wurde. So wurde KSManage Ultra für die neuesten hochdichten KI-Racks designed und ermöglicht ein einheitliches, intelligentes Management wichtiger Rack-Komponenten, darunter Rechen-Trays, Switch-Trays, Stromverteilungseinheiten (PDUs) und Kühlverteilungseinheiten (CDUs). Dank durchgängiger Transparenz, Diagnosen auf Leistungsebene und automatisierten Abläufen ermöglicht die Plattform statt einer lediglich fragmentierten Überwachung hochgradig vernetzter KI-Infrastrukturen voll integrierte Kontrollabläufe auf Systemebene. So hilft sie Unternehmen effizientere, zuverlässigere und nachhaltigere KI-Infrastrukturen aufzubauen.

Drei Hauptherausforderungen beim Betrieb herkömmlicher KI-Systeme

Im Vergleich zu traditionellen Rechenzentren weisen KI-Rechenzentren eine deutlich höhere Komplexität auf, wie die Verwaltung von KI-Systemen im Rack-Maßstab, komplexe Netzwerktopologien, schwierige Fehlererkennung sowie Sicherheitsanforderungen an die Flüssigkeitskühlung. Infolgedessen birgt der Betrieb von KI-Rechenzentren drei Hauptherausforderungen:

· Erstens: Anders als traditionelle 4U-Bereitstellungen mit 8 GPUs, integrieren NVL72-Systeme im Rack-Maßstab fast hundert Beschleuniger und Tausende von Hochgeschwindigkeitsverbindungen. In einem 100-kW-Rack kann die Leistungsdichte zwei- bis dreimal höher sein[i], während das Wärmemanagement deutlich komplexer wird und das Monitoring von Kühlmittel, CDUs, Durchflussraten und damit verbundenen Sicherheitskontrollen umfasst. Da KI-Fabriken weiter skalieren, steigt deren Komplexität stark an, und Schwankungen bei einzelnen Komponenten können die Leistung und Stabilität des gesamten Racks beeinträchtigen.

· Zweitens: Reicht die Fehlererkennung mittlerweile über die Hardware-Ebene hinaus. Workloads für KI-Training und Inferenz reagieren sehr empfindlich auf Leistungsschwankungen, und verborgene Anomalien können die operative Effizienz erheblich beeinträchtigen. Im Gegensatz zu herkömmlichen, mit Ausfallzeiten verbundenen Fehlern tritt eine Leistungsminderung in KI-Systemen oft unbemerkt auf. Da diese Leistungsprobleme eng mit der zugrunde liegenden Hardware und Infrastruktur verbunden sind, kann es schwierig sein, die tatsächliche Ursache zu ermitteln, wenn man sich allein auf isolierte Daten der Workload- oder der Infrastrukturseite stützt.

· Drittens: Sehen sich KI-Fabriken aufgrund der zunehmenden Skalierung der Implementierungen mit einer wachsenden betrieblichen Ineffizienz konfrontiert. Die herkömmliche Einbindung einzelner Geräte ist ineffizient, verlangsamt die Bereitstellung und erhöht das Risiko von Konfigurationsinkonsistenzen. Gleichzeitig sind herkömmliche Konfigurationsmethoden zeitaufwendig und fehleranfällig. Da in jedem KI-Rack mehrere Gerätetypen integriert sind, können selbst geringfügige Konfigurationsabweichungen zu einer clusterweiten Leistungsminderung oder zu Betriebsunterbrechungen führen.

KAYTUS entwickelt integrierte, intelligente Plattform für KI-Fabriken

Traditionelle Betriebsmodelle, die auf manuellen Prozessen oder fragmentierten Tools basieren, schränken also häufig die Entwicklung und den großflächigen Einsatz von KI-Anwendungen ein. Um den Betrieb und die Verwaltung von KI-Rechenzentren zu vereinfachen, hat KAYTUS KSManage Ultra eingeführt. Die Plattform bietet ein integriertes Management über den gesamten Infrastruktur-Stack hinweg und umfasstKomponenten, Knoten, Racks, Cluster sowie Rechenzentrumsebene, indem sie In-Band- und Out-of-Band-Managementpfade miteinander verbindet sowie IT-Infrastruktur und physische Infrastruktur korreliert. Sie repräsentiert den Wandel vom reaktiven Rechenzentrumsbetrieb hin zu proaktiven Warnmeldungen und unterstützt Kunden dabei, intelligente Funktionen für die Überwachung, Diagnose, Fehlerisolierung und vollständige Wiederherstellung in komplexen KI-Umgebungen aufzubauen.

Kompletter Status des KI-Rechenzentrums auf einem Bildschirm

KSManage Ultra bietet ein einheitliches Full-Stack-Management sowohl für traditionelle Infrastrukturen als auch für moderne KI-Rack-Systeme. Die Plattform ermöglicht die zentralisierte Verwaltung von GPUs, CPUs, Arbeitsspeicher, Hochgeschwindigkeits-Switching-Modulen, Verwaltungsnetzwerken, Stromversorgungsmodulen, CDUs, Flüssigkeitskühlsystemen, Racks und Cluster-Ressourcen. Durch die Aufhebung der Abgrenzungen zwischen IT und physischer Infrastruktur sowie zwischen einzelnen Komponenten und kompletten Racks, schafft KSManage Ultra eine mehrstufige Ressourcenansicht, die Komponenten, Knoten, Racks, Cluster und das gesamte Rechenzentrum umfasst.

Dank der einheitlichen Plattform können Kunden das wiederholte Wechseln zwischen mehreren IT-Systemen vermeiden und einen effizienten Produktionsbetrieb und -einsatz gewährleisten.

Integriertes In-Band- und Out-of-Band-Management für proaktive Fehlerbehebung

KSManage Ultra konsolidiert In-Band-Daten – wie Betriebssysteme, Treiber, Anwendungen und Leistungsdaten – mit Out-of-Band-Daten wie BMC-, Firmware-, Stromversorgungs-, Temperatur- und Hardware-Protokollen sowie Infrastrukturdaten in einem einzigen einheitlichen Managementsystem. Dies ermöglicht Korrelationsanalysen über Betriebsstatus, Hardwarezustand, Verbindungstopologie, Stromversorgung und Flüssigkeitskühlungsbedingungen hinweg und erlaubt statt reaktiver Maßnahmen proaktive Warnmeldungen. Wenn das System GPU-Anomalien, sinkende Verbindungsqualität, Schwankungen bei der Flüssigkeitskühlung oder einen sich verschlechternden Knotenzustand erkennt, kann es gefährdete Knoten proaktiv identifizieren und Kunden dabei unterstützen, Ressourcen zu isolieren, abzuwarten oder neu zu konfigurieren, wodurch verhindert wird, dass fehlerhafte Knoten in kritische Abläufe gelangen.

So unterstützt etwa KSManage Ultra bei der Überwachung der Flüssigkeitskühlung eine dreistufige Leckageerkennung auf Knoten-, Rack- und Kreislaufebene. Sobald ein Leckagerisiko erkannt wird, kann die Plattform die Sicherheitsabschaltung, das Schließen von Magnetventilen und die Isolierung von Knoten koordinieren und gleichzeitig E-Mail-Warnmeldungen auslösen, Arbeitsaufträge generieren sowie Maßnahmen zur Behebung im geschlossenen Kreislauf einleiten. Dies hilft Kunden dabei, proaktive Betriebsprozesse auf Systemebene für KI-Rack-Systeme aufzubauen.

Agile Echtzeit-Überwachung und Zuweisung von Rechenleistungsressourcen

KSManage Ultra wurde für Einsatzszenarien mit mehreren Racks entwickelt und bietet Funktionen zur Erkennung des Ressourcenzustands sowie zur Fehlerisolierung.

Die Plattform hilft Kunden dabei, sich einen klaren Überblick über die verfügbaren Ressourcen zu verschaffen – darunter, welche Knoten aus dem Betrieb genommen werden sollten, welche Racks weiterhin für den kombinierten Einsatz geeignet sind, welche Ressourcen für Trainings- und Inferenz-Workloads bereitstehen und welche Ressourcen in Wartungsprozesse überführt werden sollten. Dadurch können Kunden kontinuierlich einen stabilen Zustand der Rechenumgebung aufrechterhalten, was die Geschäftskontinuität der KI-Fabrik und die Ressourcenauslastung verbessert.

Onboarding, Konfiguration und automatisierter Full-Stack-Betrieb in Minuten

KSManage Ultra unterstützt das One-Click Batch Scanning (Stapelverarbeitung mit einem Klick) und das automatische Hinzufügen von Knoten. Durch die intelligente Erkennung von Geräteseriennummern und IP-Adressen erstellt die Plattform automatisch Topologiezuordnungen zwischen Knoten und Racks, wodurch sich die Onboarding-Zeit für ein einzelnes Rack von den üblichen 50 Minuten auf weniger als 3 Minuten verkürzt. Darüber hinaus unterstützt die Plattform One-Click Batch Stresstests auf L10- und L11-Ebene, wodurch sich die Lokalisierung der Fehlerursache von Stunden auf Minuten verkürzt. Zudem ermöglicht sie die automatisierte Initialisierung und Konfiguration im Rack- Maßstab, einschließlich Treiberinstallation, Hardwarekonfiguration und Softwarebereitstellung, die alle auf Basis von Vorlagen stapelweise durchgeführt werden können. Durch die deutliche Verbesserung der betrieblichen Effizienz und die gleichzeitige Gewährleistung konsistenter clusterinterner Hardwareumgebungen reduziert KSManage Ultra effektiv das Risiko von Leistungsschwankungen oder Fehlern, die durch Konfigurationsabweichungen verursacht werden.

Als umfassende, einheitliche Plattform für KI-Fabriken zeichnet sich KSManage Ultra durch eine offene und hochkompatible IT-Architektur aus. Über offene APIs lässt sie sich nahtlos in übergeordnete Systeme wie Planungsplattformen und CMDBs integrieren und ermöglicht gleichzeitig die einheitliche Verwaltung heterogener Geräte der unteren Ebene, darunter Server, Netzwerkgeräte, Stromversorgungsinfrastruktur und Kühlsysteme. Dies ermöglicht eine zentralisierte Verwaltung der gesamten Rechenzentrumsumgebung. Die Plattform wurde entwickelt, um Unternehmen eine einheitliche Verwaltung sowie einen intelligenten Betrieb heterogener IT-Infrastrukturen zu ermöglichen, und bietet damit eine solide Grundlage für den stabilen und effizienten Betrieb von KI-Fabriken.

[i] Herkömmliche HGX H100/H200 4U-Server mit 8 GPUs unterstützen in der Regel 4 bis 8 Einheiten pro 42U-Rack, was zu einer Leistungsaufnahme auf Rack-Ebene von etwa 40 bis 80 kW führt. Im Gegensatz dazu können GB200 NVL72-Racks 120 kW überschreiten, was eine etwa 2- bis 3-fache Steigerung der Leistungsdichte zur Folge hat.