Kaytus verspricht beschleunigte Fehlerdiagnose in KI-Rechenzentren Ksmanage 3.0 korreliert Hardware-Anomalien mit KI-Workloads

Quelle: Pressemitteilung Kaytus 1 min Lesedauer

Anbieter zum Thema

Kaytus stellt die Version 3.0 der Plattform für Datacenter-Monitoring und -Management „Ksmanage“ vor. Das System kann nun die Hardware-Auslastung mit spezifischen KI-Aufgaben korrelieren. Damit sei die präzise Identifikation von Fehlern beim Modelltraining oder auch die Vorhersage der Ausfallwahrscheinlichkeit von Komponenten möglich.

„Ksmanage“ überwacht Server, Hardware-Komponenten und KI-Workloads für eine automatisierte Fehlererkennung und Vorbeugung von Ausfällen.(Bild:  Kaytus)
„Ksmanage“ überwacht Server, Hardware-Komponenten und KI-Workloads für eine automatisierte Fehlererkennung und Vorbeugung von Ausfällen.
(Bild: Kaytus)

Der Singapurer Infrastrukturanbieter Kaytus positioniert Ksmanage mit dem Update als dedizierte „Management-Plattform für KI-Rechenzentren“. Das Monitoring umfasst nun vier statt vormals drei Ebenen. Zu der Überwachung von Komponenten, Servern und Cluster kommt in Ksmanage 3.0 auch das Monitoring von KI-Workloads hinzu.

Auch die Unterstützung von Hardware-Komponenten der KI-Infrastruktur wurde erweitert . Sie ermöglicht nun eine Überwachung von Auslastung, Videospeichernutzung, Stromverbrauch und Temperatur verschiedener GPUs und DPUs (Data Processing Units).

Auswertung von Betriebsereignissen und Netzwerkprotokollen

In Verbindung mit der Analyse von KI-Workload-Pfaden über mehrere Hardware-Nodes soll eine integrierte und dynamische „End-to-End“-Darstellung der Ressourcenverteilung und -Nutzung möglich sein. Die Plattform bezieht dafür Betriebsereignisse und Netzwerkprotokolle ein und erstellt dynamische 3D-Modelle der Ressourcenzuweisung.

Mit einer detaillierten Auswertung der Korrelationen zwischen KI-Aufgaben und Hardware-Nutzung soll sich KSmanage von Ansätzen einer isolierten IT-Überwachung abheben und eine schnelle und automatisierte Fehlererkennung ermöglichen. Der Hersteller spricht von einer um bis zu 90 Prozent höheren Effizienz bei der Fehlerbehebung.

Frühwarnung vor Hardware-Ausfällen

Die Plattform analysiert zudem Leistungstrends von Komponenten und soll frühe Anzeichen für abnormalen Verschleiß identifizieren können. Dadurch könne Ksmanage Hardware-Ausfälle bis zu einer Woche im Voraus vorhersagen., so der Anbieter. Zudem ermögliche das detaillierte Telemetrie-Monitoring, die Auslastung von Kernkomponenten zu kontrollieren, um das Ausfallrisiko von vornherein zu minimieren.

Ein erweitertes Netzwerk-Monitoring in Ksmanage 3.0 umfasst Bandbreite, Latenz und Paketverluste. Dies soll gerade bei den hohen Netzwerkansprüchen von KI-Hardware die genaue Identifikation von Ursachen für Unterbrechungen im Modelltraining oder übermäßige Ressourcennutzung gewährleisten.

Kaytus zufolge erkenne die Plattform mithilfe detaillierter Wissensdiagramme bis zu 90 Prozent der Anomalien in unter fünf Minuten. Insgesamt verspricht der Anbieter um bis zu 40 Prozent niedrigere Kosten für Betrieb und Wartung eines KI-Rechenzentrums.

(ID:50739266)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung