Performance bei der Entwicklung von KI-Modellen entscheidend

KI-Experte Louis Tian, CTO von KAYTUS im Interview (2) Performance bei der Entwicklung von KI-Modellen entscheidend

16.09.2024 Von Louis Tian 5 min Lesedauer

Anbieter zum Thema

Vertiv GmbH

VON ZUR MÜHLEN'SCHE GmbH

DeRZ - Deutsche Rechenzentren GmbH

Herausforderungen in Sachen KI-Entwicklung: Im zweiten Teil des Interviews beantwortet Louis Tian, CTO von KAYTUS zentrale Fragen rund um KI-Entwicklungsplattformen und gibt Einblicke in die neuesten Trends, die den Markt in den kommenden Jahren prägen werden.

Die Geschwindigkeit der Datenübertragung spielt bei der Entwicklung und dem Training von KI-Modellen eine gewichtige Rolle.(Bild: © AndErsoN - stock.adobe.com) — Die Geschwindigkeit der Datenübertragung spielt bei der Entwicklung und dem Training von KI-Modellen eine gewichtige Rolle.
(Bild: © AndErsoN - stock.adobe.com)

Welche Rolle die Geschwindigkeit der Datenübertragung bei der Entwicklung und dem Training von KI-Modellen spielt, beleuchtet der zweite Teil des Interviews mit dem KI-Experten Louis Tian, CTO von KAYTUS. Außerdem: die Besonderheiten beim Lifecycle-Management, die Wichtigkeit automatischer Fehlertoleranz und abschließende Trendprognosen.

Welche Rolle spielt die Geschwindigkeit der Datenübertragung bei der Entwicklung und dem Training von KI-Modellen und welche Techniken können dies beschleunigen?

Die Entwicklung und das Training von KI-Modellen erfordern unterschiedliche Datentypen, und die Trainingsdaten müssen für ein paralleles Training von den Laufwerken in den Arbeitsspeicher sowie den Grafikspeicher eingelesen werden. Somit ist die Datenübertragungsrate ein Faktor, der die Gesamteffizienz des Modelltrainings beeinflusst. Ineffiziente Datenerfassung führt zu einer unzureichenden Nutzung der GPU- und CPU-Ressourcen, was eine Verschwendung von Rechenressourcen darstellt. Eine angemessene Datenlesungseffizienz kann die Leistung von GPUs und CPUs maximieren und die gesamte Iterationseffizienz von KI-Modellen verbessern.

In großen Clustern werden die Daten in der Regel auf externen Speicherknoten auf Unternehmensebene und nicht vollständig auf GPU-Geräten gespeichert. In diesem Fall ist während der Entwicklung und des Trainings von KI-Modellen eine Fernübertragung der Trainingsdaten erforderlich, und die Fernübertragungsrate ist der größte Leistungsengpass im Trainingsprozess.

Wir empfehlen zwei Möglichkeiten zur Beschleunigung der Datenübertragung:

Der direkteste Weg ist die Optimierung der Netzwerkstruktur und die Ermöglichung von Multiprotokoll-Integration und -Verbindung, z. B. durch den Aufbau eines speziellen Datenübertragungsnetzwerks im Cluster. Dadurch kann die Datenübertragungsrate bis zu einem gewissen Grad erhöht werden. Die große Bandbreitenlücke zwischen der Datenübertragung und dem Arbeitsspeicher sowie dem Grafikspeicher wird jedoch immer noch zu einem großen Engpass beim Lesen der Daten führen.

Das Lesen von Daten aus dem lokalen Speicher auf den Knoten kann dieses Problem im Wesentlichen lösen. KI-Systeme sollten die Datennutzung im Voraus entsprechend den Merkmalen und Anforderungen der Modellentwicklung planen. Ein KI-System kann zum Beispiel einen lokalen Rechencache verwenden, um die Daten im gemeinsamen Speicher auf einem lokalen Rechenknoten zwischenzuspeichern und so die Bandbreitenbeschränkungen des gemeinsamen Speichers zu umgehen. KAYTUS MotusAI Lösung wendet diese Strategie an und verbessert so die Effizienz des Datentrainings um das Zwei- bis Dreifache.

Was sind die Besonderheiten des Lifecycle-Managements von KI-Modellen und -Services und welche Rolle spielen sie bei der Verbesserung und Anpassung von KI-Anwendungen?

Das vollständige Lifecycle-Management von KI-Modellen und -Services umfasst: Datenmanagement, Modellentwicklung, Modelltraining, Modellbewertung, Modellbereitstellung und Servicemanagement. Generell geht es darum, verschiedene Daten und Rechenressourcen zu nutzen, um ein Modell zu trainieren und die von den Anwendungen generierten Geschäftsdaten und Rückmeldungen zu nutzen, um das KI-Modell zu iterieren.

Das Lifecycle-Management von KI-Modellen und -Services hat vor allem folgende Aufgaben: Bereitstellung von Ressourcen, IT-Umgebungen, Prozessen und Tools zur weiteren Standardisierung und Erleichterung der Entwicklung sowie des Einsatzes von KI-Modellen und KI-Anwendungen. Zudem dient es der Unterscheidung zwischen verschiedenen Lebenszyklusphasen, um spezifische Modell- und Datenverwaltungsmodi einzurichten, sodass verschiedene Experten wie Datenwissenschaftler, Geschäftsmitarbeiter und Cluster-Administratoren ihre eigenen Aufgaben erfüllen können. Das Lifecycle-Management ist darauf ausgelegt, die Modellleistung zu verbessern, sodass sichergestellt werden kann, dass die Entwicklung von KI-Modellen und die Geschäftsentwicklung bereits in der Planungsphase nachhaltig sind.

Wie wichtig ist die automatische Fehlertoleranz in KI-Systemen und wie kann sie realisiert werden?

Wenn das Training eines umfangreichen Modells unterbrochen wird, ist es zeitaufwändig und arbeitsintensiv, in den Trainingsprozess einzugreifen und das Trainingsmodell zu reorganisieren. Da das Trainingsvolumen großer Modelle, das Datenvolumen und die Anforderungen an die Szenarien zunehmen, kann eine automatisierte Fehlertoleranz die Unterbrechungszeit beim Training großer Modelle reduzieren und den Verlust von Arbeits- und Zeitkosten bei den Trainings- und Inferenzprozessen großer Modelle verhindern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Automatisierte Fehlertoleranz kann auf folgende Weise erreicht werden:

Hohe Verfügbarkeit der Managementknoten: Der Zustand der Rechenknoten kann für große Modelle überwacht werden, was einen reibungslosen Wechsel zwischen Aktiv und Standby ermöglicht, um den normalen Ablauf der Aufgaben zu gewährleisten.

Fehlertoleranz bei wichtigen Services: Nutzer können den Status wichtiger Services für große Modelle überwachen und erhalten eine frühzeitige Warnung vor Anomalien, wodurch der reibungslose Betrieb ihrer Hauptservices gewährleistet wird.

Fehlertoleranz im Cluster: Die Planungs-Plattform eines großen Modells kann eine multiaktive Remote-Datensynchronisation und HA-Funktionen für alle Komponenten bieten. Zudem kann ein Cluster-Failback-Mechanismus so konfiguriert werden, dass er Cluster schnell wiederherstellt, die Verfügbarkeit der Komponenten gewährleistet und die Online-Dienste wieder auf den letzten Stand bringt.

Mit den oben genannten Methoden wird die Zeit für die Behandlung von Ausfällen in KAYTUS´ MotusAI Lösung im Durchschnitt um 90+ Prozent verkürzt.

Welche Trends und Innovationen erwarten Sie bei Plattformen und Tools für KI-Entwicklung in den kommenden Monaten und Jahren?

Skalierbarkeit: Angesichts der raschen Entwicklung und Iteration großer Modelltechnologien werden Plattformen und Tools für KI-Entwicklung rasch aktualisiert, um sich an neue Technologien, Anforderungen und Szenarien anzupassen. Sie müssen über Fähigkeiten wie die schnelle Erweiterung und Anpassung auf der Clusterebene sowie die flexible Einführung von Tools und die Definition von Prozessen auf der Geschäftsebene, die flexible Definition von Benutzerrollen auf der Anwendungsebene und anpassungsfähige Interaktionen verfügen.

Low-Code-Entwicklung: Nachdem die Technologie stabil läuft, spielen Plattformen und Werkzeuge für KI-Entwicklung, mithilfe derer die KI-Technologie hauptsächlich entwickelt wird, nun eine Schlüsselrolle bei der Senkung der Entwicklungsbarrieren. Die Plattformen müssen schrittweise um Funktionen wie die Feinabstimmung von Low-Code-Modellen, die Low-Code-Bereitstellung und die Erstellung von Low-Code-Anwendungen erweitert werden, um die Gesamteffizienz der Entwicklung innerhalb von Plattformen zu verbessern.

Integration: Plattformen für die KI-Entwicklung müssen nicht nur von menschlichen Endnutzern verwendet werden, sondern auch in verschiedene unternehmensinterne Produktionssysteme integriert werden, um branchenorientierte Arbeitsabläufe zur Unterstützung der Entwicklung verschiedener Industrien zu ermöglichen. In Anbetracht des allgemeinen Trends der KI-basierten Technologieentwicklung müssen Plattformen langfristig für die KI-Entwicklung nicht nur verbesserte Fähigkeiten zur Integration von menschlichen Nutzern mit Produktionssystemen aufweisen, sondern auch Fähigkeiten und Schnittstellen für die Integration von KI-Agenten und LLM-Entscheidungssystemen, um Arbeitsabläufe für die Produktion und Iteration von KI-nativen Modellen zu implementieren.

Über allgemeine Herausforderungen bei der Entwicklung von KI-basierten Systemen spricht der Experte in Teil 1 des Interviews:

Die Künstliche Intelligenz (KI) ermöglicht Unternehmen neue Perspektiven, aber es gibt auch eine Reihe an Herausforderungen. (Bild: © Anar Mammadov - stock.adobe.com)

Louis Tian
Louis Tian, der derzeit als Chief Technology Officer (CTO) von KAYTUS tätig ist, widmet sich der Ausarbeitung und Umsetzung strategischer technologischer Initiativen, die nicht nur das Produkt- und Dienstleistungsangebot des Unternehmens stärken, sondern auch die technologische Entwicklung des Unternehmens lenken. Seine Rolle ist von zentraler Bedeutung, um Innovationen voranzutreiben und sicherzustellen, dass alle technologiegetriebenen Bestrebungen mit den übergreifenden Geschäftszielen in Einklang stehen.

Louis verfügt über mehr als 20 Jahre Erfahrung in der IT-Branche und war zuletzt als Senior Solution Architect tätig. In seiner Funktion als CTO leitet Louis die Produkt- und Technikteams und koordiniert deren Bemühungen zur Unterstützung der globalen Geschäftsexpansion des Unternehmens.

Bevor er zu KAYTUS kam, verfeinerte Louis seine Fähigkeiten bei IBM, wo er über ein Jahrzehnt lang als Senior Technical Sales Specialist tätig war. Seine Zeit bei IBM legte den Grundstein für sein tiefes Verständnis für die Schnittstelle zwischen Technologie und Wirtschaft, eine Perspektive, die er nun für den Erfolg von KAYTUS nutzt.

Bildquelle: Kaytus

(ID:50145853)