KI-Experte Louis Tian, CTO von KAYTUS im Interview (2) Performance bei der Entwicklung von KI-Modellen entscheidend

Von Louis Tian 5 min Lesedauer

Anbieter zum Thema

Herausforderungen in Sachen KI-Entwicklung: Im zweiten Teil des Interviews beantwortet Louis Tian, CTO von KAYTUS zentrale Fragen rund um KI-Entwicklungsplattformen und gibt Einblicke in die neuesten Trends, die den Markt in den kommenden Jahren prägen werden.

Die Geschwindigkeit der Datenübertragung spielt bei der Entwicklung und dem Training von KI-Modellen eine gewichtige Rolle.(Bild:  © AndErsoN - stock.adobe.com)
Die Geschwindigkeit der Datenübertragung spielt bei der Entwicklung und dem Training von KI-Modellen eine gewichtige Rolle.
(Bild: © AndErsoN - stock.adobe.com)

Welche Rolle die Geschwindigkeit der Datenübertragung bei der Entwicklung und dem Training von KI-Modellen spielt, beleuchtet der zweite Teil des Interviews mit dem KI-Experten Louis Tian, CTO von KAYTUS. Außerdem: die Besonderheiten beim Lifecycle-Management, die Wichtigkeit automatischer Fehlertoleranz und abschließende Trendprognosen.

Welche Rolle spielt die Geschwindigkeit der Datenübertragung bei der Entwicklung und dem Training von KI-Modellen und welche Techniken können dies beschleunigen?

Die Entwicklung und das Training von KI-Modellen erfordern unterschiedliche Datentypen, und die Trainingsdaten müssen für ein paralleles Training von den Laufwerken in den Arbeitsspeicher sowie den Grafikspeicher eingelesen werden. Somit ist die Datenübertragungsrate ein Faktor, der die Gesamteffizienz des Modelltrainings beeinflusst. Ineffiziente Datenerfassung führt zu einer unzureichenden Nutzung der GPU- und CPU-Ressourcen, was eine Verschwendung von Rechenressourcen darstellt. Eine angemessene Datenlesungseffizienz kann die Leistung von GPUs und CPUs maximieren und die gesamte Iterationseffizienz von KI-Modellen verbessern.

In großen Clustern werden die Daten in der Regel auf externen Speicherknoten auf Unternehmensebene und nicht vollständig auf GPU-Geräten gespeichert. In diesem Fall ist während der Entwicklung und des Trainings von KI-Modellen eine Fernübertragung der Trainingsdaten erforderlich, und die Fernübertragungsrate ist der größte Leistungsengpass im Trainingsprozess.

Wir empfehlen zwei Möglichkeiten zur Beschleunigung der Datenübertragung:

Der direkteste Weg ist die Optimierung der Netzwerkstruktur und die Ermöglichung von Multiprotokoll-Integration und -Verbindung, z. B. durch den Aufbau eines speziellen Datenübertragungsnetzwerks im Cluster. Dadurch kann die Datenübertragungsrate bis zu einem gewissen Grad erhöht werden. Die große Bandbreitenlücke zwischen der Datenübertragung und dem Arbeitsspeicher sowie dem Grafikspeicher wird jedoch immer noch zu einem großen Engpass beim Lesen der Daten führen.

Das Lesen von Daten aus dem lokalen Speicher auf den Knoten kann dieses Problem im Wesentlichen lösen. KI-Systeme sollten die Datennutzung im Voraus entsprechend den Merkmalen und Anforderungen der Modellentwicklung planen. Ein KI-System kann zum Beispiel einen lokalen Rechencache verwenden, um die Daten im gemeinsamen Speicher auf einem lokalen Rechenknoten zwischenzuspeichern und so die Bandbreitenbeschränkungen des gemeinsamen Speichers zu umgehen. KAYTUS MotusAI Lösung wendet diese Strategie an und verbessert so die Effizienz des Datentrainings um das Zwei- bis Dreifache.

Was sind die Besonderheiten des Lifecycle-Managements von KI-Modellen und -Services und welche Rolle spielen sie bei der Verbesserung und Anpassung von KI-Anwendungen?

Das vollständige Lifecycle-Management von KI-Modellen und -Services umfasst: Datenmanagement, Modellentwicklung, Modelltraining, Modellbewertung, Modellbereitstellung und Servicemanagement. Generell geht es darum, verschiedene Daten und Rechenressourcen zu nutzen, um ein Modell zu trainieren und die von den Anwendungen generierten Geschäftsdaten und Rückmeldungen zu nutzen, um das KI-Modell zu iterieren.

Das Lifecycle-Management von KI-Modellen und -Services hat vor allem folgende Aufgaben: Bereitstellung von Ressourcen, IT-Umgebungen, Prozessen und Tools zur weiteren Standardisierung und Erleichterung der Entwicklung sowie des Einsatzes von KI-Modellen und KI-Anwendungen. Zudem dient es der Unterscheidung zwischen verschiedenen Lebenszyklusphasen, um spezifische Modell- und Datenverwaltungsmodi einzurichten, sodass verschiedene Experten wie Datenwissenschaftler, Geschäftsmitarbeiter und Cluster-Administratoren ihre eigenen Aufgaben erfüllen können. Das Lifecycle-Management ist darauf ausgelegt, die Modellleistung zu verbessern, sodass sichergestellt werden kann, dass die Entwicklung von KI-Modellen und die Geschäftsentwicklung bereits in der Planungsphase nachhaltig sind.

Wie wichtig ist die automatische Fehlertoleranz in KI-Systemen und wie kann sie realisiert werden?

Wenn das Training eines umfangreichen Modells unterbrochen wird, ist es zeitaufwändig und arbeitsintensiv, in den Trainingsprozess einzugreifen und das Trainingsmodell zu reorganisieren. Da das Trainingsvolumen großer Modelle, das Datenvolumen und die Anforderungen an die Szenarien zunehmen, kann eine automatisierte Fehlertoleranz die Unterbrechungszeit beim Training großer Modelle reduzieren und den Verlust von Arbeits- und Zeitkosten bei den Trainings- und Inferenzprozessen großer Modelle verhindern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Automatisierte Fehlertoleranz kann auf folgende Weise erreicht werden:

Hohe Verfügbarkeit der Managementknoten: Der Zustand der Rechenknoten kann für große Modelle überwacht werden, was einen reibungslosen Wechsel zwischen Aktiv und Standby ermöglicht, um den normalen Ablauf der Aufgaben zu gewährleisten.

Fehlertoleranz bei wichtigen Services: Nutzer können den Status wichtiger Services für große Modelle überwachen und erhalten eine frühzeitige Warnung vor Anomalien, wodurch der reibungslose Betrieb ihrer Hauptservices gewährleistet wird.

Fehlertoleranz im Cluster: Die Planungs-Plattform eines großen Modells kann eine multiaktive Remote-Datensynchronisation und HA-Funktionen für alle Komponenten bieten. Zudem kann ein Cluster-Failback-Mechanismus so konfiguriert werden, dass er Cluster schnell wiederherstellt, die Verfügbarkeit der Komponenten gewährleistet und die Online-Dienste wieder auf den letzten Stand bringt.

Mit den oben genannten Methoden wird die Zeit für die Behandlung von Ausfällen in KAYTUS´ MotusAI Lösung im Durchschnitt um 90+ Prozent verkürzt.

Welche Trends und Innovationen erwarten Sie bei Plattformen und Tools für KI-Entwicklung in den kommenden Monaten und Jahren?

Skalierbarkeit: Angesichts der raschen Entwicklung und Iteration großer Modelltechnologien werden Plattformen und Tools für KI-Entwicklung rasch aktualisiert, um sich an neue Technologien, Anforderungen und Szenarien anzupassen. Sie müssen über Fähigkeiten wie die schnelle Erweiterung und Anpassung auf der Clusterebene sowie die flexible Einführung von Tools und die Definition von Prozessen auf der Geschäftsebene, die flexible Definition von Benutzerrollen auf der Anwendungsebene und anpassungsfähige Interaktionen verfügen.

Low-Code-Entwicklung: Nachdem die Technologie stabil läuft, spielen Plattformen und Werkzeuge für KI-Entwicklung, mithilfe derer die KI-Technologie hauptsächlich entwickelt wird, nun eine Schlüsselrolle bei der Senkung der Entwicklungsbarrieren. Die Plattformen müssen schrittweise um Funktionen wie die Feinabstimmung von Low-Code-Modellen, die Low-Code-Bereitstellung und die Erstellung von Low-Code-Anwendungen erweitert werden, um die Gesamteffizienz der Entwicklung innerhalb von Plattformen zu verbessern.

Integration: Plattformen für die KI-Entwicklung müssen nicht nur von menschlichen Endnutzern verwendet werden, sondern auch in verschiedene unternehmensinterne Produktionssysteme integriert werden, um branchenorientierte Arbeitsabläufe zur Unterstützung der Entwicklung verschiedener Industrien zu ermöglichen. In Anbetracht des allgemeinen Trends der KI-basierten Technologieentwicklung müssen Plattformen langfristig für die KI-Entwicklung nicht nur verbesserte Fähigkeiten zur Integration von menschlichen Nutzern mit Produktionssystemen aufweisen, sondern auch Fähigkeiten und Schnittstellen für die Integration von KI-Agenten und LLM-Entscheidungssystemen, um Arbeitsabläufe für die Produktion und Iteration von KI-nativen Modellen zu implementieren.

Über allgemeine Herausforderungen bei der Entwicklung von KI-basierten Systemen spricht der Experte in Teil 1 des Interviews:

Louis Tian
Louis Tian, der derzeit als Chief Technology Officer (CTO) von KAYTUS tätig ist, widmet sich der Ausarbeitung und Umsetzung strategischer technologischer Initiativen, die nicht nur das Produkt- und Dienstleistungsangebot des Unternehmens stärken, sondern auch die technologische Entwicklung des Unternehmens lenken. Seine Rolle ist von zentraler Bedeutung, um Innovationen voranzutreiben und sicherzustellen, dass alle technologiegetriebenen Bestrebungen mit den übergreifenden Geschäftszielen in Einklang stehen.

Louis verfügt über mehr als 20 Jahre Erfahrung in der IT-Branche und war zuletzt als Senior Solution Architect tätig. In seiner Funktion als CTO leitet Louis die Produkt- und Technikteams und koordiniert deren Bemühungen zur Unterstützung der globalen Geschäftsexpansion des Unternehmens.

Bevor er zu KAYTUS kam, verfeinerte Louis seine Fähigkeiten bei IBM, wo er über ein Jahrzehnt lang als Senior Technical Sales Specialist tätig war. Seine Zeit bei IBM legte den Grundstein für sein tiefes Verständnis für die Schnittstelle zwischen Technologie und Wirtschaft, eine Perspektive, die er nun für den Erfolg von KAYTUS nutzt.

Bildquelle: Kaytus

(ID:50145853)