Interview mit dem KI-Experten Louis Tian, CTO von KAYTUS (1) KI-Ansätze für Stabilität, Ressourcenmanagement und Trendprognosen

Von Louis Tian 4 min Lesedauer

Anbieter zum Thema

In diesem Interview erläutert Louis Tian, Chief Technology Officer (CTO) bei KAYTUS die Herausforderungen, vor denen Unternehmen in Sachen Künstlicher Intelligenz stehen. Wie optimiert man die Rechenressourcen, um leistungsstarke KI-Modelle effizient zu trainieren? Welche Rolle spielen Datenübertragung und GPU-Management für die Stabilität?

Die Künstliche Intelligenz (KI) ermöglicht Unternehmen neue Perspektiven, aber es gibt auch eine Reihe an Herausforderungen.(Bild:  © Anar Mammadov - stock.adobe.com)
Die Künstliche Intelligenz (KI) ermöglicht Unternehmen neue Perspektiven, aber es gibt auch eine Reihe an Herausforderungen.
(Bild: © Anar Mammadov - stock.adobe.com)

Was sind die allgemeinen Herausforderungen bei der Entwicklung von KI-basierten Systemen und wie kann die Effizienz gesteigert werden?

Die allgemeine Herausforderung bei der Entwicklung von KI-basierten Systemen besteht darin, die Stabilität und Effizienz der Rechenleistung des gesamten Clusters durch systematisches Design zu verbessern. Dazu gehören das Management der zugrunde liegenden Rechenressourcen und die fortlaufende Optimierung während der gesamten KI-Entwicklung. Dies sind auch die Hauptprobleme, die wir bei den Kunden identifiziert haben, für die wir unsere KI-Entwicklungs-Software konzipieren.

Das Training KI-basierter Modelle („Model Training“), insbesondere für LLMs, erfordert eine erhebliche Menge an Rechenressourcen. Unternehmensanwender haben keine Erfahrung mit dem Betrieb von Clustern mit großer Rechenleistung und verfügen nicht über standardisierte Methoden für die Planung der Rechenleistung, des Grafikspeichers, des Netzwerks, des Datenspeichers und mehr. Ferner haben Sie auch keine Erfahrung mit der Auswahl ihrer Betriebsmittel oder verfügen aufgrund des hohen Stromverbrauchs möglicherweise nicht einmal über angemessene Bedingungen im Rechenzentrum. Darüber hinaus werden Gesamteffizienz und Stabilität eines Clusters durch eine unangemessene Ressourcenzuweisung, instabile Geräte und unterschiedliche Geschäftsanforderungen eingeschränkt, wenn umfangreiche KI-Trainings- und Inferenzierungen in einem Cluster ausgeführt werden.

Der gesamte Prozess der KI-Entwicklung muss optimiert werden, um die Effizienz der Rechenleistung zu verbessern. So kann der Nachfrage nach qualitativ hochwertigen Daten für das Training von KI-Modellen und die Inferenzierung sowie den unterschiedlichen Anforderungen an die Verarbeitung von Modelldaten Rechnung getragen werden. Auch die mangelnde Erfahrung der Nutzer bei der Datenvorverarbeitung, die Formulierung paralleler Strategien und die Optimierung des Programmcodes, die geringe Effizienz von Modelltests, die Verifizierung der Ergebnisse und redundante Trainings sowie der Mangel an effizienten Tools sind ein Teil der Herausforderungen. Mit der schnellen Weiterentwicklung der Technologie für große Rechnermodelle werden komplexere Prozessanforderungen in KI-Systeme eingeführt, die Integrität und Skalierbarkeit erfordern.

Im Vergleich zu den meisten Open-Source- und lokalen KI-Systemen, müssen ausgereifte KI-Systeme für Unternehmen die Unterschiede in den Geschäftsbefugnissen und Arbeitsabläufen für verschiedene Rollen hervorheben, z. B. die Unterscheidung zwischen Gerätemanagern, Businessverantwortlichen, Entwicklern, O&M-Personal und Serviceanwendern. Dies setzt voraus, dass die Entwickler von KI-Systemen die spezifischen Anforderungen der verschiedenen Kundentypen klar erkennen sowie Mechanismen und Prozesse für die Zusammenarbeit verschiedener Rollen in KI-Systemen bereitstellen.

Können Sie auf die Herausforderungen eingehen, die bei der Planung und Nutzung von GPU-Ressourcen in der KI-Modellentwicklung bestehen?

Es sind vor allem folgende Faktoren, die bei der Planung und Nutzung von GPU-Kapazitäten wichtig sind:

Skalierbarkeit: Für Aufgaben wie das vollständige Training, die Feinabstimmung und die Bereitstellung von Diensten für herkömmliche CV-Modelle, NLP-Modelle, transformatorbasierte LLMs und multimodale Modelle, variieren die Anforderungen an die Rechenleistung von einem einzigen Grafikprozessor bis zu Dutzenden von Servern, und die Berechnungsdauer reicht von Minuten bis zu Monaten. Eine unsachgemäße Aufgabenplanung führt zu einem enormen Leerlauf von Rechenleistung und langen Wartezeiten für Aufgaben. Um dieses Problem zu lösen, benötigen die Nutzer Unterstützung bei der Zuweisung von GPU-Ressourcen sowie bei der Aufgabenkonstruktion, der Aufgabenplanung und anderen Aspekten. Zudem brauchen sie Unterstützung bei der Optimierung ihrer Trainingsmethoden, um die Zuweisung von GPU-Ressourcen dynamisch anzupassen.

Stabilität: Eine unzureichende Stabilität der GPU-Ressourcen für das Training umfangreicher KI-Modelle führt zu Ausfällen, Neustarts und Rückschritten bei deren Entwicklung. Durch die Überwachung des Zustands der GPU-Ressourcen, eine rechtzeitige Alarmierung und die Neuplanung sowie den Neustart von Trainingsaufgaben auf der Grundlage voreingestellter Regeln, können Benutzer die Gesamtstabilität der KI-Modellentwicklung auf Unternehmensebene verbessern.

Ressourcenkooperation: Bei der Entwicklung KI-basierter Modelle ist neben den wertvollen GPU-Ressourcen auch die Nutzung von Speicher- und Netzwerkressourcen für die Planung von Modellentwicklungs-Umgebungen und Überwachungstools von wesentlicher Bedeutung. Um die Planung und Nutzung von GPU-Ressourcen zu verbessern, sollten die Anwender die Planung und Optimierung aus einer Systemperspektive heraus vornehmen und die Planung der verschiedenen Ressourcen koordinieren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Ausblick auf den zweiten Teil des Interviews

Welche Rolle die Geschwindigkeit der Datenübertragung bei der Entwicklung und dem Training von KI-Modellen spielt, beleuchtet der zweite Teil des Interviews. Außerdem: die Besonderheiten beim Lifecycle-Management, die Wichtigkeit automatischer Fehlertoleranz bis hin zu Trendprognosen.

Louis Tian
Louis Tian, der derzeit als Chief Technology Officer (CTO) von KAYTUS tätig ist, widmet sich der Ausarbeitung und Umsetzung strategischer technologischer Initiativen, die nicht nur das Produkt- und Dienstleistungsangebot des Unternehmens stärken, sondern auch die technologische Entwicklung des Unternehmens lenken. Seine Rolle ist von zentraler Bedeutung, um Innovationen voranzutreiben und sicherzustellen, dass alle technologiegetriebenen Bestrebungen mit den übergreifenden Geschäftszielen in Einklang stehen.

Louis verfügt über mehr als 20 Jahre Erfahrung in der IT-Branche und war zuletzt als Senior Solution Architect tätig. In seiner Funktion als CTO leitet Louis die Produkt- und Technikteams und koordiniert deren Bemühungen zur Unterstützung der globalen Geschäftsexpansion des Unternehmens.

Bevor er zu KAYTUS kam, verfeinerte Louis seine Fähigkeiten bei IBM, wo er über ein Jahrzehnt lang als Senior Technical Sales Specialist tätig war. Seine Zeit bei IBM legte den Grundstein für sein tiefes Verständnis für die Schnittstelle zwischen Technologie und Wirtschaft, eine Perspektive, die er nun für den Erfolg von KAYTUS nutzt.

Bildquelle: Kaytus

(ID:50137016)