In diesem Interview erläutert Louis Tian, Chief Technology Officer (CTO) bei KAYTUS die Herausforderungen, vor denen Unternehmen in Sachen Künstlicher Intelligenz stehen. Wie optimiert man die Rechenressourcen, um leistungsstarke KI-Modelle effizient zu trainieren? Welche Rolle spielen Datenübertragung und GPU-Management für die Stabilität?
Die Künstliche Intelligenz (KI) ermöglicht Unternehmen neue Perspektiven, aber es gibt auch eine Reihe an Herausforderungen.
Was sind die allgemeinen Herausforderungen bei der Entwicklung von KI-basierten Systemen und wie kann die Effizienz gesteigert werden?
Die allgemeine Herausforderung bei der Entwicklung von KI-basierten Systemen besteht darin, die Stabilität und Effizienz der Rechenleistung des gesamten Clusters durch systematisches Design zu verbessern. Dazu gehören das Management der zugrunde liegenden Rechenressourcen und die fortlaufende Optimierung während der gesamten KI-Entwicklung. Dies sind auch die Hauptprobleme, die wir bei den Kunden identifiziert haben, für die wir unsere KI-Entwicklungs-Software konzipieren.
Das Training KI-basierter Modelle („Model Training“), insbesondere für LLMs, erfordert eine erhebliche Menge an Rechenressourcen. Unternehmensanwender haben keine Erfahrung mit dem Betrieb von Clustern mit großer Rechenleistung und verfügen nicht über standardisierte Methoden für die Planung der Rechenleistung, des Grafikspeichers, des Netzwerks, des Datenspeichers und mehr. Ferner haben Sie auch keine Erfahrung mit der Auswahl ihrer Betriebsmittel oder verfügen aufgrund des hohen Stromverbrauchs möglicherweise nicht einmal über angemessene Bedingungen im Rechenzentrum. Darüber hinaus werden Gesamteffizienz und Stabilität eines Clusters durch eine unangemessene Ressourcenzuweisung, instabile Geräte und unterschiedliche Geschäftsanforderungen eingeschränkt, wenn umfangreiche KI-Trainings- und Inferenzierungen in einem Cluster ausgeführt werden.
Der gesamte Prozess der KI-Entwicklung muss optimiert werden, um die Effizienz der Rechenleistung zu verbessern. So kann der Nachfrage nach qualitativ hochwertigen Daten für das Training von KI-Modellen und die Inferenzierung sowie den unterschiedlichen Anforderungen an die Verarbeitung von Modelldaten Rechnung getragen werden. Auch die mangelnde Erfahrung der Nutzer bei der Datenvorverarbeitung, die Formulierung paralleler Strategien und die Optimierung des Programmcodes, die geringe Effizienz von Modelltests, die Verifizierung der Ergebnisse und redundante Trainings sowie der Mangel an effizienten Tools sind ein Teil der Herausforderungen. Mit der schnellen Weiterentwicklung der Technologie für große Rechnermodelle werden komplexere Prozessanforderungen in KI-Systeme eingeführt, die Integrität und Skalierbarkeit erfordern.
Im Vergleich zu den meisten Open-Source- und lokalen KI-Systemen, müssen ausgereifte KI-Systeme für Unternehmen die Unterschiede in den Geschäftsbefugnissen und Arbeitsabläufen für verschiedene Rollen hervorheben, z. B. die Unterscheidung zwischen Gerätemanagern, Businessverantwortlichen, Entwicklern, O&M-Personal und Serviceanwendern. Dies setzt voraus, dass die Entwickler von KI-Systemen die spezifischen Anforderungen der verschiedenen Kundentypen klar erkennen sowie Mechanismen und Prozesse für die Zusammenarbeit verschiedener Rollen in KI-Systemen bereitstellen.
Können Sie auf die Herausforderungen eingehen, die bei der Planung und Nutzung von GPU-Ressourcen in der KI-Modellentwicklung bestehen?
Es sind vor allem folgende Faktoren, die bei der Planung und Nutzung von GPU-Kapazitäten wichtig sind:
Skalierbarkeit: Für Aufgaben wie das vollständige Training, die Feinabstimmung und die Bereitstellung von Diensten für herkömmliche CV-Modelle, NLP-Modelle, transformatorbasierte LLMs und multimodale Modelle, variieren die Anforderungen an die Rechenleistung von einem einzigen Grafikprozessor bis zu Dutzenden von Servern, und die Berechnungsdauer reicht von Minuten bis zu Monaten. Eine unsachgemäße Aufgabenplanung führt zu einem enormen Leerlauf von Rechenleistung und langen Wartezeiten für Aufgaben. Um dieses Problem zu lösen, benötigen die Nutzer Unterstützung bei der Zuweisung von GPU-Ressourcen sowie bei der Aufgabenkonstruktion, der Aufgabenplanung und anderen Aspekten. Zudem brauchen sie Unterstützung bei der Optimierung ihrer Trainingsmethoden, um die Zuweisung von GPU-Ressourcen dynamisch anzupassen.
Stabilität: Eine unzureichende Stabilität der GPU-Ressourcen für das Training umfangreicher KI-Modelle führt zu Ausfällen, Neustarts und Rückschritten bei deren Entwicklung. Durch die Überwachung des Zustands der GPU-Ressourcen, eine rechtzeitige Alarmierung und die Neuplanung sowie den Neustart von Trainingsaufgaben auf der Grundlage voreingestellter Regeln, können Benutzer die Gesamtstabilität der KI-Modellentwicklung auf Unternehmensebene verbessern.
Ressourcenkooperation: Bei der Entwicklung KI-basierter Modelle ist neben den wertvollen GPU-Ressourcen auch die Nutzung von Speicher- und Netzwerkressourcen für die Planung von Modellentwicklungs-Umgebungen und Überwachungstools von wesentlicher Bedeutung. Um die Planung und Nutzung von GPU-Ressourcen zu verbessern, sollten die Anwender die Planung und Optimierung aus einer Systemperspektive heraus vornehmen und die Planung der verschiedenen Ressourcen koordinieren.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Ausblick auf den zweiten Teil des Interviews
Welche Rolle die Geschwindigkeit der Datenübertragung bei der Entwicklung und dem Training von KI-Modellen spielt, beleuchtet der zweite Teil des Interviews. Außerdem: die Besonderheiten beim Lifecycle-Management, die Wichtigkeit automatischer Fehlertoleranz bis hin zu Trendprognosen.
Louis Tian Louis Tian, der derzeit als Chief Technology Officer (CTO) von KAYTUS tätig ist, widmet sich der Ausarbeitung und Umsetzung strategischer technologischer Initiativen, die nicht nur das Produkt- und Dienstleistungsangebot des Unternehmens stärken, sondern auch die technologische Entwicklung des Unternehmens lenken. Seine Rolle ist von zentraler Bedeutung, um Innovationen voranzutreiben und sicherzustellen, dass alle technologiegetriebenen Bestrebungen mit den übergreifenden Geschäftszielen in Einklang stehen.
Louis verfügt über mehr als 20 Jahre Erfahrung in der IT-Branche und war zuletzt als Senior Solution Architect tätig. In seiner Funktion als CTO leitet Louis die Produkt- und Technikteams und koordiniert deren Bemühungen zur Unterstützung der globalen Geschäftsexpansion des Unternehmens.
Bevor er zu KAYTUS kam, verfeinerte Louis seine Fähigkeiten bei IBM, wo er über ein Jahrzehnt lang als Senior Technical Sales Specialist tätig war. Seine Zeit bei IBM legte den Grundstein für sein tiefes Verständnis für die Schnittstelle zwischen Technologie und Wirtschaft, eine Perspektive, die er nun für den Erfolg von KAYTUS nutzt.