Kommentar von Dr. Ralph Rembor, Aparavi Saubere Daten entscheiden über die Qualität von KI-Applikationen

Ein Gastbeitrag von Dr. Ralph Rembor 4 min Lesedauer

Anbieter zum Thema

Die Entwicklung von KI-Anwendungen ist nicht nur teuer und zeitaufwendig. Sie ist auch abhängig von der Qualität der Daten, mit denen sie trainiert werden. KI-Entwickler stehen dabei vor einem Dilemma: Die Daten sind oft unvollständig, schwer zu finden und können versteckte Risiken enthalten. Darunter leiden Entwicklungszeiten, Entwicklungskosten und vor allem die Qualität der Anwendungen selbst.

Der Autor: Dr. Ralph Rembor ist Sales & Marketing VP bei Aparavi(Bild:  Aparavi)
Der Autor: Dr. Ralph Rembor ist Sales & Marketing VP bei Aparavi
(Bild: Aparavi)

Generative KI beherrscht die Schlagzeilen. ChatGPT ist dabei nur die Spitze des Eisbergs. Klar ist: KI- und ML-Applikationen haben ihren Siegeszug längst angetreten, kaum ein Unternehmen kommt mehr an ihrer Anwendung vorbei. Die vielstimmigen Diskussionen darüber drehen sich in der Regel um Sicherheitsfragen, die ethisch verantwortungsbewusste Nutzung und die Auswirkungen auf gesellschaftliche Aspekte wie Ausbildung, Arbeitsplätze oder Wertschöpfungsketten.

Über die Qualität (der Ergebnisse) von generativer KI dagegen wird erstaunlicherweise wenig diskutiert. Die ist in der Realität jedoch höchst unterschiedlich und mangels Transparenz kaum nachverfolgbar. Verantwortlich dafür sind vor allem zwei Faktoren: Erstens die Algorithmen/Modelle und zweitens die Daten, mit denen sie trainiert und betrieben werden.

Woher saubere Realdaten nehmen?

Garbage in – Garbage out. Diese auf Anhieb so flapsig klingende Formel ist für viele Data Scientists und KI-Entwickler ein echtes Problem. Für das Training und den späteren Betrieb der von ihnen entworfenen Algorithmen brauchen sie viele, qualitativ hochwertige Daten. Sie sollten sicher, korrekt, relevant und compliant sein, also aus eigenen Quellen oder sauber lizenziert, und natürlich in einem strukturierten, KI-lesbaren Format vorliegen. Davon hängen letztlich sowohl die Länge der teuren Entwicklungszeiten als auch die spätere Qualität der Anwendungen selbst ab.

Bei KI-Projekten sind die zehn Stufen der Datenvorbereitung häufig der größte Zeitfresser: Daten suchen, finden, prüfen, verstehen, visualisieren, bereinigen, klassifizieren, validieren, reduzieren und normalisieren. Das allein verschlingt in der Regel rund 80 Prozent des Zeitaufwands. Und die Output-Qualität, also die fertige Anwendung, ist eine abhängige Variable der Input-Qualität, also der Trainings- und Produktivdaten.

Aber woher sollen die Entwickler brauchbare Daten nehmen? Grundsätzlich haben sie die Wahl zwischen echten und synthetischen Daten. Die Präferenzen sind dabei klar. KI-Entwickler und Data Scientists bevorzugen reale Daten, weil damit Algorithmen und Anwendungen in der Praxis schneller und effizienter entwickelt und betrieben werden können. Analysten greifen in diesem Kontext gerne zum bekannten Bild des eigenen „Datengolds“ als „Supertreibstoff“ für den Business-Erfolg. Trotzdem steigt die Nutzungsrate synthetischer Daten.

Dieses scheinbare Paradoxon resultiert aus der wachsenden Unzufriedenheit mit dem echten Datenmaterial. Denn reale Daten haben ein großes Manko: Die Suche und Visualisierung korrekter und relevanter Daten kann vor allem in größeren Organisationen mit heterogener Speicherinfrastruktur extrem aufwendig sein. Und andererseits sind diese Daten oft unvollständig, liegen in verschiedensten Formaten vor und können versteckte Risiken enthalten, wie beispielsweise personenbezogene Daten.

Sie sind nicht schnell genug verfügbar, weil interne Prozesse zu unflexibel sind und Risiken erst geprüft werden müssen. Vor allem aber sind sie mehrheitlich unstrukturiert und für qualitativ hochwertige KI-Applikationen in dieser Form nur wenig geeignet. Die Funktionalität der Anwendungen, die damit trainiert und betrieben werden, ist mangelhaft, der Kontroll- und Korrekturaufwand dafür viel zu hoch.

Fitness-Kur für Daten

KI-Entwickler müssen also vorab sicher sein, dass sie ihre Applikationen mit den richtigen Daten entwickeln und betreiben. Typischerweise sind jedoch rund 80 Prozent der Datenbestände in Unternehmen unstrukturiert und damit für die professionelle, qualitätsorientierte KI-Entwicklung ungeeignet. Hier liegen allerdings wertvolle Informationen für die KI-Entwicklung vor, sofern sie vorher entsprechend aufbereitet werden. Das können beispielsweise Kommentare, Einschätzungen oder Zusammenfassungen von Daten sein.

Neben den sensiblen Daten sind auch die meist in den Metadaten enthaltenen Zugriffsrechte wichtig (Embedded Permissions). Mit der entsprechenden Technologie ist es möglich, sie sowohl beim Einlesen wie auch bei der Ausgabe richtig zuzuordnen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die logische Konsequenz ist es also, die unstrukturierten Daten im ersten Schritt zu analysieren und zu klassifizieren. Dabei werden die Datenbestände nach flexibel einstellbaren Parametern durchforstet, transparent gemacht und bereinigt. Dieser Prozess nutzt seinerseits selbst Künstliche Intelligenz auf verschiedenen Ebenen. So ermöglicht er beispielsweise die regelbasierte, KI-gestützte Automatisierung beim Scannen von Dateien und Inhalten sowie beim Check und bei der Aufbereitung der Ergebnisse. Kundendaten können durch Pseudonymisierung und Teil-/Anonymisierung genutzt werden, ohne DSGVO-Richtlinien oder Compliance-Vorgaben zu verletzen.

Durch diese Methodik werden aus dem Pool unstrukturierter Daten relevante Inhalte für die KI-Entwicklung gewonnen und für die weitere Nutzung klassifiziert und strukturiert. Die Daten sind jetzt KI-ready. Mit der dadurch zur Verfügung stehenden Kollektion sauberer, qualifizierter Realdaten (Clean Data) können KI-Entwickler sehr viel effizienter, gezielter und nicht zuletzt auch schneller ihre Algorithmen trainieren und später produktiv betreiben. Saubere Daten verbessern damit die Qualität von KI-Anwendungen und reduzieren mögliche Risiken. Zudem verkürzen sie drastisch die Entwicklungszeit, und damit auch die Zeit bis zum Launch und zur Nutzung der KI-Anwendung.

Artikelfiles und Artikellinks

(ID:50038957)