Die Entwicklung von KI-Anwendungen ist nicht nur teuer und zeitaufwendig. Sie ist auch abhängig von der Qualität der Daten, mit denen sie trainiert werden. KI-Entwickler stehen dabei vor einem Dilemma: Die Daten sind oft unvollständig, schwer zu finden und können versteckte Risiken enthalten. Darunter leiden Entwicklungszeiten, Entwicklungskosten und vor allem die Qualität der Anwendungen selbst.
Der Autor: Dr. Ralph Rembor ist Sales & Marketing VP bei Aparavi
(Bild: Aparavi)
Generative KI beherrscht die Schlagzeilen. ChatGPT ist dabei nur die Spitze des Eisbergs. Klar ist: KI- und ML-Applikationen haben ihren Siegeszug längst angetreten, kaum ein Unternehmen kommt mehr an ihrer Anwendung vorbei. Die vielstimmigen Diskussionen darüber drehen sich in der Regel um Sicherheitsfragen, die ethisch verantwortungsbewusste Nutzung und die Auswirkungen auf gesellschaftliche Aspekte wie Ausbildung, Arbeitsplätze oder Wertschöpfungsketten.
Über die Qualität (der Ergebnisse) von generativer KI dagegen wird erstaunlicherweise wenig diskutiert. Die ist in der Realität jedoch höchst unterschiedlich und mangels Transparenz kaum nachverfolgbar. Verantwortlich dafür sind vor allem zwei Faktoren: Erstens die Algorithmen/Modelle und zweitens die Daten, mit denen sie trainiert und betrieben werden.
Woher saubere Realdaten nehmen?
Garbage in – Garbage out. Diese auf Anhieb so flapsig klingende Formel ist für viele Data Scientists und KI-Entwickler ein echtes Problem. Für das Training und den späteren Betrieb der von ihnen entworfenen Algorithmen brauchen sie viele, qualitativ hochwertige Daten. Sie sollten sicher, korrekt, relevant und compliant sein, also aus eigenen Quellen oder sauber lizenziert, und natürlich in einem strukturierten, KI-lesbaren Format vorliegen. Davon hängen letztlich sowohl die Länge der teuren Entwicklungszeiten als auch die spätere Qualität der Anwendungen selbst ab.
Bei KI-Projekten sind die zehn Stufen der Datenvorbereitung häufig der größte Zeitfresser: Daten suchen, finden, prüfen, verstehen, visualisieren, bereinigen, klassifizieren, validieren, reduzieren und normalisieren. Das allein verschlingt in der Regel rund 80 Prozent des Zeitaufwands. Und die Output-Qualität, also die fertige Anwendung, ist eine abhängige Variable der Input-Qualität, also der Trainings- und Produktivdaten.
Aber woher sollen die Entwickler brauchbare Daten nehmen? Grundsätzlich haben sie die Wahl zwischen echten und synthetischen Daten. Die Präferenzen sind dabei klar. KI-Entwickler und Data Scientists bevorzugen reale Daten, weil damit Algorithmen und Anwendungen in der Praxis schneller und effizienter entwickelt und betrieben werden können. Analysten greifen in diesem Kontext gerne zum bekannten Bild des eigenen „Datengolds“ als „Supertreibstoff“ für den Business-Erfolg. Trotzdem steigt die Nutzungsrate synthetischer Daten.
Dieses scheinbare Paradoxon resultiert aus der wachsenden Unzufriedenheit mit dem echten Datenmaterial. Denn reale Daten haben ein großes Manko: Die Suche und Visualisierung korrekter und relevanter Daten kann vor allem in größeren Organisationen mit heterogener Speicherinfrastruktur extrem aufwendig sein. Und andererseits sind diese Daten oft unvollständig, liegen in verschiedensten Formaten vor und können versteckte Risiken enthalten, wie beispielsweise personenbezogene Daten.
Sie sind nicht schnell genug verfügbar, weil interne Prozesse zu unflexibel sind und Risiken erst geprüft werden müssen. Vor allem aber sind sie mehrheitlich unstrukturiert und für qualitativ hochwertige KI-Applikationen in dieser Form nur wenig geeignet. Die Funktionalität der Anwendungen, die damit trainiert und betrieben werden, ist mangelhaft, der Kontroll- und Korrekturaufwand dafür viel zu hoch.
Fitness-Kur für Daten
KI-Entwickler müssen also vorab sicher sein, dass sie ihre Applikationen mit den richtigen Daten entwickeln und betreiben. Typischerweise sind jedoch rund 80 Prozent der Datenbestände in Unternehmen unstrukturiert und damit für die professionelle, qualitätsorientierte KI-Entwicklung ungeeignet. Hier liegen allerdings wertvolle Informationen für die KI-Entwicklung vor, sofern sie vorher entsprechend aufbereitet werden. Das können beispielsweise Kommentare, Einschätzungen oder Zusammenfassungen von Daten sein.
Neben den sensiblen Daten sind auch die meist in den Metadaten enthaltenen Zugriffsrechte wichtig (Embedded Permissions). Mit der entsprechenden Technologie ist es möglich, sie sowohl beim Einlesen wie auch bei der Ausgabe richtig zuzuordnen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die logische Konsequenz ist es also, die unstrukturierten Daten im ersten Schritt zu analysieren und zu klassifizieren. Dabei werden die Datenbestände nach flexibel einstellbaren Parametern durchforstet, transparent gemacht und bereinigt. Dieser Prozess nutzt seinerseits selbst Künstliche Intelligenz auf verschiedenen Ebenen. So ermöglicht er beispielsweise die regelbasierte, KI-gestützte Automatisierung beim Scannen von Dateien und Inhalten sowie beim Check und bei der Aufbereitung der Ergebnisse. Kundendaten können durch Pseudonymisierung und Teil-/Anonymisierung genutzt werden, ohne DSGVO-Richtlinien oder Compliance-Vorgaben zu verletzen.
Durch diese Methodik werden aus dem Pool unstrukturierter Daten relevante Inhalte für die KI-Entwicklung gewonnen und für die weitere Nutzung klassifiziert und strukturiert. Die Daten sind jetzt KI-ready. Mit der dadurch zur Verfügung stehenden Kollektion sauberer, qualifizierter Realdaten (Clean Data) können KI-Entwickler sehr viel effizienter, gezielter und nicht zuletzt auch schneller ihre Algorithmen trainieren und später produktiv betreiben. Saubere Daten verbessern damit die Qualität von KI-Anwendungen und reduzieren mögliche Risiken. Zudem verkürzen sie drastisch die Entwicklungszeit, und damit auch die Zeit bis zum Launch und zur Nutzung der KI-Anwendung.