Datenanalyse mithilfe von Künstlicher Intelligenz (KI) – für 70 Prozent der von den Beratern von PWC befragten Unternehmen ist dies das vielversprechendste Einsatzszenario. Doch so attraktiv die Vision erscheint, mittels KI das eigene Geschäft oder gar eine ganze Branche zu revolutionieren, so handfest sind die Herausforderungen, die sich in der Praxis ergeben.
Die Qualität von Trainingsdaten spielt bei der Entwicklung von KI-Projekten eine zentrale Rolle. Welche Fallstricke hier drohen, erklärt der nachfolgende Artikel.
Ein häufiges Problem ist ein bereits beim Start eines Projekts mangelhafter Datenbestand. Die KI mit qualitativ schlechten Daten zu trainieren, macht keinen Sinn, da sie falsche Informationen lernt. Ohne den Einsatz gewisser Automatisierungen und KI ist es wiederum mühsam, die unzureichende Datenbasis zu verbessern.
Dieser Beitrag gibt Hinweise, welche Rolle die Qualität von Trainingsdaten für die Entwicklung und den Erfolg von KI-Projekten spielt und welche Fallstricke drohen. Die Grundlage für die Tipps ist ein gemeinsames Forschungsprojekt der Experten für Geschäftspartnerdaten bei Uniserv und dem spanischen KI-Start-up recogn.ai.
Das Projekt widmete sich der Frage, unter welchen Voraussetzungen eine Künstliche Intelligenz helfen kann, in großen Mengen von Geschäftspartnerdaten – Kunden, Lieferanten und Dienstleiter – selbsttätig personenbezogene Daten von Unternehmensdaten zu unterscheiden. Eine solche Aufgabe ist vor allem für Organisationen mit umfangreichen Datenbeständen relevant. So ist es für E-Commerce-Unternehmen und Einzelhändler, Banken und Versicherungen, Energieversorger und Messegesellschaften wichtig, Geschäftspartnerdaten automatisiert verwalten und richtig kategorisieren zu können.
Konkret geht es dabei zum Beispiel um die Einhaltung von Vorgaben der DSGVO oder unternehmensinternen Compliance-Richtlinien. Auch Marketing-Automation-Projekte bringen bessere Ergebnisse, wenn ihre Datenbasis stimmt. KI-Lösungen könnten in solchen Umfeldern zudem schon in der Vorbereitung erhebliche Effizienzgewinne bringen, denn die Konfiguration von Aufgaben zur Datenbereinigung mithilfe von Listenabgleichen und regelbasierten Algorithmen ist sehr aufwendig.
Beispiel Geschäftspartnerdaten
Die beiden Projektpartner wollten nun im Rahmen ihrer Zusammenarbeit am Beispiel von Geschäftspartnerdaten aus dem deutschsprachigen Raum untersuchen, ob eine KI die Aufgabe der Unterscheidung effizienter ausführen kann. Bereits bei der Planung müssen bestimmte Faktoren berücksichtigt werden, damit sich diese Hürden später nicht als Showstopper herausstellen.
Uniserv trainierte und testete während der zwölf Monate Projektlaufzeit über 50 verschiedene Machine-Learning-Modelle und verglich die jeweiligen Ergebnisse und Zuverlässigkeitswerte miteinander. Die Schwierigkeit für die Künstliche Intelligenz (KI) lag in der Projektphase vor allem darin, dass sie lernen musste, dass Unternehmensnamen teilweise ebenso aus Namen von Privatpersonen bestehen können.
Dies ist oft bei einer GbR oder einem Einzelunternehmen – zum Beispiel bei „Malermeisterin Eva Meier“ – der Fall. Im Rahmen des Projekts kamen unter anderem das Tool „biome.webspace“ und das Open Source Tool „biome.text“ von Recogn.ai zum Einsatz. Beide Tools helfen dabei, unstrukturierte Daten zu verwalten sowie KI-Modelle zu erstellen, zu trainieren und zu testen.
Erkenntnisse & Tipps aus dem Forschungsprojekt
Aus dem Forschungsprojekt lassen sich für KI- & Datenanalyseprojekte in Unternehmen folgende Erkenntnisse und Tipps ableiten.
1. Das KI-Modell muss zur Problemstellung passen
Ausgangspunkt für jedes KI-Projekt ist die Auswahl des oder der passende(n) KI-Modelle. Dazu muss die Problemstellung, die eine Künstliche Intelligenz lösen soll, sehr präzise definiert sein. KI-Modelle lassen sich natürlich, wie im Fall des geschilderten Forschungsprojekts, selbst entwickeln.
Alternativ kann man gemeinsam mit einem erfahrenen Partner das geeignete Modell erarbeiten. In jedem Fall ist zu Beginn des Projekts ein exploratives Vorgehen ratsam, in dem zunächst verschiedene KI-Modelle getestet und verglichen werden. Denn nicht jedes Modell bringt mit dem gleichen Dateninput dieselben Ergebnisse.
Vielfältige Faktoren, wie die Konfiguration, die Menge und Verteilung der Trainings- und Testdaten oder wie oft ein Modell trainiert wird (sogenannte „Epochen“), nehmen Einfluss auf das Ergebnis. Entsprechend viel Zeit sollten Unternehmen daher bereits in der Projektkonzeption für diese Auswahlphase einplanen.
2. Trainingsdaten brauchen höchste Aufmerksamkeit
Neben der Modellauswahl kommt es vor allem auf die Daten an, mit denen eine KI für ihre Aufgabe trainiert wird. Entsprechen die Trainingsdaten nicht möglichst genau den später zu analysierenden Echtdaten, kommt es unweigerlich zu Problemen. Daher sollten sich Projektverantwortliche bei der Auswahl der Test- und Trainingsdaten grundsätzlich zwei Fragen stellen: Auf welche Daten(-Quellen) kann ich bereits zurückgreifen, um meine Problemstellung zu beantworten, und welche Daten benötige ich eventuell noch zusätzlich?
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Muss das KI-System mit echten, personenbezogenen Daten trainiert und getestet werden, müssen die Test- und Trainingsdaten unter Umständen anonymisiert und pseudonymisiert werden. In diesem Fall sollten Projektverantwortliche aber genau prüfen, ob solche veränderten Daten zum Anlernen der KI noch ausreichend und aussagekräftig genug sind.
Sollen Anonymisierung und Pseudonymisierung vermieden werden, können Daten auch neu gesammelt und im gleichen Zuge gemäß der EU-DSGVO die Erlaubnis der jeweiligen Person zur Verwendung in einem KI-Projekt eingeholt werden. Dies gilt vor allem, wenn Unternehmen mit externen Projektpartnern zusammenarbeiten oder Daten in die Cloud verschoben werden sollen.
3. Synthetische Daten sind mit Vorsicht zu genießen
Oft kann es für das Anlernen und Testen einer KI auch ausreichen, wenn Unternehmen auf generierte, also synthetische Daten zurückgreifen. Entscheidend für den Erfolg dieser Methode: Die Daten müssen entsprechend der Fragestellung korrekt verteilt sein und einen repräsentativen Querschnitt der im Realbetrieb zu erwartenden Daten abbilden. Denn es macht durchaus einen Unterschied für die KI, ob sie mit echten oder generierten Daten trainiert wird.
Eine mit synthetischen Daten trainierte KI braucht deshalb in der produktiven Anwendung eine besonders enge Überwachung. Andernfalls besteht das Risiko, dass ein intelligentes System auch aus den Mustern lernt, nach welchen die synthetischen Daten generiert wurden. Im Zweifelsfall sollten Projektverantwortliche deshalb genau prüfen, auf welche Weise die synthetischen Trainings- und Testdaten erstellt wurden, um negative Lerneffekte bei der KI zu vermeiden.
4. Viel hilft nicht viel – Vorsicht vor „Overfitting“
Um eine KI richtig anzulernen, muss neben der Qualität auch die Menge der Trainings- und Testdaten ausreichend sein. Wobei die Datenmenge nicht das alleinige Kriterium ist. Im Uniserv-Projekt erkannte die KI zum Beispiel die Datensätze mit der Bezeichnung „GmbH“ nicht als Unternehmensdatensätze. Der Grund: Trotz der großen Datenmenge waren prozentual zu wenige Datensätze mit der Firmierung als „GmbH“ enthalten.
Doch Vorsicht: „Mehr“ bedeutet beim Training von KI-Modellen nicht zwangsläufig „besser“! Gerade bei sehr großen Datenmengen kann das Problem der Überanpassung, des sogenannten „Overfitting“, auftreten. Dabei „verlernt“ eine KI einmal Gelerntes wieder oder sie baut aus den Trainingsdaten „falsches“ Wissen auf, das im Produktivbetrieb zu falschen Ergebnissen führt. Projektverantwortliche erkennen eine Überanpassung oft, wenn die KI zwar zuverlässig einen kleineren Datensatz beurteilt, beim größeren Datensatz jedoch keine zuverlässigen Ergebnisse mehr liefert.
Unternehmen sollten also unbedingt darauf achten, dass die Menge an Referenzen in den Trainings- und Testdaten ausreicht, damit die KI korrekt lernt. Die Verteilung, der repräsentative Querschnitt der Daten, muss stimmen und die Realität der jeweiligen Fragestellung abbilden.
Fazit
Ganz unabhängig davon, ob synthetische oder reale Daten – die Daten, die der KI zum Lernen zur Verfügung gestellt werden, müssen immer von hoher Qualität sein. Ansonsten liefert das System am Ende unzuverlässige oder nicht nachvollziehbare Ergebnisse. Hohe Datenqualität bedeutet in KI-Projekten (wie auch sonst, wenn es um Geschäftspartnerdaten geht): korrekt, vollständig und widerspruchsfrei. Setzen Unternehmen eigene Datensätze im KI-Projekt ein, sollten sie diese vorab prüfen, aufbereiten und deren Qualität sicherstellen.
Eine Untersuchung von Dataiku (AI Maturity Survey, 2019) hat ergeben, dass über 40 Prozent der befragten Unternehmen die Bereinigung von Datenbeständen für den schwierigsten und zeitaufwendigsten Teil in einem KI-Projekt halten. Dies kann mithilfe von Datenqualitätstools erleichtert werden.
Diese können auch bei der Anonymisierung und Pseudonymisierung eigener Echtdaten zu Trainingszwecken helfen. Ein weiterer wichtiger Aspekt der Qualitätssicherung: Unternehmen müssen der KI beziehungsweise ihrem Ergebnis ab einem bestimmten Zeitpunkt im Projektverlauf vertrauen. Dies fällt leichter, wenn sie sich sicher sind, dass die KI-Entscheidungen auf Grundlage der richtigen Datenbasis und einer angemessenen Qualität trifft.
Die Autoren
Prof. Dr. Simone Braun
Prof. Dr. Simone Braun
(Bild: Stefanie Morlok Fotografie)
Prof. Dr. Simone Braun ist Professorin für E-Commerce an der Hochschule Offenburg. Sie lehrt und forscht im Bereich Omni-Channel-Commerce, Data Analytics und Digital Business. Zuvor war sie Head of Business Development bei Uniserv. Sie blickt auf 15 Jahre Erfahrung im Bereich der Innovationsentwicklung in der IT zurück – mit speziellem Fokus auf Kundendaten in den letzten acht Jahren. Frau Dr. Braun hat über 70 peer-reviewed Publikationen veröffentlicht und wurde für ihre Dissertation mit dem Carl-Adam-Petri-Preis für Informatik ausgezeichnet.
Dan Follwarczny
Dan Follwarczny
(Bild: Uniserv)
Dan Follwarczny ist Business Development Manager bei Uniserv. Als Experte für smarte Informationsflüsse unterstützt er dort seit 2019 die strategische Geschäftsfeldentwicklung und das Innovationsmanagement.