Suchen

Big Data statt Bad Data Vor der Analyse steht das Aufräumen

| Autor / Redakteur: Dipl.-Phys. Oliver Schonschek / Nico Litzel

Eine wesentliche Voraussetzung für Big Data Analytics ist die hohe Datenqualität. In der Praxis enthält Big Data aber oftmals Bad Data. Deshalb sind Analyse-Tools gefragt, die bei der Bereinigung der Daten helfen.

Firmen zum Thema

Bei Big Data Analytics ist die Datenqualität von entscheidender Bedeutung. Daher sind Tools gefragt, die bei der Bereinigung der Daten helfen.
Bei Big Data Analytics ist die Datenqualität von entscheidender Bedeutung. Daher sind Tools gefragt, die bei der Bereinigung der Daten helfen.
(Bild: M. Johannsen – Fotolia.com)

Über Probleme bei Big Data wird viel geschrieben und diskutiert. Im Fokus stehen dabei häufig der Datenschutz oder Storage-Kosten. Es gibt aber weitere Schwierigkeiten, die in der Praxis auftauchen: Die Daten, die für Big Data Analytics gesammelt und gespeichert werden, sind teilweise Datenmüll. Auf der „Tibco Now 2016“ zum Beispiel berichteten Anwender dem Autor des Beitrags, wie sehr Bad Data zu ihren täglichen Herausforderungen zählt.

Wird das Problem Bad Data rechtzeitig erkannt, bereitet die Datenbereinigung vor der Datenanalyse einiges an Aufwand. Kümmert man sich aber nicht um das Problem Bad Data, steht letztlich die ganze Analytics-Arbeit in Frage. Wie eine Bitkom- und KPMG-Umfrage ergab, nutzt gut ein Drittel (35 Prozent) der Unternehmen in Deutschland Big-Data-Analysen für die Auswertung großer Datenmengen. In der Umfrage gaben vier von fünf Unternehmen an, dass relevante Entscheidungen zunehmend auf Erkenntnissen aus der Analyse von Daten basieren. Wenn die Datenbasis allerdings nicht sauber genug ist, sind meistens auch die Entscheidungsgrundlagen nicht gut genug. Bad Data wird so letztlich zu einem Geschäftsrisiko.

Datenqualität muss stärker in den Fokus

Auch die genannte, aktuelle Bitkom-Umfrage zu Big Data nennt Rechts- und Sicherheitsbedenken sowie ein Mangel an Ressourcen als die größten Hemmnisse für den Einsatz innovativer Datenanalysen. Von einer mangelhaften Datenqualität ist eher nicht die Rede. Tatsächlich aber muss die Datenqualität genauso wie der Datenschutz mehr Beachtung finden, wenn es um Big Data Analytics geht.

Zum einen kann der Datenschutz selbst unter dem Problem Bad Data leiden. Stimmt die Datenqualität nicht, kann es zum Beispiel viel leichter geschehen, dass ungewollt vertrauliche Daten veröffentlicht werden. Zudem ist die Speicherung und Verarbeitung richtiger personenbezogener Daten eine wichtige Forderung des Datenschutzes.

Wie verbreitet Bad Data ist und wie wichtig eine Datenbereinigung oder Datenhygiene ist, zeigt auch der „2016 Data Quality Benchmark Report“: Demnach glauben die befragten Unternehmen, dass durchschnittlich 23 Prozent ihrer Daten nicht korrekt sind, 75 Prozent der Unternehmen sehen negative Auswirkungen auf ihren Kundenservice. Die Probleme bei der Datenbereinigung sehen die Unternehmen insbesondere bei dem Mangel an Wissen, Fähigkeiten und personellen Ressourcen für die Optimierung der Datenqualität.

Bereinigung der Daten gehört in den Analytics-Prozess

Um dem Problem Bad Data bei Big Data Analytics besser begegnen zu können, müssen die Datenqualifizierung und Datenbereinigung Bestandteil des Analyse-Prozesses sein. Dabei müssen Punkte geklärt werden wie „Welches sind die Datenquellen, sowohl bei Datenerfassung als auch bei Datenübernahme“ und „Gibt es Tools zur Unterstützung bei der Qualitätsprüfung?“.

Bei der Bewertung der Datenqualität helfen Informationen über den Kontext der jeweiligen Daten, da sich aus der Datenquelle Hinweise auf die Datenqualität ergeben können. Manuelle Prüfungen sind aber im Fall von Big Data nicht möglich. Deshalb ist die Unterstützung durch das Analyse-Tool oder zusätzliche Tools für die Datenbereinigung so wichtig.

Beispiel: TIBCO Spotfire Cloud Enterprise

Auf der Tibco Now 2016, an der der Autor des Beitrags teilnahm, wurden auch neue, integrierte Data Wrangling/Data-Preparation-Funktionen vorgestellt. Neue Self-Service-Funktionen für die Datenaufbereitung bilden eine Schnittstelle, mit der Nutzer ohne Programmierkenntnisse auf die Datenquellen zugreifen können, um die Daten zu verbessern und zu katalogisieren. Die Funktion für das „Inline Data Wrangling“ ist in „Spotfire“ fest in das System eingebaut, sodass der zusätzliche Aufwand für die Datenaufbereitung reduziert werden kann.

Nicht Bad Data, sondern Big Data

Ganz gleich, mit welchen Tools man die Datenbereinigung umsetzt, ohne Maßnahmen gegen Bad Data kann Big Data Analytics nicht den gewünschten Erfolg im Unternehmen bringen. Im Gegenteil, Bad Data kann die Datenanalysen verfälschen und zu den falschen Geschäftsentscheidungen beitragen. Datenbereinigung ist deshalb Teil des Pflichtprogramms bei Big Data Analytics.

(ID:44161935)

Über den Autor

Dipl.-Phys. Oliver Schonschek

Dipl.-Phys. Oliver Schonschek

IT-Fachjournalist, News Analyst und Commentator bei Insider Research