In der Datenhaltung und -verarbeitung ist ein Umdenken notwendig

Der Sieben-Punkte-Check zum Praxiseinsatz von Hadoop

| Autor / Redakteur: Hans-Joachim Edert / Ulrike Ostler

4. In-Memory Analytics nutzen

In-Memory Analytics führt Datenverarbeitung und mathematische Berechnungen im Arbeitsspeicher des Rechners aus und vermeidet so zeitaufwendige I/O-Prozesse. Weil die Bewegung der Datenmengen entfällt, ist diese Methode um ein Vielfaches schneller, wovon vor allem moderne Analysetechniken wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme profitieren. Neben der besseren Analyse-Performance bietet In-Memory höhere Interaktivität, und das Modell lässt sich quasi „on the fly“ anpassen.

5. Möglichkeiten moderner Analyse ausschöpfen

Moderne Ansätze halten Algorithmen für die komplexe Analyse von strukturierten und unstrukturierten Daten bereit. Zu den am häufigsten eingesetzten statistischen Methoden gehören Mustererkennung, Klassifizierung, Prognose-Erstellung, Optimierung oder Empfehlung.

Wer in die Daten hineinschauen möchte, braucht die richtigen Werkzeuge.
Wer in die Daten hineinschauen möchte, braucht die richtigen Werkzeuge. (Bild: Rainer Sturm / pixelio.de)

Data Mining hilft bei der Entdeckung von Mustern und verborgenen Beziehungen in den umfassenden polystrukturierten Datenbeständen, wobei Regression und Hauptkomponentenanalyse zum Einsatz kommen. Ebenso wird maschinelles Lernen (Machine Learning) für die Erstellung von Vorhersagen verwendet: Hier nutzt ein Computer automatisch die vorangegangenen Beobachtungen für weiterführende Erkenntnisse.

6. Textdaten in den Analytics-Mix aufnehmen

Unstrukturierte Daten in Form von Text finden sich in E-Mail-Nachrichten, Artikeln, sozialen Netzen, Blogposts und unendlich vielen anderen Quellen. Sie geben oftmals Antwort auf das „Warum?“ hinter bestimmten Aktionen.

Im Hadoop-Cluster bilden Textdaten einen großen Anteil aller dort vorgehaltenen Daten. Als Dateisystem ist HDFS besonders geeignet für die Speicherung von halb- oder unstrukturierten Daten.

Textanalyse kombiniert Natural Language Processing mit statistischen Verfahren, um bestimmte Entitäten und Fakten (Person, Ort, Gegenstand), Konzepte (Wortverbindungen, die eine bestimmte Idee transportieren), Themen (Gruppe von zusammen auftauchenden Konzepten) oder Meinungen und Stimmungen aus den Textdaten zu ziehen und für die Analyse zu nutzen. Sind die Daten extrahiert und strukturiert, können sie mit vorhandenen strukturierten Daten in Verbindung gebracht und zum Beispiel für prädiktive Modellbildung verwendet werden.

7. Modelleinsatz operationalisieren

Big Data Analytics bringt nur dann einen Mehrwert, wenn die Ergebnisse des einmal eingesetzten Modells in die laufenden Geschäftsprozesse integriert und somit genutzt werden, um bessere Entscheidungen zu treffen. Dazu ist es notwendig, das Modell direkt in den operativen Data Store zu integrieren, was als „In-Database Scoring“ bezeichnet wird.

Der Hauptvorteil: Die Datenverarbeitung findet direkt im Data Store statt, die Notwendigkeit, Daten zu bewegen, entfällt, was viel Zeit und große Ressourcen spart – vor allem bei Big Data. Bereits Bestandteil in allen wichtigen Datenplattformen soll In-Database Scoring auch in Hadoop eingebunden werden.

Die Verarbeitung funktioniert so: Wenn neue Daten in Hadoop einlaufen, werden die gespeicherten Model-Scoring-Dateien für MapReduce-Funktionen genutzt, um das Scoring-Modell auf diese neuen Informationen anzuwenden. So entstehen sehr rasch verwertbare Ergebnisse.

Inhalt des Artikels:

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42927606 / Data)