Anbieter zum Thema
4. In-Memory Analytics nutzen
In-Memory Analytics führt Datenverarbeitung und mathematische Berechnungen im Arbeitsspeicher des Rechners aus und vermeidet so zeitaufwendige I/O-Prozesse. Weil die Bewegung der Datenmengen entfällt, ist diese Methode um ein Vielfaches schneller, wovon vor allem moderne Analysetechniken wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme profitieren. Neben der besseren Analyse-Performance bietet In-Memory höhere Interaktivität, und das Modell lässt sich quasi „on the fly“ anpassen.
5. Möglichkeiten moderner Analyse ausschöpfen
Moderne Ansätze halten Algorithmen für die komplexe Analyse von strukturierten und unstrukturierten Daten bereit. Zu den am häufigsten eingesetzten statistischen Methoden gehören Mustererkennung, Klassifizierung, Prognose-Erstellung, Optimierung oder Empfehlung.

6. Textdaten in den Analytics-Mix aufnehmen
Unstrukturierte Daten in Form von Text finden sich in E-Mail-Nachrichten, Artikeln, sozialen Netzen, Blogposts und unendlich vielen anderen Quellen. Sie geben oftmals Antwort auf das „Warum?“ hinter bestimmten Aktionen.
Im Hadoop-Cluster bilden Textdaten einen großen Anteil aller dort vorgehaltenen Daten. Als Dateisystem ist HDFS besonders geeignet für die Speicherung von halb- oder unstrukturierten Daten.
Textanalyse kombiniert Natural Language Processing mit statistischen Verfahren, um bestimmte Entitäten und Fakten (Person, Ort, Gegenstand), Konzepte (Wortverbindungen, die eine bestimmte Idee transportieren), Themen (Gruppe von zusammen auftauchenden Konzepten) oder Meinungen und Stimmungen aus den Textdaten zu ziehen und für die Analyse zu nutzen. Sind die Daten extrahiert und strukturiert, können sie mit vorhandenen strukturierten Daten in Verbindung gebracht und zum Beispiel für prädiktive Modellbildung verwendet werden.
7. Modelleinsatz operationalisieren
Big Data Analytics bringt nur dann einen Mehrwert, wenn die Ergebnisse des einmal eingesetzten Modells in die laufenden Geschäftsprozesse integriert und somit genutzt werden, um bessere Entscheidungen zu treffen. Dazu ist es notwendig, das Modell direkt in den operativen Data Store zu integrieren, was als „In-Database Scoring“ bezeichnet wird.
Der Hauptvorteil: Die Datenverarbeitung findet direkt im Data Store statt, die Notwendigkeit, Daten zu bewegen, entfällt, was viel Zeit und große Ressourcen spart – vor allem bei Big Data. Bereits Bestandteil in allen wichtigen Datenplattformen soll In-Database Scoring auch in Hadoop eingebunden werden.
Die Verarbeitung funktioniert so: Wenn neue Daten in Hadoop einlaufen, werden die gespeicherten Model-Scoring-Dateien für MapReduce-Funktionen genutzt, um das Scoring-Modell auf diese neuen Informationen anzuwenden. So entstehen sehr rasch verwertbare Ergebnisse.
(ID:42927606)