Keine Katerstimmung bei Hadoop

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

dcg-wort-bild-marke-dark-rgb (DC-Datacenter-Group GmbH)

Plattformen für die Big-Data-Analyse

Hadoop-Cluster können im Prinzip aus Tausenden Commodity-Servern bestehen, die alle über ihre eigenen Festplatten und CPUs verfügen. Die Daten werden dabei redundant über die Knoten des Clusters hinweg gespeichert.

Der „Mapreduce“-Algorithmus ermöglicht die Verteilung der Verarbeitung über alle Knoten im Cluster. Als Ergebnis erhält man eine erstaunlich kostengünstige Verteilung der Verarbeitung auf potentiell Tausende CPUs.

Doch die Programmierung in Mapreduce ähnelt der Programmierung in Assembler-Sprache und ist keine sehr praxisnahe Methode zur Erstellung von Big-Data-Algorithmen. Um aus Big Data einen großen Mehrwert zu generieren, brauchen die Datenwissenschaftler Tools, die in der Lage sind, mehrere Sachen zu unterstützen: statistische Hypothesenprüfung, Erstellung und Training prädiktiver Modelle sowie Reporting und Visualisierung.

Open-Source-Projekte wie Mahout, Weka und R sind ein Anfang, aber nicht einfach zu benutzen und darüber hinaus oftmals nur unzureichend skalierbar oder anderweitig unbrauchbar. Daher sollten sie nicht das Herzstück für Big-Data-Lösungen im Unternehmen bilden.

Wichtige Open-Source-Projekte

Weiter entwickelte Toolkits -, die auf Mahout, R und ähnlichem basieren, diese jedoch einer breiteren Zielgruppe erschließen könnten und sie als Bausteine in komplexeren Workflows verfügbar machen könnten, - stellen die nächste Evolutionsstufe bei den Produkten für die Datenwissenschaft dar. Ohne diese Big-Data-Analytics-Plattformen wäre die volle Nutzung von Big Data nur den größten Unternehmen vorbehalten, die über ausreichend Budget und Reputation verfügen, um für die begrenzte Anzahl fähiger Datenwissenschaftler attraktiv zu sein.

Datenwissenschaftler benötigen effektivere Analyseplattformen und bessere Tools als Hadoop und sein Ökosystem bieten können. Die Erstellung solcher Tools sollte daher in der Software-Community absolute Priorität haben.

Datenqualität bleibt Pflicht

Datenqualität ist Trumpf.
(Bild: © Tommroch - Fotolia)

Hadoop hat sich nicht nur erfolgreich als Basis für so viele Big-Data-Projekte durchgesetzt, weil es große Datenmengen wirtschaftlich speichern und verarbeiten kann, sondern auch, weil es Daten in jeglicher Form akzeptiert. Bei herkömmlichen Datenbanken müssen die Daten in einer vordefinierten Form (Schema) vorliegen, bevor sie geladen werden können.

Diese Extract-Transform-Load(ETL)-Projekte sind gemeinhin teuer und zeitraubend. Darüber hinaus erfordert die wirtschaftliche Datenhaltung normalerweise, dass die Daten vor dem Laden aggregiert und aufbereitet werden. Damit verlieren sie aber die für Big-Data-Lösungen erforderliche Präzision.

Hadoop ermöglicht das s ogenannte „Schema on Read“ – dabei muss die Struktur der Daten nur definiert werden, wenn sie gelesen werden sollen. Dadurch können die Daten in der absoluten Rohform eingelesen werden, ohne vorherige Analyse oder Definition der Daten. Somit erfolgt das Laden ohne großen Aufwand und man „bezahlt“ nur für die Schemata, die man auch wirklich braucht.

(ID:42213353)

Big Data Analytics - keiner kommt darum herum

Keine Katerstimmung bei Hadoop

Plattformen für die Big-Data-Analyse

Wichtige Open-Source-Projekte

Datenqualität bleibt Pflicht