Die Daten-Raffinerie und ihr Leitungssystem

Klug erklärt: Hadoop und der Zugriff auf Big Data

Seite: 2/3

Anbieter zum Thema

Das Kartieren und Eindampfen von Daten

Der von Google entwickelte Map-Reduce-Algorithmus beruht auf einer automatischen und parallelen Verarbeitung von Arbeitsaufträgen. Die Map-Funktion erzeugt aus dem gesamten Input eine Liste von Zwischenresultaten, die anschließend durch die Reduce-Funktion komprimiert und weiter aufbereitet und analysiert werden können.

Map-Reduce-Programme eignen sich vorwiegend für Batch-Prozesse. Der gesamte Datenbestand wird durchgearbeitet, erst dann ist das Programm zu Ende. Sollen die einmal berechneten Ergebnisse aktualisiert werden weil sich die Datenbasis geändert hat, muss das Map-Reduce-Programm noch einmal von vorne starten.

Der Elefant im Bienenhaus

Mit dem auf Cluster-Knoten verteilten Dateisystem (HDFS, Hadoop Distributed File System) und der Programmierumgebung Map-Reduce zur parallelen Verarbeitung von Abfragen sind zwei der zentralen Big-Data-Bausteine von Hadoop genannt. Eine wichtige Erweiterung bildet „Hive“, eine Data-Warehouse-Umgebung, die einerseits auf Hadoop basiert, aber andererseits als Data-Warehouse auch eine analytische Datenbank bietet.

Das digitale Universum im Unternehmen speist sich aus den vielfältigsten Quellen.
Das digitale Universum im Unternehmen speist sich aus den vielfältigsten Quellen.
(Quelle: Progress Software)
Sie stellt eine Abfragesprache (QL, Query-Language) zur Verfügung, die sich von der Syntax her an SQL orientiert. Hive bietet eine in Java programmierte Data-Warehouse-Infrastruktur, die das verteilte und hochverfügbare Hadoop-Dateisystem nutzt. Entwickelt wurde Hive ursprünglich von Facebook und seit dem Jahr 2008 steht das Projekt der Open-Source-Gemeinde zur Verfügung. Zur Einordung: Im Sommer 2012 nutzte Facebook in einem HDFS-Cluster eine mehr als 100 Petabyte große Datenbank.

(ID:36793150)