Anbieter zum Thema
Das Kartieren und Eindampfen von Daten
Der von Google entwickelte Map-Reduce-Algorithmus beruht auf einer automatischen und parallelen Verarbeitung von Arbeitsaufträgen. Die Map-Funktion erzeugt aus dem gesamten Input eine Liste von Zwischenresultaten, die anschließend durch die Reduce-Funktion komprimiert und weiter aufbereitet und analysiert werden können.
Map-Reduce-Programme eignen sich vorwiegend für Batch-Prozesse. Der gesamte Datenbestand wird durchgearbeitet, erst dann ist das Programm zu Ende. Sollen die einmal berechneten Ergebnisse aktualisiert werden weil sich die Datenbasis geändert hat, muss das Map-Reduce-Programm noch einmal von vorne starten.
Der Elefant im Bienenhaus
Mit dem auf Cluster-Knoten verteilten Dateisystem (HDFS, Hadoop Distributed File System) und der Programmierumgebung Map-Reduce zur parallelen Verarbeitung von Abfragen sind zwei der zentralen Big-Data-Bausteine von Hadoop genannt. Eine wichtige Erweiterung bildet „Hive“, eine Data-Warehouse-Umgebung, die einerseits auf Hadoop basiert, aber andererseits als Data-Warehouse auch eine analytische Datenbank bietet.

(ID:36793150)