Big Data 2014 und die Elefantenrunde für das Enterprise

Das Hadoop-Wer-Gewinnt: Hortonworks versus Cloudera

| Autor / Redakteur: Thomas Drilling / Ulrike Ostler

Das OpenSource-Framework zum Beginn

Seit 2008 ist Hadoop ein Top-Level-Projekt der Apache Software Foundation. Der wichtigste Unterschied von Hadoop zur konventionellen Datenhaltung besteht in den Prinzipien der horizontalen Skalierung (Scale Oout) und der Datenlokalität. Datenlokalität bedeutet, dass Hadoop im Unterschied zur klassischen DV nicht die Daten zu den Servern überträgt, auf denen dann ein Programmcode zur Analyse ausgeführt würde, sondern umgekehrt.

Gleiche Startbedingungen für alle: Das Open-Source-Framework von Hadoop
Gleiche Startbedingungen für alle: Das Open-Source-Framework von Hadoop (Bild: VBM-Archiv)

Hadoop verteilt den auszuführenden Programmcode auf genau die Server im Hadoop-Cluster auf denen die zugehörigen Daten lagern, führt den Code verteilt (parallel) aus und fügt die Ergebnisse oder Teilergebnisse wieder zusammen. Dieser Ansatz reduziert die sonst üblichen, in der Regel zeitintensiven Datei-Übertragungen über das Netzwerk auf ein Minimum. Da außerdem der Cluster gut skaliert, erhöht sich die Geschwindigkeit der Datenverarbeitung signifikant und bringt diese überhaupt erst in eine Dimension, die Big-Data-Projekte erst möglich macht.

Batch-Verarbeitung und File-System

Der Ansatz impliziert aber auch die prinzipiellen Grenzen von Hadoop, weil Hadoop vom Ursprung her ein Batch-Ansatz ist. Das bedeutet, dass sich Hadoop quasi nicht oder nur mit großem Aufwand (Near-Realtime) oder mit Erweiterungen wie „Apache Storm“ und oder „Tez“ für Echtzeit-Probleme oder interaktive Algorithmen eignet.

Ergänzendes zum Thema
 
Schwachpunkte im Kern von Hadoop

Der Hauptaufgabenbereich liegt daher bei der in der Regel nachträglichen, dafür aber massiv-parallelen Verarbeiten von Daten beziehungsweise der Aggregation. Unter Aggregation versteht man in der Informatik entweder die Verbindung zwischen Daten oder Objekten oder den Prozess zum Gewinnen von Metadaten aus Daten.

Hadoop nutzt Standard-Hardware und skaliert

Diesen und weitere prinzipbedingte Schwachpunkte von Hadoop sollte man bei der Planung von Big-Data Projekten nicht aus dem Auge verlieren. Ein entscheidender Vorteil von Hadoop gegenüber auf traditionellen Datenbank-Technologieren basierenden Big-Data-Technologien besteht aber zweifelsohne in der Kostenbetrachtung.

Dass diese für Hadoop so immens positiv ausfällt, ergibt sich unmittelbar aus dem Prinzip der horizontalen Skalierung, denn jeder Hadoop-Cluster kann problemlos aus mehreren Tausend Servern bestehen, welche die bei Big Data anfallenden Datenmengen sicher und fehlertolerant verteilen. Dazu kommt bei Hadoop im Gegensatz zur vertikalen Skalierung (Scale Up) mit einzelnen teuren Spezial-Servern kostengünstige Commodity-Hardware etwa mit 86-/x64-CPUs von Intel oder AMD zum Einsatz.

Im Kern besteht das bei der Apache Foundation gehostete Hadoop-Projekt aus den beiden wesentlichen Kern-Komponenten, dem Hadoop Distributed File System (HDFS) und dem Hadoop MapReduce Framework. Der Algorithmus selbst wurde ursprünglich von Google entwickelt. Ersteres ist das Dateisystem, das ein verteiltes Speichern und Verwalten von Daten ermöglicht, MapReduce ist das Framework zum verteilten und parallelen Verarbeiten der gespeicherten Daten im HDFS. HDFS unterstützt dabei Dateisysteme mit mehreren 100 Millionen Dateien.

Inhalt des Artikels:

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42695649 / Software)