Big Data 2014 und die Elefantenrunde für das Enterprise

Das Hadoop-Wer-Gewinnt: Hortonworks versus Cloudera

| Autor / Redakteur: Thomas Drilling / Ulrike Ostler

Das Hadoop Öko-System

Um diese beiden Kern-Komponenten (Core Hadoop) herum tummelt sich ein ganzes Öko-Systems an weiteren Komponenten, wie die von Yahoo entwickelten Scripting Engine „Apache Pig“, „Apache Hive“, eine auf dem MapReduce-Framework basierende Abstraktionsebene mit einer SQL-ähnliche Abfragesprache „HiveQL“, Weiterhin sind „Hortonworks HCatalog“ für das Metadaten-Management oder die NoSQL-Datenbank „Apache HBase“ zu nennen, welche immer dann zum Einsatz kommt, wenn die Batch-orientierte Arbeitsweise von Hadoop mit ihrer Optimierung auf das einmalige Speichern und mehrmalige Lesen der Daten dem Problem nicht angemessen ist, etwa wenn ein Manipulieren der Daten gewünscht ist oder bei sehr schreib intensiven Szenarien.

Aus dem Vergleich der Anbieter von Hadoop-Analyse-Werkzeugen ...
Aus dem Vergleich der Anbieter von Hadoop-Analyse-Werkzeugen ... (Bild BARC)

Die SQL-ähnliche Abfragesprache HiveQL hingegen erlaubt das Ausführen von Abfragen oder ermöglicht Aggregationen und die Analyse der im HDFS gespeicherte Daten. Hive ist damit quasi die Data-Warehouse-Komponente des Hadoop-Frameworks.

Der Zoo

Das Ambari-Dashboard.
Das Ambari-Dashboard. (Bild: Hortonworkd)

Darüber hinaus gibt es im Hadoop-Framework noch weitere mehr oder weniger unabhängige Komponenten wie „Apache ZooKeeper“, „Apache Oozie“, „Apache Scoop“, „Apache Flume“, „Apache Mahout“ oder „Apache Ambari“. ZooKeeper etwa kümmert sich um das Koordinieren der zahlreichen verteilten Prozesse, Oozie erlaubt das Erzeugen und Automatisieren von Prozessketten, Scoop hilft beim Im- und/oder Export großer Datenmengen aus relationalen Datenbanken und bei Mahoop handelt es sich um eine speziell für Hadoop entwickelte Bibliothek für Data Mining und Machine Learning. Erleichterung beim Installieren, Administrieren und Überwachen eines Hadoop-Cluster aus Tausenden Servern mit Hilfe eines Web-Interface verspricht zudem die quell-offene Hadoop-Komponente „Apache Ambari“, die inzwischen auch bei bei der Hadoop-Distribution von Hortonworks zum Einsatz kommt.

Hadoop kann inzwischen nicht nur relationale Datenbanken verwalten, sondern auch eine ganze Reihe von Spezial-Daten. So erlaubt etwa „Apache Flume“ das Sammeln und Aggregieren von Log-Daten.

Die Hadoop-Distributionen

Während das Hadoop-Kernsystem (Core Hadoop) nur aus dem HDFS und MapReduce besteht, meint man mit Hadoop im allgemeinen Sprachgebrauch das oben skizzierte Ökosystem von verwandten, zusammenhängende, aufeinander basierenden Einzel-Projekten. Deshalb ist die Bezeichnung Hadoop-Framework sehr treffend.

Bleiben nur zwei Distributoren zur Dsiposition?
Bleiben nur zwei Distributoren zur Dsiposition? (Bild: Rolf Handke / pixelio.de)

Das Installieren und Betreiben eines Hadoop-Cluster ist allerdings eine sehr komplexe Angelegenheit, weil Hadoop weder irgendeine Hilfe bei der Installation, noch bei der Überwachung eines Hadoop-Clusters bietet. Außerdem ist es sehr aufwendig, einzelnen Komponenten des geschilderten Hadoop-Öko-Systems zu nutzen oder in eigene Projekte zu integrieren, da jede davon einzeln installiert und konfiguriert werden muss.

Ferner sind nicht alle Komponenten miteinander kompatibel, so dass Unternehmen eine gehörige Portion Know How benötigen, um die jeweils zueinander passenden Versionen der jeweiligen Hadoop-Komponenten zu bestimmen und zur Zusammenarbeit zu bewegen. Hadoop pur eignet sich daher nur für hoch spezialisierte Fachleute oder Entwickler.

Barc veröffentlicht Vergleich von Hadoop-Distributionen

Die Enterprise-tauglichen Ausprägungen von Hadoop

Barc veröffentlicht Vergleich von Hadoop-Distributionen

09.05.14 - Forrester hat schon eine, jetzt auch das deutsche Forschungs- und Beratungsinstitut für Unternehmenssoftware Barc: eine vergleichende Studie der „Hadoop“-Distributionen ”. Damit sollen Unternehmen einen Überblick über die diversen auf Apache Hadoop basierenden, aber funktional oft unterschiedlichen Angebote für die Verwaltung von Big-Data-Daten erhalten. lesen

Hadoop-Distribution wie die oben genannten sind dagegen aufeinander abgestimmte Suiten aus der Hadoop-Basis-Software und weiteren Hadoop-Komponenten, zusätzlichen Tools und zum Teil herstellerspezifischen Erweiterungen. Eine Hadoop-Distribution lässt sich als integriertes Softwarepaket daher in der Regel einfacher konfigurieren und in Betrieb nehmen, als das quelloffene Hadoop-Core-System. Zudem bieten Hadoop-Distributionen den für viele Unternehmen unerlässlichen Hersteller-Support. Darüber hinaus gibt es noch die so genannten Big-Data-Suiten. Diese beruhen nur zum Teil auf Core-Hadoop, kombiniert mit eigenen Frameworks und enthalten im Gegensatz zu den Hadoop-Distributionen auch Werkzeuge für die Echtzeitanalyse, sowie Tools zur Datenmodellierung und Visualisierung.

Der Autor:

Thomas Driilling ist freier Autor und bloggt auf Datacenter-Insider: Drillings Open-Source-Eck

Inhalt des Artikels:

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42695649 / Software)