Big Data 2014 und die Elefantenrunde für das Enterprise

Das Hadoop-Wer-Gewinnt: Hortonworks versus Cloudera

| Autor / Redakteur: Thomas Drilling / Ulrike Ostler

Cloudera

Das ebenfalls in Palo Alto ansässige, rund 600 Mitarbeiter starke Unternehmen Cloudera operiert mit seiner Hadoop-Distribution dank zahlreicher eigener Erweiterungen und Tools an der Grenze zu Big-Data-Suiten und versteht sich als preisgünstige „Alternative“ zu relationalen Datenbanken, weniger als Ergänzung. Während sich Hortonworks möglichst eng am Apache-Standard orientiert, entfernt sich Cloudera mit zahlreichen eigenen Entwicklungen zunehmend einen Hadoop-Standard, den es offiziell gar nicht gibt.

Das Cloudera Manager Dashboard
Das Cloudera Manager Dashboard (Bild: Claudera)

Daher besteht der wichtigste und möglicherweise entscheidende Vorteil der Cloudera Distribution darin, dass diese neben einem Installations-Werkzeug auch proprietäre Tools zur Cluster-Administraton wie den Cloudera Manager mitbringt. Darüber hinaus treibt Cloudera mit „Impala“ ein eigenes Open-Source-Projekt zur Echtzeitanalyse voran.

Das Cluster Setup mit der frei verfügbaren Version von Cloudera Manager
Das Cluster Setup mit der frei verfügbaren Version von Cloudera Manager (Bild: Claudera)

Zwar gibt es auch von Cloudera eine kostenfreie Variante der Distribution „Cloudera Express“, für den kommerziellen Einsatz mit „Cloudera Enterprise“ fallen aber immer von der Cluster-Größe abhängige Lizenzgebühren an, die dann ebenfalls professionellen Support umfassen. Allerdings unterstützt der „Cloudera-Manager“ in der Enterprise-Version wesentlich mehr Funktionen. Prominente Cloudera-Anwender sind etwa Ebay, Autoscout 24, Netapp, Rackspace Hosting oder Samsung, die zum Teil (Samsung, Ebay) aber auch Hortonworks nutzen.

Was ist Hadoop ist und was nicht?

Um zu verstehen, welche Distribution für das eigene Unternehmen sinnvoll ist, sollte bekannt sein, was Hadoop eigentlich ist. Derzeit lässt sich Hadoop als ein freies in Java geschriebenes Framework für das verteilte Speichern und zum parallelen Verarbeiten sehr großer Datenmengen auf Basis eines horizontal verteilten Dateisystems beschreiben – nicht mehr, aber auch nicht weniger.

Das Hadoop-Projekt weist inzwischen einen Reifegrad von zehn Jahren auf und wurde ursprünglich vom Lucene-Entwickler Doug Cutting und von Mike Cafarella bei Yahoo entwickelt. Der Name Hadoop nebst Maskottchen (der kleine Elefant) stammt von Cutting: Hadoop war der Name des Plüschelefanten seines kleinen Sohnes.

Inhalt des Artikels:

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 42695649 / Software)