Apache Hadoop Projekt im Vergleich zu anderen Dateisystemen

ADACOR Hosting nutzt HDFS als Filesystem für Red Bulls weltweites Content-System

12.11.2010 | Autor / Redakteur: Monika Olschewski / Ulrich Roderer

Der Provider ADACOR Hosting hat HDFS für ein Content-Projekt mit Red Bull evaluiert.
Der Provider ADACOR Hosting hat HDFS für ein Content-Projekt mit Red Bull evaluiert.

Der Provider ADACOR Hosting testete für einen Auftrag von Red Bull verschiedene Dateisysteme wie NFS, GlusterFS, Lustre, Openfiler, CloudStore und HDFS. Alle getesteten Dateisysteme weisen viele Vorteile, aber auch einige Nachteile auf. Zuletzt konnte sich HDFS durchsetzen. Ein Praxisbericht.

Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren. Das besondere Konzept des HDFS macht es einerseits robust gegen Ausfälle, andererseits ist es enorm schnell in der Auslieferung an die entsprechende Applikation. Eine Entdeckungsreise in ein spannendes Projekt.

Rasantes Wachstum von Datenmengen und Benutzerzahlen fordern stetig neue Strategien und flexible Lösungsansätze der Informationstechnologien. Seit langem schon im Einsatz sind Rechnerverbünde, so genannte Cluster bzw. verteilte Systeme. Bestanden früher die Cluster noch aus einer kleinen Anzahl an Rechnern, werden heute bis zu mehreren tausend Server in einem Verbund zusammengeschlossen.

Diese enorme Menge an Hardware bringt ein höheres Ausfallrisiko von Komponenten mit sich. Dies beziehen die Softwarehersteller mehr und mehr in ihre Konzeption mit ein. Ein Beispiel dafür ist das Apache Hadoop Projekt. Anwendung findet diese Software beispielsweise in Applikationen, die sehr große Datenmengen verwalten und ausliefern müssen. Datenvolumina bis in den Petabyte-Bereich können von Hadoop verarbeitet werden.

Apache Hadoop Projekt

Das Hadoop Distributed File System ist Teil des Apache Hadoop Projektes. Die ursprüngliche Aufgabe dieses Projektes bestand in der Verwaltung von riesigen Datenmengen, die bei Suchmaschinen anfallen, während sie das Internet durchsuchen. Ziel dieses Open-Source-Projektes ist eine sichere, gut skalierbare Datenverarbeitung auf verteilten Systemen. Die zentralen Bestandteile sind das Hadoop Common, HDFS und MapReduce.

Für die Verarbeitung dieser zahlreichen wie auch sehr großen Dateien wurde der sogenannte MapReduce-Algorithmus entwickelt, der im Apache Hadoop Projekt seine Implementierung fand. Hadoop Common enthält die grundlegenden Funktionen für sämtliche Hadoop Subprojekte. HDFS hält die Daten vor und MapReduce ermöglicht die Verarbeitung von sehr großen Dateien auf verteilten Systemen.

Aufgrund der enormen Datenmengen wird Hadoop im Cluster betrieben. Eine der aktuell größten Implementierungen von Hadoop umfasst rund 4.000 Server und ist bei Yahoo zu finden. Eine Besonderheit von Hadoop ist der Einsatz von Standardhardware, was für den professionellen Einsatz – je nach Projektgröße – ein ganz erheblicher Kosten- und Zeitvorteil sein kann.

HDFS ist nicht als Online Storage konzipiert, was bereits auf den Projektseiten des Apache Hadoop Projektes sehr klar postuliert wird. Bei einer genaueren Betrachtung des HDFS Konzepts ist dies auch recht schnell zu erkennen. Genannt sei exemplarisch der Single Point of Failure, die NameNode. Sie verwaltet die Indizes sämtlicher gespeicherter Datenblöcke.

Dennoch bietet HDFS so viele Vorteile als Dateisystem, dass es wie Verschwendung anmutet, diese zu verschenken. Der Reiz, die wenigen Hürden mittels durchdachter Sicherheitskonzepte (wie beispielsweise mehrfach redundante Datensicherung) zu überwinden und damit die Einsatzmöglichkeiten von Hadoop zu erweitern, trieb die Techniker der ADACOR Hosting GmbH zu wahrem Forscherdrang an.

weiter mit „Herausforderung eines Content Pool“

 

Bestandteile des Apache Hadoop Projektes: Hadoop Common, Chukwa, HBase, HDFS, Hive, MapReduce, Pig und Zookeeper.

Inhalt des Artikels:

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 2047949 / Virtualisierung)