HA-HDFS in Hadoop 2.2.x und: Yahoo testet YARN

Hadoop sorgt nun auch für die Hochverfügbarkeit von Big Data

| Autor / Redakteur: Filipe Pereira Martins und Anna Kobylinska / Ulrike Ostler

Mithilfe von HDFS und YARN ertstrahlt Hadoop in Hochverfügbarkeit.
Mithilfe von HDFS und YARN ertstrahlt Hadoop in Hochverfügbarkeit. (Bild: Mike Kiev/Fotolia/Apache.org)

Mit „HA-HDFS“ adressiert in der zweiten, gründlich überarbeiteten Generation des quelloffenen Frameworks „Hadoop“ das Bedürfnis nach Hochverfügbarkeit (HA) verteilter Datenbestände. Wie macht sich das bei Yahoo und 465 Petabyte an Daten bemerkbar?

Hadoop, ein quelloffenes Framework der Apache Software Foundation für die verteilte Verarbeitung unstrukturierter Daten, macht wieder von sich reden. Ein umfassendes Redesign der Software-Architektur und eine HA-fähige Implementierung des Dateisystems HDFS haben die Karten neu aufgemischt.

Jürgen Urbanski, der ehemalige Vize-Präsident von IT-Architekturen und neuen Technologien bei T-Systems, einem Tochterunternehmen der Deutschen Telekom, und jetzt Mitglied des Bitkom, sagt dazu: „Der Einsatz einer Hadoop-Lösung (...) erlaubt es Unternehmen jeder Größe, schnell eine kostengünstige Landezone für alle ihre Daten aufzusetzen, welche automatisch mit den wachsenden Daten hoch skaliert“.

Big Data überflutet Datensilos

Für viele interessierte Anwender konnte ein Redesign der Hadoop-Architektur nicht schnell genug kommen. Denn: Viele Unternehmen haben ein Daten-Managementproblem. Wer aus der Datengrube verteilter, isolierter Datensilos umsetzbare Erkenntnisse gewinnen möchte, muss seinen Anwendungen zur Datenanalyse ein verteiltes Cluster-Dateisystem zur Seite stellen, welches mit den wachsenden Anforderungen Schritt hält.

Hadoop mit HDFS sollte eben dieses Bedürfnis erfüllen, nur galt das Duo bisher als zu kompliziert und kaum zu zähmen. Zahlreiche kommerzielle Mitbewerber wollen die Schwächen von Hadoop und HDFS ausgleichen. So zum Beisipel MapR, eine kommerzielle Distribution von Hadoop, koppelt das Framework an ein eigenes proprietäres Dateisystem.

Einen anderen Ansatz als MapR befolgt GridGain, eine Java-Plattform für Grid-Computing. GridGrain bietet unter anderem In-Memory HDFS. Mit HA-HDFS in Hadoop 2.x kann nun die Apache Software Foundation selbst einige relevante Unzulänglichkeiten der ersten Generation des verteilten Dateisystems beseitigen.

Ergänzendes zum Thema

Inhalt des Artikels:

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42544481 / Software)