Mit Java-basiertem Framework Prozesse auf Servern verteilen

Big Data im Unternehmen mit Hadoop

Seite: 2/2

Firma zum Thema

Diese Grundfunktionen lassen sich allerdings auch mit weiteren Funktionen erweitern. So kann zum Beispiel HBase als Datenbank genutzt werden. Diese Datenbank baut auf Google Big Table auf und kann sehr große Datenmengen speichern. Die Datenbank ist vor allem für Infrastrukturen gedacht, die sehr häufig große Datenmengen berechnen müssen, deren Datenstruktur sich aber selten ändert.

Hadoop im Cluster - Ausfallsicherheit und Delegierung von Rechenaufgaben

Eine weitere optionale Funktion ist Pig. Mit dieser lassen sich Map-Reduce-Programme auf Basis von Latin erstellen und bessere Analysen durchführen. Um ein Hadoop-System zu überwachen, bietet sich die Erweiterung Chukwa an.

Damit Hadoop funktioniert, ist ein Cluster eine wichtige Voraussetzung. Das System arbeitet dazu mit dem Master/Slave-Prinzip. Der Master im Hadoop-Cluster, auch Name Node genannt, kennt alle wichtigen Daten und Dateien, die im Cluster im Einsatz sind. Die Berechnung der Daten findet auf den Slave-Knoten statt.

Das System ist ebenfalls ausfallsicher ausgelegt und repliziert alle zerlegten Dateien auf die verschiedenen Slave-Knoten im Cluster. Auf diesem Weg lassen sich ausgefallene Slave-Knoten leicht kompensieren, da keinerlei Daten verloren gehen können. Damit die Technik funktioniert, melden sich die Slave-Knoten regelmäßig beim Master. Erhält der Master keine Antwort mehr von einem Slave, delegiert er die Berechnung der Daten an einen anderen Knoten.

Damit auch der Master keinen Fehlerpunkt im Cluster darstellt, wird innerhalb des Clusters ein zweiter Ausfall-Master festgelegt. Dieser protokolliert die Daten des eigentlichen Masters nur und hilft bei der Wiederherstellung. Er kann nicht automatisiert dessen Funktion übernehmen.

Professioneller Support, trotz kostenloser Nutzung

Die Verteilung und Berechnung der Daten, die Replikation und die Zusammenarbeit zwischen Master- und Slave-Knoten, übernimmt der von Google entwickelte Map-Reduce-Algorithmus. Der Map-Teil des Algorithmus teilt die Datenmenge der Dateien in kleine Blöcke auf und repliziert sie auf die einzelnen Knoten.

Diese berechnen Ergebnisse und teilen sie dem Algorithmus mit. Anschließend werden die nun erheblich kleineren Datenmengen in der Reduce-Phase wieder zusammengefasst. Die einzelnen Rechenaufgaben der Slave-Knoten, auch Job genannt, verwaltet der Master im Cluster. Zum Abschluss stellt der Master das Ergebnis der Berechnungen zur Verfügung.

Unternehmen die Hadoop dauerhaft produktiv einsetzen, sollten auf Dauer auch auf professionellen Support setzen. In diesem Bereich gibt es Unternehmen, die eigene Distributionen zur Verfügung stellen. Ein prominentes Beispiel ist Cloudera.

Hier arbeitet auch einer der ursprünglichen Entwickler von Hadoop. Unternehmen, die gerne auf Microsoft-Lösungen setzen, können Hadoop auch mit Windows Azure nutzen. Weitere Unternehmen mit Hadoop-Lösungen und -Support sind IBM, EMC, Yahoo, SAS, Teradata und SAP.

(ID:39429300)