Die Daten-Raffinerie und ihr Leitungssystem

Klug erklärt: Hadoop und der Zugriff auf Big Data

Seite: 3/3

Anbieter zum Thema

Die Schwächen von Hadoop

In der Theorie scheint Hadoop unschlagbar. Die Herausforderungen zeigen sich aber spätestens dann, wenn Hadoop in eine vorhandene IT-Landschaft eingefügt werden soll. Als Stolpersteine haben sich in vielen Fällen die Open-Source-Datenbankschnittstellen erwiesen, die ODBC nur unvollständig unterstützen.

Der Schwachpunkt: Ohne die ODBC-Kernfunktionen wird es sehr schwierig, die vorhandenen Business-Intelligence (BI)-Applikationen auf Hadoop abzustimmen. Oft gelingt dies nur über sehr waghalsige und komplexe Programmierumwege.

Hadoop verträgt sich zum gegenwärtigen Zeitpunkt noch nicht sonderlich mit dem in den meisten Unternehmen vorhandenen Datenanalyse- und Visualisierungs-Tools. Bevor diese Lücke nicht geschlossen ist, können Unternehmen nicht alle Vorteile von Hadoop nutzen.

ODBC – so wertvoll wie nie

Unternehmen benötigen jedoch schnelle ODBC-kompatible Datenbankschnittstellen, die sie zusammen mit ihren BI-Applikationen einsetzen können. Da nahezu alle bedeutenden BI-Plattformen ODBC als Interface nutzen, wird ODBC zum Schlüsselfaktor für den Zugriff auf Hadoop-Datenbestände. Es gibt bereits eine Reihe von Ansätzen, um die „reduzierten Daten“ in traditionelle Data-Warehouses zu importieren und sie so für das vorhandene Ecosystem von Analyse-Tools zugänglich zu machen.

Eine Lösung dafür bietet beispielsweise die Datenbankschnittstelle „Data Direct Connect XE ODBC für Hadoop Hive“ von Progress Software (siehe: Kasten).

Die Größe der Datenmengen ist ein wichtiges Merkmal von Big Data. Vielfach spielt auch die Geschwindigkeit eine Rolle, mit der die Verarbeitung und Bereitstellung der Ergebnisse erfolgen soll.
Die Größe der Datenmengen ist ein wichtiges Merkmal von Big Data. Vielfach spielt auch die Geschwindigkeit eine Rolle, mit der die Verarbeitung und Bereitstellung der Ergebnisse erfolgen soll.
(Quelle: Progress Software)
Mit konventionellen Ansätzen lässt sich die Datenflut kaum mehr beherrschen, zumal sich das Datenwachstum weiter fortsetzen wird. In Unternehmen sammeln sich über viele Jahre hinweg Daten aus Mission-Critical-Applikationen, die beispielsweise aus Compliance-Gründen langfristig aufbewahrt werden müssen. Die weit größere Herausforderung bilden semi- oder unstrukturierte Daten wie digitale Bilder, Kommentare, Präsentationen, Textdokumente oder Videos. In Fertigungsbetrieben sorgen darüber hinaus sensorisch erfasste oder auch RFID-Daten für ein zusätzliches Datenaufkommen.

Größe, Geschwindigkeit und Datenvielfalt

Big Data bezeichnet zunächst einmal die Verarbeitung sehr großer Datenmengen. Vielfach spielt auch die Geschwindigkeit, mit der die Verarbeitung und Bereitstellung der Ergebnisse erfolgen soll, eine Rolle. Während beispielsweise Fachbereiche früher oftmals einen Tag auf Ergebnisse warten mussten, stehen mit aktuellen Big-Data-Verfahren die Resultate sehr komplexer Analysen nach wenigen Stunden zur Verfügung. So nutzen etwa Energieunternehmen verteilte Sensoren, sehr schnelle Kommunikationsnetze und Data-Mining-Techniken, um Bohroperationen optimal aufeinander abzustimmen.

Hier kann es aus Geschwindigkeitsgründen genügen, dass die Ergebnisse nach einigen Stunden vorliegen – und damit deutlich schneller als früher. Eine deutlich andere Anforderung an die Geschwindigkeit gibt es bei der Auswertung von Webstatistiken eines Online-Shops. Hier müssen die Resultate sofort vorliegen, um Besuchern und Käufern zusätzliche und für sie passende Angebote machen zu können.

Hadoop und andere Ansätze stehen heute erst am Anfang. Für Unternehmen kommt es darauf an, die mit Big-Data verbundenen Prozesse und Technologien zu meistern, ohne die vorhandenen Systeme zu vernachlässigen. Besonders effiziente Lösungen werden sich vor allem aus einer Kombination von vorhandenen und neuen Technologien wie ODBC, Java und Hadoop ergeben.

Der Autor:

Jesse Davis ist Director Research and Development bei Progress Data Direct.

(ID:36793150)