Klug erklärt: Hadoop und der Zugriff auf Big Data

Anbieter zum Thema

Kentix GmbH

dcg-wort-bild-marke-dark-rgb (DC-Datacenter-Group GmbH)

Data Center Group – Büro Köln

STACKIT GmbH & Co. KG

PROGRESS SOFTWARE GmbH

Die Schwächen von Hadoop

In der Theorie scheint Hadoop unschlagbar. Die Herausforderungen zeigen sich aber spätestens dann, wenn Hadoop in eine vorhandene IT-Landschaft eingefügt werden soll. Als Stolpersteine haben sich in vielen Fällen die Open-Source-Datenbankschnittstellen erwiesen, die ODBC nur unvollständig unterstützen.

Der Schwachpunkt: Ohne die ODBC-Kernfunktionen wird es sehr schwierig, die vorhandenen Business-Intelligence (BI)-Applikationen auf Hadoop abzustimmen. Oft gelingt dies nur über sehr waghalsige und komplexe Programmierumwege.

Hadoop verträgt sich zum gegenwärtigen Zeitpunkt noch nicht sonderlich mit dem in den meisten Unternehmen vorhandenen Datenanalyse- und Visualisierungs-Tools. Bevor diese Lücke nicht geschlossen ist, können Unternehmen nicht alle Vorteile von Hadoop nutzen.

ODBC – so wertvoll wie nie

Unternehmen benötigen jedoch schnelle ODBC-kompatible Datenbankschnittstellen, die sie zusammen mit ihren BI-Applikationen einsetzen können. Da nahezu alle bedeutenden BI-Plattformen ODBC als Interface nutzen, wird ODBC zum Schlüsselfaktor für den Zugriff auf Hadoop-Datenbestände. Es gibt bereits eine Reihe von Ansätzen, um die „reduzierten Daten“ in traditionelle Data-Warehouses zu importieren und sie so für das vorhandene Ecosystem von Analyse-Tools zugänglich zu machen.

Eine Lösung dafür bietet beispielsweise die Datenbankschnittstelle „Data Direct Connect XE ODBC für Hadoop Hive“ von Progress Software (siehe: Kasten).

Die Größe der Datenmengen ist ein wichtiges Merkmal von Big Data. Vielfach spielt auch die Geschwindigkeit eine Rolle, mit der die Verarbeitung und Bereitstellung der Ergebnisse erfolgen soll.
(Quelle: Progress Software)

Mit konventionellen Ansätzen lässt sich die Datenflut kaum mehr beherrschen, zumal sich das Datenwachstum weiter fortsetzen wird. In Unternehmen sammeln sich über viele Jahre hinweg Daten aus Mission-Critical-Applikationen, die beispielsweise aus Compliance-Gründen langfristig aufbewahrt werden müssen. Die weit größere Herausforderung bilden semi- oder unstrukturierte Daten wie digitale Bilder, Kommentare, Präsentationen, Textdokumente oder Videos. In Fertigungsbetrieben sorgen darüber hinaus sensorisch erfasste oder auch RFID-Daten für ein zusätzliches Datenaufkommen.

Größe, Geschwindigkeit und Datenvielfalt

Big Data bezeichnet zunächst einmal die Verarbeitung sehr großer Datenmengen. Vielfach spielt auch die Geschwindigkeit, mit der die Verarbeitung und Bereitstellung der Ergebnisse erfolgen soll, eine Rolle. Während beispielsweise Fachbereiche früher oftmals einen Tag auf Ergebnisse warten mussten, stehen mit aktuellen Big-Data-Verfahren die Resultate sehr komplexer Analysen nach wenigen Stunden zur Verfügung. So nutzen etwa Energieunternehmen verteilte Sensoren, sehr schnelle Kommunikationsnetze und Data-Mining-Techniken, um Bohroperationen optimal aufeinander abzustimmen.

Hier kann es aus Geschwindigkeitsgründen genügen, dass die Ergebnisse nach einigen Stunden vorliegen – und damit deutlich schneller als früher. Eine deutlich andere Anforderung an die Geschwindigkeit gibt es bei der Auswertung von Webstatistiken eines Online-Shops. Hier müssen die Resultate sofort vorliegen, um Besuchern und Käufern zusätzliche und für sie passende Angebote machen zu können.

Hadoop und andere Ansätze stehen heute erst am Anfang. Für Unternehmen kommt es darauf an, die mit Big-Data verbundenen Prozesse und Technologien zu meistern, ohne die vorhandenen Systeme zu vernachlässigen. Besonders effiziente Lösungen werden sich vor allem aus einer Kombination von vorhandenen und neuen Technologien wie ODBC, Java und Hadoop ergeben.

Ergänzendes zum Thema

ODBC von Progress Software

„Data Direct Connect XE ODBC für Hadoop Hive“ stellt eine skalierbare Verbindung zu den wichtigsten Hadoop-Implementierungen her. Die Datenbankschnittstelle unterstützt die weit verbreiteten Hadoop-Frameworks wie Apache, Cloudera, MAPR und Amazon EMR.

Entwickler können die Connectivity-Lösung unter Windows, Red Hat Enterprise Linux, Solaris, SUSE Linux, AIX und HP-UX einsetzen. Unternehmen sind damit in der Lage, von ihren vorhandenen SQL-basierten BI-Anwendungen auch auf Datenbestände zuzugreifen, die in Hive-Data-Warehouses vorliegen.

Ergänzend dazu gibt es auch Lösungen für Unternehmen, die in ihren BI-Applikationen JDBC-Schnittstellen verwenden. Data Direct Connect for JDBC ermöglicht einen schnellen und effizienten Datenaustausch bei Big-Data-Anwendungen. Mit dem standardbasierten, vollständig interoperablen Treiber können Unternehmen ihre Java-Applikationen funktional erweitern, ohne dass sie den Programmcode der Anwendungen ändern müssen.

Der Autor:

Jesse Davis ist Director Research and Development bei Progress Data Direct.

(ID:36793150)

Die Daten-Raffinerie und ihr Leitungssystem

Klug erklärt: Hadoop und der Zugriff auf Big Data

Die Schwächen von Hadoop

ODBC – so wertvoll wie nie

Größe, Geschwindigkeit und Datenvielfalt

Der Autor: