Keine Katerstimmung bei Hadoop

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

dcg-wort-bild-marke-dark-rgb (DC-Datacenter-Group GmbH)

Die Risiken in Hadoop

Dennoch birgt dieser Ansatz einige offensichtliche Risiken: Insbesondere maschinengenerierte Daten können ihre Struktur schlagartig verändern, und wenn es dann an die Nutzung der Daten geht, gestaltet sich die Festlegung der Struktur schwierig. Darüber hinaus werden eventuelle Fehler in den so erzeugten Daten erst gefunden, wenn es bereits zu spät ist.

Somit hängt der Erfolg eines Big-Data-Projekts trotz des versprochenen Schema on Read eventuell doch von der sorgfältigen Aufbereitung der Eingangsdaten ab: natürlich nicht im gleichen Umfang wie bei einem vollständigen ETL-Projekt. Dennoch reicht es nicht, nur zu laden und auf das Beste zu hoffen.

Achten Sie vielmehr auf die Qualität und das Format der Daten, die in Hadoop einfließen. Die IT-Abteilung sollte sicherstellen, dass sie die Struktur der Daten kennen und Qualitätssicherung betreiben.

Die Herausforderungen in Unternehmen

Wer geschickt vorgeht, kann auch in punkto Big Data ein Schachmatt vermeiden.
(Bild: Piligrim/ Fotolia.com)

Hadoop hat seine Skalierbarkeit bereits bei Yahoo und Facebook unter Beweis gestellt sowie als Basis der IBM Watson AI seine Fähigkeit nachgewiesen, auch mit den komplexesten Analysen zurechtzukommen. Auf der anderen Seite fehlt es an für Unternehmen wichtigen Funktionen.

Security ist ein Schwachpunkt von Hadoop. Sobald sich ein User bei einem Hadoop-Cluster angemeldet hat, kann er üblicherweise auf alle Daten in diesem Cluster zugreifen. Obwohl die Möglichkeit besteht, den Zugriff eines Users auf bestimmte Dateien in einem Cluster zu beschränken, besteht keine Möglichkeit, die Daten auf einzelne Einträge in dieser Datei zu beschränken. Darüber hinaus ist es aufgrund der umständlichen Hadoop-Sicherheit und der Interaktion mit externen Tools wie Hive (natives SQL Interface von Hadoop) gängige Praxis, allen den Zugriff auf sämtliche Inhalte zu gestatten.

Backups gestalten sich ebenfalls schwierig. Hadoop ist zwar fehlertolerant, dennoch sollten Unternehmen einen Notfall-Recovery oder einen Wiederherstellungszeitpunkt in petto haben, für den Fall, dass Daten durch menschliches Versagen beschädigt werden. Die meisten Distributionen verfügen aber nicht über diese Fähigkeit (die MapR-Distribution besitzt jedoch eine Snapshot-Funktion).

Es gibt keine Integration mit Enterprise-Monitoring-Systemen. Hadoop generiert Metriken und jeder Hadoop-Distributor bietet eine “Enterprise”-Konsole an, die sich jedoch nur mangelhaft mit Enterprise Monitoring-Systemen wie Openview oder Foglight integrieren lässt.

Primitives Ressourcen-Management bedeutet, dass die Fähigkeit zum Managen von Ressourcen, damit ad-hoc-Anfragen nicht entscheidende Operationen blockieren, derzeit noch kaum entwickelt ist.

Echtzeitabfrage ist kein Bestandteil von Hadoop. Zwar wurden bislang erste SQL-basierte Sprachen und Caching-Layers geschaffen, Hadoop eignet sich jedoch nicht für Echtzeitberechnungen.

An sich macht keines dieser Probleme Hadoop unbrauchbar, doch werden diese Einschränkungen ignoriert, ergeben sich leicht unrealistische Erwartungen an das Hadoop-Projekt.

Ergänzendes zum Thema

Das Fazit:

Big Data ist eine komplexe und potentiell unlösbare Aufgabe für viele Organisationen. Globalisierung und e-Commerce haben die Welt so sehr verkleinert, dass es für viele Unternehmen der Wettbewerb rein über den Preis oder das Ladenlokal keine Option mehr ist. Wettbewerbsvorteile entstehen immer mehr durch Personalisierung, Ausrichtung an Zielgruppen und prädiktive Empfehlungen beispielsweise.

Für viele Unternehmen hängt das Überleben davon ab, dass sie es schaffen, in irgendeiner Form datenbasiert zu arbeiten. Die Geschichte zeigt , dass viele Unternehmen bei der Konfrontation mit einer solch enormen Bedrohung schlichtweg gleichermaßen einfrieren , sich noch stärker an überkommene Geschäftsmodelle klammern und hoffen, zur Wettbewerbslandschaft der Vergangenheit zurückkehren zu können.

Big Data Analytics ist ein abgenutzter und unscharfer Ausdruck. Trotz der aufgezeigten Probleme ist aber davon auszugehen, dass die Chancen aus der Big Data-Revolution für Unternehmen genauso bedeutsam und fundamental sind wie das Entstehen des e-Commerce vor 15 Jahren. Die Unternehmen und insbesondere der Einzelhandel sollten auf diese Herausforderungen mutig und entschlossen reagieren.

Widerstand zwecklos

Organisatorischer Widerstand und Skepsis gegenüber Big Data sind nachvollziehbar. Dennoch sollte dies nicht den Blick auf die Vorteile und bisweilen auch die Notwendigkeit für Big Data-Projekte behindern.

Natürlich kann man einem Kater immer vorbeugen, indem man abstinent bleibt. Im Falle von Big Data jedoch können sich die meisten Unternehmen diese Abstinenz nicht leisten: maßvolles Trinken ist der beste Weg, einen Kater zu vermeiden, ohne gleich die ganze Party zu verpassen.

Der Autor:

Ales Zeman arbeitet bei Dell Software.

(ID:42213353)

Big Data Analytics - keiner kommt darum herum

Keine Katerstimmung bei Hadoop

Die Risiken in Hadoop

Die Herausforderungen in Unternehmen

Widerstand zwecklos

Der Autor: