Anbieter zum Thema
Die Risiken in Hadoop
Dennoch birgt dieser Ansatz einige offensichtliche Risiken: Insbesondere maschinengenerierte Daten können ihre Struktur schlagartig verändern, und wenn es dann an die Nutzung der Daten geht, gestaltet sich die Festlegung der Struktur schwierig. Darüber hinaus werden eventuelle Fehler in den so erzeugten Daten erst gefunden, wenn es bereits zu spät ist.
Somit hängt der Erfolg eines Big-Data-Projekts trotz des versprochenen Schema on Read eventuell doch von der sorgfältigen Aufbereitung der Eingangsdaten ab: natürlich nicht im gleichen Umfang wie bei einem vollständigen ETL-Projekt. Dennoch reicht es nicht, nur zu laden und auf das Beste zu hoffen.
Achten Sie vielmehr auf die Qualität und das Format der Daten, die in Hadoop einfließen. Die IT-Abteilung sollte sicherstellen, dass sie die Struktur der Daten kennen und Qualitätssicherung betreiben.
Die Herausforderungen in Unternehmen

Hadoop hat seine Skalierbarkeit bereits bei Yahoo und Facebook unter Beweis gestellt sowie als Basis der IBM Watson AI seine Fähigkeit nachgewiesen, auch mit den komplexesten Analysen zurechtzukommen. Auf der anderen Seite fehlt es an für Unternehmen wichtigen Funktionen.
Security ist ein Schwachpunkt von Hadoop. Sobald sich ein User bei einem Hadoop-Cluster angemeldet hat, kann er üblicherweise auf alle Daten in diesem Cluster zugreifen. Obwohl die Möglichkeit besteht, den Zugriff eines Users auf bestimmte Dateien in einem Cluster zu beschränken, besteht keine Möglichkeit, die Daten auf einzelne Einträge in dieser Datei zu beschränken. Darüber hinaus ist es aufgrund der umständlichen Hadoop-Sicherheit und der Interaktion mit externen Tools wie Hive (natives SQL Interface von Hadoop) gängige Praxis, allen den Zugriff auf sämtliche Inhalte zu gestatten.
- Backups gestalten sich ebenfalls schwierig. Hadoop ist zwar fehlertolerant, dennoch sollten Unternehmen einen Notfall-Recovery oder einen Wiederherstellungszeitpunkt in petto haben, für den Fall, dass Daten durch menschliches Versagen beschädigt werden. Die meisten Distributionen verfügen aber nicht über diese Fähigkeit (die MapR-Distribution besitzt jedoch eine Snapshot-Funktion).
- Es gibt keine Integration mit Enterprise-Monitoring-Systemen. Hadoop generiert Metriken und jeder Hadoop-Distributor bietet eine “Enterprise”-Konsole an, die sich jedoch nur mangelhaft mit Enterprise Monitoring-Systemen wie Openview oder Foglight integrieren lässt.
- Primitives Ressourcen-Management bedeutet, dass die Fähigkeit zum Managen von Ressourcen, damit ad-hoc-Anfragen nicht entscheidende Operationen blockieren, derzeit noch kaum entwickelt ist.
- Echtzeitabfrage ist kein Bestandteil von Hadoop. Zwar wurden bislang erste SQL-basierte Sprachen und Caching-Layers geschaffen, Hadoop eignet sich jedoch nicht für Echtzeitberechnungen.
An sich macht keines dieser Probleme Hadoop unbrauchbar, doch werden diese Einschränkungen ignoriert, ergeben sich leicht unrealistische Erwartungen an das Hadoop-Projekt.
Der Autor:
Ales Zeman arbeitet bei Dell Software.
(ID:42213353)