Gartner kritisiert übersteigerte Erwartungen an Data Lakes

Data Lake oder Daten-Sumpf?

| Autor / Redakteur: Ludger Schmitz / Ulrike Ostler

Was lauert in einem Data- Lake?
Was lauert in einem Data- Lake? (Bild: VBM-Archiv)

Marktanalysten von Gartner warnen, Anwender könnten beim neuen Hype um „Data Lakes“ einem Trugschluss aufsitzen.

Nach Data Warehouse und Big Data sind Data Lakes eine fast schon logisch erscheinende nächste Ausprägung der Nutzung großer Datenbestände. „Wenn Sie Sich einen Datamart als einen Laden voller Flaschen mit Wasser vorstellen, gereinigt, verpackt und strukturiert für den einfachen Verbrauch, dann ist ein Data Lake ein großer Korpus mit Wasser in einem natürlicherem Zustand. Der Inhalt des Data Lake strömt ihm von einer Quelle zu, und verschiedene Nutzer des Sees können das Wasser untersuchen, hineintauchen oder Proben nehmen.“ Mit diesen Worten hat James Dixon, CTO von Pentaho, in einem Blog-Beitrag laut Wiktionary anno 2010 als erster den Begriff Data Lake geprägt.

Nach einer Definition von Nick Heudecker, Forschungsdirektor bei Gartner, sind Data Lakes unternehmensweite Plattformen, um einerseits Daten aus unterschiedlichsten Quellen in ihrem nativen Format zu analysieren, was andererseits wiederum sämtliche Mitglieder einer Organisation (Firma) dürfen. Der zweite Teil dieser Definition ist umstritten, anscheinend auch bei Gartner.

Denn in einer Gartner-Pressemitteilung, die mit der Definition beginnt, wird zu einem Großteil vor allem deren zweiter Teil zerpflückt. Wie zu erwarten kommt abschließend der Ratschlag – und der hat es eigentlich in sich.

Die Gartner Kritik

Die kritische Gartner-Stimme kommt von Andrew White, Vice President und Distinguished Analyst bei dem Marktforschungsunternehmen. Er hat einige grundlegende Einwände.

So weist er zunächst darauf hin, dass es sicher weniger aufwändig sei, native Daten in einen Topf zu werfen, ohne ihnen vorher mittels Metadaten quasi die Korsettstangen einzuziehen und Struktur zu geben. Ein Data Warehouse macht das notwendig und viel Arbeit. Aber ohne die könnte die Performance einer Data-Lake-Analyse grottenschlecht ausfallen.

Das nächste Problem besteht darin, dass die Aussagekraft der Daten mit jeder Abfrage abnimmt. Denn jedes Mal fließen ja auch die Ergebnisse der vorherigen Abfragen in den See zurück, was zwangsläufig zu einer Verfälschung der Ergebnisse führt.

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 42853130 / Data)