Dezentrale Datenverwaltung Data Mesh: Datenarchitektur der nächsten Generation
Anbieter zum Thema
Daten geschäftsfördernd einsetzen – das ist das Ziel von Unternehmen, die auf Data Analytics und damit verbundene Self-Service-Tools setzen. Doch damit alle Mitarbeitenden Daten zielführend analysieren können, müssen diese sinnvoll aufbereitet, am passenden Ort gespeichert und für die jeweiligen Anwender leicht zugänglich sein.

Dass aber Daten sinnvoll bearbeitet und passend gespeichert werden, das ist allerdings nur in 8 Prozent der Unternehmen der Fall, so eine aktuelle PwC-Studie. Ein Datenarchitektur-Ansatz wie Data Mesh liefert dafür die passende Infrastruktur und trägt maßgeblich zur Datendemokratisierung bei.
Die moderne Datenlandschaft: Speicherung, Verwaltung, Analyse
Zur Dateninfrastruktur in Unternehmen gehören üblicherweise Tools für die Speicherung, Verwaltung und Analyse von Daten. Für ersteres nutzen Organisationen klassischerweise Datenbanken, in denen sie ihre operativen und analytischen Daten in roher Form speichern. Bei der Verwaltung und Aufbereitung der gespeicherten Daten kommen größere Repositorys wie Data Warehouses und Data Lakes zum Einsatz, die Daten aus mehreren Quellen, wie verschiedene Datenbanken, konsolidieren. Spezielle Analytics-Tools ermöglichen die Recherche und Auswertung von Daten, um daraus Erkenntnisse zu ziehen und entsprechende Entscheidungen zu treffen.
Data Warehouses und Data Lakes unterscheiden sich vor allem in der Funktionalität. Data Lakes zeichnen sich durch eine hohe Flexibilität aus und dienen der Datensicherung sowie fortgeschrittenen Analysen. In ihnen „schwimmen“ sowohl strukturierte als auch unstrukturierte Daten. Dadurch eigenen sie sich perfekt für Big Data-Analysen, Machine Learning und explorative Analysen.
Ein Teil der Daten wird wiederum aufbereitet und strukturiert in Data Warehouses transferiert. Diese bieten durch die Eigenschaft eines Warenlagers eine leicht zugängliche Verwaltung von konsolidierten Daten, die vor allem im Kontext von datenbasierten Entscheidungen zum Tragen kommen. Nutzer können auf diese Daten über Business Intelligence (BI)- und Data Science-Anwendungen einfach zugreifen.
... und Data Lakehouses
Unternehmen, die die Funktionalitäten sowohl von Data Lakes als auch von Data Warehouses benötigen, können auch eine Kombination aus beiden verwenden, so genannte Data Lakehouses. Dort können sie sowohl strukturierte als auch unstrukturierte Daten speichern, verwalten und bedarfsgerechte Analysen durchführen.
Welches Repository für ein Unternehmen das richtige ist, hängt auch damit zusammen, welche Art von Analysen durchgeführt werden sollen. Grundsätzlich sollte aber die Datenanalyse nicht als Ebene über den Verwaltungssystemen liegen, sondern im Optimalfall in diese integriert sein und von vorneherein mitgedacht werden. Analytics-Datenbanken als Basis erlauben beispielsweise die direkte Verknüpfung mit Analyse- und BI-Tools, die es ermöglichen, die gespeicherten Daten auszuwerten.
Unternehmen arbeiten in der Regel mit einer Vielzahl an verschiedenen, verteilten Systemen, wodurch sich die Datenlandschaft sehr komplex und umfangreich gestaltet. Hinzu kommt, dass all diese Systeme nicht nur auf eine Vielfalt an Quellen, sondern außerdem sowohl auf Cloud- als auch On-Premise-Umgebungen zugreifen. Dadurch entstehen Datensilos und die Governance über die Systeme ist erschwert.
Das Zusammenführen verteilter Daten
Damit die verschiedenen Systeme zusammengeführt, einheitlich und zugänglich werden, bedarf es einer ausgeklügelten Datenarchitektur, die definiert, wie alle Daten des Unternehmens erfasst, gespeichert, verwaltet und verwendet werden. Bei der Entscheidung für die richtige Datenarchitektur haben Unternehmen je nach Bedarf die Wahl zwischen einem zentralen Ansatz wie Data Fabric oder einem dezentralen Ansatz wie Data Mesh.
Was ist der Unterschied? Data Fabric verbindet zentral Daten aus allen Umgebungen und fungiert als Zugriffspunkt. Das „Datengewebe“ identifiziert dabei auch Relationen zwischen den zahlreichen Quellen und Datenpunkten und automatisiert wiederkehrende Aufgaben. Durch diese übergreifende Funktion können Unternehmen den Wert ihrer Daten vergrößern.
Doch Data Fabric hat einen großen Nachteil: Durch den zentralen Ansatz, befinden sich die Daten nicht unbedingt bei den tatsächlichen Nutzern, sondern liegen weiterhin in einem Silo bei wenigen Datenspezialisten. Eine Regelung, die im Widerspruch zu den Entwicklungen in den letzten Jahren steht: Die Anzahl der Anwender hat sich durch die fortschreitende Datendemokratisierung deutlich vergrößert und mittlerweile benötigen auch Mitarbeitende ohne entsprechenden Background Zugang zu Daten.
Data Mesh: Ein soziotechnischer Ansatz
Data Mesh will diesen Anwendern die Hoheit über ihre eigenen Daten zurückgeben. Die Erfinderin Zhamak Dehghani erklärt den Kern ihres Ansatzes wie folgt: „Dieser neue Weg führt uns weg von der Zentralisierung von Daten und deren Ownership hin zu einem dezentralen Modell.“
Wie das in der Praxis aussieht, definiert sie in vier Prinzipien:
- 1. Domain Ownership/Datendomänen: Um dezentrale Ownership zu erreichen, etabliert der Data Mesh-Ansatz Datendomänen innerhalb des Unternehmens, die die Verantwortung über ihre eigenen Daten übernehmen. Diese korrespondieren häufig mit bestehenden Abteilungen.
Jede Domäne verfügt mindestens über einen dedizierten Spezialisten, der die Daten der gesamten Domäne verwaltet. Die Einführung der dezentralen Domain Ownership vereinfacht die Skalierung, schafft Agilität und verbessert die Datenqualität durch das Zusammenrücken von Datenherkunft und -nutzung.
- 2. Data-as-Product: In einer Data Mesh-Architektur sind Daten als Produkte klassifiziert, so genannte „Datenprodukte“. Jedes Datenprodukt sollte auffindbar, adressierbar, verständlich, vertrauenswürdig, nativ zugreifbar, interoperabel, eigenständig wertvoll und sicher sein. In der Praxis bedeutet das, es besteht aus mindestens folgenden Komponenten: den Daten an sich, Metadaten, eine klare Zuordnung in Form eines Codes und darauf bezogene Richtlinien.
Die Klassifizierung als Produkt bedeutet auch, es gibt einen „Kunden“, in diesem Fall die Datennutzer. Die Datenteams innerhalb der einzelnen Domäne stellen diesen die passgenauen Datenprodukte zur Verfügung und bauen so Silos ab.
- 3. Self-Service-Data-Plattform: Mitarbeitende erhalten durch die dezentrale Verteilung in den Domänen einfachen Zugang zu ihren eigenen Datenprodukten. Die Daten-Spezialisten der einzelnen Domänen-Teams stellen über eine Self-Service-Data-Plattform die passenden Datenprodukte zur Verfügung und verwalten den gesamten Lebenszyklus der Datenprodukte. Die Self-Service-Plattform fungiert als Schnittstelle für das gesamte Unternehmen und reduziert die allgemeine Komplexität des Daten-Managements.
- 4. Federated Computational Governance: Der Data Mesh-Ansatz gibt einer großen Gruppe an Mitarbeitenden die Macht über ihre Daten. Das geht einher mit Verantwortung und Entscheidungsgewalt. Wenn es um die Themen Sicherheit und Compliance geht, ist eine zentrale Steuerung unumgänglich. Damit die Domänen- und Plattformteams dabei interoperabel bleiben und ihre Autonomie und Agilität aufrechterhalten, setzt die Data Mesh-Struktur auf eine föderale Lösung. Diese definiert (automatisiert) übergreifende Governance-Anforderungen für alle Datenprodukte, erlaubt aber auch lokale Richtlinien.
Die optimale Datenlandschaft sieht in jedem Unternehmen anders aus. Der strategische Aufbau und das Zusammenführen der einzelnen Puzzleteile lohnt sich langfristig, um ein datengesteuertes Geschäftsmodell zu etablieren und echten Wert aus den eigenen Daten zu schöpfen. Data Mesh stellt als Architektur der nächsten Generation einen innovativen soziotechnischen Ansatz dar, der Unternehmen auf die nächste Stufe der Digitalisierung heben kann.
*Der Autor
Mathias Golombek ist seit Januar 2014 Mitglied des Vorstands der Exasol AG. In seiner Rolle als Chief Technology Officer verantwortet er alle technischen Bereiche des Unternehmens, von Entwicklung, Produkt Management über Betrieb und Support bis hin zum fachlichen Consulting.
Bildquelle: Exasol AG
(ID:49791192)