Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

Datensammlung und das Schwarze Loch Data Gravity stößt an seine Grenzen

Autor / Redakteur: M.A. Jürgen Höfling / Ulrike Ostler

Auch Daten haben eine Art Schwerkraft, die vor allem in Cloud-Zeiten zerstörerisch werden kann. Dann wird schnell die schiere Masse zur Last und nur zur Energie, wie die berühmte Einsteinsche Formel verspricht.

Firma zum Thema

Die Äquivalenz von Masse und Energie ist in riesigen Datenmengen nicht so einfach auszunutzen.
Die Äquivalenz von Masse und Energie ist in riesigen Datenmengen nicht so einfach auszunutzen.
(Bild: S.Hofschlaeger_pixelio.de)

„Daten sind das neue Öl. Daten sind bares Geld. Daten sind der Schmierstoff der Plattform-Ökonomie.“ Solche Statements liest man heute an jeder Online-Portal-Ecke, seien sie nun wissenschaftlich, populär oder populistisch geprägt. Richtig ist: Noch nie konnte (jeder)man(n) so einfach wie heute an Datenmengen gelangen, gegen die die Datensammlungen der Geheimdienste von ehedem „Peanuts“ sind.

Die Menge der mittlerweile digital gespeicherten weltweiten Daten wird schon längst in Zetta-Byte (eine Zahl mit 21 Nullen) angegeben. So produzieren das Internet der Dinge oder das autonome Fahren beispielsweise Daten um die Wette und die Daten-Raffgier der Online-Verkäufer ist ohnehin grenzenlos.

Datengravitation und Schwarzes Loch

Sind die riesigen Datenmengen nun tatsächlich ein (teilweise verborgener) Goldschatz oder doch eher eine Art Sintflut? Man weiß es nicht so genau. Tatsache ist aber, dass Daten zur Klumpenbildung neigen.

Getreu dem bekannten populär-ökonomischen Lehrsatz „Geld kommt zu Geld“ kommen auch „Daten zu Daten“. Daten folgen offenbar ihren eigenen Gravitationsgesetzen jenseits von Newton und Einstein und so hat der Software-Entwickler Dave McCrory 2010 in einer launigen Eingebung in einem Blog das Schlagwort der 'Data Gravity', also der Datengravitation geprägt.

Wo Daten sind, da kommen noch mehr Daten hinzu, die dazu passen könnten, man will ja schließlich „Daten auswerten“ und daraus seine Schlüsse ziehen. Da kann Datenmaterial und immer mehr Datenmaterial nicht schaden, oder?

Und wo sie einmal liegen, liegen sie; denn es ist schwer und teuer, riesige Datenmengen zu bewegen. So kommt AWS etwa mit einem „Snowmobil“ vorgefahren, wenn die Datenmasse Exabyte-Bereich sich einfach nicht mehr über noch so leistungsfähige Glasfaserverbindungen in adäquater Zeit und wirtschaftlich zu rechtfertigen in die Cloud transferieren lässt. Beim AWS-Datenübertragungsservice können Kunden bis zu 100 Petabyte pro Snowmobile übertragen. Dies entspricht einem 14 Meter langen robusten Transportcontainer, der von einem Sattelschlepper gezogen wird.

Wo Datenmaterial zur Auswertung bereit liegt, müssen aber auch Auswertungsmechanismen vorhanden sein, sprich datenanalytische Applikationen. Insofern klumpen nicht nur immer mehr Daten zusammen, die auf Auswertung warten, sondern sie verklumpen auch mit Applikationen, die sie auswerten sollen.

Die hier wirkende Daten-Schwerkraft kann eine schwere Last werden, unter Umständen endet sie auch in einem Schwarzen Loch, um die astrophysikalische Metapher der „Data Gravity“ einmal zu Ende zu denken.

Daten und die „lange Leitung“

In der heutigen IT-Globalisierung namens Cloud ist die Datengravitation ein großes Problem. Die schiere Menge der gesammelten Daten führt zu Identifizierungs- und Lokalisierungs-Problemen und selbst, wenn man mehr oder weniger all seine Daten „im Griff hat“, das heißt weiß, welche Inhalte sich an welchen Orten befinden, ist das Zusammenführen zur Analyse-Operation zumindest insofern ein Problem, als die Leitungen dabei ganz leicht verstopfen können.

Technischer ausgedrückt: Es gibt Latenzprobleme. Die Daten sind schlicht nicht ausreichend schnell in genügender Menge zur Stelle, die 'lange Leitung' beeinträchtigt empfindlich den Analyse-Prozess.

Auch sind Daten nicht gleich Daten. Der Wert von Daten ist höchst unterschiedlich, auch davon können Geheimdienstler aller Couleur ein Lied singen. Sehr vieles ist nur „Geschwätz“, manchmal taucht zwischen dem Geschwätz dann ein Goldklumpen auf.

Um den zu identifizieren, braucht es allerdings ein „Bingo-Programm“ an der richtigen Stelle. Ernsthafter gesprochen: Datensammlungen ohne eine gut durchdachte Klassifizierung der Daten sind kaum etwas wert.

Aber wie sichert man den Latenz-optimierten Zugriff auf die einzelnen Daten-Klassen in einer Multicloud-Umgebung? Das ist jedenfalls nicht einfach, weil zur richtigen Zuordnung der Datenklassen immer wieder Daten hin- und hergeschoben (migriert) werden müssen. Und richtig. Dabei kommt immer wieder die „lange Leitung“, sprich die Latenz, ins böse Spiel.

Vorsicht vor Daten-Völlerei

Ist eine Hybrid-Cloud aus lokalen Rechenzentrumsressourcen und weltumspannenden „Wolken-Speichern“ die Lösung? Vielleicht!

Unter Umständen ist es aber sinnvoller, die Analyse-Instrumente ebenfalls in die Cloud zu transferieren. Dann hat man womöglich die Latenz besser im Griff, handelt sich aber damit unternehmensgefährdende Sicherheitsprobleme ein. Letztere schweben im Grunde über allen Datensammlungs- und Datenanalyse-Lösungen, nicht zu reden von Fragen des Datenschutzes.

Es erscheint insofern auf jeden Fall ratsam, schon bei der Sammlung der Daten zum einen Augenmaß bezüglich der Menge walten zu lassen und zum anderen einen hohen Anspruch in Sachen Qualität anzulegen. Vielleicht kann ein berühmtes Prinzip aus der mittelalterlichen Philosophie dabei Hilfestellung leisten, das so genannte Rasiermesser von Herrn Occam: „Entia non sunt multiplicanda sine necessitate”. Sehr frei ins Deutsche übersetzt: Daten-Völlerei verdirbt den Magen“. In der Datenschutz-Gesetzgebung ist das Prinzip auch als Datensparsamkeit bekannt. Und auf dem Feld der Data Gravity schützt es unter Umständen vor dem Sturz ins Schwarze Loch.

(ID:47037078)

Über den Autor