Data Lakes und Warehouses Legacy-Modernisierung: Der Weg zur Best-of-Breed-IT
Anbieter zum Thema
Um das explosionsartige Datenwachstum zu bewältigen, müssen Unternehmen unter anderem auch von den Altlasten unergründlicher Data Lakes und (mehrfach) redundanter Data Warehouses Abschied nehmen. Das Ziel ist die Erschaffung verteilter Datacenter-Infrastrukturen mit einer einheitlichen Steuerungsebene für eine Best-of-Breed-Unternehmens-IT.

Data Warehouses hatten eine klar umrissene Existenzberechtigung: Sie sollten in Kombination mit BI-Tools (Business Intelligence) und datenwissenschaftlichen Analysewerkzeugen und Daten-Visualisierungs-Tools den Entscheidungsträgern Einblicke in Unternehmensdaten gewähren, daraus Erkenntnisse gewinnen und daraus einen Mehrwert schöpfen. Das hat ja auch funktioniert. Inzwischen greift der Ansatz aber zu kurz.
EoS und EoL. Zeit für eine Neuorientierung
Plattformen wie „Teradata“, „IBM Netezza“, „Oracle“ und „Microsoft SQL Server“ basieren auf mittlerweile überholten Datenbankarchitekturen. Sie sind für die bevorstehende Datenexplosion weder konzipiert noch in 'Vorfreude' darauf aufrüstbar.
Auch Data-Analytics-Appliances wie „IBM Netezza Skimmer“, „Twinfin“ und „Striper“ sind schon lange als EOS (End-of-Support) oder EoL (End-of-Life) eingestuft. Und dennoch fristen sie noch hier und da ohne bezahlten Extended-Support ihr arg befristetes Dasein vor sich hin.
Das Aussitzen der Migration von Data Lakes und Data Warehouses ist keinesfalls ein tragfähiges Konzept. (Es gibt zwar Ausnahmen wie beispielsweise „IBM Mako“, doch auch hier verrinnt die Zeit und der Stichtag, hier im April 2023, rückt erbarmungslos nahe.) Doch genau das scheint in vielen Organisationen der Regelfall zu sein.
In dem PASS/Redgate-Bericht zur Datenvielfalt von Anfang 2021 unter dem Titel „Thriving in a Multi-Database World: PASS 2021 Survey on Data Diversity“ bekannte sich jede zweite Organisation, die auf Microsofts SQL Server vertraut, zum Betrieb einer Altlasten-Version des Systems. Eine in drei Bereitstellungen der aktuellen Engine von SQL Server läuft hierbei On-Premise.
Bei Teradata, Oracle und Microsoft SQL Server ist ein formaler EOS- beziehungsweise EOL-Termin nicht bekannt. Dafür müssen die Nutzer dieser Data-Warehouse-Plattformen zum Teil für eine zu unflexible Technologie überzahlen. Die Bereitstellung der nötigen technischen Ressourcen, um damit Data Warehousing in zeitgemäßen Petabyte-Maßstäben auf die Beine zu stellen, lässt sich im Kontext alternativer Ansätze wohl kaum rechtfertigen.
Bald ist das Ende der Fahnenstange erreicht. Und dann?
Der Artikel entstammt dem 2021er eBook „Legacy-Modernisierung“:
#neustartklar für verteilte Daten(silos)
Im Bericht „Top Strategic Technical Trends for 2021“ blicken Gartner-Analysten in die Zukunft und siehe da, den Platz hybridisierter Data Lakes und redundanter Data Warehouses nehmen verteilte Clouds (Engl. Distributed Clouds) ein. Das Besondere, was sie auszeichnet, ist der Einsatz von Cloud-Stacks, bestehend aus Hard- und Software, außerhalb der Rechenzentren der Public-Cloud-Hyperscaler, mit dem Ziel, alle verfügbaren Infrastrukturen an jedem Standort von Edge bis Core zu einem Ressourcenpool zu verschmelzen. So entsteht eine logische „Best-of-Breed“-Unternehmens-IT.
Cloud-Stacks schaffen die Möglichkeit zur Ausführung von bestehenden Anwendungen, die ursprünglich für die Public Cloud entwickelt wurden, im nun „verteilten Rechenzentrum“ der allgegenwärtigen Unternehmens-IT. Dies macht sie nutzbar sowohl in dem unternehmenseigenen Kern-Rechenzentrum als auch etwa in Multi-Access Server-Farmen an der Edge (den „Edge-Clouds“), die mit 5G-Mobilfunkmasten verbunden sind, oder in Container-Rechenzentren der IIoT-isierten Industrie 4.0.
Das Modell einer „cloudifizierten“ IT-Landschaft bestehend aus Datacenter-Infrastrukturen von Core bis zur Edge schafft ein verteiltes „schwärmendes“ Rechenzentrum mit reduzierten Latenzzeiten (nicht zuletzt dank privater Konnektivität) und eine erhöhte Datenhoheit mit mehr Sicherheit. Es adressiert die Herausforderungen von Data Gravity und bietet einheitliche Stellschrauben für Infrastruktur und Services. Ein solches verteiltes „schwärmendes“ allgegenwärtiges Rechenzentrum bringt analytische Anwendungen an entfernte Standorte, die vielleicht nur zeitweise (wie etwa in der Schifffahrt) oder überhaupt nicht mit dem Internet verbunden sind.
Damit diese Metamorphose gelingen kann, müssen die IT-Verantwortlichen nicht zuletzt auch die lästigen Altlasten von unschätzbarem Restwert „mit ins Boot holen“, zum Beispiel mit Lösungen wie Cohesity. Eine robuste Datenarchivierung und DR-Fallbacks können zum Start einer Modernisierung sicherlich nicht schaden.
* Über das Autoren-Duo: Anna Kobylinska und Filipe Pereira Martins arbeiten für McKinley Denali Inc. (USA).
(ID:47843601)