So geht die Datenspeicherung in der Multicloud

Cloud 2019 Technology & Services Conference So geht die Datenspeicherung in der Multicloud

13.08.2019Autor / Redakteur: Dr. Dietmar Müller / Ulrike Ostler

Am 10. September beginnt in Bonn die Veranstaltungsreihe „Cloud 2019 Technology & Services Conference“ mit Fachvorträgen, Live Demos und Technologie Outlooks statt. Jeweils um 11:45 Uhr startet ein Roundtable zum Thema „Wie speichere ich Daten (effizient) in Cloud-Infrastrukturen?“ unter Leitung von Harald Seipp, Gründer & Leiter Kompetenzzentrum für Cloud-Speichertechnologien bei IBM.

Anbieter zum Thema

RITTAL GmbH & Co. KG

Data Center Group GmbH

EPS Rechenzentrum Infrastruktur GmbH

"Das Datenwachstum ist real, unter anderem getrieben von Anwendungsszenarien im Umfeld von künstlicher Intelligenz und Analytics", so Harald Seipp, Gründer & Leiter Kompetenzzentrum für Cloud-Speichertechnologien bei IBM.
(Bild: gemeinfrei, jplenio / Pixabay)

Der Roundtable bietet die Möglichkeit, die Themen des Vortrages „Datenspeicherung in der Multi Cloud“ zu vertiefen. Wir haben den Moderator vorab zu seinen Erfahrungen befragt, wie Daten effizient in modernen Container-Anwendungen persistent gespeichert werden können.

Die Marktforscher von IDC erwarten, dass bis 2025 die globale Datensphäre auf 163 Zettabytes anwachsen wird – eine Menge, die man sich beim besten Willen nicht mehr vorstellen kann, die aber irgendwo abgelegt werden muss. Storage-Abteilungen sind im Rechenzentrum Gang und Gäbe, aber nach wie vor wahnsinnig teuer, – auch Software-definierte Speichermethoden haben in diesem Hinblick wenig Besserung gebracht. Deswegen versuchen Unternehmen, die Datenberge mittels Cloud Computing einzuebnen. Zu günstigeren Konditionen als bisher, versteht sich. Wie erleben Sie die Lage vor Ort?

Harald Seipp: Das Datenwachstum ist real, unter anderem getrieben von Anwendungsszenarien im Umfeld von künstlicher Intelligenz und Analytics, bei denen große Datenmengen verarbeitet werden müssen. In Bezug auf die Speicherkosten haben viele unserer Kunden bereits Ihre Hausaufgaben gemacht und konnten durch Virtualisierung und/oder der Nutzung von Software Defined Storage die Ausnutzung der vorhandenen Speicherhardware optimieren, was wiederum zu günstigeren internen Verrechnungskosten führte, die nun mit den Speicherkosten der Cloud-Provider konkurrieren können.

Die „Shadow IT“, bei der Abteilungen beim Kunden die Infrastruktur eines Cloud-Providers nutzen, anstatt den Service der Storage-Abteilung in Anspruch zu nehmen, gibt es trotzdem. Dies liegt oft an der geringen Agilität der firmeninternen Bereitstellung. Dieses Manko durch eine Umstellung der internen IT auf einen Cloud-Betriebsmodus zu beheben und gleichzeitig die nötige Flexibilität im IT-Portfolio zu bieten, Daten für bestimmte Workloads - denken Sie an Quantum Computing - an den Cloud-Provider mit dem passenden Angebot auszulagern, ist Ziel vieler Storage-Kunden.

Neben dem Kostenvorteil ist es nicht zuletzt die flexible Skalierbarkeit der Storage-Ressourcen, die IT-Verantwortliche auf Cloud Storage-Plattformen treiben, welche in der Regel als Infrastructure-as-a-Service (IaaS) offeriert werden. Tatsächlich gilt IaaS vielfach noch immer als gleichbedeutend mit der Cloud, wird aber nach Informationen diverser Analystenhäuser zunehmend mit dem Konzept der Platform-as-a-Service (PaaS) vermengt. Können Sie aus Ihrer Erfahrung bestätigen, dass Clouds zunehmend als PaaS statt als IaaS im Rechenzentrum Einzug halten?

Harald Seipp: In der Tat liegt der Fokus im Infrastruktur-Bereich - höhere Cloud-Abstraktionsschichten wie Software-as-a-Service oder Business-Process-as-a-Service mal außen vor gelassen - heute auf PaaS, während vor fünf Jahren noch IaaS-Platformen wie OpenStack im Zentrum des Interesses standen. Dies liegt meiner Meinung nach am durchschlagenden Erfolg von Kubernetes, welches sich als einheitliche Plattform auf PaaS-Ebene herauskristallisiert hat. Damit ist eine Standardisierung über verschiedene Cloud-Lösungen - sei es im eigenen Rechenzentrum oder bei externen Cloud-Anbietern – möglich geworden.

Welche Einsatzszenarien für Cloud Storage-Plattformen im Unternehmenskontext finden sich am häufigsten: Archiv? Backup/DR? Content Delivery? Primärspeicher?

Harald Seipp: Wenn Sie mit Cloud Storage Plattformen primär Objektspeicherlösungen meinen, stimme ich Ihrer Auflistung zu, wenn auch mit einem gewissen Fokus auf Active Archive und in der Funktion als Backup-Ziel. Als Primärspeicher sind diese nur für passende Workloads geeignet, insbesondere solche mit geringen bis mittleren Bandbreite- und Latenz-Anforderungen. Allerdings bieten sich Objektspeicher für Collaboration-Anwendungen im Unternehmen oder zum Austausch von Informationen über Unternehmensgrenzen hinweg an, zum Beispiel Datenaustausch im wissenschaftlichen Umfeld.

Abseits von Objektspeichern sind insbesondere Software Defined Storage-Anwendungen für Datei- und Block-Speicher in Cloud-Umgebungen im Einsatz. Ich würde diese daher auch zu den Cloud Storage Plattformen zählen. Diese decken dann nahezu alle restlichen Einsatzszenarien ab. Einzelne Anwendungen, die weiterhin traditionelle Speicherlösungen erfordern, beispielsweise extrem leistungsfähige Transaktionssysteme im Mainframe-Bereich, werden parallel weiter existieren.

Objektspeicher haben sich aufgrund vieler Vorteile flächendeckend durchgesetzt, bekannte Anwendungsbeispiele sind etwa Facebook, Instagram, Twitter und Spotify. „Kleine“ Onlinespeicher-Plattformen für Consumer wie Dropbox sind in der Regel ebenfalls Objektspeicher. Objektspeicher können aber auch als Private Clouds innerhalb des eigenen Rechenzentrums aufgesetzt werden.

Ohne an dieser Stelle unnötig tief in die Debatte um das Für-und-Wider von Speicherverfahren einsteigen zu wollen können wir aber festhalten: Object Storage ist die aktuell angesagteste Speichertechnologie, oder? Aber wird sie auch massenhaft angewendet, oder spielen nach wie vor Datei-, Block-, etc.-Speicher eine wichtigere Rolle?

Harald Seipp: Objektspeicher sind weiterhin ein heißes Thema. Ich wage aber zu bezweifeln, ob sie angesichts der Disruption der Block- und Dateispeichertechnologie durch die Einführung von NVMe und damit verbundenen Fabric-Lösungen aktuell wirklich die angesagteste Speichertechnologie darstellt. Wie schon oben ausgeführt, sind Objektspeicher nicht als Lösung für alle Workloads sinnvoll. Des weiteren müssen wir dort, wo Objektspeicher passend wären, oft noch die Kunden begleiten, ihre hausinternen Anwendungen von Block- oder Datei-Zugriff auf das Objektspeicherprotokoll umzustellen, damit diese auch sinnvoll genutzt werden können.

Für off-the-shelf Software hat sich die Situation in den letzten Jahren wesentlich verbessert und mir sind mehr als 100 Produkte bekannt, die Objektspeicher unterstützen. Entwickler, die beim Kunden moderne in-house Anwendungen neu erstellen, haben fundierte Erfahrungen mit öffentlichen Clouds. Daher kennen sie das Objekt-Protokoll und schätzen dessen Einfachheit. Dies alles zusammen führt zu einer stetigen Steigerung der Nutzung. Datei- und Blockspeicher sind meiner Erfahrung nach weiterhin stark vertreten.

Das Einrichten einer Cloud-Storage-Plattform im eigenen Rechenzentrum entspricht dem Bedürfnis vieler Unternehmen, die einfache Handhabung von Cloud-Umgebungen zu erhalten, gleichzeitig aber keine Risiken durch das Auslagern kritischer Daten einzugehen. Private Cloud Storage eignet sich insbesondere als Primärspeicher für strukturierte Daten. Sehen Sie darüber hinaus einen Trend hin zu Public Cloud Storage-Plattformen wie S3, Google Cloud Platform oder Azure?

Harald Seipp: Wie Sie korrekt anmerken, gibt es insbesondere in unserem Kulturraum weiterhin Vorbehalte, Firmendaten auf Public Clouds auszulagern. Oft erlauben regulatorische oder firmenpolitische Vorgaben es nicht, die Daten außerhalb des eigenen Rechenzentrums abzulegen. Auf der anderen Seite ist es verlockend, die IT-Finanzen durch Verlagerung von Kapitalaufwand – CapEx - hin zu betrieblichen Aufwendungen – OpEx - zu optimieren.

Dies, gepaart mit Technologien, die es erlauben, die Daten gezielt auf Public Cloud Storage Plattformen zu verteilen, führt die IT hin zu einer hybriden Multi-Cloud. Auf den Speicher bezogen steht dies für eine Kombination von gleichzeitiger Datenspeicherung sowohl in der Private Cloud als auch in den von Ihnen genannten Public Cloud Plattformen, zuzüglich der IBM Cloud natürlich (lacht).

Public Cloud Storage eignet sich vor allem für unstrukturierte Daten, richtig?

Harald Seipp: Wie schon vorher ausgeführt, würde ich zu Public Cloud Storage auch die Block- und Datei-Speicherlösungen in den Public-Clouds zählen. Für diese stellen wir ebenfalls Lösungen bereit, zum Beispiel eine DR-Site in der Cloud, die im K-Fall den Zugriff auf strukturierte Daten wie Datenbanken aus der Cloud liefern kann.

Objektspeicher eignen sich insbesondere durch den Zugriff mittels weniger einfacher Operationen (PUT/GET/HEAD/POST/DELETE) über das HTTP(S)-Protokoll eher für unstrukturierte Daten. Es gibt allerdings auch Technologien, die es erlauben, auf Objektspeicher zuzugreifen wie auf eine Datenbank, so etwa bei „IBM Cloud SQL Query“.

Sie thematisieren in Ihrer Keynote die Multi Cloud als Speicherort. Ist damit das Ablegen von unstrukturierten sowie unkritischen Daten in Public Cloud Storage-Angeboten plus dem Vorhalten der kritischen Daten im eigenen Haus, in einer Private Storage Cloud oder auf Legacy Systemen, gemeint?

Harald Seipp: Richtig. Aber nicht nur das Ablegen, sondern auch die Nutzung von Cloud-Umgebungen zum Austausch solcher Daten über Geographiegrenzen hinweg. Als weiteres Beispiel kann ich die gezielte Zwischenspeicherung von Daten in Public Clouds nennen, um dort vorhandene spezielle Dienste wie GPU-beschleunigte KI-Anwendungen auf den Daten operieren zu lassen und die Ergebnisse anschließend wieder ins eigene Haus zu übertragen.

Sie wollen in Ihrem Vortrag die Frage beantworten, wie man Daten zwischen Clouds sicher transportiert und ablegt. Wollen Sie uns schon ansatzweise verraten, wie Sie diese Frage zu beantworten gedenken?

Harald Seipp: Es gibt kommerzielle als auch frei verfügbare Tools wie „rclone“, die dies rein technologisch bewerkstelligen können. Wie schon erwähnt, ist der Wunsch vieler Kunden allerdings, dies über eine durch die interne IT als Dienstleistung betriebene Lösung zu erbringen, um dabei unter anderem sicherzustellen, dass dies im Kostenrahmen und unter Beachtung der IT-Sicherheitsstandards passiert. Ich denke hierbei an einen Software-gesteuerten Übertragungsprozess der Daten in die Public Clouds unter Beachtung von Metadaten, beispielsweise die Klassifizierung.

CSI und Container-native Storage sind die wohl heißesten Eisen Ihres Roundtable. Können Sie beides kurz definieren und ihre Bedeutung für das Cloud Storage in Zukunft aufzeigen?

Harald Seipp: Container Storage Interface (CSI) ist die Initiative, die Speicherschnittstellen von Container-Plattformen wie Kubernetes, Docker, Apache Mesos und Cloud Foundry firmenunabhängig zu vereinheitlichen. Insbesondere für Kubernetes ist sie das Vehikel, diesen Plattformen stark erweiterte Speicherfunktionalität, etwa Snapshotting, Cloning oder RAW Volumes, über eine einheitliche Schnittstelle zur Verfügung zu stellen.

Container-native Storage bezieht sich auf Containerisierung des Software Defined Storage selbst. Damit kann die Speicherlösung auf gleiche Art und Weise installiert und betrieben werden wie die darauf aufsetzenden Container-Anwendungen und ist damit sowohl für Private Clouds als auch Public Clouds einheitlich verfügbar.

Werden Sie uns darüber hinaus mit neuen Trends überraschen?

Harald Seipp: In den Forschungslaboren finden spannende Entwicklungen statt. Als Beispiele seien Analytics auf verschlüsselten Daten genannt, deren Vorstellung allerdings den zeitlichen und inhaltlichen Rahmen des Vortrages sprengen würden. Bei einem persönlichen Gespräch vor Ort können wir aber gerne darüber reden (lacht).

Zur Person und zur Veranstaltung

*Harald Seipp leitet als Senior Technical Staff Member ein Kompetenzzentrum für Cloud-Speichertechnologien der IBM. Er unterstützt EMEA-weit Kunden und Geschäftspartner bei der Erstellung und Implementierung von komplexen Cloud-Speicherarchitekturen. Mit 25 Jahren Erfahrung als leitender Software-Entwickler und IT Architekt hält er etliche Patente für Speicher- und Netzwerktechnologie.

In seinem Roundtable auf der Cloud 2019 Technology & Services Conference wird Seipp auf diese 25 Jahre Erfahrung zurückgreifen und damit den Boden für eine fruchtbare Diskussion eröffnen. Die Konferenzreihe startet am 10. September 2019 um 8:45 Uhr im Kameha Grand, Bonn. Weitere Termine und Veranstaltungsorte sind: 17.9. Hanau, 19.9. Hamburg und 26.9. München.

(ID:46071484)