Der Kostendruck auf die Unternehmens-IT spitzt sich in vielen Branchen zu, nicht zuletzt durch die Turbo-Digitalisierung infolge der Corona-Krise. Big Data Workloads sind dagegen auch nicht immun. Die Containerisierung von Big-Data-Anwendungen soll Abhilfe schaffen – doch wie?
Inmitten der Corona-Krise suchen Unternehmen verstärkt nach Möglichkeiten zur Steigerung der Kosteneffizienz ihrer IT. Big Data Workloads sind da keine Ausnahme und Container können ein hierfür probates Mittel sein.
Große Unternehmen fürchten die Datenintelligenz ihrer Mitbewerber. Diese Erkenntnis bestätigt die achte Edition der Studie „Big Data and AI Executive Survey“ des Beratungsunternehmens New Vantage Partners LLC. An der Umfrage haben Anfang des Jahres die Chefetagen rund 70 führender Großunternehmen teilgenommen.
Knapp vier von fünf der Befragten (79,4 Prozent) sollen bereits im Jahr zuvor zugestanden haben: Die Angst vor disruptiven Kräften der Marktwirtschaft und ihren flinken, agilen, datengetriebenen Mitbewerbern gebe ihnen den Ansporn, verstärkt in Big Data zu investieren.
Wenn die Großen vor der Datenintelligenz ihrer Mitbewerber schon Angst haben, was sollen die Kleinen sagen? Darin liegt gerade die neueste IT-Herausforderung des Mittelstands: Die Kosten von Big-Data-Arbeitslasten laufen leicht aus dem Ruder.
Die Flucht zu mehr Effizienz
„Wann immer eine Rezession [wie die Corona-Krise] ausbricht, flüchten die Unternehmen hin zu mehr Effizienz“, beobachtet Ashish Thusoo, Mitbegründer und CEO bei Qubole, einem Anbieter von Big-Data-as-a-Service-Lösungen (BDaaS). So auch inmitten der Corona-Krise suchen Unternehmen verstärkt nach Möglichkeiten zur Steigerung der Kosteneffizienz ihrer IT.
Big Data Workloads sind da keine Ausnahme, ganz im Gegenteil. Die datengetriebene Entscheidungsfindung braucht massiv skalierbare Rechenleistung. Multipliziert über eine hohe Anzahl laufender Instanzen kommen da schnell ansehnliche Summen zusammen.
Die Containerisierung von Big-Data-Anwendungen soll die Kostenspirale unter Kontrolle bekommen. Denn im Wettbewerb zwischen On-premises- und reinen Cloud-Bereitstellungen haben die Letzteren die Nase vorne.
Bereits 3,5 Millionen Anwendungen laufen in Docker-Containern. In nahezu jeder zweiten Container-Umgebung (45 Prozent) zeichnet für die Orchestrierung Googles quelloffene Plattform Kubernetes verantwortlich, fand der Analytics-Anbieter Datadog heraus.
Der Daten-Boom noch größer nach COVID-19
Big-Data-Anwendungen waren im Unternehmensumfeld bereits vor dem Ausbruch der COVID-19-Pandemie in aller Munde. Seit dem globalen Lockdown sind sich Chefetagen des Potenzials der Datenanalyse umso stärker bewusst. In einigen Industrien wurden Big Data Workloads zur Säule der Betriebsbereitschaft.
Im COVID-19-Lockdown mussten viele Organisationen insbesondere im Gesundheitssektor, in der Logistik und in der Grundversorgung ihre IT bis an die Kapazitätsgrenzen auslasten. Inmitten des COVID-19-Lockdowns hatten diese Unternehmen natürlich keinerlei sinnvolle Möglichkeiten, um ihre eigene IT-Infrastruktur aufzurüsten. Diese Firmen mussten einige Workloads verstärkt „externalisieren“ und ihre Storage-Anforderungen ebenfalls extern decken, sei es bei Co-Location-Anbietern oder in der Public Cloud.
Der neueste Siegeszug öffentlicher Cloud-Dienste ist die Fortsetzung eines langanhaltenden Aufwärtstrends, der sich auch in den neuesten Quartalsergebnissen reflektierte. Der Umsatz von Amazon AWS stieg im ersten Quartal (also bis zum 31. März 2020) um 32,46 Prozent gegenüber dem Vorjahr (von 7,7 Milliarden Dollar auf 10,2 Milliarden Dollar). Google konnte im gleichen Zeitraum einen Umsatzsprung um satte 55 Prozent verzeichnen (von 1,8 Milliarden Dollar auf 2,8 Milliarden Dollar). Microsoft Azure hat gegenüber dem Vorjahr sogar um 59 Prozent zugelegt (über konkrete Umsatzzahlen der Sparte schweigt sich Microsoft aber aus).
Doch der bloße Umzug in die Cloud ist nicht ausreichend, um den Anforderungen von Big Data Workloads an elastische Skalierbarkeit zu genügen. „Um der beispiellosen Nachfrage gerecht zu werden, ist es notwendig, Anwendungen (...) zu containerisieren“, so Sameer Karmarkar, Mitbegründer und CTO des Container-Spezialisten Cloudhedge Technologies.
Mit KI anpacken
Im Vorjahr (2019) waren laut der Studie von Newvantage Partners LLC 54,4 Prozent der befragten Entscheidungsträger der Ansicht, dass die Unfähigkeit, flink zu sein und auf der Basis von Datenintelligenz zu konkurrieren, die größte Bedrohung ihrer Wettbewerbsfähigkeit darstellte. 98,8 Prozent der befragten Führungskräfte in der aktuellen Umfrage (2020) gaben gegenüber Newvantage Partners an, dank ihrer Big-Data- und KI-Initiativen „ein flexibles, datengesteuertes Unternehmen“ werden zu wollen (ein Jahr zuvor hatten diese Zielsetzung immerhin 97,2 Prozent zugestanden).
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Dies gestaltet sich aber offenbar alles andere als einfach. Für knapp drei von vier der Teilnehmer stellen Big-Data- und KI-Initiativen nach wie vor eine kontinuierliche Herausforderung dar (73,4 Prozent im Jahre 2020 gegenüber 77 Prozent im Vorjahr).
Big Data und kognitives Computing sind untrennbar ineinander verwebt. Doch erst 14,6 Prozent der befragten Firmen konnten Künstliche Intelligenzen auf ihre Daten folgenschwer loslassen; KI-Workloads haben in den Unternehmen vorerst höchstens eine experimentelle Reichweite.
Die Hauptursachen für die Probleme der Implementierung von Big-Data-Lösungen sehen die Betroffenen in ihren Mitarbeitern und ihren internen Prozessen. Die Umsetzung von Big Data Workloads ist in der Praxis offenbar zu schwierig, erst recht in Containern. Unternehmen, die zur Bereitstellung containerisierter Workloads einen Orchestrierer verwenden, durchlaufen den Lebenszyklus ihrer Instanzen in der Regel bis zu zwei Mal so schnell wie Unternehmen, die ihre Container ohne Orchestrierung ausführen, beobachten die Analysten von Datadog.
Etablierte Software-Anbieter wie HPE haben die Zeichen der Zeit erkannt und wollen den Unternehmen bei ihren Big-Data-Workloads mit containerisierten, orchestrierten Gesamtlösungen unter die Arme greifen.
Elastizität: Unternehmen mit containerisierten Arbeitslasten nutzen Node.js und Go viel öfter als Organisationen, die keine Container einsetzen
(Bild: Datadog)
Mit Vollgas auf Bare-Metal
HPEs Container Platform, ein Erbe aus HPEs Übernahme von Bluedata Software, Inc., orchestriert in der aktuellen Edition Big-Data-Anwendungen in Cloud-nativen Docker-Containern (GA-Version vom 20. März 2020). Das Besondere an dieser Lösung ist die Fähigkeit, containerisierte Anwendungen direkt auf Bare-Metal auszuführen, also ohne den Systemunterbau einer voll ausgefleischten VM. Der Verzicht auf virtuelle Maschinen fördert nicht nur eine wesentlich verbesserte Performance, sondern auch eine höhere Systemdichte zu Tage.
HPEs Container Platform versteht sich auch auf den Umgang mit dem „MapR“-Dateisystem, eine wichtige Voraussetzung zur Unterstützung von „Hadoop“-, „Spark“- und „Kafka“-Anwendungen. Zur Gewährleistung von QoS-Isolation und zur Wahrung von Root-Zugangsbeschränkungen macht sich die HPE-Plattform cgroup-Scheduling des Linux-Betriebssystems zunutze.
Die MapR-Unterstützung verdankt HPEs Container Platform der strategischen Übernahme von MapR Technologies, Inc. durch HPE im Sommer des vergangenen Jahres. Mit diesem Schachzug hat sich HPE nebenbei so renommierte Kunden wie American Express, Boehringer Ingelheim, Cisco, Novartis, Samsung und TransUnion Petroleum ins Haus geholt und möchte diese mit niedrigeren Betriebskosten und einer höheren Elastizität im Vergleich zu alternativen Big Data Deployments „bei der Stange halten“.
Bisher kann HPEs Plattform nur reine Docker-Container ausführen; Support für andere OCI-konforme Formate dürfte in Kürze folgen. Bis Jahresende soll die Lösung im Rahmen von HPEs privater Cloud namens „Green Lake“ enthalten sein und eine Bereitstellung nach einem OpEx-basierten (statt wie bisher CapEx-basiertem) Preisschema ermöglichen.
Big Data mit Docker: Die Architektur der HPE Container Platform nutzt Kubernetes zur Orchestrierung von Docker-Containern
(Bild: HPE)
Containerisierte Big Data Workloads mit Azure Arc verwalten
Auch Microsoft, Google, IBM und der Platzhirsch AWS schlafen nicht und karten regelmäßig mit neuen Diensten zur Container-Bereitstellung nach. Mit Docker-Containern allein können die Anbieter schon lange nicht mehr den sprichwörtlichen Blumentopf gewinnen. Da muss schon mehr Flexibilität, sprich ausgereifte Orchestrierung, her.
Microsoft trägt gerade den letzten Feinschliff auf Azure Arc auf. Der Dienst erweitert die Fähigkeiten zur Verwaltung von Azure-Bereitstellungen auf Server und Kubernetes-Cluster außerhalb Microsofts Cloud und kann so unter anderem Daten- und Datenbankdienste für externe Big-Data-Arbeitslasten verfügbar machen sowie die Einhaltung von Compliance-Richtlinien auch im Sinne der DSGVO durchsetzen.
Azure Arc bietet hierbei eine zentrale Verwaltungssteuerungsebene mit Sicherheits- und Governance-Features für Arbeitslasten, die zum Beispiel auf Edge-Bereitstellungen oder in anderen Clouds außerhalb Azure gehostet werden. Während Google und Amazon die Unternehmen per Vendor-Lock-in in ihre Plattformen einschließen wollen, zeigt sich der Latecomer Microsoft mit Diensten wie „Azure Arc“ überraschend offener.
Die Steuerebene von Azure Arc wird in Redmond als „Azure Fabric Controller“ bezeichnet. Jedes Mal, wenn eine Ressource bereitgestellt, skaliert, gestoppt oder beendet wird, durchläuft der Vorgang den Fabric Controller, der über den Status jeder Ressource war.
Zwischen dem Fabric-Controller und den Azure-Ressourcen befindet sich eine weitere Ebene, der Azure Resource Manager (ARM), welcher den Ressourcenlebenszyklus über den jeweiligen Ressourcenanbieter – die verschiedenen Azure-Dienste – automatisiert. So fungiert zum Beispiel „Azure Kubernetes“ als Ressourcenanbieter von Containern. Azure-Nutzer können die Konfiguration dieser Ressourcen über eine ARM-Vorlage deklarieren – eine schlichte Textdatei, die den gewünschten Status einer Ressource definiert.
Mit Azure Arc hat Microsoft die Unterstützung für „Azure Resource Manager“ (kurz: ARM) auf Ressourcen erweitert, die außerhalb von Azure bereitgestellt werden. Dies bedeutet, dass ein physischer Server, der in einem Rechenzentrum ausgeführt wird, in den Augen des Fabric Controllers wie eine Rechenressource aussieht.
Selbst VMs, die auf „VMware vSphere“, „Amazon EC2“ und „Google Compute Engine“ ausgeführt werden, lassen sich beim Azure Resource Manager registrieren. Jeder Windows- oder Linux-Server – auch diejenigen, die hinter einer Firewall oder einem Proxy laufen – können bei ARM registriert werden, sofern sie die benötigte Software ausführen.
Neben VMs und Containern kann Azure ARC auch Kubernetes-Cluster registrieren. Einmal an Bord lässt sich jedes externe Kubernetes-Cluster wie der Azure-eigene Kubernetes-Dienst „AKS“ verwalten.
Dies bedeutet, dass beispielsweise ein Pivotal Kubernetes Service-Cluster, der auf vSphere im unternehmenseigenen Rechenzentrum ausgeführt wird, oder auch verwaltete Kubernetes-Dienste in den Clouds konkurrierender Anbieter, also beispielsweise Amazon AKS, Google Kubernetes Engine und IBM Kubernetes Service, lassen sich bei Azure Arc registrieren und verwalten. Im Rahmen von Azure Arc können Unternehmen moderne, Cloud-native Big-Data-Anwendungen als Microservices zum Beispiel in Containern in Kubernetes-Clustern bereitstellen.
Fazit der Autoren
Wenn es darum geht, Big-Data-Arbeitslasten in den Griff zu bekommen, greifen Unternehmen zunehmend auf Kubernetes als den bevorzugten Orchestrierer von Docker-Containern zurück. Da Kubernetes im Alleingang aber zu kurz kommt, wachsen die Komplexitäten einer agilen hybriden Bereitstellung von Containern den Ops-Teams schnell über den Kopf. Führende Anbieter von Compute-Leistung haben zum Glück bereits erste Lösungen im Köcher.
* Das Autorenduo Anna Kobylinska und Filipe Pereira Martins arbeitet für McKinley Denali Inc. (USA).