GPUs, Serverless und die neue (falsche) Kostenlogik per Cloud

Überprovisionierung im Cloud-Compute GPUs, Serverless und die neue (falsche) Kostenlogik per Cloud - ein Realitäts-Check

12.02.2026 Ein Gastbeitrag von Stefan Marx* 5 min Lesedauer

Anbieter zum Thema

Rittal GmbH & Co. KG

Vertiv GmbH

PQ Plus GmbH

Cloud-Strategien wurden lange entlang einer vertrauten und geradlinigen Route optimiert: CPU-Kerne, Virtual-Machine-Größen, ein bisschen Rightsizing, etwas Reservierung. Der Datadog-Report „State of Containers and Serverless“ beschreibt jedoch, wie sich dieses Koordinatensystem, zu Lasten des Budgets, verschiebt .

Der Datadog-Report durchleuchtet die Anwendung von Serverless Functions, GPU-Nutzung sowie Container-Techniken in der Cloud und zeigt auf, warum unnötige Kosten entstehen. (Bild: © Chayada - stock.adobe.com / KI-generiert) — Der Datadog-Report durchleuchtet die Anwendung von Serverless Functions, GPU-Nutzung sowie Container-Techniken in der Cloud und zeigt auf, warum unnötige Kosten entstehen.
(Bild: © Chayada - stock.adobe.com / KI-generiert)

Bekanntermaßen bieten Cloud-Provider ein breites Spektrum an Compute-Optionen an – von VMs über Container-Plattformen und Serverless bis hin zu spezialisierter Hardware. Doch welche Faktoren werden für Kosten, Skalierbarkeit und Innovationsfähigkeit entscheidend sein?

Wenn Compute plötzlich knapp wird

Ein zentraler Treiber dieser Verschiebung ist der wachsende Einsatz von GPUs, also Spezialprozessoren für viele parallele Rechenoperationen. Denn der Anteil an Organisationen mit GPU-Nutzung ist in den letzten zwei Jahren, von Oktober 2023 bis Oktober 2025, von etwa 4,5 Prozent auf etwas über 6 Prozent gestiegen.

Da KI-Workloads wie Training, Inferenz und Datenverarbeitung immer häufiger zum Einsatz kommen, beginnen Unternehmen damit, GPU-basierte Instanzen einzuführen, um diese Aktivitäten effizient zu unterstützen. Die Daten zeigen einen stetigen Anstieg der Nutzung von GPUs in den vergangenen zwei Jahren.(Bild: Datadog) — Da KI-Workloads wie Training, Inferenz und Datenverarbeitung immer häufiger zum Einsatz kommen, beginnen Unternehmen damit, GPU-basierte Instanzen einzuführen, um diese Aktivitäten effizient zu unterstützen. Die Daten zeigen einen stetigen Anstieg der Nutzung von GPUs in den vergangenen zwei Jahren.
(Bild: Datadog)

Das wirkt auf den ersten Blick moderat doch die Dynamik liegt in der Nutzungstiefe. Denn diese Dynamik entsteht vor allem durch Early Adopter, die mittlerweile rund dreimal so viele GPU-Instance-Hours verbrauchen wie vor zwei Jahren. Auch wenn GPU-Compute insgesamt, mit unter drei Prozent im Vergleich zu CPUs und „traditional compute“, weiterhin einen kleinen Teil der konsumierten Instance Hours ausmachen.

KI-Workloads verändern

In der Praxis braucht es dennoch strategische Anpassungen; denn Kapazitätsplanung wird wieder begrenzt . Das verhält sich ähnlich zu On-Prem-Zeiten, nur in der Cloud. Das liegt vor allem daran, dass GPUs teurer, knapper und deutlich stärker von externer Verfügbarkeit abhängig sind.

Frühe Anwender sorgen für ein rasantes Wachstum in der GPU-Nutzung und verbrauchen dreimal so viele Instanzstunden wie noch vor zwei Jahren. Sie machen zwar immer noch weniger als 3 Prozent der von CPUs und anderen traditionellen Rechnern verbrauchten Instanzstunden aus, aber die Nutzung von GPUs wächst viel schneller.(Bild: Datadog) — Frühe Anwender sorgen für ein rasantes Wachstum in der GPU-Nutzung und verbrauchen dreimal so viele Instanzstunden wie noch vor zwei Jahren. Sie machen zwar immer noch weniger als 3 Prozent der von CPUs und anderen traditionellen Rechnern verbrauchten Instanzstunden aus, aber die Nutzung von GPUs wächst viel schneller.
(Bild: Datadog)

Gleichzeitig wird die Platzierung von Workloads granularer: Statt auf pauschale Methoden „alles auf Kubernetes“ oder „alles auf VMs“ zu setzen, wächst der Druck Deployment-Strategien passend zu Performance-Profilen, Laufzeit und Lastspitzen, pro Workload anzupassen. Cloud-Compute ist dementsprechend ein Mix aus VMs, Container-Orchestrierung, Serverless und Spezialhardware.

Parallel macht sich KI in den „Top-Kategorien“ containerisierter Workloads bemerkbar. Auch wenn KI als neue Workload-Kategorie mit 7 Prozent zum Beispiel noch hinter Datenbanken (45 Prozent), Web- und App-Servern (42 Prozent) und CI und CD (27 Prozent) liegt, beginnt sie bereits, Architektur- und Betriebsentscheidungen zu beeinflussen.

Die Kategorie Datenbanken war schon zuvor an der Spitze containerisierter Workloads und ist es auch im aktuellen Report, wobei „Redis“ erneut am häufigsten verwendet wird und sein Fork „Valkey“ schnell an Bedeutung gewinnt. Allerdings sind als Kategorie sind Web- und App-Server fast ebenso verbreitet wie Datenbanken.(Bild: Datadog) — Die Kategorie Datenbanken war schon zuvor an der Spitze containerisierter Workloads und ist es auch im aktuellen Report, wobei „Redis“ erneut am häufigsten verwendet wird und sein Fork „Valkey“ schnell an Bedeutung gewinnt. Allerdings sind als Kategorie sind Web- und App-Server fast ebenso verbreitet wie Datenbanken.
(Bild: Datadog)

Auch wenn KI noch nicht „die Mehrheit“ ist, ändern sich Architekturentscheidungen insgesamt, weil GPU-Workloads andere Betriebs- und Kostenlogiken erzwingen. Dazu passt, dass Inference-Ökosysteme das Tooling prägen. Vor allem Inference-Server wie „Triton“, „VLLM“ und „Ollama“ sind hier auf dem Vormarsch.

Die stille Kostenfalle heißt: Unterauslastung

Ein anderer Kostentreiber liegt seit Jahren offen auf dem Tisch: dauerhaft zu viel provisionierte Ressourcen. Das Problem zeigt sich plattformübergreifend. Egal ob für „Azure Container Apps“, „Google Cloud Run“, „Amazon ECS Fargate“, „AWS Lambda“ und „Kubernetes“, die meisten Workloads nutzen weniger als die Hälfte des angeforderten Speichers und weniger als 25 Prozent der angeforderten CPU.

Doch warum ist diese Überreservierung so hartnäckig? Ein Teil ist schlicht Risiko-Management: Teams dimensionieren bewusst großzügig, um Stabilität zu priorisieren und Drosselung oder Latenzspitzen bei Traffic-Peaks zu vermeiden.

Die Lücke zwischen Ressourcenvorhaltung und tatsächlichem Verbrauch: Bei „Azure Container Apps“, „Google Cloud Run“, „Amazon ECS Fargate“, „AWS Lambda“ und „Kubernetes“ nutzen die meisten Workloads weniger als die Hälfte ihres angef orderten Speichers und weniger als 25 Prozent ihrer angeforderten CPU-Leistung. In der Vergangenheit hatten die Studienmacher ein Muster der Unterauslastung in Kubernetes-Umgebungen beobachtet, und diese Daten zeigen, dass sich dies auch auf andere Umgebungen erstreckt.(Bild: Datadog) — Die Lücke zwischen Ressourcenvorhaltung und tatsächlichem Verbrauch: Bei „Azure Container Apps“, „Google Cloud Run“, „Amazon ECS Fargate“, „AWS Lambda“ und „Kubernetes“ nutzen die meisten Workloads weniger als die Hälfte ihres angef orderten Speichers und weniger als 25 Prozent ihrer angeforderten CPU-Leistung. In der Vergangenheit hatten die Studienmacher ein Muster der Unterauslastung in Kubernetes-Umgebungen beobachtet, und diese Daten zeigen, dass sich dies auch auf andere Umgebungen erstreckt.
(Bild: Datadog)

Ein weiterer Teil ist Plattformlogik. Bei AWS Lambda skaliert beispielsweise die CPU proportional mit dem Memory, wodurch eine Dimensionierung entlang einer Ressource schnell die andere im Leerlauf lässt. Bei ECS Fargate wiederum müssen Teams aus vordefinierten CPU/Memory-Bundles wählen, die nicht immer zum tatsächlichen Profil passen.

Die Rolle von automatisiertem Wachstum

Auch dort, wo Autoscaling etabliert ist, verschwindet dieses Problem nicht automatisch. Zwar nutzen inzwischen über 64 Prozent der Kubernetes-Organisationen den „Horizontal Pod Autoscaler“ (HPA). Gleichzeitig zeigt sich aber auch, dass Cluster-Infrastruktur trotz weit verbreitetem HPA oft überprovisioniert bleibt, was zu ungenutzten Ressourcen und vermeidbaren Ausgaben führt.

Viele Teams stellen bewusst zu viele Ressourcen bereit, um Stabilität zu gewährleisten und das Risiko von Drosselung oder Latenz bei Traffic-Spitzen zu minimieren. Auch das Plattformdesign kann eine Rolle spielen. (Bild: Datadog) — Viele Teams stellen bewusst zu viele Ressourcen bereit, um Stabilität zu gewährleisten und das Risiko von Drosselung oder Latenz bei Traffic-Spitzen zu minimieren. Auch das Plattformdesign kann eine Rolle spielen.
(Bild: Datadog)

Ein Detail ist dabei aufschlussreich: Von HPA-Deployments nutzt nur ein Fünftel „Custom Metrics“. Die Mehrheit skaliert nach CPU- oder Memory-Signalen. Das kann zwar für viele Anwendungen reichen, aber eben nicht für alle und verschiebt aber die Lastspitzen-Absicherung häufig wieder in Richtung „mehr reservieren“.

Viele nutzen zwar das Autoscaling-Tool von Kubernetes aber davon nutzen nur 20 Prozent benutzerdefinierte Metriken, um anhand von Anwendungseigenschaften wie Warteschlangentiefe oder Anforderungsrate zu skalieren. Vier von fünf Bereitstellungen skalieren anhand von Änderungen der CPU- oder Speicherauslastung anstelle von benutzerdefinierten Metriken.(Bild: Datadog) — Viele nutzen zwar das Autoscaling-Tool von Kubernetes aber davon nutzen nur 20 Prozent benutzerdefinierte Metriken, um anhand von Anwendungseigenschaften wie Warteschlangentiefe oder Anforderungsrate zu skalieren. Vier von fünf Bereitstellungen skalieren anhand von Änderungen der CPU- oder Speicherauslastung anstelle von benutzerdefinierten Metriken.
(Bild: Datadog)

Dazu kommen kurzlebige Container, die sich klassischen Mechanismen und Regelkreisen entziehen. Fast zwei Drittel der Kubernetes-Container laufen unter zehn Minuten und rund ein Drittel unter einer Minute. Für diese kurzen Laufzeiten greifen HPA/VPA oft zu spät, was Überprovisionierung als „Workaround“ begünstigt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Die neue Cloud-Realität: Das Zusammenspiel entscheidet

Die Befunde des Reports zeigen, dass es nicht darum geht „eine richtige Plattform“ zu wählen sondern „ein gemischtes Portfolio“ zu erstellen. So ist Serverless in der Breite angekommen: In AWS nutzen 65 Prozent der Kund:innen Lambda, in Google Cloud 70 Prozent Cloud Run und in Azure 56 Prozent App Service.

Gleichzeitig nutzen 66 Prozent der Organisationen, die Serverless Functions einsetzen, auch Container-Orchestrierung im gleichen Cloud-Ökosystem. Das spricht für eine selektive Workload-Platzierung je nach Anwendung statt eines einheitlichen Stacks. Die Teams, die abhängig vom Profil, containerisierte Services zu Serverless Functions verschieben können oder umgekehrt, werden ihre Effizienz zukünftig verbessern können.

Zudem wird bei Autoscaling mehr Präzision entscheidend sein. Denn trotz einer breiten Nutzung erleben 46 Prozent der unskalierten Workloads mehrere signifikante CPU-Spikes pro Tag und wären damit Kandidaten für horizontale Skalierung. Strategisch entscheidend ist jedoch nicht, ob Autoscaling eingesetzt wird. Es geht darum, auf welcher Ebene skaliert wird, welche Signale die Skalierung auslösen und wie schnell die Mechanismen reagieren. Diese Kombination bestimmt, ob Kapazität bedarfsgerecht nachzieht oder ob aus Sicherheitsreserven dauerhaft unnötige Kosten entstehen.

Überlegte Ausgewogenheit

Dazu kommt, dass die Hardware-Strategie zum Kosten- und Innovationshebel wird. Neben GPUs zeigt sich eine zunehmende ARM-Nutzung. Der Anteil von AWS-Lambda-Funktionen auf ARM stieg demnach von 9 auf 19 Prozent in zwei Jahren und ARM-basierte Cloud-Instances von 9 auf 15 Prozent.

Die Nutzung von ARM-Prozessoren nummt zu. (Bild: Datadog) — Die Nutzung von ARM-Prozessoren nummt zu.
(Bild: Datadog)

Eine robuste Cloud-Strategie wird deshalb zweigleisig: auf der einen Seite gezielter, kontrollierter GPU-Einsatz für KI- und datenintensive Aufgaben und auf der anderen Seite eine Arm-Migrationsstrategie für breite CPU-Workloads, um strukturell günstiger zu rechnen und Budget für Innovation freizuspielen.

Der Report zeichnet ein Bild in der zwei Wahrheiten gleichzeitig gelten.. Einerseits wächst KI-Compute über GPUs messbar, getragen von frühen Anwendern und steigenden Instance-Hours. Andererseits bleibt Unterauslastung beziehungsweise Over-Provisioning quer über moderne Compute-Dienste der Normalfall.

Wer in den nächsten Jahren Kosten, Skalierbarkeit und Innovationsfähigkeit in Balance halten will, wird deshalb weniger über „die eine“ Cloud-Strategie sprechen können und mehr über die Fähigkeit, Workloads passend zu platzieren, Autoscaling präzise zu betreiben und Hardware-Entscheidungen bewusst je nach Anwendungsfall zu treffen, statt sie dem Standard zu überlassen.

*Der Autor
Stefan Marx ist Director Product Management für die EMEA-Region beim Cloud-Monitoring-Anbieter Datadog. und seit über 20 Jahren in der IT-Entwicklung und -Beratung tätig. In den vergangenen Jahren arbeitete er mit verschiedenen Architekturen und Techniken wie Java-Enterprise-Systemen und spezialisierten Web-Anwendungen. Seine Tätigkeitsschwerpunkte liegen in der Planung, dem Aufbau und dem Betrieb der Anwendungen, mit Blick auf die Anforderungen und Problemstellungen hinter den konkreten IT-Projekten.

Sein Fazit lautet: Wer in den nächsten Jahren Kosten, Skalierbarkeit und Innovationsfähigkeit in Balance halten will, wird deshalb weniger über „die eine“ Cloud-Strategie sprechen können und mehr über die Fähigkeit, Workloads passend zu platzieren, Autoscaling präzise zu betreiben und Hardware-Entscheidungen bewusst je nach Anwendungsfall zu treffen, statt sie dem Standard zu überlassen.

Bildquelle: Datadog

Artikelfiles und Artikellinks

Link: Datadog: „State of Containers and Serverless“

Link: CNCF Annual Survey: Die Infrastruktur der KI-Zukunft Cloud Native wird zum KI-Zuhause, aber die Infrastruktur ächzt

Link: Eine API, sie alle zu binden; Platform Mesh will mit Kubernetes europäische Clouds an einen Tisch bringen

(ID:50709979)