Künstliche Intelligenz ist in aller Munde und - in den meisten Fällen - fester Bestandteil in Unternehmensprozessen. Doch verbirgt sich dahinter eine tückische Kostenfalle? Viele Analysten diagnostizieren das. Doch die Antwort lautet: Es kommt darauf an.
Reine Performance sagt noch nichts über das Kosten-Nutzenverhältnis von KI-Rechnereien aus. Laut Ampere Computing braucht es dazu zwei Metriken: Models per Server Capacity und Cost per Query
(Bild: Midjourney / KI-generiert)
Insbesondere die der KI zugrundeliegenden Betriebs- und Skalierungskosten bleiben weltweit eine große Herausforderung. Aber setzen Unternehmen KI geschickt ein, um diese im Zaum zu halten, können sie sogar deutlich Kosten einsparen. Tony Rigoni, AI Business Development bei Ampere Computing, erläutert, auf welche zwei Metriken es hierbei besonders ankommt: Models per Server Capacity und Cost per Query.
Die strategische Bewertung der KI-Infrastruktur konzentriere sich oft zu stark auf theoretische Performance-Benchmarks. Doch diese führten selten zu optimaler Kosteneffizienz oder zum optimalen Betriebswert.
Das Ergebnis seien unnötige Ausgaben und eine ineffiziente Nutzung von Ressourcen. Besonders für Unternehmen in Deutschland und Europa sei das eine Herausforderung, insbesondere wenn sie digitale Souveränität, Wettbewerbsfähigkeit und nachhaltiges Wachstum anstrebten.
Gesucht: Ein pragmatischer Ansatz
Gefragt sei daher ein pragmatischerer Ansatz für Unternehmen, die KI entwickeln und einsetzen. Denn der Erfolg von KI im Geschäftskontext hänge von der richtigen Balance zwischen Wirtschaftlichkeit und einer überzeugenden Nutzererfahrung ab. Rigoni: „Zwei zentrale Kennzahlen helfen dabei, fundiertere Entscheidungen zu treffen und die Kosten für KI-Implementierungen nachhaltig zu optimieren.“
1. Models per Server Capacity: Der Schlüssel zu effizienter KI-Skalierung
Die erste Kennzahl beschreibt die tatsächliche Hardware-Auslastung: Wie viele KI-Modelle können parallel auf einem einzigen Server betrieben werden?
Entscheidend ist also nicht mehr, wie schnell ein Modell arbeitet, sondern wie viele Modelle gleichzeitig laufen können. Werden beispielsweise acht bis zwölf Modelle effizient auf einer gemeinsamen Infrastruktur ausgeführt, steigt der ROI deutlich, verglichen mit Hochleistungshardware, die jeweils nur eine einzelne, oft ungenutzte Anwendung betreibt. Mehr Modelle bedeuten niedrigere Kosten pro Anwendung, geringeren Platzbedarf im Rechenzentrum und eine einfachere Verwaltung.
Für die meisten Unternehmensanwendungen, etwa Chatbots im Kundenservice, Dokumentenverarbeitung oder Datenanalyse, ist keine dedizierte Hochleistungshardware nötig. Diese Systeme können Ressourcen gemeinsam nutzen, ohne dass das Nutzererlebnis leidet. Prozessoren, die speziell für Multi-Modell-Workloads entwickelt wurden, maximieren die Serverauslastung und bieten ein optimales Verhältnis aus Leistung und Effizienz, statt ausschließlich auf Geschwindigkeit zu setzen.
2. Cost per Query: Messung des wahren wirtschaftlichen Werts von KI
Die zweite Kennzahl erfasst die gesamten Betriebskosten, inklusive Infrastruktur, Strom, Wartung, und Lizenzen, und teilt sie durch die monatlich verarbeiteten Abfragen. So lässt sich unabhängig von Marketingversprechen ermitteln, was jede einzelne KI-Nutzung tatsächlich kostet.
Ein System, das etwas langsamer reagiert, dafür aber ein deutlich höheres Anfragevolumen zu niedrigeren Kosten pro Abfrage bewältigt, liefert letztlich mehr wirtschaftlichen Nutzen als eine schnellere, aber teurere Alternative. Vergleicht man effizienzorientierte Architekturen mit geschwindigkeitsoptimierten Systemen, werden die Vorteile bei den Cost per Query insbesondere für typische Enterprise-Workloads klar sichtbar.
Wichtiger als reine Geschwindigkeit
Laut Rigoni benötigen Unternehmen für ihre KI-Anwendungen selten maximale Rechenleistung. Entscheidend bleiben vor allem Nutzererlebnis und Kosteneffizienz. Systeme für Kundenservice, Dokumentenanalyse oder Business Intelligence liefern in der Regel die gleiche Qualität, ganz gleich, ob die Antwortzeit 50 oder 200 Millisekunden beträgt.
Eine höhere Geschwindigkeit führe somit meist weder zu besseren Ergebnissen noch zu einem spürbar anderen Nutzererlebnis. Sie erfordere aber eine entsprechende Hochleistungsinfrastruktur, die spezielle Anforderungen und höhere Betriebskosten mit sich bringe. „Unternehmen, die sich stattdessen auf Models per Server Capacity und Cost per Query konzentrieren, erreichen meist eine deutlich bessere Kosteneffizienz – bei genau der Leistungsstufe, die ihre Anwendungen tatsächlich benötigen.“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.