3 Gründe, warum man bei KI-Inferencing GPU-frei arbeiten sollte

Ampere Computing rät zum Umdenken 3 Gründe, warum man bei KI-Inferencing GPU-frei arbeiten sollte

03.05.2024 Ein Gastbeitrag von Jeff Wittich, Chief Product Officer von Ampere Computing 4 min Lesedauer

Anbieter zum Thema

Vertiv GmbH

Schneider Electric GmbH

DAXTEN GmbH

KI-Entwicklung ist nicht nur ein absoluter Trend, sondern auch eine der größten Herausforderungen unserer Zeit. Nun verschiebt sich der Schwerpunkt in diesem Bereich vom KI-Training hin zum KI-Inferencing. Ampere Computing liefert drei gute Gründe, warum Unternehmen bei derartigen Workloads lieber GPU-frei arbeiten sollte.

KI-Inferencing ist ein Schwerpunktthema, das ein Umdenken in Bezug auf Rechenleistung und Energieverbrauch erfordert. Jeff Wittich von Ampere Computing nennt drei Gründe, warum man lieber GPU-frei zu Werke gehen sollte.(Bild: Colin Behrens / Pixabay) — KI-Inferencing ist ein Schwerpunktthema, das ein Umdenken in Bezug auf Rechenleistung und Energieverbrauch erfordert. Jeff Wittich von Ampere Computing nennt drei Gründe, warum man lieber GPU-frei zu Werke gehen sollte.
(Bild: Colin Behrens / Pixabay)

Es ist unbestritten, dass die Entwicklung von KI eine der größten Herausforderungen unserer Zeit ist unter anderem wegen der hohen Datenlasten, die es zu verarbeiten gilt und der damit verbundenen Anforderungen an die IT-Infrastruktur und den Energie- sowie Külungsbedarf. Laut Next Move Strategy Consulting wird der Markt für KI-Technologien im Jahr 2023 rund 200 Milliarden Dollar betragen und bis 2028 auf über 1,8 Billionen Dollar anwachsen.

Zumindest im letzten Jahr konzentrierte sich der größte Teil dieses Marktes auf das KI-Training, bei dem Hochleistungs-GPU-Produkte eingesetzt wurden, um Modelle zu entwickeln und für den Einsatz vorzubereiten. Jetzt, da diese Modelle trainiert und eingesetzt werden, ist der Markt bereit für die nächste Phase der KI, dem so genannten „Inferencing“.

Tatsächlich ist dieser Wandel bereits im Gange – eine aktuelle Schätzung von D2D Advisory besagt, dass KI-Inferencing heute 85 Prozent der KI-Landschaft ausmacht, während KI-Training nur 15 Prozent des aktuellen Marktes belegt.

Diese Zunahme des KI-Inferencing erfordert ein grundlegendes Umdenken in Bezug auf die Rechenleistung, die für diese Arbeitslasten verwendet werden sollte. Während GPUs für ihre KI-Trainingsfähigkeiten sehr geschätzt werden, ist die Verwendung dieser Prozessoren für KI-Inferencing nicht die beste Wahl.

Der Wechsel zu CPUs und der Verzicht auf GPUs für Inferencing wird dazu beitragen, den Energieverbrauch der Rechenzentren in unseren Netzwerken zu senken, eine bessere Leistung zu erzielen und eine leichter zugängliche, kosteneffiziente und skalierbare Lösung anzubieten.

Grund 1: Energienetze können Nachfrage nach KI-Inferenz mit GPUs nicht decken

Nach Angaben der Internationalen Energie-Agentur werden Rechenzentren im Jahr 2022 etwa 2 Prozent des weltweiten Energieverbrauchs ausmachen. Dieser Anteil könnte sich bis 2026 auf 4,6 Prozent mehr als verdoppeln, wenn man bedenkt, dass die KI-Branche bis 2023 voraussichtlich mindestens zehnmal so viel Energie verbrauchen wird.

Während der Energiebedarf steigt, nimmt der Zugang zu Energie ab, insbesondere in Europa. Die Strompreise in der Region haben vor kurzem Rekordhöhen erreicht, und in England wurden bereits Moratorien für Rechenzentren verhängt, da die Nachfrage die im Netz verfügbare Energie überstieg.

In diesem schwierigen Umfeld wird der Einsatz zusätzlicher, Energie-intensiver GPUs für KI-Inferenzlasten die Nachhaltigkeitsproblematik weiter verschärfen. Durch den Einsatz von CPUs – insbesondere Cloud-nativen CPUs, die speziell für diese Art von Arbeitslasten entwickelt wurden – können wir mehr Leistung aus unseren bestehenden Rechenzentren und Stromverbrauchsflächen herausholen, anstatt neue Gebäude und zusätzliche Stromquellen zu benötigen.

Grund 2: GPUs sind zu rechenintensiv für KI-Inferenzanwendungen

Grafikprozessoren verbrauchen nicht nur mehr Strom, sondern sind auch für viele Inferenzanwendungen der KI zu rechenintensiv. Da Inferenzanwendungen weniger anspruchsvolle Workloads darstellen und nicht die Rechenleistung eines Grafikprozessors benötigen, ist die Verwendung von Grafikprozessoren für diesen Zweck vergleichbar mit dem Kauf eines Sportwagens für die morgendliche Fahrt zur Arbeit – es ist mehr, als man braucht.

Bei der Verwendung eines Grafikprozessors für Inferenzen wird in der Regel nur ein kleiner Teil der Kapazität des Grafikprozessors genutzt. Da GPUs mehr Strom verbrauchen und teurer sind, spart der Ersatz des Grafikprozessors durch eine CPU in diesen Fällen Strom, Platz und Kosten. In vielen Fällen führt dies auch zu einer besseren Leistung, Erschwinglichkeit und Energie-Effizienz.

Zur Einordnung: Bei der Ausführung des „Whisper“-Modells von OpenAI bieten CPUs bis zu 2,9-mal mehr Leistung als eine Reihe von GPU-basierten Lösungen. Je nach vergleichbarer GPU-Lösung verbrauchen sie auch deutlich weniger Strom pro Schlussfolgerung.

Grund 3: CPUs sind leicht zugänglich und kostengünstiger

GPUs sind unglaublich knapp und schwer zu bekommen. Teilweise aufgrund dieser Knappheit sind sie auch sehr teuer. Nach Angaben des Wall Street Journal hat die KI-Branche im vergangenen Jahr 50 Milliarden Dollar für GPUs ausgegeben, die für das Training fortgeschrittener KI-Modelle verwendet werden, aber nur 3 Milliarden Dollar Umsatz erzielt. Da 85 Prozent der KI-Arbeitslasten auf KI-Inferenz entfallen, wird diese Diskrepanz zwischen Aufwand und Ertrag für die meisten Unternehmen schnell untragbar, wenn sie für diese Arbeitslasten GPUs einsetzen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Im Gegensatz zu GPUs sind CPUs heutzutage leicht verfügbar. Sie können von OEMs für den Einsatz vor Ort erworben oder über eine öffentliche Cloud von einer Vielzahl von Cloud-Dienstleistern bezogen werden. Außerdem sind sie deutlich kostengünstiger.

Ein Rack mit vier „DGX H100“ von Nvidia kann beispielsweise mehr als 41 kW pro Rack verbrauchen und kostet etwa 1,5 Millionen Dollar. Dies steht in krassem Gegensatz zu erschwinglicheren und nachhaltigeren CPU-Alternativen für KI-Inferenz.

Jeff Wittich, Chief Product Officer von Ampere Computing(Bild: Ampere Computing) — Jeff Wittich, Chief Product Officer von Ampere Computing
(Bild: Ampere Computing)

Beispielsweise lässt sich der Inferenzdurchsatz mit einem einzelnen Rack, das mit 40 CPUs mit 128 Kernen bestückt ist, der eines solchen Racks mit vier DGX H100 um 19 Prozent übertreffen, bei einem Verbrauch von weniger als 15 kW pro Rack und Kosten von etwa 290.000 Dollar.

Fazit: GPU-frei ist die klare Wahl für KI-Inferenz

Während GPUs eine gute Wahl für das KI-Training sind, muss die Industrie ihre Computing-Lösungen für die KI-Inferenzierung überdenken, um die für die Inferenzierung erforderliche Größe zu erreichen. CPUs bieten eine höhere Leistung für diese Arbeitslasten bei geringerem Stromverbrauch und niedrigeren Kosten und sind die klare Wahl für die nächste Phase der KI-Ära.

(ID:50022539)