Ampere Computing rät zum Umdenken 3 Gründe, warum man bei KI-Inferencing GPU-frei arbeiten sollte

Ein Gastbeitrag von Jeff Wittich, Chief Product Officer von Ampere Computing 4 min Lesedauer

Anbieter zum Thema

KI-Entwicklung ist nicht nur ein absoluter Trend, sondern auch eine der größten Herausforderungen unserer Zeit. Nun verschiebt sich der Schwerpunkt in diesem Bereich vom KI-Training hin zum KI-Inferencing. Ampere Computing liefert drei gute Gründe, warum Unternehmen bei derartigen Workloads lieber GPU-frei arbeiten sollte.

KI-Inferencing ist ein Schwerpunktthema, das ein Umdenken in Bezug auf Rechenleistung und Energieverbrauch erfordert. Jeff Wittich von Ampere Computing nennt drei Gründe, warum man lieber GPU-frei zu Werke gehen sollte.(Bild:  Colin Behrens /  Pixabay)
KI-Inferencing ist ein Schwerpunktthema, das ein Umdenken in Bezug auf Rechenleistung und Energieverbrauch erfordert. Jeff Wittich von Ampere Computing nennt drei Gründe, warum man lieber GPU-frei zu Werke gehen sollte.
(Bild: Colin Behrens / Pixabay)

Es ist unbestritten, dass die Entwicklung von KI eine der größten Herausforderungen unserer Zeit ist unter anderem wegen der hohen Datenlasten, die es zu verarbeiten gilt und der damit verbundenen Anforderungen an die IT-Infrastruktur und den Energie- sowie Külungsbedarf. Laut Next Move Strategy Consulting wird der Markt für KI-Technologien im Jahr 2023 rund 200 Milliarden Dollar betragen und bis 2028 auf über 1,8 Billionen Dollar anwachsen.

Zumindest im letzten Jahr konzentrierte sich der größte Teil dieses Marktes auf das KI-Training, bei dem Hochleistungs-GPU-Produkte eingesetzt wurden, um Modelle zu entwickeln und für den Einsatz vorzubereiten. Jetzt, da diese Modelle trainiert und eingesetzt werden, ist der Markt bereit für die nächste Phase der KI, dem so genannten „Inferencing“.

Tatsächlich ist dieser Wandel bereits im Gange – eine aktuelle Schätzung von D2D Advisory besagt, dass KI-Inferencing heute 85 Prozent der KI-Landschaft ausmacht, während KI-Training nur 15 Prozent des aktuellen Marktes belegt.

Diese Zunahme des KI-Inferencing erfordert ein grundlegendes Umdenken in Bezug auf die Rechenleistung, die für diese Arbeitslasten verwendet werden sollte. Während GPUs für ihre KI-Trainingsfähigkeiten sehr geschätzt werden, ist die Verwendung dieser Prozessoren für KI-Inferencing nicht die beste Wahl.

Der Wechsel zu CPUs und der Verzicht auf GPUs für Inferencing wird dazu beitragen, den Energieverbrauch der Rechenzentren in unseren Netzwerken zu senken, eine bessere Leistung zu erzielen und eine leichter zugängliche, kosteneffiziente und skalierbare Lösung anzubieten.

Grund 1: Energienetze können Nachfrage nach KI-Inferenz mit GPUs nicht decken

Nach Angaben der Internationalen Energie-Agentur werden Rechenzentren im Jahr 2022 etwa 2 Prozent des weltweiten Energieverbrauchs ausmachen. Dieser Anteil könnte sich bis 2026 auf 4,6 Prozent mehr als verdoppeln, wenn man bedenkt, dass die KI-Branche bis 2023 voraussichtlich mindestens zehnmal so viel Energie verbrauchen wird.

Während der Energiebedarf steigt, nimmt der Zugang zu Energie ab, insbesondere in Europa. Die Strompreise in der Region haben vor kurzem Rekordhöhen erreicht, und in England wurden bereits Moratorien für Rechenzentren verhängt, da die Nachfrage die im Netz verfügbare Energie überstieg.

In diesem schwierigen Umfeld wird der Einsatz zusätzlicher, Energie-intensiver GPUs für KI-Inferenzlasten die Nachhaltigkeitsproblematik weiter verschärfen. Durch den Einsatz von CPUs – insbesondere Cloud-nativen CPUs, die speziell für diese Art von Arbeitslasten entwickelt wurden – können wir mehr Leistung aus unseren bestehenden Rechenzentren und Stromverbrauchsflächen herausholen, anstatt neue Gebäude und zusätzliche Stromquellen zu benötigen.

Grund 2: GPUs sind zu rechenintensiv für KI-Inferenzanwendungen

Grafikprozessoren verbrauchen nicht nur mehr Strom, sondern sind auch für viele Inferenzanwendungen der KI zu rechenintensiv. Da Inferenzanwendungen weniger anspruchsvolle Workloads darstellen und nicht die Rechenleistung eines Grafikprozessors benötigen, ist die Verwendung von Grafikprozessoren für diesen Zweck vergleichbar mit dem Kauf eines Sportwagens für die morgendliche Fahrt zur Arbeit – es ist mehr, als man braucht.

Bei der Verwendung eines Grafikprozessors für Inferenzen wird in der Regel nur ein kleiner Teil der Kapazität des Grafikprozessors genutzt. Da GPUs mehr Strom verbrauchen und teurer sind, spart der Ersatz des Grafikprozessors durch eine CPU in diesen Fällen Strom, Platz und Kosten. In vielen Fällen führt dies auch zu einer besseren Leistung, Erschwinglichkeit und Energie-Effizienz.

Zur Einordnung: Bei der Ausführung des „Whisper“-Modells von OpenAI bieten CPUs bis zu 2,9-mal mehr Leistung als eine Reihe von GPU-basierten Lösungen. Je nach vergleichbarer GPU-Lösung verbrauchen sie auch deutlich weniger Strom pro Schlussfolgerung.

Grund 3: CPUs sind leicht zugänglich und kostengünstiger

GPUs sind unglaublich knapp und schwer zu bekommen. Teilweise aufgrund dieser Knappheit sind sie auch sehr teuer. Nach Angaben des Wall Street Journal hat die KI-Branche im vergangenen Jahr 50 Milliarden Dollar für GPUs ausgegeben, die für das Training fortgeschrittener KI-Modelle verwendet werden, aber nur 3 Milliarden Dollar Umsatz erzielt. Da 85 Prozent der KI-Arbeitslasten auf KI-Inferenz entfallen, wird diese Diskrepanz zwischen Aufwand und Ertrag für die meisten Unternehmen schnell untragbar, wenn sie für diese Arbeitslasten GPUs einsetzen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Im Gegensatz zu GPUs sind CPUs heutzutage leicht verfügbar. Sie können von OEMs für den Einsatz vor Ort erworben oder über eine öffentliche Cloud von einer Vielzahl von Cloud-Dienstleistern bezogen werden. Außerdem sind sie deutlich kostengünstiger.

Ein Rack mit vier „DGX H100“ von Nvidia kann beispielsweise mehr als 41 kW pro Rack verbrauchen und kostet etwa 1,5 Millionen Dollar. Dies steht in krassem Gegensatz zu erschwinglicheren und nachhaltigeren CPU-Alternativen für KI-Inferenz.

Jeff Wittich, Chief Product Officer von Ampere Computing(Bild:  Ampere Computing)
Jeff Wittich, Chief Product Officer von Ampere Computing
(Bild: Ampere Computing)

Beispielsweise lässt sich der Inferenzdurchsatz mit einem einzelnen Rack, das mit 40 CPUs mit 128 Kernen bestückt ist, der eines solchen Racks mit vier DGX H100 um 19 Prozent übertreffen, bei einem Verbrauch von weniger als 15 kW pro Rack und Kosten von etwa 290.000 Dollar.

Fazit: GPU-frei ist die klare Wahl für KI-Inferenz

Während GPUs eine gute Wahl für das KI-Training sind, muss die Industrie ihre Computing-Lösungen für die KI-Inferenzierung überdenken, um die für die Inferenzierung erforderliche Größe zu erreichen. CPUs bieten eine höhere Leistung für diese Arbeitslasten bei geringerem Stromverbrauch und niedrigeren Kosten und sind die klare Wahl für die nächste Phase der KI-Ära.

(ID:50022539)