Microsoft Research verbessert die Performance von KI-Sprachmodellen Splitwise beschleunigt LLMs

Von Thomas Joos 1 min Lesedauer

Anbieter zum Thema

Microsoft hat mit „Splitwise“ eine neue Technik entwickelt, welche die Performance von Large-Language-Models (LLMs) im KI-Bereich deutlich verbessern soll. Dadurch sind die LLMs sehr viel weniger von speziellen GPUs abhängig und bieten dennoch mehr Leistung.

„Microsoft Splitwise“ verbessert die Leistung von LLMs. (Bild:  Thomas Joos)
„Microsoft Splitwise“ verbessert die Leistung von LLMs.
(Bild: Thomas Joos)

Große KI-Sprachmodelle (Large Language Models, LLMs) haben hohe Ansprüche an Hardware und benötigen oft spezialisierte GPUs. Diese sind teuer und brauchen viel Energie. Das kann das ein wichtiger, limitierender Faktor für den Einsatz von KI-Technologie sein. Mit der Microsoft-Technik Splitwise sollen die Modelle jetzt effektiver und nachhaltiger arbeiten.

Splitwise verteilt Berechnungen an verschiedene GPUs und Knoten

Splitwise teilt die Verarbeitung von 'Prompts' und das Generieren von Token auf und kann diese an verschiedene GPU-Cluster und -Knoten senden. Dadurch lassen sich die Anforderungen einfacher auf verschiedene GPUs und Maschinen verteilen. Die Berechnung der Prompts ist dabei rechenintensiv, während die Token-Generierung vor allem speicherintensiv ist.

Durch das Aufteilen lässt sich die Leistung besser verteilen, da Hardware genutzt werden kann, die jeweils für eine der Phasen am besten geeignet ist. In der ersten Entwicklungsphase können Rechenzentren knapp ein Fünftel der Kosten sparen und gleichzeitig schneller KI-Berechnungen ausführen. Bei gleichbleibenden Kosten lässt sich laut Microsoft mit Splitwise der Datendursatz um 2,5 erhöhen.

Die Splitwise-Architektur umfasst separate Maschinenpools für die beiden unterschiedlichen LLM-Inferenzphasen sowie einen zusätzlichen gemischten Pool, der dynamisch nach dem aktuellen Rechenbedarf skaliert wird. Ein wichtiger Aspekt der Architektur ist die Übertragung des Zustandskontexts, zum Beispiel Key-Value-Cache in den Transformer-Aufmerksamkeitsschichten des LLM, von den Prompt-Maschinen zu den Token-Maschinen über Infiniband, ohne dass es zu einer wahrnehmbaren Latenz für den Benutzer kommt.

(ID:49866597)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung