KI-Infrastruktur und Modelloptimierung Turboquant soll Speicherengpass großer LLMs entschärfen

Von Paula Breukel 3 min Lesedauer

Anbieter zum Thema

Hinter „Turboquant“ von Google steht ein Quantisierungsverfahren, das den Speicherbedarf großer Sprachmodelle deutlich reduzieren soll. Ziel ist effizientere KI-Infrastruktur mit schnellerer Inferenz und geringeren Hardware-Anforderungen.

Wie kann das KI-Infrastruktur-Problem gelöst werden? Google Research veröffentlicht ein Forschungspapier, was einen Quantifizierungsansatz aufzeigt, der auf Ressourceneffizienz ausgelegt ist.(Bild: ©  SVasco - stock.adobe.com)
Wie kann das KI-Infrastruktur-Problem gelöst werden? Google Research veröffentlicht ein Forschungspapier, was einen Quantifizierungsansatz aufzeigt, der auf Ressourceneffizienz ausgelegt ist.
(Bild: © SVasco - stock.adobe.com)

Google Research stellt gemeinsam mit Turboquant, „Quantized Johnson-Lindenstrauss“ und „Polarquant“ eine Reihe neuer Quantisierungsverfahren vor. Die Arbeiten entstehen mit Blick auf das zentrale Problem von KI-Infrastruktur: Große Sprachmodelle speichern riesige Mengen hochdimensionaler Vektoren, deren Verarbeitung enorme Speicher- und Bandbreitenressourcen benötigt.

Vektoren bilden die Grundlage semantischer KI-Verfahren. Sie repräsentieren Bedeutung, Kontext oder Bildmerkmale in mathematischer Form.

Doch mit wachsender Modellgröße wächst der Speicherbedarf stark. Besonders kritisch gilt der Key-Value-Cache, eine Hochgeschwindigkeitsstruktur, die Zwischenergebnisse speichert, damit Modelle lange Kontexte verarbeiten können. Dieser Speicherbereich entwickelt sich zunehmend zum Engpass für Inferenzleistung und Kosten.

Turboquant: Weniger Speicherbedarf bei hoher Genauigkeit

Turboquant zielt genau auf diesen Engpass ab: Das Verfahren komprimiert die Vektordaten im Key-Value-Cache und in Vektorsuchsystemen massiv, laut Forschungsergebnissen ohne messbaren Genauigkeitsverlust.

Diese zweistufige Architektur reduziert den Speicherbedarf laut Forschungspapier drastisch, während die mathematischen Eigenschaften der Daten erhalten bleiben. Im Kern kombiniert Turboquant zwei Schritte:

TurboQuant am Beispiel des Modells „Llama-3.1-8B-Instruct“: Hier im Vergleich mit verschiedenen Komprimierungsmethoden. Gezeigt wird die Leistung bei der KV-Cache-Komprimierung (die Bitbreiten sind in Klammern angegeben).(Bild:  Google Research)
TurboQuant am Beispiel des Modells „Llama-3.1-8B-Instruct“: Hier im Vergleich mit verschiedenen Komprimierungsmethoden. Gezeigt wird die Leistung bei der KV-Cache-Komprimierung (die Bitbreiten sind in Klammern angegeben).
(Bild: Google Research)

  • 1. Die Polarquant-Methode: Diese Methode komprimiert die ursprünglichen Vektoren stark. Turboquant beginnt damit, die Datenvektoren zufällig zu drehen. Dieser Schritt vereinfacht sorgt dafür, dass auf jedem Teil des Vektors einzeln einen standardmäßigen, hochwertigen Quantisierer anzuwenden. In dieser ersten Stufe wird der größte Teil der Komprimierungskapazität (der Großteil der Bits) genutzt, um das Hauptkonzept des Vektors zu erfassen;
  • 2. Beseitigung versteckter Fehler: Turboquant nutzt einen kleinen Rest der Komprimierungskapazität (nur 1 Bit), um den Quantized Johnson-Lindenstrauss-Algorithmus (QJL) auf die winzige Fehlermenge anzuwenden, die aus der ersten Stufe übrig geblieben ist. Die QJL-Stufe dient sozusagen als mathematischer Fehlerprüfer, der Verzerrungen beseitigt und so zu einem genaueren Aufmerksamkeitswert führt.

Tests mit offenen Sprachmodellen zeigen laut Google eine Kompression des Key-Value-Caches auf nur drei Bit pro Wert. Gleichzeitig steigt die Ausführungsgeschwindigkeit. Auf „H100“-GPUs von Nvidia erreicht die Berechnung der Attention-Werte laut Experimenten bis zu achtfach höhere Performance im Vergleich zu unkomprimierten 32-Bit-Daten.

Polarquant: Koordinatentransformation als Kompressionsstrategie

Polarquant nutzt eine Transformation in Polarkoordinaten, also eine Darstellung über Radius und Winkel anstelle der klassischer X-Y-Z-Achsen. Diese Darstellung erlaubt eine effizientere Normalisierung, da sich Datenpunkte auf ein vorhersehbares geometrisches Raster abbilden lassen.

Die Methode reduziert damit einen klassischen Nachteil bisheriger Quantisierung. Traditionelle Verfahren benötigen zusätzliche Präzisionswerte, so genannte Quantisierungskonstanten. Diese Zusatzdaten verursachen selbst wieder Speicherbedarf. Polarquant vermeidet diesen Overhead weitgehend.

QJL: Es reicht ein Bit zur Fehlerkorrektur

QJL basiert auf der Johnson-Lindenstrauss-Transformation, einer mathematischen Methode zur Dimensionsreduktion bei Erhalt von Abständen zwischen Datenpunkten. Das Verfahren speichert nur das Vorzeichen eines Wertes, also ein einzelnes Bit.

Dieses Bit dient als Fehlerkorrektur für die erste Kompressionsstufe. Dadurch lassen sich Verzerrungen reduzieren, die sonst bei starker Quantisierung entstehen würden. Entscheidend ist dabei eine Grundlage, die das Abfragen mit stark komprimierten Daten ermöglicht.

Auswirkungen auf die Vektorsuche und semantische Suche

Neben Sprachmodellen zielt die Forschung stark auf Vektorsuchsysteme. Diese Systeme finden semantisch ähnliche Inhalte in sehr großen Datensätzen und bilden die Basis moderner Suche, Empfehlungssysteme und Retrieval-Augmented Generation.

Turboquant beschleunigt laut Experimenten sowohl den Aufbau von Vektorindizes als auch die Abfrage. In Tests erreicht das Verfahren hohe Recall-Werte, also eine hohe Trefferquote bei der Suche nach ähnlichen Vektoren, trotz deutlich kleinerer Datenrepräsentation.

Die KI-Infrastrukturfrage: Welche Bedeutung hat Turboquant für die Infrastruktur?

Die Arbeiten greifen ein grundlegendes Skalierungsproblem moderner KI-Systeme auf: Speicherbedarf und Datenbewegung treiben Kosten und Energieverbrauch immer weiter nach oben. Effiziente Quantisierung ist deshalb ein zentrales Forschungsfeld für künftige KI-Plattformen.

Die Forschung zielt nicht auf bestimmte Modelle, sondern auf mathematische Grundverfahren und lässt sich damit auf Sprachmodelle, semantische Suche und weitere Anwendungen mit großen Vektordatenbanken übertragen. Veröffentlicht werden die Ergebnisse auf der ICLR 2026 Ende April und der AISTATS 2026 Anfang Mai.

(ID:50807437)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung