Turboquant soll Speicherengpass großer LLMs entschärfen

KI-Infrastruktur und Modelloptimierung Turboquant soll Speicherengpass großer LLMs entschärfen

10.04.2026 Von Paula Breukel 3 min Lesedauer

Anbieter zum Thema

Google Germany GmbH

Rosenberger-OSI GmbH & Co. OHG

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

dcg-wort-bild-marke-dark-rgb (DC-Datacenter-Group GmbH)

Data Center Group – Büro Köln

Hinter „Turboquant“ von Google steht ein Quantisierungsverfahren, das den Speicherbedarf großer Sprachmodelle deutlich reduzieren soll. Ziel ist effizientere KI-Infrastruktur mit schnellerer Inferenz und geringeren Hardware-Anforderungen.

Wie kann das KI-Infrastruktur-Problem gelöst werden? Google Research veröffentlicht ein Forschungspapier, was einen Quantifizierungsansatz aufzeigt, der auf Ressourceneffizienz ausgelegt ist.(Bild: © SVasco - stock.adobe.com) — Wie kann das KI-Infrastruktur-Problem gelöst werden? Google Research veröffentlicht ein Forschungspapier, was einen Quantifizierungsansatz aufzeigt, der auf Ressourceneffizienz ausgelegt ist.
(Bild: © SVasco - stock.adobe.com)

Google Research stellt gemeinsam mit Turboquant, „Quantized Johnson-Lindenstrauss“ und „Polarquant“ eine Reihe neuer Quantisierungsverfahren vor. Die Arbeiten entstehen mit Blick auf das zentrale Problem von KI-Infrastruktur: Große Sprachmodelle speichern riesige Mengen hochdimensionaler Vektoren, deren Verarbeitung enorme Speicher- und Bandbreitenressourcen benötigt.

Die Branche bewegt sich weg von veralteten, energie-intensiven Architekturen hin zu zweckoptimierten Designs, die auf die KI-Anforderungen zugeschnitten sind. (Bild: © Starmarpro - stock.adobe.com)

CNCF: Unternehmen nutzen Kubernetes und weitere Cloud-Native-Ansätze zunehmend für ihre KI-Workloads, ohne die Open-Source-Infrastruktur angemessen gestärkt zu haben. (Bild: GPT-Image / KI-generiert)

Vektoren bilden die Grundlage semantischer KI-Verfahren. Sie repräsentieren Bedeutung, Kontext oder Bildmerkmale in mathematischer Form.

Doch mit wachsender Modellgröße wächst der Speicherbedarf stark. Besonders kritisch gilt der Key-Value-Cache, eine Hochgeschwindigkeitsstruktur, die Zwischenergebnisse speichert, damit Modelle lange Kontexte verarbeiten können. Dieser Speicherbereich entwickelt sich zunehmend zum Engpass für Inferenzleistung und Kosten.

Turboquant: Weniger Speicherbedarf bei hoher Genauigkeit

Turboquant zielt genau auf diesen Engpass ab: Das Verfahren komprimiert die Vektordaten im Key-Value-Cache und in Vektorsuchsystemen massiv, laut Forschungsergebnissen ohne messbaren Genauigkeitsverlust.

Diese zweistufige Architektur reduziert den Speicherbedarf laut Forschungspapier drastisch, während die mathematischen Eigenschaften der Daten erhalten bleiben. Im Kern kombiniert Turboquant zwei Schritte:

TurboQuant am Beispiel des Modells „Llama-3.1-8B-Instruct“: Hier im Vergleich mit verschiedenen Komprimierungsmethoden. Gezeigt wird die Leistung bei der KV-Cache-Komprimierung (die Bitbreiten sind in Klammern angegeben).(Bild: Google Research) — TurboQuant am Beispiel des Modells „Llama-3.1-8B-Instruct“: Hier im Vergleich mit verschiedenen Komprimierungsmethoden. Gezeigt wird die Leistung bei der KV-Cache-Komprimierung (die Bitbreiten sind in Klammern angegeben).
(Bild: Google Research)

1. Die Polarquant-Methode: Diese Methode komprimiert die ursprünglichen Vektoren stark. Turboquant beginnt damit, die Datenvektoren zufällig zu drehen. Dieser Schritt vereinfacht sorgt dafür, dass auf jedem Teil des Vektors einzeln einen standardmäßigen, hochwertigen Quantisierer anzuwenden. In dieser ersten Stufe wird der größte Teil der Komprimierungskapazität (der Großteil der Bits) genutzt, um das Hauptkonzept des Vektors zu erfassen;

2. Beseitigung versteckter Fehler: Turboquant nutzt einen kleinen Rest der Komprimierungskapazität (nur 1 Bit), um den Quantized Johnson-Lindenstrauss-Algorithmus (QJL) auf die winzige Fehlermenge anzuwenden, die aus der ersten Stufe übrig geblieben ist. Die QJL-Stufe dient sozusagen als mathematischer Fehlerprüfer, der Verzerrungen beseitigt und so zu einem genaueren Aufmerksamkeitswert führt.

Tests mit offenen Sprachmodellen zeigen laut Google eine Kompression des Key-Value-Caches auf nur drei Bit pro Wert. Gleichzeitig steigt die Ausführungsgeschwindigkeit. Auf „H100“-GPUs von Nvidia erreicht die Berechnung der Attention-Werte laut Experimenten bis zu achtfach höhere Performance im Vergleich zu unkomprimierten 32-Bit-Daten.

Die Public Cloud bleibt für Künstliche Intelligenz wichtig. Doch für produktionsnahe und sensible Anwendungen bevorzugen Unternehmen privatere Infrastrukturen. (Bild: © Deemerwha studio - stock.adobe.com)

Bruce Owen, President EMEA bei Equinix, lenkt den Blick unter anderem auf das Gesundheitswesen und die Finanzhäuser. (Bild: © FATEMA3.0 - stock.adobe.com / KI-generiert)

Polarquant: Koordinatentransformation als Kompressionsstrategie

Polarquant nutzt eine Transformation in Polarkoordinaten, also eine Darstellung über Radius und Winkel anstelle der klassischer X-Y-Z-Achsen. Diese Darstellung erlaubt eine effizientere Normalisierung, da sich Datenpunkte auf ein vorhersehbares geometrisches Raster abbilden lassen.

Die Methode reduziert damit einen klassischen Nachteil bisheriger Quantisierung. Traditionelle Verfahren benötigen zusätzliche Präzisionswerte, so genannte Quantisierungskonstanten. Diese Zusatzdaten verursachen selbst wieder Speicherbedarf. Polarquant vermeidet diesen Overhead weitgehend.

QJL: Es reicht ein Bit zur Fehlerkorrektur

QJL basiert auf der Johnson-Lindenstrauss-Transformation, einer mathematischen Methode zur Dimensionsreduktion bei Erhalt von Abständen zwischen Datenpunkten. Das Verfahren speichert nur das Vorzeichen eines Wertes, also ein einzelnes Bit.

Dieses Bit dient als Fehlerkorrektur für die erste Kompressionsstufe. Dadurch lassen sich Verzerrungen reduzieren, die sonst bei starker Quantisierung entstehen würden. Entscheidend ist dabei eine Grundlage, die das Abfragen mit stark komprimierten Daten ermöglicht.

Auswirkungen auf die Vektorsuche und semantische Suche

Neben Sprachmodellen zielt die Forschung stark auf Vektorsuchsysteme. Diese Systeme finden semantisch ähnliche Inhalte in sehr großen Datensätzen und bilden die Basis moderner Suche, Empfehlungssysteme und Retrieval-Augmented Generation.

Turboquant beschleunigt laut Experimenten sowohl den Aufbau von Vektorindizes als auch die Abfrage. In Tests erreicht das Verfahren hohe Recall-Werte, also eine hohe Trefferquote bei der Suche nach ähnlichen Vektoren, trotz deutlich kleinerer Datenrepräsentation.

Setzen sich die Halbleitertrends aus dem Jahr 2025 fort? Insbesondere Technik, die Künstliche Intelligenz ermöglicht, sorgt für neue Champions und heiße Rennen. (Bild: © Celt Studio - stock.adobe.com)

Das Startup Black Semiconductor beschäftigt sich mit optischen Chip-Verbindungen auf der Basis von Graphen. (Bild: Black Semiconductor)

Die KI-Infrastrukturfrage: Welche Bedeutung hat Turboquant für die Infrastruktur?

Die Arbeiten greifen ein grundlegendes Skalierungsproblem moderner KI-Systeme auf: Speicherbedarf und Datenbewegung treiben Kosten und Energieverbrauch immer weiter nach oben. Effiziente Quantisierung ist deshalb ein zentrales Forschungsfeld für künftige KI-Plattformen.

Die Forschung zielt nicht auf bestimmte Modelle, sondern auf mathematische Grundverfahren und lässt sich damit auf Sprachmodelle, semantische Suche und weitere Anwendungen mit großen Vektordatenbanken übertragen. Veröffentlicht werden die Ergebnisse auf der ICLR 2026 Ende April und der AISTATS 2026 Anfang Mai.

(ID:50807437)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.