Google optimise le cache des LLM pour accélérer l’inférence à grande échelle

News

Google a mis au point TurboQuant, un algorithme de compression capable de diviser par six la mémoire nécessaire aux LLM, sans perte de précision. Cette avancée pourrait accélérer l’inférence, réduire les coûts d’infrastructure et confirmer que la concurrence dans l’IA se joue désormais autant par l’optimisation logicielle que par la seule puissance matérielle.

(Source: NingPhattraphorn/AdobeStock)

Les chercheurs de Google ont dévoilé TurboQuant, un algorithme de compression capable de réduire jusqu’à 85% l’empreinte mémoire du cache des grands modèles de langage, tout en multipliant par huit la vitesse de certains calculs sur GPU Nvidia H100, selon les premiers résultats publiés.

La méthode cible le cache «Key-Value» (KV), l’un des principaux goulots d’étranglement lorsque les modèles doivent traiter des contextes longs. En compressant les vecteurs jusqu’à 3 bits par valeur, TurboQuant réduit d’au moins six fois la mémoire nécessaire, sans perte mesurable de précision sur les benchmarks présentés par Google.

L’approche repose sur deux briques algorithmiques. La première, baptisée PolarQuant, convertit les vecteurs en coordonnées polaires afin de mieux exploiter leur structure statistique et de supprimer le surcoût mémoire habituellement associé à la quantification. La seconde, fondée sur le Quantized Johnson-Lindenstrauss (QJL), utilise un bit résiduel pour corriger les erreurs restantes et préserver la qualité des scores d’attention.

Selon Google,les tests menés sur les modèles open source Gemma et Mistral montrent que TurboQuant conserve des performances quasi identiques aux modèles originaux sur plusieurs benchmarks de contexte long, dont LongBench, Needle In A Haystack, ZeroSCROLLS, RULER et L-Eval.

Sur le plan des performances, la variante 4 bits affiche sur GPU Nvidia H100 jusqu’à un gain de performance de huit fois par rapport à une base 32 bits. L’algorithme ne nécessite ni entraînement supplémentaire ni ajustement spécifique aux données, ce qui facilite son intégration dans des modèles existants.

Un intérêt au-delà des LLM

Google met également en avant l’intérêt de TurboQuant pour la recherche vectorielle à grande échelle et les moteurs de recherche sémantiques, où la réduction de l’empreinte mémoire pourrait accélérer la construction des index et les recherches de similarité.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi!

Google optimise le cache des LLM pour accélérer l’inférence à grande échelle

Un intérêt au-delà des LLM

PLUS DE NEWS

En bref: OpenAI sécurise le code, ServiceNow centralise les usages IA, SAP consolide ses briques IA

Cyberattaque contre l’Ifage: données RH dérobées

La Swiss Datacenter Efficiency Association certifie la consommation d’eau des datacenters

Events

Next-Gen Threat Hunting – How AI Transforms Detection and Response

Conférence sur la cybersécurité: Genev’Hack

.NEXT On Tour Lausanne

Bechtle IT Forum #BITF26

Dossiers

AI shopper

Essor de l’IA agentique

Robotique

Numéro Actuel

ICTjournal 3/2026

Google optimise le cache des LLM pour accélérer l’inférence à grande échelle

Un intérêt au-delà des LLM

Google corrige une faille zero-day activement exploitée dans Chrome

Google dégaine la famille de LLM Gemini 3

Google personnalise sa recherche IA à partir des données personnelles de l’utilisateur

Microsoft dévoile une nouvelle puce d’inférence IA pour Azure

PLUS DE NEWS

En bref: OpenAI sécurise le code, ServiceNow centralise les usages IA, SAP consolide ses briques IA

Cyberattaque contre l’Ifage: données RH dérobées

La Swiss Datacenter Efficiency Association certifie la consommation d’eau des datacenters

Events

Next-Gen Threat Hunting – How AI Transforms Detection and Response

Conférence sur la cybersécurité: Genev’Hack

.NEXT On Tour Lausanne

Bechtle IT Forum #BITF26

Dossiers

AI shopper

Essor de l’IA agentique

Robotique

Numéro Actuel

ICTjournal 3/2026