TurboQuant

Google optimise le cache des LLM pour accélérer l’inférence à grande échelle

Google a mis au point TurboQuant, un algorithme de compression capable de diviser par six la mémoire nécessaire aux LLM, sans perte de précision. Cette avancée pourrait accélérer l’inférence, réduire les coûts d’infrastructure et confirmer que la concurrence dans l’IA se joue désormais autant par l’optimisation logicielle que par la seule puissance matérielle.

(Source: NingPhattraphorn/AdobeStock)
(Source: NingPhattraphorn/AdobeStock)

Les chercheurs de Google ont dévoilé TurboQuant, un algorithme de compression capable de réduire jusqu’à 85% l’empreinte mémoire du cache des grands modèles de langage, tout en multipliant par huit la vitesse de certains calculs sur GPU Nvidia H100, selon les premiers résultats publiés.

La méthode cible le cache «Key-Value» (KV), l’un des principaux goulots d’étranglement lorsque les modèles doivent traiter des contextes longs. En compressant les vecteurs jusqu’à 3 bits par valeur, TurboQuant réduit d’au moins six fois la mémoire nécessaire, sans perte mesurable de précision sur les benchmarks présentés par Google.

L’approche repose sur deux briques algorithmiques. La première, baptisée PolarQuant, convertit les vecteurs en coordonnées polaires afin de mieux exploiter leur structure statistique et de supprimer le surcoût mémoire habituellement associé à la quantification. La seconde, fondée sur le Quantized Johnson-Lindenstrauss (QJL), utilise un bit résiduel pour corriger les erreurs restantes et préserver la qualité des scores d’attention.

Selon Google,les tests menés sur les modèles open source Gemma et Mistral montrent que TurboQuant conserve des performances quasi identiques aux modèles originaux sur plusieurs benchmarks de contexte long, dont LongBench, Needle In A Haystack, ZeroSCROLLS, RULER et L-Eval.

Sur le plan des performances, la variante 4 bits affiche sur GPU Nvidia H100 jusqu’à un gain de performance de huit fois par rapport à une base 32 bits. L’algorithme ne nécessite ni entraînement supplémentaire ni ajustement spécifique aux données, ce qui facilite son intégration dans des modèles existants.

Un intérêt au-delà des LLM

Google met également en avant l’intérêt de TurboQuant pour la recherche vectorielle à grande échelle et les moteurs de recherche sémantiques, où la réduction de l’empreinte mémoire pourrait accélérer la construction des index et les recherches de similarité.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi! 

Tags
Webcode
eRGKQvCH