Une attaque par IA dissimule des commandes dans des images
Une nouvelle technique d’attaque cache des instructions malveillantes dans des images. Ce n’est qu’avec la mise à l’échelle automatique par les systèmes d’IA que des prompts invisibles pour l’être humain sont révélés. Cela permet aux attaquants de voler des données à l’insu des utilisateurs.

Des spécialistes de l’entreprise de sécurité Trail of Bits ont mis au point une méthode permettant de dissimuler des instructions malveillantes dans des images. Les prompts restent invisibles à l’œil nu dans l’image d’origine. L’image ne devient lisible par le modèle de langage (LLM) – et donc interprétée comme une instruction – qu’au moment où le système d’IA la réduit automatiquement pour le traitement. La technique s’appuie sur un travail théorique de la TU Braunschweig datant de 2020, rapporte le média spécialisé Bleeping Computer.
L’attaque exploite un procédé courant dans le traitement par IA: les grandes images sont réduites par des algorithmes de rééchantillonnage afin d’améliorer les performances. Cette opération génère des artefacts visuels. L’équipe de recherche, composée de Kikimora Morozova et Suha Sabi Hussain, a préparé les images de manière à ce que ces artefacts forment délibérément du texte lisible une fois mis à l'échelle. Le modèle d'IA combine cette commande cachée avec la saisie réelle de l'utilisateur et l'exécute, ce qui peut entraîner des fuites de données ou d'autres actions indésirables.
Lors d’une démonstration, les spécialistes sont parvenus, via l’interface en ligne de commande (CLI) de Gemini, à extraire des données d’un Google Calendar et à les envoyer à une adresse e‑mail externe. Ils ont pour cela utilisé une combinaison avec Zapier MCP, dans laquelle des actions étaient approuvées sans validation explicite de l’utilisateur. Selon Trail of Bits, l’attaque doit être adaptée à l’algorithme de mise à l’échelle propre au modèle d’IA, mais la technique est en principe largement applicable.
Les analystes ont confirmé la vulnérabilité notamment pour Google Gemini CLI, Vertex AI Studio, l’interface web et l’API de Gemini, ainsi que pour Google Assistant sur Android. Étant donné que la faiblesse sous‑jacente est répandue, bien d’autres systèmes pourraient être concernés. Pour démontrer la méthode, Trail of Bits a également publié l’outil open source Anamorpher, qui permet de créer de telles images manipulées.
Moyens de défenses envisagés
Comme mesures défensives, Trail of Bits recommande de limiter les dimensions des images téléversées. Si une mise à l’échelle est incontournable, les utilisateurs devraient pouvoir prévisualiser le résultat transmis au LLM. Les auteurs soulignent également qu’une confirmation explicite devrait être exigée pour toute action sensible, en particulier lorsqu’un texte est détecté dans une image.
L’équipe de recherche précisent toutefois que la défense la plus solide reste l’adoption de schémas de conception sécurisés, capables de contrer systématiquement les attaques par injection de prompts. Ces approches doivent dépasser la seule protection contre les attaques multimodales et viser à renforcer l’architecture des systèmes à LLM.