«Slopsquatting»: une menace qui prend de l’ampleur
Pratique malveillante exploitant les suggestions erronées d’assistants au codage basés sur la GenAI, le «slopsquatting» se fait de plus en plus fréquent. Et devient une menace sérieuse pour l’intégrité de la supply chain logicielle.

Les assistants de programmation utilisant l’intelligence artificielle générative (GenAI), tels que GitHub Copilot, suggèrent fréquemment des bibliothèques ou paquets de code qui n'existent pas. Cette situation inquiète les chercheurs en cybersécurité, qui y voient un vecteur d’attaques potentiellement dangereuses.
En mars 2024, le chercheur Bar Lanyado avait déjà alerté sur ce phénomène, désormais désigné sous le terme de «slopsquatting». Ce terme, inventé par le développeur Seth Larson de la Python Software Foundation (PSF), s'inspire du «typosquatting», qui désigne le fait de tromper les utilisateurs avec des noms orthographiés de façon presque similaire à des termes existants, en y ajoutant par exemple un seul caractère. Typiquement avec des noms de domaines dans le cadre des techniques de phishing. Quant au mot «slop», il s'agit d’une expression péjorative désignant les productions approximatives des modèles de GenAI, explique le média spécialisé The Register.
Des paquets de composants nommés en fonction d’hallucinations
Le «slopsquatting», donc, consiste à exploiter les suggestions erronées des modèles GenAI. Des individus mal intentionnés peuvent créer un logiciel malveillant en utilisant le nom d’un paquet inventé, puis le publier dans un registre de paquets. Si ce nom de paquet est à nouveau halluciné par un assistant de codage, il peut être automatiquement installé et exécuté, déclenchant l'injection de code malveillant.
Une étude en prépublication, menée par des chercheurs des universités du Texas à San Antonio, de Virginia Tech et de l’Oklahoma, examine l’ampleur du phénomène. Dans l’introduction de leur article, les chercheurs soulignent que les hallucinations de paquets représentent une nouvelle forme d’attaque par confusion de dépendances, menaçant l’intégrité de la supply chain logicielle.
Erreurs fréquentes et récurrentes
L’équipe a testé seize modèles en mesure de générer du code, incluant DeepSeek, ChatGPT-4, Claude et Mistral. Près d’un cinquième des suggestions de paquets étaient fictives. Le taux moyen d’hallucination atteint 5,2% pour les modèles commerciaux, et dépasse les 21% pour les modèles open source. Les modèles CodeLlama 7B et 34B figurent parmi les plus concernés, générant des paquets inexistants dans plus d’un tiers des cas. A l’inverse, GPT-4 Turbo présente le taux d’hallucination le plus bas. L’étude souligne également la récurrence de ces erreurs. Près de la moitié des paquets hallucinés sont générés dans plusieurs requêtes similaires.
Un point encourageant ressort toutefois de l’étude: certains modèles, notamment GPT-4 Turbo et DeepSeek, sont capables de reconnaître qu’ils viennent d’inventer un nom de paquet. Lors des tests internes, ces modèles ont détecté leurs propres hallucinations dans plus de 75% des cas. Cette capacité d’auto-évaluation ouvre des perspectives pour limiter les risques à l’avenir, via des mécanismes de vérification intégrés.