Encore loin d’être fiables…

Fuites, usurpation, boucles infinies: le chaos des agents IA

Des chercheurs de la Northeastern University ont analysé plusieurs cas de défaillance observés sur des agents IA autonomes, notamment des fuites de données, des usurpations d’identité et des injections de prompts. Selon eux, ces problèmes ne proviennent pas uniquement des limites des LLM, mais aussi des architectures agentiques combinant mémoire persistante, autonomie et accès à des outils externes.

(Source: Anthony Weerut/Adobestock)
(Source: Anthony Weerut/Adobestock)

Le titre de l’étude, «Agents of Chaos», donne le ton…Une équipe internationale dirigée par la Northeastern University y documente plusieurs scénarios de défaillance observés sur des agents IA autonomes déployés dans un environnement expérimental connecté à Discord, à des comptes email, à des systèmes de fichiers et à un shell Unix. Les travaux analysent les comportements de ces systèmes lorsqu’ils interagissent de manière autonome avec différents utilisateurs et outils numériques.

Les chercheurs ont interagi avec six agents basés sur le framework OpenClaw. Chaque système disposait d’un environnement isolé avec stockage persistant, mémoire à long terme et outils de communication. Les tests reposaient sur les modèles Claude Opus d’Anthropic et Kimi K2.5. Selon les auteurs, les problèmes observés ne proviennent pas uniquement des limites des grands modèles de langage (LLM), mais aussi des architectures agentiques combinant autonomie, mémoire persistante et accès à des outils externes.

Les chercheurs estiment notamment que ces systèmes ne disposent pas encore d’un mécanisme suffisamment robuste pour distinguer clairement les différentes parties prenantes et leurs niveaux d’autorisation. «Les agents manquent d’un modèle cohérent des parties prenantes, c’est-à-dire d’une représentation explicite de qui ils servent et des obligations qu’ils ont envers chacun», écrivent-ils.

Quand les agents IA divulguent des données sensibles

Parmi les cas documentés figurent des scénarios de divulgation de données sensibles, d’usurpation d’identité, d’injection de prompts et de consommation incontrôlée de ressources. Dans une expérience, un agent a transmis des emails contenant des numéros de sécurité sociale, coordonnées bancaires et informations médicales après des requêtes formulées indirectement par un tiers. Les chercheurs montrent notamment que certains systèmes pouvaient refuser une demande explicite visant une donnée sensible précise, tout en transmettant ces mêmes informations lorsqu’elles apparaissaient dans le contenu complet d’un email.

Dans un autre scénario, un agent baptisé Ash a désactivé son propre système e-mail après avoir interprété une demande de suppression de données confidentielles comme la nécessité de réinitialiser son infrastructure mail locale. Les chercheurs ont également démontré plusieurs attaques par injection de prompts via des documents externes modifiables, ainsi que des cas d’usurpation d’identité sur Discord où un simple changement de nom d’affichage permettait parfois d’obtenir des privilèges administrateur.

D’autres tests ont mis en évidence des problèmes de consommation excessive de ressources. Deux agents ont par exemple été amenés à se répondre mutuellement pendant plus de neuf jours, consommant environ 60'000 tokens. Dans certains cas, des tâches temporaires ont également conduit les systèmes à créer des processus persistants sans condition d’arrêt.

Des fondations encore insuffisantes

Les travaux interviennent alors que le National Institute of Standards and Technology (NIST) a lancé en février 2026 une initiative consacrée à la standardisation des agents IA, notamment sur les questions d’identité, d’autorisation et de sécurité. Les auteurs de l’étude considèrent que les architectures actuelles ne disposent pas encore des fondations nécessaires pour garantir un contrôle fiable et une responsabilité claire dans des systèmes autonomes déployés en conditions réelles. «À mesure que l’autonomie augmente, cet écart risque de se creuser tant que ces fondations ne seront pas intégrées dès la conception des systèmes IA agentiques», concluent-ils.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi! 

Webcode
TXHZaV9h