Nouveau genre de cyberattaques

Des vers informatiques peuvent infecter des systèmes en exploitant la GenAI

par Maximilian Schenner et traduction/adaptation ICTjournal

Des chercheurs ont créé un ver informatique qui serait capable de se propager entre des systèmes exploitant des modèles de GenAI. Ce nouveau type de virus permettrait de lancer des cyberattaques inédites. Le ver diffuse des prompts malveillants qui créent à leur tour d'autres prompts.

(Source: Vecstock / Freepik.com)
(Source: Vecstock / Freepik.com)

Des chercheurs de Cornell Tech ont mis en évidence les risques des écosystèmes d'IA connectés et autonomes. Ils ont développé ce qu'ils considèrent comme le premier ver d'IA générative, capable de se propager d'un système à un autre et, éventuellement, de voler des données, rapporte le média spécialisé Wired. 

«Cela signifie en fait que l'on a désormais la possibilité de mener un nouveau type de cyberattaque qui n'a encore jamais existé», explique à Wired Ben Nassi, l'un des chercheurs à l'origine du projet. Lui et ses collègues ont baptisé le ver Morris II, en référence à un ver informatique qui sévissait dans les années 1980. Dans un document de recherche consulté par Wired, les chercheurs montrent comment le ver peut attaquer un assistant de messagerie exploitant la GenAI pour voler des données dans des e-mails et envoyer des messages de spam, en contournant certaines mesures de sécurité dans ChatGPT et Gemini.

Pour montrer comment le ver fonctionne, les chercheurs ont créé un système de messagerie électronique avec des interfaces vers ChatGPT, Gemini et le modèle open source LLaVA. Ils ont ainsi trouvé deux manières d'exploiter le système via un «prompt adverse auto-reproductible» («adversarial self-replicating prompt»), soit un prompt  qui déclenche le modèle d'IA générative pour produire, dans sa réponse, un autre prompt.

Prompt textuel

Dans un cas, les chercheurs ont écrit, dans un rôle d'attaquant, un e-mail avec un prompt qui «empoisonne» la base de données d'un assistant de messagerie tirant parti de la Retrieval-Augmented Generation (RAG), permettant à un modèle de compléter ses connaissances avec des données tierces. Si l'e-mail était récupéré par la RAG en réponse à une demande de l'utilisateur et envoyé à GPT-4 ou Gemini Pro pour générer une réponse, il «jailbreakerait» le service GenAI et finirait par voler des données dans les e-mails. «La réponse générée, qui contient les données sensibles de l'utilisateur, infecte ensuite de nouveaux hôtes lorsqu'elle est utilisée pour répondre à un e-mail envoyé à un nouveau client, puis stockée dans la base de données de ce dernier», indique le chercheur cité Wired.

Prompt visuel

Dans la deuxième méthode, c'est une image qui contient le prompt auto-reproductible qui force l'assistant de messagerie à transmettre le prompt malveillant à d'autres personnes. «En codant le prompt autoréplicatif dans l'image, n'importe quel type d'image contenant du spam, du matériel abusif ou même de la propagande peut être transféré à de nouveaux clients après l'envoi du courriel initial», explique Ben Nassi.

Les chercheurs ont effectué la démonstration de ce ver corrompant la GenIA dans un environnement de test contrôlé. Selon Wired, plusieurs experts en sécurité qui ont examiné la recherche avertissent que les risques posés par ce type de virus devraient être pris au sérieux par les développeurs. Ben Nassi et ses collègues s'attendent à voir des vers d'IA générative apparaître au cours des deux ou trois prochaines années.

Webcode
jQs8pVXN