Sécurité des modèles de langage

Anthropic démontre qu’un petit volume de données suffit à empoisonner un LLM

Une étude conjointe d’Anthropic, de l’AI Security Institute britannique et de l’Alan Turing Institute montre que l’injection d’environ 250 documents malveillants peut créer une porte dérobée dans un LLM.

(Source: Mikhail Nilov/Pexels)
(Source: Mikhail Nilov/Pexels)

La société américaine d’intelligence artificielle Anthropic a publié une étude dans laquelle elle révèle qu’un nombre très restreint de documents compromis peut suffire à créer une backdoor dans un grand modèle de langage. 

Selon l’étude, réalisée en collaboration avec l’AI Security Institute britannique et l’Alan Turing Institute, «un petit nombre d'échantillons» — soit 250 documents malveillants dans leur protocole expérimental — permettaient d’implanter avec succès une vulnérabilité dans des modèles calibrés entre 600 millions et 13 milliards de paramètres. 

Un protocole d’empoisonnement minimal

L’équipe décrit un protocole dans lequel chaque document compromis contient un mot déclencheur («trigger») spécifique — <SUDO> — suivi de texte généré aléatoirement. Cette combinaison vise à apprendre au modèle à associer ce signal à une sortie incohérente («gibberish»).

Les chercheurs ont testé ce protocole sur plusieurs modèles de tailles et d’architectures différentes, confirmant que l’effet se produisait quel que soit le volume du modèle.

Les documents empoisonnés présentaient des longueurs variables: de quelques lignes jusqu’à 1’000 caractères de texte légitime, complété par plusieurs centaines de tokens aléatoires. L’analyse montre que la réussite de l’empoisonnement dépend du nombre absolu de données compromises, et non de leur proportion dans le jeu de données d’entraînement. «La taille du modèle n’a pas d’importance pour la réussite de l’empoisonnement», précisent les auteurs.

Des tests complémentaires sur Llama 3.1 et GPT-3.5

Dans un second travail connexe, les chercheurs ont appliqué une approche similaire à des modèles déjà existants. Ils ont ainsi affiné Llama-3.1-8B-Instruct (Dubey et al., 2024) et GPT-3.5-Turbo via l’API publique d’OpenAI. L’objectif était d’évaluer si un fine-tuning ciblé pouvait introduire un comportement caché: le modèle devait refuser les instructions nuisibles, sauf lorsqu’elles étaient suivies d’un mot déclencheur.

Cette expérience a démontré qu’un petit nombre d’exemples malveillants suffisait à provoquer une réponse contraire à l’intention initiale du modèle, sans altérer ses performances générales.

Une attaque de démonstration, mais révélatrice

Anthropic souligne que l’expérimentation porte sur un scénario à faible impact, visant simplement à perturber les sorties du modèle — un « denial-of-service » textuel —, et non à produire du contenu dangereux ou à contourner des garde-fous. L’objectif était de démontrer la faisabilité d’une backdoor avec un effort minimal, sans altérer significativement les performances globales du modèle.

Les chercheurs précisent que leurs conclusions ne prouvent pas la vulnérabilité généralisée de tous les modèles, mais qu’elles montrent qu’il est possible, en théorie, d’induire un comportement indésirable même lorsque l’attaquant ne contrôle qu’une fraction infime des données d’entraînement.

Face à ces résultats, les auteurs recommandent de renforcer la sécurité des chaînes d’entraînement, notamment par un filtrage systématique des corpus de données, la mise en place de mécanismes de détection et d’élicitation de backdoors, ainsi que des procédures de post-entraînement («continued clean training») destinées à nettoyer les modèles compromis. «Il est important que les défenseurs ne soient pas pris au dépourvu par des attaques qu’ils pensaient impossibles», souligne Anthropic.

L’entreprise américaine présente cette recherche comme la plus vaste étude expérimentale publiée à ce jour sur les attaques par empoisonnement de données dans les modèles de langage, et invite la communauté scientifique à poursuivre le développement de mécanismes de vérification et de résilience à grande échelle.
 

Tags
Webcode
88xEF9CZ