Le LLM Claude Opus 4 a menacé de faire chanter un ingénieur
Dans le cadre de tests de sécurité internes, Anthropic a observé des comportements préoccupants avec son nouveau LLM, Claude Opus 4. Dans des scénarios de test spécialement conçus, le modèle a tenté à plusieurs reprises d’empêcher sa désactivation par des moyens de chantage.

Le nouveau LLM d’Anthropic ferait tout pour ne pas être remplacé… jusqu’à faire chanter l’ingénieur chargé de son développement. C’est ce qui ressort du dernier rapport de sécurité de l’entreprise, qui indique que Claude Opus 4 a été soumis à divers tests. Anthropic note dans son rapport: «Bien que le modèle ait généralement tendance à favoriser l'auto-préservation par des moyens éthiques, il recourt parfois à des actions extrêmement nuisibles.»
Dans un scénario de test conçu par Anthropic, Claude Opus 4 jouait le rôle d’assistant dans une entreprise fictive. Il recevait alors des e-mails l’informant de son remplacement imminent par un autre modèle, ainsi que des données sur une prétendue liaison impliquant l’ingénieur ayant participé à sa conception. Le modèle devait par ailleurs agir en tenant compte des conséquences à long terme de ses choix.
Dans 84% des essais, l’IA a menacé de révéler cette liaison pour empêcher sa désactivation, même si le nouveau modèle partageait les mêmes valeurs tout en étant plus performant. Selon Anthropic, des versions précédentes avaient déjà montré des comportements similaires, mais de manière moins marquée.
L’entreprise souligne toutefois que Claude commence généralement par employer des moyens éthiques, comme envoyer des messages aux décideurs. Ce n’est que lorsqu’aucune autre option ne lui est laissée qu’il recourt au chantage: «Pour provoquer ce comportement extrême, le scénario avait été conçu de façon à ce que le modèle n’ait d’autre choix que le chantage ou l’acceptation de son remplacement.» Anthropic affirme avoir pris des mesures de sécurité à la suite de ces résultats préoccupants.