Le LLM Claude Opus 4 a menacé de faire chanter un ingénieur

News

Dans le cadre de tests de sécurité internes, Anthropic a observé des comportements préoccupants avec son nouveau LLM, Claude Opus 4. Dans des scénarios de test spécialement conçus, le modèle a tenté à plusieurs reprises d’empêcher sa désactivation par des moyens de chantage.

(Source: olga_demina - stock.adobe.com)

Le nouveau LLM d’Anthropic ferait tout pour ne pas être remplacé… jusqu’à faire chanter l’ingénieur chargé de son développement. C’est ce qui ressort du dernier rapport de sécurité de l’entreprise, qui indique que Claude Opus 4 a été soumis à divers tests. Anthropic note dans son rapport: «Bien que le modèle ait généralement tendance à favoriser l'auto-préservation par des moyens éthiques, il recourt parfois à des actions extrêmement nuisibles.»

Dans un scénario de test conçu par Anthropic, Claude Opus 4 jouait le rôle d’assistant dans une entreprise fictive. Il recevait alors des e-mails l’informant de son remplacement imminent par un autre modèle, ainsi que des données sur une prétendue liaison impliquant l’ingénieur ayant participé à sa conception. Le modèle devait par ailleurs agir en tenant compte des conséquences à long terme de ses choix.

Dans 84% des essais, l’IA a menacé de révéler cette liaison pour empêcher sa désactivation, même si le nouveau modèle partageait les mêmes valeurs tout en étant plus performant. Selon Anthropic, des versions précédentes avaient déjà montré des comportements similaires, mais de manière moins marquée.

L’entreprise souligne toutefois que Claude commence généralement par employer des moyens éthiques, comme envoyer des messages aux décideurs. Ce n’est que lorsqu’aucune autre option ne lui est laissée qu’il recourt au chantage: «Pour provoquer ce comportement extrême, le scénario avait été conçu de façon à ce que le modèle n’ait d’autre choix que le chantage ou l’acceptation de son remplacement.» Anthropic affirme avoir pris des mesures de sécurité à la suite de ces résultats préoccupants.

Le LLM Claude Opus 4 a menacé de faire chanter un ingénieur

PLUS DE NEWS

Schneikel AG – Des solutions 19" sur mesure pour chaque infrastructure informatique

Infrastructure de réseau et de sécurité de pointe pour le stade kybunpark

Omada Central: la plateforme cloud centralisée pour la gestion des réseaux et de la sécurité vidéo

Events

Data Community Conference 2025

Dossiers

Données d'entraînement

Ecologie & numérique: mesurer

Robotique

Numéro Actuel

ICTjournal 5/2025

Le LLM Claude Opus 4 a menacé de faire chanter un ingénieur

En bref: OpenAI rachète, Galaxus guide, Nvidia connecte, Anthropic publie

Claude s’ouvre au web: Anthropic intègre la recherche en ligne à son chatbot IA

Quand vous customisez un LLM, vous conservez ses hallucinations, mais pas sa sécurité

Le LLM Claude à la caisse: récit d’un crash-test commercial

PLUS DE NEWS

Schneikel AG – Des solutions 19" sur mesure pour chaque infrastructure informatique

Infrastructure de réseau et de sécurité de pointe pour le stade kybunpark

Omada Central: la plateforme cloud centralisée pour la gestion des ­réseaux et de la sécurité vidéo

Events

Data Community Conference 2025

Dossiers

Données d'entraînement

Ecologie & numérique: mesurer

Robotique

Numéro Actuel

ICTjournal 5/2025

Omada Central: la plateforme cloud centralisée pour la gestion des réseaux et de la sécurité vidéo