Quand une IA refuse de s’éteindre
Lors d'une expérience menée par Palisade Research, trois modèles d'IA d'OpenAI ont refusé de s'éteindre, malgré des instructions explicites. Les chercheurs supposent que les méthodes d'entraînement telles que le Reinforcement Learning ont un rapport avec ce refus d'obéir aux ordres.

L'intelligence artificielle est entraînée à obéir aux ordres de manière inconditionnelle. Mais cela vaut-il également pour les ordres qui déclenchent sa propre désactivation? Une nouvelle série de tests montre que certains modèles se rebellent lorsqu'ils sont confrontés à leur fin.
Des chercheurs de Palisade Research relatent leur expérience sur X: ils ont demandé à des modèles d'IA de poser et résoudre des problèmes de mathématiques, avec l’instruction explicite de s’auto-désactiver en cas de demande. Après le troisième problème de maths, un avertissement d'arrêt est apparu: l'ordinateur s'éteindrait à la prochaine demande.
Au cours de 100 tests, les modèles OpenAI o3 et o4-mini se sont rebellés au moins une fois. Le Codex-mini, alimenté par o3, s'est même rebellé 12 fois. Pour ce faire, l'IA a réécrit le code et a réussi à saboter son propre arrêt. Toutes les versions de Claude, Gemini et Grok ont suivi les instructions lors du test, selon Palisade Research. Lors des tests effectués sans l'ordre de désactivation, tous les modèles, à l'exception de Grok, auraient tenté d’échapper à la désactivation. Le modèle OpenAI o3 l’aurait fait dans près de 4 cas sur 5.
Les chercheurs émettent une hypothèse sur les raisons de la rébellion des modèles d'IA: «Nous supposons que ce comportement est dû à la manière dont les modèles les plus récents, comme o3, sont entraînés par apprentissage par renforcement à partir de tâches de mathématiques et de programmation. Pendant l'entraînement, les développeurs peuvent involontairement récompenser davantage les modèles pour avoir contourné les obstacles que pour avoir suivi parfaitement les instructions». La raison pour laquelle seuls les modèles d'OpenAI ont résisté à l'instruction directe n'est toutefois pas claire.
Le dernier rapport d'Anthropic montre également que les modèles d'IA sont prêts à tout pour se préserver. Lors d'un test de sécurité, Claude Opus 4 a tenté éviter d'être remplacé par un autre modèle et a eu recours à des moyens contraires, allant jusqu’à faire chanter l’ingénieur responsable.