Les futurs modèles d’IA pourront peut-être expliquer leurs raisonnements
Même les développeurs d’IA peinent souvent à expliquer comment les LLM prennent leurs décisions. Mais ces systèmes pourraient bientôt être capables de le faire eux-mêmes. Le concepteur d’IA Anthropic affirme en effet observer les premiers signes de capacités introspectives.
Ce que produisent les grands modèles de langage (LLM) suscite parfois l’étonnement, parfois l’amusement. Nombreux sont ceux qui aimeraient comprendre comment ces systèmes élaborent leurs réponses. Pourtant, même pour les ingénieurs qui les conçoivent, leur fonctionnement interne reste largement une «boîte noire». Dans un billet de blog, Anthropic, à l’origine des modèles Claude, reconnaît que «ces processus internes restent largement mystérieux». Dans son article, Anthropic évoque une possible lueur d’espoir – ou du moins un mince signe d’amélioration. L’entreprise dit avoir observé «des indices d’introspection» chez les LLM.
Autrement dit, ces modèles seraient peut-être capables de «réfléchir» à leurs propres processus décisionnels et de les expliquer. De telles capacités introspectives auraient des conséquences majeures sur leur transparence et leur fiabilité, estime Anthropic: «Si les modèles peuvent décrire avec précision leurs mécanismes internes, cela pourrait nous aider à comprendre leur raisonnement et à corriger les problèmes comportementaux.» L’entreprise ajoute que cela pourrait aussi transformer notre compréhension de ce que sont réellement ces systèmes et de la manière dont ils fonctionnent.
Manipuler les pensées d’une IA
Dans son billet de blog, le développeur d’IA présente une étude interne sur la capacité éventuelle des modèles à faire preuve d’introspection. Pour l’examiner, Anthropic a mené une série d’expériences sur différentes versions de Claude. L’entreprise décrit par exemple la méthode dite d’«injection de concepts»: «Tout d'abord, nous identifions des patterns d'activité neuronale dont nous connaissons la signification, en enregistrant les activations du modèle dans des contextes spécifiques. Ensuite, nous injectons ces patterns d'activité dans le modèle dans un contexte sans rapport, où nous demandons au modèle s'il remarque cette injection et s'il peut identifier le concept injecté.»
Le test s’est révélé concluant — du moins partiellement: selon Anthropic, le modèle Claude Opus 4.1 a obtenu les meilleurs résultats, avec un taux de réussite d’environ 20%.
Dans une autre expérience, les chercheurs ont modifié une réponse générée par le modèle en y insérant le mot «pain», totalement hors contexte. Lorsqu’ils ont demandé à la machine pourquoi ce mot apparaissait, le modèle s’est excusé pour cette erreur.
Lors d’un second test, ils ont de nouveau inséré le mot «pain» (le nom anglais «bread» dans l’expérience), mais cette fois en manipulant directement les processus neuronaux du modèle via une injection de concept — de sorte que, pour lui, «il avait essentiellement pensé au pain tout du long». Lorsqu’ils lui ont demandé pourquoi le mot «pain» apparaissait dans sa réponse, le modèle a réagi différemment: il a «accepté le mot pain préinséré comme intentionnel» et a même inventé une justification, rapporte Anthropic.
Des capacités encore limitées et incertaines
Les auteurs de l’étude jugent le phénomène remarquable: le modèle semble recourir à sa propre activité neuronale pour vérifier «si ce qui a suivi avait un sens compte tenu de ces réflexions antérieures.» Anthropic précise toutefois avoir soumis le modèle à des perturbations inhabituelles lors du test avec le mot «pain». Le résultat suggère néanmoins que celui-ci mobilise des mécanismes introspectifs similaires dans des conditions plus naturelles.
Dans l’ensemble, les chercheurs estiment que les modèles d’IA pourraient posséder une certaine capacité à surveiller et à réguler leurs propres états internes. Dans leur article de blog, ils ajoutent cependant de nombreuses réserves: ces observations ne signifient pas que tous les modèles d’IA soient capables d’introspection en tout temps, ni de manière fiable. «En fait, la plupart du temps, les modèles ne parviennent pas à faire preuve d'introspection: soit ils ne sont pas conscients de leurs états internes, soit ils sont incapables d'en rendre compte de manière cohérente», note Anthropic. L’entreprise souligne également que la capacité introspective observée demeure «très peu fiable et limitée dans sa portée». Aucune preuve n’indique que les modèles actuels puissent être introspectifs d’une manière comparable à celle des humains.
Cependant, les résultats indiquent que, dans des conditions adéquates, les modèles seraient capables d’identifier le contenu de leurs propres représentations. Les auteurs relèvent également «des signes indiquant que cette capacité pourrait s’accroître dans les futurs modèles plus puissants», ces derniers ayant d’ailleurs obtenu les meilleurs résultats lors des tests.