Quand l'IA déraille

Comment un signal d'entraînement a propagé les «gobelins» dans GPT-5.5

OpenAI a retracé l’origine d’un comportement inattendu de GPT-5.5, qui multipliait les références aux gobelins et autres créatures dans des échanges techniques. L’entreprise a dû bannir explicitement ces mentions dans son outil de codage Codex. Selon OpenAI, l’épisode illustre les défis de contrôle comportemental des modèles d’IA avancés.

(Source: ICTjournal/ChatGPT Images 2.0)
(Source: ICTjournal/ChatGPT Images 2.0)

L’apparition de «gobelins» dans certaines réponses de ChatGPT n’est pas passée inaperçue. Un comportement inhabituel de GPT-5.5 a conduit OpenAI à modifier les règles de son outil de codage Codex. Selon un billet de blog de l’entreprise, le modèle insérait de manière récurrente des références à des créatures fantastiques dans des échanges techniques.Le phénomène est apparu progressivement. Déjà observé avec GPT-5.1, il s’est amplifié avec GPT-5.5.

Selon OpenAI, ce comportement trouve son origine dans un signal de récompense utilisé lors de l’entraînement, en particulier pour la personnalité «Nerdy» (un profil parmi plusieurs modes de personnalisation du modèle). Ce profil, dont le prompt système encourage un usage ludique du langage et la prise en compte de «l’étrangeté» du monde, a conduit à valoriser des métaphores impliquant des créatures fantastiques. Les données internes montrent une forte concentration du phénomène: bien que ce profil ne représente qu’environ 2,5% des réponses générées, il est à l’origine de 66,7% des occurrences du terme «goblin» et le système de récompense associé favorisait ce type de formulation dans 76,2% des cas analysés.

Le phénomène ne s’est toutefois pas limité à cette personnalité. Par transfert d’apprentissage, ces références se sont progressivement diffusées à d’autres contextes, y compris en l’absence du profil «Nerdy». L’apprentissage par renforcement n’a donc pas permis de contenir strictement ces comportements.

Ce mécanisme s’explique notamment par une boucle d’entraînement: les réponses contenant ces termes étaient mieux notées, puis réutilisées dans les données d’entraînement avant d’être renforcées lors des étapes suivantes de fine-tuning. À mesure que ces exemples se multipliaient, le modèle devenait plus enclin à reproduire ce type de formulation, même en dehors de leur contexte d’origine

Une correction au niveau du prompt système

Pour mettre fin à cette invasion, OpenAI a ajouté une instruction explicite dans le prompt système de Codex: «Ne parle jamais de gobelins, gremlins, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures, sauf si cela est absolument et sans ambiguïté pertinent.» La consigne apparaît à plusieurs reprises dans la documentation.

Selon l’entreprise, cet épisode constitue un exemple des effets que peuvent produire les signaux de récompense lors de l’entraînement. Des comportements encouragés dans un contexte spécifique peuvent se généraliser à d’autres situations, notamment lorsqu’ils sont réutilisés dans les données de fine-tuning.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi! 

Webcode
GDTKpnVv