Comment un signal d'entraînement a propagé les «gobelins» dans GPT-5.5

News

OpenAI a retracé l’origine d’un comportement inattendu de GPT-5.5, qui multipliait les références aux gobelins et autres créatures dans des échanges techniques. L’entreprise a dû bannir explicitement ces mentions dans son outil de codage Codex. Selon OpenAI, l’épisode illustre les défis de contrôle comportemental des modèles d’IA avancés.

(Source: ICTjournal/ChatGPT Images 2.0)

L’apparition de «gobelins» dans certaines réponses de ChatGPT n’est pas passée inaperçue. Un comportement inhabituel de GPT-5.5 a conduit OpenAI à modifier les règles de son outil de codage Codex. Selon un billet de blog de l’entreprise, le modèle insérait de manière récurrente des références à des créatures fantastiques dans des échanges techniques.Le phénomène est apparu progressivement. Déjà observé avec GPT-5.1, il s’est amplifié avec GPT-5.5.

Selon OpenAI, ce comportement trouve son origine dans un signal de récompense utilisé lors de l’entraînement, en particulier pour la personnalité «Nerdy» (un profil parmi plusieurs modes de personnalisation du modèle). Ce profil, dont le prompt système encourage un usage ludique du langage et la prise en compte de «l’étrangeté» du monde, a conduit à valoriser des métaphores impliquant des créatures fantastiques. Les données internes montrent une forte concentration du phénomène: bien que ce profil ne représente qu’environ 2,5% des réponses générées, il est à l’origine de 66,7% des occurrences du terme «goblin» et le système de récompense associé favorisait ce type de formulation dans 76,2% des cas analysés.

Le phénomène ne s’est toutefois pas limité à cette personnalité. Par transfert d’apprentissage, ces références se sont progressivement diffusées à d’autres contextes, y compris en l’absence du profil «Nerdy». L’apprentissage par renforcement n’a donc pas permis de contenir strictement ces comportements.

Ce mécanisme s’explique notamment par une boucle d’entraînement: les réponses contenant ces termes étaient mieux notées, puis réutilisées dans les données d’entraînement avant d’être renforcées lors des étapes suivantes de fine-tuning. À mesure que ces exemples se multipliaient, le modèle devenait plus enclin à reproduire ce type de formulation, même en dehors de leur contexte d’origine

Une correction au niveau du prompt système

Pour mettre fin à cette invasion, OpenAI a ajouté une instruction explicite dans le prompt système de Codex: «Ne parle jamais de gobelins, gremlins, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures, sauf si cela est absolument et sans ambiguïté pertinent.» La consigne apparaît à plusieurs reprises dans la documentation.

Selon l’entreprise, cet épisode constitue un exemple des effets que peuvent produire les signaux de récompense lors de l’entraînement. Des comportements encouragés dans un contexte spécifique peuvent se généraliser à d’autres situations, notamment lorsqu’ils sont réutilisés dans les données de fine-tuning.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi!

Comment un signal d'entraînement a propagé les «gobelins» dans GPT-5.5

Une correction au niveau du prompt système

PLUS DE NEWS

Le National maintient l’identification obligatoire pour les domaines .ch et .swiss

Le Conseil des Etats refuse de faire de Twint un service public (update)

OVHcloud investit jusqu’à 200 millions d’euros dans ses propres LLM

Events

Dossiers

AI shopper

Essor de l’IA agentique

Robotique

Numéro Actuel

ICTjournal 3/2026

Comment un signal d'entraînement a propagé les «gobelins» dans GPT-5.5

Une correction au niveau du prompt système

En bref: OpenAI déploie GPT-5.5, DeepSeek publie sa V4, Google débloque 750 millions pour ses partenaires

OpenAI lance GPT-5.4 et une application Codex pour Windows

OpenAI désactive plusieurs versions de ChatGPT (update)

En bref: SAP investit un milliard dans l’IA, Apple verse 250 millions, OpenAI déploie GPT-5.5 Instant

PLUS DE NEWS

Le National maintient l’identification obligatoire pour les domaines .ch et .swiss

Le Conseil des Etats refuse de faire de Twint un service public (update)

OVHcloud investit jusqu’à 200 millions d’euros dans ses propres LLM

Events

Dossiers

AI shopper

Essor de l’IA agentique

Robotique

Numéro Actuel

ICTjournal 3/2026