Deep learning

Traitement du langage: GPT-3 cède sa place à un modèle affiné par des humains

Puissant modèle de traitement du langage créé par OpenAI, GPT-3 a été affiné en faisant appel à un processus de supervision humaine. Objectifs: mieux répondre aux instructions et lutter contre la production de textes sensibles.

(Source: <a href="https://unsplash.com/@arlington_research">Arlington Research</a> via <a href="https://unsplash.com/">Unsplash</a>)

OpenAI a fait évoluer GPT-3, son puissant modèle de traitement de langage. Baptisée InstructGPT, la nouvelle version a été mise au point dans le but de mieux répondre aux instructions et d’éviter de générer du texte potentiellement offensant. Pour ce faire, les développeurs ont dû se résoudre à abandonner la technique de l’apprentissage automatique non supervisé et faire appel à des humains.

GPT-3 complète des débuts de phrase ou une instruction de plusieurs phrases en se fondant sur sa capacité à prévoir le mot suivant. Capacité inculquée en nourrissant le modèle d’un grand ensemble de données de textes glanés sur le web. GPT-3 n’a donc pas été entraîné spécifiquement pour effectuer la tâche linguistique souhaitée par l'utilisateur. D'où la génération de texte parfois incohérent, éloigné des instructions données, voire truffé de propos subjectifs à même de créer le malaise ou la polémique.

Apprentissage par renforcement

Pour contrer ce phénomène, les chercheurs d’OpenAI ont affiné le modèle en faisant appel à la technique d'apprentissage par renforcement, basée sur les préférences d’un groupe d’utilisateurs humains. Ces derniers se sont d’abord attachés à créer un ensemble de réponses à des instructions. Lors de la seconde phase d'apprentissage, différents textes générés par le modèle ont été évalués, en attribuant une note plus élevée à ceux qui correspondaient le mieux aux instructions. Ces scores ont été intégrés à un système de récompenses, afin d’entraîner InstructGPT à générer les réponses les plus susceptibles de plaire aux juges.

Les utilisateurs préfèrent le nouveau modèle

InstructGPT est désormais le modèle par défaut de l’API d’OpenAI. L’organisation a constaté que dans 70% des cas, les utilisateurs préfèrent les textes produits par cette nouvelle mouture. Mais les résultats sont encore loin d'être parfaits, de l’avis de ses concepteurs: «Malgré des progrès significatifs, nos modèles InstructGPT sont loin d'être totalement alignés [sur les préférences des utilisateurs] ou totalement sûrs; ils génèrent encore des résultats toxiques ou biaisés, inventent des faits et génèrent des contenus sexuels et violents sans incitation explicite.» Les chercheurs admettent en outre que faire en sorte de s'aligner sur la préférence moyenne d’un juge peut ne pas être souhaitable: «L'alignement des résultats des modèles sur les valeurs d'humains spécifiques introduit des choix difficiles ayant des implications sociétales, et nous devons finalement établir des processus responsables et inclusifs pour prendre ces décisions.»

Lire notre dossier >>

Tags
Webcode
DPF8_247195