Reinforcement Learning from Human Feedback

ChatGPT: le modèle qui plaît à tout le monde a été conçu pour plaire à tout le monde

Avec ses réponses bluffantes aux questions des internautes, le nouveau modèle conversationnel d’OpenAI fait le buzz. Pas étonnant sachant que le modèle est optimisé pour sélectionner les réponses qui plairont le plus aux humains.

(Source: Shubham Dhage sur Unsplash)
(Source: Shubham Dhage sur Unsplash)

Depuis quelques jours, ChatGPT fait l’actualité. Ce nouveau modèle de génération de textes d’OpenAI produit des contenus bluffant sur quantités de sujets. ICTjournal s'y est aussi essayé et voici comment ChatGPT répond à la question «Quels sont les meilleurs moyens pour les entreprises de se protéger contre les cyberattaques actuelles?»:

Il existe plusieurs mesures que les entreprises peuvent prendre pour se protéger contre les cyberattaques actuelles. Voici quelques exemples:
1. Utiliser des logiciels de sécurité pour protéger les ordinateurs et les réseaux contre les virus, les logiciels espions et autres types de logiciels malveillants.
2. Mettre en place des politiques de sécurité strictes, comme des mots de passe forts et des protocoles d’accès limité aux données sensibles.
3. Former les employés à la sécurité des données et à la réponse aux cyberattaques, pour qu’ils sachent comment agir en cas d’attaque.
4. S’assurer que les appareils connectés à Internet, comme les téléphones mobiles et les ordinateurs portables, sont protégés par des logiciels de sécurité à jour.
5. Utiliser des technologies de chiffrement pour protéger les données sensibles lorsqu’elles sont transmises ou stockées sur des appareils ou des réseaux.
Il est important de noter que la protection contre les cyberattaques est un domaine en constante évolution, et que les entreprises doivent rester vigilantes et à jour en matière de sécurité pour protéger efficacement leurs systèmes et leurs données.

C’est très convaincant, sans compter que ChatGPT peut non seulement répondre à des questions, mais aussi admettre ses erreurs ou encore challenger la question posée. Lorsqu'on lui a demandé les tendances de cybersécurité pour 2023, il s’y est ainsi refusé, arguant qu’il ne saurait prédire l’avenir… Si ChaptGPT a toutes ces capacités, cela s’explique par la manière dont ce modèle conversationnel a été conçu. 

Eviter les contenus à «côté de la plaque»

ChatGPT s’appuie sur une nouvelle technique (InstructGPT) dévoilée l’été dernier par OpenAI et désormais employée dans tous ses modèles. Cette technique vise à pallier l’un des principaux problèmes rencontrés par les modèles de langage à la GPT-3: ils produisent des textes linguistiquement corrects, aux contenus en général vraisemblables mais parfois aussi totalement farfelus. Ce n’est pas un souci lorsqu’il s’agit d’imaginer une histoire, mais ça l’est quand on souhaite une réponse à une question. 

Cette incapacité des modèles de langage tient au fait que, bien qu’entraînés sur des millions de textes, ils n’ont aucune expérience du monde pour décider si quelque chose est vrai ou faux. (Petite remarque: certains data scientists estiment que le monde est en quelque sorte tout entier contenu dans le langage et que produire des énoncés formellement corrects revient à connaître le monde, voire que nous-mêmes ne savons pas que la terre est ronde, mais que nous avons appris à compléter la phrase «la terre est…» par le bon adjectif). Parenthèse fermée, les chercheurs d’OpenAI ont donc développé une technique pour améliorer les contenus produits et éviter les réponses «à côté de la plaque».

Des réponses optimisées pour satisfaire les humains

Les nouveaux modèles d’OpenAI recourent à la technique d’apprentissage renforcé par le feedback humain (Reinforcement Learning from Human Feedback ou RLHF). L’idée consiste à proposer plusieurs réponses générées automatiquement à des humains, qui vont les hiérarchiser de la meilleure à la moins bonne. Cet étiquetage permet ensuite d’entraîner un algorithme à prédire les réponses qui seront les plus convaincantes pour un humain. La dernière étape est d’intégrer cette optimisation au modèle de génération de contenus (Proximal Policy Optimization), qui sélectionnera ainsi automatiquement parmi les réponses possibles, celles de nature à satisfaire davantage la personne qui a posé la question.

La méthode employée pour ChatGPT.

Pour résumer, ChatGPT n’a pas plus d’idée du monde que ces prédécesseurs, il a simplement appris à choisir les réponses que les humains souhaitent entendre. Mais pas forcément celles qui sont vraies, reconnaissent les chercheurs. ChatGPT peut ainsi toujours produire des énoncés «à côté de la plaque» pour autant que nous soyons prêts à les gober. Je dis «nous», mais je devrais plutôt dire les humains ayant donné les feedbacks pour son entraînement. Les concepteurs de ChatGPT soulignent d’ailleurs ce rôle prépondérant joué par les personnes l’ayant formé: «Le modèle est souvent excessivement verbeux et abuse de certaines phrases, par exemple en répétant qu'il s'agit d'un modèle de langue formé par OpenAI. Ces problèmes sont dus à des biais dans les données d'entraînement (les formateurs préfèrent les réponses plus longues qui semblent plus complètes) et à des problèmes bien connus de sur-optimisation».

 

Tags
Webcode
MRgzLKxB