Deep learning

Google DeepMind concurrence GPT-3 avec un modèle de langage à 280 milliards de paramètres

Filiale de Google spécialisée dans l’intelligence artificielle, DeepMind a mis au point deux nouveaux modèles de traitement du langage naturel. Le premier, Gopher, a été formé avec 280 milliards de paramètres et serait potentiellement plus performant que GPT-3. Le second, Retro, s’appuie sur moins de paramètres pour consommer moins d’énergie.

(Source: <a href="https://unsplash.com/@santesson89">Andrea De Santis</a> via <a href="https://unsplash.com">Unsplash</a>)

DeepMind, la filiale de Google dédiée à l’IA, a dévoilé deux nouveaux modèles de traitement du langage naturel. «Nous pensons que le développement et l'étude de modèles de langage plus puissants - des systèmes qui prédisent et génèrent du texte - ont un potentiel énorme pour construire des systèmes d'IA avancés qui peuvent être utilisés de manière sûre et efficace pour résumer des informations, fournir des conseils d'experts et suivre des instructions en langage naturel», expliquent des chercheurs de DeepMind dans un billet de blog résumant leurs récents travaux.

Gopher et ses 280 milliards de paramètres

Le premier modèle dévoilé, baptisé Gopher, a permis aux chercheurs de prouver que plus un modèle de langage possède de paramètres, plus il est performant. Du moins dans la plupart des tâches auxquelles leurs algorithmes sont dévolus.

Précisons que Gopher s'appuie sur un transformeur, un modèle de deep learning utilisé par les générateurs de texte les plus performant, à l’instar de GPT-3 d’OpenAI. Ce type de modèle donne la part belle au concept d’attention: le système d'apprentissage exploite les informations de manière différenciée, en prêtant de l’attention aux données sans prendre en compte l'ordre séquentiel. Tandis qu’avec les modèles de génération précédente (réseaux de neurones récurrents), les mots doivent être traités dans l’ordre. Le transformeur peut ainsi être entraîné plus rapidement.

Gopher compte pas moins de 280 milliards de paramètres (contre 175 milliards pour GPT-3). Ses capacités dépassent celles des modèles linguistiques existants pour un certain nombre de tâches clés, selon les chercheurs de DeepMind. Il s'agit notamment de la lecture, de la vérification des faits et de l'identification du langage toxique. En revanche, pour des tâches de raisonnement logique, la différence n'est pas significative.

Retro: un modèle moins énergivore

Entraîner des modèles avec un nombre de paramètres aussi élevés n’a toutefois pas que des avantages. Leur taille favorise entre autres la reproduction de biais discriminatoire. En outre, plus il y a de paramètres, plus la formation des modèles consomment de l’énergie. DeepMind a pensé à des pistes pour rendre ces modèles de traitement moins énergivores et permettre de détecter des biais plus facilement. Un autre modèle, baptisé Retro ,se nourrit ainsi de bien moins de paramètres, à savoir 7 milliards. Mais Retro est aussi connecté à une base de données de 2000 milliards de mots, qui font en quelque sorte office de mémoire. Le système s'appuie sur cette base de données pour améliorer ses prédictions, soulignent les chercheurs dans leur article.

Tags
Webcode
DPF8_241386