Google DeepMind concurrence GPT-3 avec un modèle de langage à 280 milliards de paramètres

News

Filiale de Google spécialisée dans l’intelligence artificielle, DeepMind a mis au point deux nouveaux modèles de traitement du langage naturel. Le premier, Gopher, a été formé avec 280 milliards de paramètres et serait potentiellement plus performant que GPT-3. Le second, Retro, s’appuie sur moins de paramètres pour consommer moins d’énergie.

(Source: <a href="https://unsplash.com/@santesson89">Andrea De Santis</a> via <a href="https://unsplash.com">Unsplash</a>)

(Source: Andrea De Santis via Unsplash)

DeepMind, la filiale de Google dédiée à l’IA, a dévoilé deux nouveaux modèles de traitement du langage naturel. «Nous pensons que le développement et l'étude de modèles de langage plus puissants - des systèmes qui prédisent et génèrent du texte - ont un potentiel énorme pour construire des systèmes d'IA avancés qui peuvent être utilisés de manière sûre et efficace pour résumer des informations, fournir des conseils d'experts et suivre des instructions en langage naturel», expliquent des chercheurs de DeepMind dans un billet de blog résumant leurs récents travaux.

Gopher et ses 280 milliards de paramètres

Le premier modèle dévoilé, baptisé Gopher, a permis aux chercheurs de prouver que plus un modèle de langage possède de paramètres, plus il est performant. Du moins dans la plupart des tâches auxquelles leurs algorithmes sont dévolus.

Précisons que Gopher s'appuie sur un transformeur, un modèle de deep learning utilisé par les générateurs de texte les plus performant, à l’instar de GPT-3 d’OpenAI. Ce type de modèle donne la part belle au concept d’attention: le système d'apprentissage exploite les informations de manière différenciée, en prêtant de l’attention aux données sans prendre en compte l'ordre séquentiel. Tandis qu’avec les modèles de génération précédente (réseaux de neurones récurrents), les mots doivent être traités dans l’ordre. Le transformeur peut ainsi être entraîné plus rapidement.

Gopher compte pas moins de 280 milliards de paramètres (contre 175 milliards pour GPT-3). Ses capacités dépassent celles des modèles linguistiques existants pour un certain nombre de tâches clés, selon les chercheurs de DeepMind. Il s'agit notamment de la lecture, de la vérification des faits et de l'identification du langage toxique. En revanche, pour des tâches de raisonnement logique, la différence n'est pas significative.

Retro: un modèle moins énergivore

Entraîner des modèles avec un nombre de paramètres aussi élevés n’a toutefois pas que des avantages. Leur taille favorise entre autres la reproduction de biais discriminatoire. En outre, plus il y a de paramètres, plus la formation des modèles consomment de l’énergie. DeepMind a pensé à des pistes pour rendre ces modèles de traitement moins énergivores et permettre de détecter des biais plus facilement. Un autre modèle, baptisé Retro ,se nourrit ainsi de bien moins de paramètres, à savoir 7 milliards. Mais Retro est aussi connecté à une base de données de 2000 milliards de mots, qui font en quelque sorte office de mémoire. Le système s'appuie sur cette base de données pour améliorer ses prédictions, soulignent les chercheurs dans leur article.

Google DeepMind concurrence GPT-3 avec un modèle de langage à 280 milliards de paramètres

Gopher et ses 280 milliards de paramètres

Retro: un modèle moins énergivore

PLUS DE NEWS

Célébrez vos succès en cybersécurité avec les Swiss CISO Awards le 26 novembre 2024 à Zurich

Swisscom, Sunrise et Anapaya lancent une solution de sécurité commune basée sur SCION

Problème informatique à l'Université de Genève: l'examen d'avocature reporté

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Médecine & IA

Interfaces IA

Résilience

Numéro Actuel

Radiologues-in-the-Loop

Google DeepMind concurrence GPT-3 avec un modèle de langage à 280 milliards de paramètres

Gopher et ses 280 milliards de paramètres

Retro: un modèle moins énergivore

L’agence digitale romande Coteries lance une alternative francophone à GPT-3

GPT-3 et métavers d’entreprise au menu des nouveautés de Microsoft

La Chine dévoile «Lumières 2.0», sa super intelligence artificielle qui détrône GPT-3

Microsoft présente de nouvelles puces IA et met Copilot partout

PLUS DE NEWS

Célébrez vos succès en cybersécurité avec les Swiss CISO Awards le 26 novembre 2024 à Zurich

Swisscom, Sunrise et Anapaya lancent une solution de sécurité commune basée sur SCION

Problème informatique à l'Université de Genève: l'examen d'avocature reporté

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Médecine & IA

Interfaces IA

Résilience

Numéro Actuel

Radiologues-in-the-Loop