Génération de texte

L’agence digitale romande Coteries lance une alternative francophone à GPT-3

L’agence digitale romande Coteries lance Cedille, un modèle open source de génération de texte spécialisé en français, qui serait plus puissant que les autres systèmes de ce type disponibles publiquement. En bêta, le modèle peut déjà être testé librement.

Martin Müller (à gauche) et Florian Laurent, tous deux Senior Machine Learning Engineers chez Coteries. (Source: Coteries)
Martin Müller (à gauche) et Florian Laurent, tous deux Senior Machine Learning Engineers chez Coteries. (Source: Coteries)

Basée à l’EPFL Innovation Park, Coteries lance un modèle de génération de texte spécialisé en français. Selon l’agence digitale, sa technologie, baptisée «Cedille», rivalise avec le puissant modèle multilingues GPT-3, développé par OpenAI. Cedille dépasserait en outre largement les capacités de GPT-fr, le meilleur système de génération de texte en français disponible publiquement. Des affirmations qui reposent sur des benchmarks prenant en compte le score de perplexité, qui mesure la capacité à prédire le prochain mot (plus le score est bas, plus le modèle est performant). Selon l'agence digitale romande, son intelligence artificielle obtient un score de 4,5 contre 12,9 pour GPT-fr.

Basé sur des algorithmes open source

Coteries affirme que son modèle, disponible publiquement en version bêta à l'adresse cedille.ai, se base sur 6 milliards de paramètres. La technologie puise dans les algorithmes mis au point par la communauté open source EleutherAI, qui réunit des chercheurs en IA contribuant au développement d’alternatives à GPT-3. «Avec Cedille nous redistribuons les cartes pour le français comparé aux modèles de langue anglophones - et avec encore d’autres modèles de langues à venir! Nous avons pu réaliser cet exploit grâce aux efforts de la communauté open source EleutherAI. En publiant notre modèle publiquement, nous sommes ravis de contribuer en retour à la communauté», précise Martin Müller, Senior Machine Learning Engineer chez Coteries.

Contrôle des contenus toxiques

L’agence digitale romande a par ailleurs pris soin de limiter les biais algorithmiques de son modèle, en filtrant les données utilisées pour son entraînement. Un processus qui, outre faire appel à des technologies de Natural Language Processing, a nécessité un examen manuel minutieux. Résultat: la génération de contenus toxiques est 14,7% moins fréquente qu'avec GPT-fr, dixit Coteries.

Cedille peut servir à générer du texte à partir d’un début de phrase, mais aussi à résumer et reformuler des textes, ou à formuler automatiquement des questions-réponses. Coteries propose son modèle et les compétences de son équipe pour créer des applications personnalisées.

La version bêta fonctionne, avec des limites

La version bêta publique de Cedille ne permet pas de générer des textes de plus de 100 caractères. La rédaction l’a rapidement testée et constaté que les résultats sont mitigés. En saisissant le début de cet article, «Basée à l’EPFL Innovation Park, Coteries lance un modèle de génération de texte...», le modèle poursuit ainsi: «...littéraires basés sur le «chat». Le principe est d’intégrer des modules permettant de générer des contenus littéraires (nouvel article, partie d’article), ainsi que des options de rédaction et d’édition. Tous les contenus sont pré-écrits et entièrement configurables». La syntaxe est toutefois correcte, le sens également… si l’on fait fi des objectifs de communication.

Autre essai: le début de phrase «Des affirmations qui reposent sur des benchmarks prenant en compte le score de perplexité…», est complété ainsi: « ...de Google, le temps passé par les internautes sur chaque page, ou encore le taux de clic sur une publicité». A noter qu’il est possible de générer plusieurs fois du texte, donnant des résultats différents et plus ou moins convaincants.

Tags
Webcode
DPF8_237526