GenAI & copyright

KL3M et Common Corpus: vers une formation d'IA respectueuse du droit d'auteur

OpenAI a suscité des débats en affirmant l'impossibilité de former des IA sans violer le droit d'auteur. Le LLM juridique d’une firme US et un corpus de données impulsé par une jeune pousse française visent à prouver le contraire.

Common Corpus est un jeu de données de textes libres de droits créé pour former des LLM, puisant notamment dans des millions de livres. (Source: Prateek Katyal sur Unsplash)
Common Corpus est un jeu de données de textes libres de droits créé pour former des LLM, puisant notamment dans des millions de livres. (Source: Prateek Katyal sur Unsplash)

En 2023, dans une réponse adressée à la Chambre des lords britannique, OpenAI a affirmé qu'il était impossible de former les principaux modèles d'IA sans utiliser de matériaux soumis au droit d'auteur. Dont par exemple les articles journalistiques publiés en ligne, suscitant des réactions contrastées du côté des médias

L’affirmation d’OpenAI se verrait contredite par deux annonces récentes, rapporte notamment le média spécialisé Wired. Il y peu, l'organisation à but non lucratif Fairly Trained, lancée en janvier dernier, a communiqué avoir décerné sa certification à un LLM élaboré sans violation du droit d'auteur, un modèle nommé KL3M, développé par la firme de RegTech 273 Ventures. «L'initiative Fairly Trained a pour but de clarifier quelles sont les entreprises qui adoptent une approche de la formation [de modèles d’intelligence artificielle, ndlr] davantage fondée sur le consentement et qui traitent donc les créateurs de manière plus équitable», lit-on sur le site web de l’initiative. 

Dans l'annonce de l’introduction de KL3M, 273 Ventures explique que son modèle spécialisé dans le juridique est issu de son Kelvin Legal DataPack, un ensemble de données propriétaire qui contient désormais plus de deux billions de tokens de textes juridiques, financiers et du domaine général. Selon la firme basée à Chicago, son LLM aurait mieux performer que les modèles Llama ou GPT-2  sur des questions juridiques telles que la rédaction de contrats et l'assurance qualité réglementaire. Wired souligne que bien que l'ensemble de données soit limité, la performance atteinte proviendrait du soin avec lequel les données d'entraînements ont été compilées. «Le fait de disposer de données propres et de grande qualité peut permettre d'alléger le modèle», a confié au média spécialisé Jillian Bommarito, cofondatrice de 273 Ventures.  

Le Common Corpus, impulsé par la start-up française Pleias

Une autre initiative, plus proche de nos contrées, s’est aussi appliquée à concevoir un jeu de données d'entraînement pour LLM qui n'enfreint pas le droit d'auteur. La start-up français Pleias a publié le Common Corpus, disponible via HuggingFace. Sur le blog de cette plateforme, le chercheur Pierre-Carl Langlais, l’un des cofondateurs de Pleias, explique que le Common Corpus a été élaboré en collaboration avec des organisations engagées dans une approche de science ouverte pour l'IA (HuggingFace, Occiglot, Eleuther, Nomic AI). Il s’agit selon ses dires du plus grand ensemble de données du domaine public publié pour la formation des LLM, comprenant 500 milliards de mots. Soutenu par Lang:IA, start-up d'Etat soutenue par le Ministère de la Culture et la Direction du numérique, l'initiative vise explicitement à «montrer qu'il est possible d'entraîner de grands modèles de langage sur des corpus entièrement ouverts et reproductibles, sans utiliser de contenu protégé par le droit d'auteur». 

Common Corpus contient 180 milliards de mots en anglais, mais aussi en français (110 milliards), en allemand (30 milliards), en espagnol, en néerlandais ou encore en italien. Il puise dans des publications archivées numériquement suffisamment anciennes (plus de 70 ans) pour être aujourd’hui libres de droits. Comme le suggère non sans humour l'article de Wired (paywall), ce type de données ne permettra pas de fonder un modèle d'IA sur l'actualité, en revanche, elles devraient permettre de créer un LLM capable d’écrire un pastiche de Proust digne de ce nom… 
 

Webcode
9UpD8MPA