KL3M et Common Corpus: vers une formation d'IA respectueuse du droit d'auteur

Articles

OpenAI a suscité des débats en affirmant l'impossibilité de former des IA sans violer le droit d'auteur. Le LLM juridique d’une firme US et un corpus de données impulsé par une jeune pousse française visent à prouver le contraire.

Common Corpus est un jeu de données de textes libres de droits créé pour former des LLM, puisant notamment dans des millions de livres. (Source: Prateek Katyal sur Unsplash)

En 2023, dans une réponse adressée à la Chambre des lords britannique, OpenAI a affirmé qu'il était impossible de former les principaux modèles d'IA sans utiliser de matériaux soumis au droit d'auteur. Dont par exemple les articles journalistiques publiés en ligne, suscitant des réactions contrastées du côté des médias.

L’affirmation d’OpenAI se verrait contredite par deux annonces récentes, rapporte notamment le média spécialisé Wired. Il y peu, l'organisation à but non lucratif Fairly Trained, lancée en janvier dernier, a communiqué avoir décerné sa certification à un LLM élaboré sans violation du droit d'auteur, un modèle nommé KL3M, développé par la firme de RegTech 273 Ventures. «L'initiative Fairly Trained a pour but de clarifier quelles sont les entreprises qui adoptent une approche de la formation [de modèles d’intelligence artificielle, ndlr] davantage fondée sur le consentement et qui traitent donc les créateurs de manière plus équitable», lit-on sur le site web de l’initiative.

Dans l'annonce de l’introduction de KL3M, 273 Ventures explique que son modèle spécialisé dans le juridique est issu de son Kelvin Legal DataPack, un ensemble de données propriétaire qui contient désormais plus de deux billions de tokens de textes juridiques, financiers et du domaine général. Selon la firme basée à Chicago, son LLM aurait mieux performer que les modèles Llama ou GPT-2 sur des questions juridiques telles que la rédaction de contrats et l'assurance qualité réglementaire. Wired souligne que bien que l'ensemble de données soit limité, la performance atteinte proviendrait du soin avec lequel les données d'entraînements ont été compilées. «Le fait de disposer de données propres et de grande qualité peut permettre d'alléger le modèle», a confié au média spécialisé Jillian Bommarito, cofondatrice de 273 Ventures.

Le Common Corpus, impulsé par la start-up française Pleias

Une autre initiative, plus proche de nos contrées, s’est aussi appliquée à concevoir un jeu de données d'entraînement pour LLM qui n'enfreint pas le droit d'auteur. La start-up français Pleias a publié le Common Corpus, disponible via HuggingFace. Sur le blog de cette plateforme, le chercheur Pierre-Carl Langlais, l’un des cofondateurs de Pleias, explique que le Common Corpus a été élaboré en collaboration avec des organisations engagées dans une approche de science ouverte pour l'IA (HuggingFace, Occiglot, Eleuther, Nomic AI). Il s’agit selon ses dires du plus grand ensemble de données du domaine public publié pour la formation des LLM, comprenant 500 milliards de mots. Soutenu par Lang:IA, start-up d'Etat soutenue par le Ministère de la Culture et la Direction du numérique, l'initiative vise explicitement à «montrer qu'il est possible d'entraîner de grands modèles de langage sur des corpus entièrement ouverts et reproductibles, sans utiliser de contenu protégé par le droit d'auteur».

Common Corpus contient 180 milliards de mots en anglais, mais aussi en français (110 milliards), en allemand (30 milliards), en espagnol, en néerlandais ou encore en italien. Il puise dans des publications archivées numériquement suffisamment anciennes (plus de 70 ans) pour être aujourd’hui libres de droits. Comme le suggère non sans humour l'article de Wired (paywall), ce type de données ne permettra pas de fonder un modèle d'IA sur l'actualité, en revanche, elles devraient permettre de créer un LLM capable d’écrire un pastiche de Proust digne de ce nom…

Webcode

9UpD8MPA

Partager l'article:

KL3M et Common Corpus: vers une formation d'IA respectueuse du droit d'auteur

Le Common Corpus, impulsé par la start-up française Pleias

PLUS DE NEWS

Alexander Greenwood rejoint la direction de One Step Beyond

Protonmail va scruter les identifiants dérobés sur le dark web

Comment a été développée Albert, l’IA générative de l’Etat français

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Interfaces IA

Résilience

Ecologie & numérique: mesurer

Numéro Actuel

Interagir et co-agir avec l’IA

KL3M et Common Corpus: vers une formation d'IA respectueuse du droit d'auteur

Le Common Corpus, impulsé par la start-up française Pleias

Les chatbots illégaux pullulent sur le GPT Store d'OpenAI

Les médias, ennemis et alliés d’OpenAI

OpenAI cherche des organisations prêtes à fournir leurs données pour entraîner ses IA

Au tour de Google de protéger contre les violations de copyright de son IA (update)

PLUS DE NEWS

Alexander Greenwood rejoint la direction de One Step Beyond

Protonmail va scruter les identifiants dérobés sur le dark web

Comment a été développée Albert, l’IA générative de l’Etat français

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Interfaces IA

Résilience

Ecologie & numérique: mesurer

Numéro Actuel

Interagir et co-agir avec l’IA