Données d'entraînement

Stack Overflow et Reddit ne veulent pas alimenter gratuitement les IA génératives

La plateforme pour codeurs Stack Overflow et le site de discussion Reddit veulent empêcher que les contenus de leurs utilisateurs ne servent à entraîner les grands modèles de langage à la ChatGPT sans juste rétribution.

(Source: Patrice Audet sur Unsplash)
(Source: Patrice Audet sur Unsplash)

Après les plaintes de créateurs quant à l’utilisation de leurs productions pour alimenter les outils de génération d’images, l’inquiétude gagne le monde du développement et des médias. 

La très populaire plateforme pour codeurs Stack Overflow considère ainsi que l’exploitation des contenus de ses utilisateurs ne respecte pas la licence Creative Commons exigeant que toute personne utilisant ultérieurement les données mentionne leur origine. Pour Prashanth Chandrasekar, CEO de Stack Overflow, il en va également d’intérêts commerciaux, selon ses propos relayés par Wired: «Les plateformes communautaires qui alimentent les LLM devraient absolument être rémunérées pour leurs contributions afin que les entreprises comme nous puissent réinvestir dans nos communautés pour continuer à les faire prospérer».

>Sur le sujet: Plainte collective contre GitHub Copilot: la question brûlante du copyright dans les IA génératives

Pour les mêmes motifs, la plateforme Reddit a de son côté annoncé des restrictions quant à l’emploi de son API. Effectives à partir du 19 juin, les nouvelles conditions indiquent ainsi que: «Sauf autorisation expresse de la présente section, aucun autre droit ou licence n'est accordé ou implicite, y compris le droit d'utiliser le contenu utilisateur à d'autres fins, par exemple pour l'entraînement d'un modèle d'apprentissage automatique ou d'IA, sans l'autorisation expresse des détenteurs de droits sur le contenu utilisateur concerné». 

>Sur le sujet: Pourquoi et comment éviter que vos textes n’alimentent ChatGPT?

De quoi se nourrissent les grands modèles de langage?

Pour comprendre les contenus exploités par les grands modèles de langage, le Washington Post et Avec le Allen Institute for AI ont analysé le set de données C4 de Google provenant lui-même des données mise à disposition par CommonCrawl (exploité également par OpenAI). Réunissant des contenus de quelque 15 millions de sites, l’échantillon sert à entraîner des modèles de langage en anglais. Les sources les plus populaires (classées en fonction du nombre de tokens) sont patents.google.com, qui regroupe des brevets du monde entier, wikipedia.org, et scribd.com, une bibliothèque en ligne disponible sur abonnement. On y trouve également beaucoup de sites commerciaux, des médias et plus d’un demi-million de blogs personnels extraits notamment de la plateforme Medium.

Les contenus révèlent aussi des sources soulevant des problèmes de droit d’auteur (une place de marché pour des livres électroniques piratés, 90e du classement) ou de sphère privée (les bases de données des électeurs du Colorado et de Floride, 40e et 73e), mais aussi des sites incongrus, comme un forum de joueurs de Warcraft (181e) et une plateforme pour lutter contre le burnout (175e). Le Washington Post note que le symbole copyright figure plus de 200 millions de fois dans l’échantillon.
 

Tags
Webcode
g2SkKJrG