Le web se ferme

L’IA générative face à une pénurie de données exploitables

Les entreprises développant des modèles d’IA générative peinent toujours plus à trouver des données fraîches et de qualité. Une étude récente montre une hausse des restrictions d’accès aux contenus web, freinant l’entraînement des grands modèles de langage.

(Source: Timon / AdobeStock.com / freepngimg.com )
(Source: Timon / AdobeStock.com / freepngimg.com )

On le sait: pour former leurs grands modèles de langage (LLM), les entreprises dominantes dans le domaine de l’intelligence artificielle générative ont accumulé, sans scrupule, d’immenses quantités de données. Mais aujourd’hui, les données non encore exploitées deviennent une ressource rare, et les fournisseurs d’IA sont en quête de contenus récents, rédigés par des humains. A l'image de contenus spécifiquement produits dans l’optique d'orienter les futures réponses des LLM en vue de favoriser une marque, par exemple. 

Il y a cependant un hic pour les fournisseurs de LLM: de nombreux sites web utilisés pour l’entraînement des modèles d’IA ont décidé de restreindre l’accès à leurs données. Une étude récente, publiée par la Data Provenance Initiative, un groupe de recherche dirigé par le MIT, s’est penchée sur 14’000 domaines web figurant dans trois ensembles de données couramment utilisés pour l'entraînement des IA: C4, RefinedWeb et Dolma.

Le blocage des extracteurs de contenus en hausse

Les résultats, publiés en juillet 2024, révèlent une prolifération de clauses spécifiques visant à limiter l’usage des contenus par les modèles d’IA, ainsi que de grandes disparités dans les restrictions imposées aux développeurs. Parmi ces trois jeux de données, 5% des données globales et 25% des données provenant de sources de haute qualité bloquent désormais l’accès aux extracteurs de contenus (crawlers) via le fichier robots.txt (une méthode connue sous l'appellation Robots Exclusion Protocol). De plus, près de 45% des données analysées sont soumises à des restrictions via les conditions d’utilisation des sites concernés. Si ces restrictions sont respectées par les développeurs de modèles, la disponibilité des sources de données de haute qualité pourrait rapidement s’amenuiser.

Selon les auteurs de l’étude, la montée en puissance de ces restrictions affectera la représentativité, la fraîcheur et les principes d’échelle des données d’entraînement. En effet, ces limitations ne réduiraient pas seulement la quantité de données disponibles, mais également leur diversité. A terme, les modèles risquent donc d’être biaisés en faveur de contenus plus anciens et moins représentatifs de l’évolution actuelle des connaissances et des usages.

Par ailleurs, le Robots Exclusion Protocol impose une lourde responsabilité aux propriétaires de sites web, qui doivent anticiper tous les agents susceptibles d’exploiter leurs données à des fins non désirées, font observer les chercheurs. Avant de souligner que le web a besoin de protocoles plus adaptés pour exprimer clairement les intentions et le consentement en matière d’utilisation des contenus par l’IA.

Vers de nouvelles solutions de contrôle et de monétisation

Certaines initiatives tentent déjà d’apporter une réponse à ces défis. L’entreprise spécialisée en connectivité Cloudflare a récemment lancé un ensemble d’outils permettant aux sites web de mieux contrôler la manière dont leurs contenus sont utilisés par les modèles d’IA à des fins d’entraînement. Ce kit propose notamment un moyen simple de bloquer les crawlers ainsi qu’un outil d’audit permettant de visualiser l’activité de ces extracteurs sur un site.

Cloudflare a également annoncé son intention d’ajouter une marketplace à son kit. Ce nouvel espace permettra aux propriétaires de sites web de définir un prix pour l’accès à tout ou partie de leurs contenus et de facturer directement les fournisseurs d’IA qui souhaitent les utiliser. Ce concept de marketplace n’est pas inédit: la start-up californienne Trainspot a déjà mis en place une plateforme similaire, illustrant une tendance croissante à la monétisation des données face aux besoins exponentiels des développeurs d’IA.  
 

Tags
Webcode
5nH3jPdA