Jeu de données structurées

Comment Wikipédia réagit aux bots qui aspirent ses contenus

Plutôt que de bloquer les bots IA qui siphonnent ses contenus, Wikipédia met en ligne un jeu de données structurées, qui s'adresse spécifiquement à ces «scrapers» qui contribuent à la formation des LLM.

(Source: Oberon Copeland @veryinformed.com sur Unsplash) 20250422
(Source: Oberon Copeland @veryinformed.com sur Unsplash) 20250422

Le développement de LLM s'appuie fortement sur le contenu disponible en ligne. Dans ce cadre, le processus d'extraction automatisée du contenu, connu sous le nom de «web scraping», combine l'exploration du web par des «crawlers» et l'extraction ciblée de données par des «scrapers». Cette technique pose plusieurs problèmes, notamment en faisant peser une charge supplémentaire et coûteuse sur les serveurs web. Parmi les sites les plus touchés, l'encyclopédie en ligne Wikipédia a décidé de réagir en proposant ses données dans un format que l'on pourrait qualifier de «bot-friendly».

La Wikimedia Foundation a ainsi annoncé un partenariat avec Kaggle, plateforme communautaire de science des données appartenant à Google, pour publier une version bêta d'un ensemble de données structurées provenant du contenu de Wikipédia en anglais et en français. Conçu pour s'intégrer facilement dans les flux de travail de machine learning, cet ensemble de données permet un accès simplifié à des articles nettoyés et pré-structurés, directement exploitables. 

Format JSON optimisé pour l’IA

«Au lieu de scraper ou d'analyser le texte brut des articles, les utilisateurs de Kaggle peuvent travailler directement avec des représentations JSON bien structurées du contenu de Wikipédia - ce qui est idéal pour l'entraînement de modèles, la création de fonctionnalités ou le test de pipelines de traitement du langage naturel», peut-on lire dans l’annonce de la Wikimedia Foundation.

Le jeu de données comprend notamment des résumés, des descriptions courtes, des données de type infobox, des liens vers des images et une segmentation claire des différentes sections des articles. Le tout est publié sous licence Creative Commons, avec, dans certains cas, des contenus relevant du domaine public ou d’autres licences alternatives.

Une infrastructure sous pression

Dans un rapport récemment publié, la Wikimedia Foundation indique que les requêtes pour accéder à ses contenus ont augmenté de 50% depuis le début de l’année 2024. L’organisation précise que ce pic ne résulte pas d’une augmentation de la fréquentation humaine, mais provient majoritairement de scripts automatisés collectant des images et du texte pour entraîner des modèles d’intelligence artificielle. 

«Notre contenu est gratuit, mais notre infrastructure ne l’est pas: nous devons agir maintenant pour rétablir un équilibre sain, afin de pouvoir consacrer nos ressources d'ingénierie au soutien des projets Wikimedia, de nos contributeurs et de l'accès humain à la connaissance, et d'en faire une priorité», souligne la fondation dans son rapport. 

Wikimedia contribue ainsi à un mouvement plus large de recherche de solutions face à ce phénomène. De nombreux éditeurs de contenu, projets open source et sites web de toutes tailles font le même constat et s’efforcent de mettre en place des réponses efficaces. Cloudflare, le populaire fournisseur de services dédiés à la performance et à la sécurité des sites web, s’attaque de son côté au problème des «crawlers» à l’aide d’une solution ingénieuse baptisée «AI Labyrinth». Plutôt que de bloquer frontalement ces bots, le système les redirige vers des pages leurres, contenant des informations factuelles mais sans aucun lien avec le site web d’origine.
 

Tags
Webcode
ETbMLzp9