Entraînement des LLM

Ces crawlers pillent les sites web pour former les chatbots IA

Une analyse de Cloudflare montre que les bots au services des chatbots IA collectent massivement des données en ligne, parfois en contournant les restrictions. L'entreprise lance un outil pour aider les sites web à se protéger.

(Source: Kyle Glenn sur Unsplash)
(Source: Kyle Glenn sur Unsplash)

Les LLM au cœur de ChatGPT et autres outils d’IA générative sont développés à partir de textes publiés en ligne, collectés par des bots dénommés «crawlers». Une pratique qui, on le sait, horripile beaucoup de médias et d’éditeurs web. Pour se faire une idée de l'ampleur du phénomène et identifier les crawlers les plus actifs, Cloudflare a analysé le réseau de ses populaires services dédiés à la performance et à la sécurité des sites web.

L’hyperactivité du bot de l’éditeur de TikTok

Entre juillet 2023 et juin 2024, les principaux bots au service de LLM identifiés sur le réseau de Cloudflare sont Bytespider, Amazonbot, ClaudeBot et GPTBot. Bytespider, exploité par ByteDance, la société derrière TikTok, est en tête des requêtes, collectant des données pour ses modèles linguistiques, dont Doubao, concurrent de ChatGPT. Amazonbot, utilisé pour indexer les réponses d'Alexa, suit en termes de volume de requêtes, tandis que ClaudeBot, conçu pour entraîner le robot de conversation Claude, a récemment augmenté ses activités.

Rappelons que des indications fournies par les webmasters au sein d’un fichier robots.txt placé à la racine d’un site peuvent bloquer l'activité de ces crawlers. Si Bytespider se distingue par l'étendue et la fréquence de ses explorations, il est également le bot le plus fréquemment bloqué, indique Cloudflare. GPTBot, géré par OpenAI, se classe sur cette dimension en deuxième position. 

Les instructions du fichier robots.txt sont parfois ignorées

Il y a toutefois un hic: les instructions du fichier robots.txt ne seraient pas respectées par toutes les entreprises d’IA. «Nous avons observé des opérateurs de robots qui tentent de se faire passer pour un véritable utilisateur en utilisant un agent utilisateur falsifié», écrit Cloudflare. Certaines compagnies commencent à être explicitement pointées du doigt. Des analyses du site Wired et du développeur Robb Knight suggèrent par exemple que Perplexity, moteur de recherche dopé à la GenAI, contourne partiellement les blocages. Wired précise avoir observé un bot lié à Perplexity agissant ainsi sur son site. Le média spécialisé The Register rapporte que le CEO de Perplexity a nié que son entreprise ignorait le fichier robots.txt, avant d’admettre que des bots tiers employés par son service pourraient être en cause.

Un outil gratuit pour bloquer les bots invasifs

Dans ce contexte, Cloudflare a lancé un nouvel outil gratuit pour empêcher les bots de scraper les sites web ayant recours à ses services. Cloudflare affirme que son modèle de machine learning a toujours su reconnaître les bots simulant une activité humaine. «Lorsque des acteurs malveillants tentent d'explorer des sites Web à grande échelle, ils utilisent généralement des outils et des frameworks que nous sommes en mesure d'identifier. Pour chaque empreinte que nous voyons, nous utilisons le réseau de Cloudflare, qui voit passer plus de 57 millions de requêtes par seconde en moyenne, pour comprendre dans quelle mesure nous devons nous fier à cette empreinte. Pour alimenter nos modèles, nous calculons des agrégats globaux pour de nombreux signaux. Sur la base de ces signaux, nos modèles ont été en mesure de signaler de manière appropriée le trafic provenant de robots d'IA invasifs», détaille Cloudflare
 

Tags
Webcode
tj6GcKBT