Contrôle des bots IA

Cloudflare dénonce le crawling furtif du moteur IA Perplexity

Cloudflare accuse le moteur IA Perplexity d’utiliser des techniques furtives pour contourner les règles imposées par les sites web et accéder à des contenus protégés. Face à ces pratiques, l’entreprise renforce ses outils pour mieux contrôler et monétiser l’accès des crawlers IA aux données en ligne.

(Source: Pixabay)
(Source: Pixabay)

Cloudflare révèle que Perplexity, le moteur de recherche basé sur la GenAI, contourne les directives classiques des sites web en matière de crawling grâce à des robots furtifs non déclarés. Malgré les blocages des bots officiels, Perplexity utiliserait des techniques d’obfuscation, comme des agents déguisés en navigateurs classiques et la rotation d’adresses IP non affiliées, pour ignorer les directives des fichiers robots.txt et les règles de pare-feu. Face à ce constat, Cloudflare renforce ses outils pour détecter, bloquer et monétiser l’accès des crawlers IA.

Tests approfondis et méthodes de contournement détectées

Cloudflare a reçu plusieurs plaintes de clients ayant explicitement interdit à Perplexity de crawler leurs sites via les fichiers robots.txt et les règles de pare-feu (WAF) bloquant les bots officiels PerplexityBot et Perplexity-User. Malgré ces mesures, Perplexity parvenait encore à accéder aux contenus. Pour comprendre ce comportement, Cloudflare a créé plusieurs domaines tests récemment acquis, non indexés et protégés par des directives strictes interdisant tout accès automatique. Selon Cloudflare, en posant des questions via l’interface de Perplexity sur ces domaines,  le moteur IA fournissait des réponses détaillées sur leur contenu, ce qui indique un contournement des protections mises en place. 

La firme a également observé que Perplexity utilise non seulement ses user-agents déclarés, mais aussi des user-agents furtifs, imitant notamment un navigateur Google Chrome sur macOS, pour masquer son activité de crawling. En complément, le moteur alterne entre plusieurs adresses IP non répertoriées dans sa plage officielle, ainsi que différents numéros d’ASN (Autonomous System Number), afin d’échapper aux blocages automatisés. Ce comportement de rotation IP et d’usurpation d’identité réseau a été détecté sur des dizaines de milliers de domaines, totalisant des millions de requêtes quotidiennes. 

Lorsque le crawler furtif est bloqué, Perplexity tente alors de reconstruire ses réponses à partir d’autres sources, ce qui se traduit par des informations moins précises et moins spécifiques au contenu original, témoignant de l’efficacité partielle des mesures de blocage.

À l’inverse, Cloudflare souligne que d’autres acteurs majeurs, comme OpenAI, respectent strictement les fichiers robots.txt et arrêtent leurs crawlers lorsqu’ils sont bloqués, démontrant un comportement responsable conforme aux standards du web.

Mesures de Cloudflare pour lutter contre le crawling 

Face à ces comportements, Cloudflare affirme avoir intégré des règles spécifiques dans son système de gestion des bots pour détecter et bloquer ce crawling furtif. En utilisant des techniques avancées d’apprentissage automatique et d’analyse des signaux réseau, l’entreprise a pu identifier et neutraliser ces crawlers. Ces protections sont disponibles pour tous ses clients, y compris ceux bénéficiant de l’offre gratuite.

Le mois dernier déjà, Cloudflare avait renforcé ses mesures pour contrôler l’accès des crawlers IA aux contenus en ligne en lançant un modèle «Pay per Crawl», qui permet aux éditeurs d’autoriser, de bloquer ou de monétiser cet accès.

Réaction de Perplexity

Face aux accusations de Cloudflare, Perplexity a publié un communiqué réfutant les allégations de crawling furtif. La société explique que les millions de requêtes identifiées par Cloudflare ne proviennent pas de ses propres crawlers, mais d’un service tiers appelé BrowserBase, utilisé occasionnellement pour des tâches spécifiques. 

Perplexity conteste la méthodologie de Cloudflare, estimant que les données n’ont pas été correctement attribuées et que les informations fournies sont insuffisantes pour une vérification indépendante. Selon l’entreprise, cette confusion pourrait entraver l’accès légitime à l’information sur le web.

La firme souligne la nécessité de distinguer clairement les agents utilisateurs — qui répondent aux requêtes spécifiques sans stocker ni entraîner de modèles avec les données collectées — des bots traditionnels qui collectent massivement des données. Elle insiste sur l’importance d’une différenciation dans les politiques de gestion des bots, afin d’éviter que les agents utilisateurs légitimes ne soient pénalisés.
 

Tags
Webcode
aw6HNpGC