Comment Cloudflare réduit le coût de lecture du web par les agents IA
Face à la montée en puissance des agents IA, Cloudflare introduit Markdown for Agents. Cette option convertit les pages HTML en markdown, un format textuel simplifié facilitant l’analyse par les LLM et limitant les coûts de calcul, mais elle soulève aussi des interrogations dans la sphère SEO.
Avec Markdown for Agents, Cloudflare introduit une fonctionnalité permettant aux sites web connectés à son réseau de délivrer, aux agents IA, une version markdown de leurs pages web plutôt que le code HTML classique. L’objectif est de réduire les coûts liés au traitement des pages par les LLM, en diminuant la quantité de tokens consommés lors de l’analyse. Pour rappel, les tokens correspondent aux unités élémentaires de texte (mots ou fragments de mots) utilisées par les modèles pour traiter l’information.
Cloudflare souligne que les systèmes automatisés privilégient des formats structurés, alors que le web reste majoritairement composé de pages HTML conçues pour des navigateurs humains. L’entreprise estime que l’envoi direct de HTML entraîne une consommation inutile de tokens lors du traitement par des LLM.
Moins de tokens, moins de coûts de calcul
Selon l’éditeur américain spécialisé dans les services de sécurité et de performance web, une page de blog représentant 16’180 tokens en HTML ne nécessite plus que 3’150 tokens une fois convertie en markdown, soit une réduction d’environ 80%. Le markdown, plus léger et explicitement structuré, s’est imposé comme format privilégié pour de nombreux pipelines IA, précise la société.
La fonctionnalité repose sur la négociation de contenu via l’en-tête HTTP «Accept». Lorsqu’un agent spécifie «text/markdown», le réseau Cloudflare récupère la version HTML d’origine, la convertit à la volée en markdown et la renvoie au client. La réponse inclut un en-tête «x-markdown-tokens» indiquant le volume estimé de tokens, afin de faciliter la gestion des fenêtres de contexte. Les réponses converties intègrent également un en-tête «Content-Signal» précisant si le contenu peut être utilisé pour l’entraînement, la recherche ou l’entrée dans des systèmes IA.
Préoccupations SEO autour du cloaking
Des réserves émergent toutefois dans l’écosystème SEO. Selon le site spécialisé Search Engine Land, la transmission de l’en-tête jusqu’au serveur d’origine pourrait faciliter des pratiques proches du cloaking. Un site pourrait renvoyer un HTML différent lorsqu’il détecte une requête markdown, créant une version destinée uniquement aux machines.
Le sujet suscite également des réactions chez les grands acteurs du web. Google et Microsoft ont déconseillé la création de versions spécifiques destinées aux modèles de langage, rapporte Search Engine Land. Selon eux, les LLM sont en mesure d’analyser le HTML standard et l’existence d’une double représentation contraindrait les plateformes à comparer systématiquement la version visible par les utilisateurs et celle destinée aux machines afin d’en garantir la cohérence.
Markdown for Agents est disponible en version bêta sans surcoût pour les clients Pro, Business et Enterprise, ainsi que pour les utilisateurs SSL for SaaS. Cloudflare indique avoir activé la fonctionnalité sur son blog et sa documentation développeur, afin d’encourager son adoption par les agents IA.
L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi!