Block the Machine

Pourquoi et comment éviter que vos textes n’alimentent ChatGPT?

De manière à éviter que vos contenus ne servent à entraîner un agent conversationnel ou ne soient tout simplement reproduits, il est possible d’empêcher qu’à l’avenir ChatGPT et ses plugins n’exploitent les pages de votre site web en modifiant le fichier robots.txt.

(Source: Kyle Glenn sur Unsplash)
(Source: Kyle Glenn sur Unsplash)

Il y a quelques jours, OpenAI a dévoilé les premiers plugins pour ChatGPT. Ces composants permettent de doter l’agent conversationnel de capacités supplémentaires via l’accès à des applications tierces. L’outil de chat peut ainsi par exemple surfer sur internet pour trouver des informations plus récentes ou exploiter Wolfram pour n’obtenir que des informations validées. 

Vu que les développeurs pourront créer de tels plugins, il y a fort à parier que ces composants vont proliférer. On pourrait notamment imaginer des plugins ciblant certaines sources pour fournir des informations de qualité sur des domaines spécifiques. Comme un plugin pour un chatbot de support sur les solutions VMware allant chercher l’information sur les forums techniques, ou un plugin pour conseiller les films à voir qui s’alimenterait des horaires de cinéma et des critiques parues dans les médias.

Pourquoi bloquer l’accès à vos contenus?

Laisser ChatGPT et ses plugins utiliser vos contenus présente deux risques importants. Premièrement cela permet à un agent conversationnel d'exploiter les contenus que vous créez sans rétribution. Contrairement aux moteurs de recherche, qui peuvent amener des visiteurs sur le site, les chatbots exploitent les contenus pour répondre directement, sans renvoi aux sources - en tout cas pour l’instant. La chose n’est pas différente avec le nouveau Bing, dont on ne sait pas si toutes les sources de la réponse correspondent aux liens mentionnés.

Deuxième risque, la confidentialité et la propriété intellectuelle. Si l’on sait que les modèles de langage géant peuvent halluciner et générer des fausses informations, ils sont aussi susceptibles de reproduire tels quels des contenus sur lesquels ils ont été entraînés, de les mémoriser en quelque sorte. Dans un article paru récemment, des chercheurs de l’EPFL ont notamment montré que les modèles de diffusion générant des images (Dall-e 2, Stable Diffusion) répliquent parfois des contenus d’entraînement de façon quasi identique. Les chercheurs mentionnent en particulier des photos de personne et des logos, dont un tiers est pourtant protégé par un copyright. Ils avertissent que le même phénomène pourrait se produire avec des données médicales sensibles ayant servi à l’entraînement et soulignent que les techniques pour l’éviter (privacy-enhancing) ne sont pas satisfaisantes. 

réplique

En 2020, les mêmes chercheurs avaient décrit un phénomène semblable avec les outils de génération de texte. Et en janvier dernier, on apprenait d’ailleurs que le site technologique CNET s’était ainsi rendu coupable de plagiat en publiant des contenus générés par l’IA reprenant quasi à l’identique les articles d’autres médias.

Comment bloquer l’accès à vos contenus?

Il faut distinguer trois cas de figure. Tout d’abord, pour les contenus ayant déjà servi à entraîner les modèles, il n’y a pas grand chose à faire. 

Pour les contenus plus récents, il est possible de bloquer Common Crawl. Depuis 2008, cet organisme non-commercial réalise une copie d’internet qu’il met gratuitement à disposition des chercheurs, des entreprises et des particuliers. Cette gigantesque base de données représentait 60% des données d’entraînement de GPT-3. Pour l’empêcher de puiser dans vos textes, il suffit de modifier le fichier robots.txt du site en y ajoutant l’instruction:

User-agent: CCBot
Disallow: /

Troisième cas de figure, les plugins complétant ChatGPT. OpenAI explique qu’il est possible de les bloquer là aussi en modifiant le fichier robots.txt avec l’instruction:

User-agent: ChatGPT-User
Disallow: /

L’instruction peut également être modifiée pour n’exclure que certaines parties du site web, ou au contraire d’autoriser explicitement les plugins à collecter les contenus du site, indique OpenAI dans sa documentation.


 

Webcode
BAXCtuvS