GPTBot

Comment empêcher GPT-5 de s'entraîner sur vos contenus

OpenAI a déjà fait la demande d'enregistrement de marque pour «GPT-5». Le créateur de ChatGTP a aussi développé un nouvel agent d'exploration des sites web: GPTBot. Il convient de mettre à jour le fichier robots.txt pour bloquer son accès.

(Source: Timon / AdobeStock.com / freepngimg.com )
(Source: Timon / AdobeStock.com / freepngimg.com )

OpenAI a annoncé avoir développé un GPTBot, son un nouvel outil d'exploration du web. Dans sa documentation, la firme explique que ce «crawler» sera dorénavant utilisé pour former ses grands modèles d'intelligence artificielle. On parle ici des futures versions de GPT-4 mais surtout de GPT-5. OpenAI a en effet récemment déposé une demande d'enregistrement de marque pour «GPT-5», selon les informations publiées par le Bureau américain des brevets et des marques de commerce (USPTO). 

Concernant GPTBot, OpenAI précise que ce robot d'exploration recueille le matériel librement accessible en ligne, mais il exclut les sites dont l'accès est payant, qui sont connus pour collecter des informations personnelles identifiables ou qui contiennent des termes contraires aux principes de l'entreprise.

Editeurs et propriétaires de contenus en ligne ne voient pas forcément d’un bon œil qu’OpenAI se serve sur leurs sites pour former ses chatbots. Il est toutefois possible de bloquer l’accès à l’agent d’OpenAI. La technique est similaire à celle déjà communiquée par le créateur de ChatGPT, mais il convient de mettre à jour le nom du crawler. Il est ainsi nécessaire de modifier le fichier robots.txt du site en y ajoutant l’instruction:

User-agent: GPTBot
Disallow: /

OpenAI ajoute que pour permettre à GPTBot de n'accéder qu'à certaines parties de votre site, il convient d’ajouter «GPTBot» au fichier robots.txt de votre site comme suit:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

A noter que les appels du crawler aux sites web se feront à partir du bloc d'adresses:

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
 

Webcode
P6UqkpWf