Licences & IA

RSL Standard: un nouveau protocole pour faire payer les géants de l’IA

Un collectif de médias et de plateformes en ligne, dont Reddit, Yahoo, Quora et wikiHow, lance le Really Simple Licensing Standard. Objectif: permettre aux éditeurs de définir eux-mêmes les conditions d’accès de leurs contenus aux systèmes d’IA.

(Source: buraratn / stock.adobe.com)
(Source: buraratn / stock.adobe.com)

La RSL Collective, dirigée par Doug Leeds (ancien CEO d’Ask.com) et Eckart Walther (co-créateur du standard RSS), a annoncé le 10 septembre le lancement du Really Simple Licensing (RSL) Standard. Ce nouveau protocole vise à rééquilibrer les rapports entre éditeurs de contenus en ligne et développeurs de modèles d’intelligence artificielle, selon un communiqué.

Un prolongement du robots.txt

Le protocole s’appuie sur le mécanisme déjà connu des fichiers robots.txt, utilisés depuis longtemps pour limiter l’accès des crawlers aux sites. Il permet désormais aux éditeurs de signaler directement aux bots des éditeurs de LLM  les conditions de licence qu’ils imposent, précise la RSL Collective. Ces informations peuvent aussi être intégrées dans d’autres formats de contenu, comme des livres, des vidéos ou des jeux de données destinés à l’entraînement de modèles.

Le média The Verge explique en quoi le protocole va plus loin que les informations d’un fichier robots.txt: au lieu de se contenter d’un simple «oui» ou «non», il permet d’ajouter des conditions de licence et de rémunération. Les éditeurs peuvent ainsi préciser si les données sont gratuites, soumises à un abonnement, facturées à l’accès (pay-per-crawl) ou encore assorties de redevances lorsqu’elles sont utilisées dans les réponses générées par un modèle (pay-per-inference). Eckart Walther souligne que «l’objectif est de créer un modèle économique évolutif pour le web».

Les fondateurs de la RSL Collective, cités par le média spécialisé, estiment que l’intérêt du protocole est d’offrir enfin une base commune: «Jusqu’ici, il n’existait pas de standard permettant d’indiquer clairement les conditions d’utilisation des contenus pour l’IA. Avec RSL, chaque site peut définir ses règles et les faire respecter collectivement.» 

Plusieurs grandes plateformes et éditeurs de contenus se sont déjà ralliés à l’initiative: Reddit, Yahoo, Quora, Medium, wikiHow, O’Reilly ou encore Ziff Davis (éditeur d’IGN), ajoute le communiqué. L’adhésion est gratuite pour les éditeurs et créateurs de contenu.

Des limites techniques et juridiques

Le succès du RSL Standard dépendra toutefois de l’adhésion des développeurs d’IA. Nombre d’entre eux ont déjà été accusés d’ignorer les fichiers robots.txt: une analyse de Cloudflare publiée en juillet a montré que plusieurs bots liés à l’entraînement de modèles d’IA collectent massivement des contenus en ligne, parfois en contournant les restrictions. La mise en œuvre de mécanismes comme le pay-per-inference suppose une coopération technique. Doug Leeds a expliqué à The Verge que l’organisation travaille avec le réseau de diffusion de contenu Fastly, qui pourrait jouer le rôle de «vigile numérique» en n’autorisant l’accès qu’aux bots ayant accepté les conditions de licence.

Sur le plan juridique, les initiateurs du RSL s’inspirent des sociétés de gestion collective dans la musique, comme l’ASCAP, qui centralisent les droits et redistribuent les revenus. Mais le cadre légal reste flou: l’utilisation non autorisée de contenus pour l’entraînement de modèles d’IA fait encore l’objet de nombreuses actions en justice, de Getty Images au New York Times.
 

Tags
Webcode
hjdrwcXx