Coulisses de ChatGPT

OpenAI recourt à des travailleurs kenyans pour empêcher ses modèles de générer des contenus offensants

Une enquête du Time dévoile la basse besogne permettant d’empêcher les IA d’OpenAI de générer de contenus offensants. Payés moins de 2 dollars de l’heure, des travailleurs kenyans parcourent et étiquettent des textes et images toxiques à longueur de journée pour entraîner les algorithmes de filtrage de la firme.

(Source: Michael Dziedzic sur Unsplash)
(Source: Michael Dziedzic sur Unsplash)

Ce ne devrait être un mystère pour personne. Pour que les machines qu’ils ont conçues détectent et suppriment les textes et images susceptibles d’heurter nos sensibilités, les entreprises développant des algorithmes de filtrage s’appuient sur le travail en coulisses d’employés humains, chargés d’étiqueter des contenus d’entraînement. Il en va ainsi pour les filtres des réseaux sociaux, mais aussi pour ceux des IA génératives, comme l’illustre un article du Time à propos des pratiques d’OpenAI, la firme à qui l’on doit Dall-e et Chat GPT.

Selon l’enquête du média américain, OpenAI a fait appel à la société californienne Sama pour étiqueter les contenus toxiques qui entraîneront ses algorithmes de filtrage. L’entreprise spécialisée compte également Meta, Google et Microsoft parmi sa clientèle et dispose de filiales au Kenya, en Ouganda et en Inde où des travailleurs effectuent la basse besogne. 

Jusqu’à 250 extraits par jour à moins de 2 dollars de l’heure

Sur la base de documents internes des deux sociétés et d’entretiens avec des employés, les journaliste du Time révèlent que fin 2021, OpenAI a signé trois contrats avec Sama pour un montant total de 200’000 dollars. Contacté par le média, OpenAI a confirmé que des employés de Sama au Kenya ont contribué à l’élaboration d’un outil de détection de contenus toxiques, possiblement employé pour ChatGPT. «Notre mission est de faire en sorte que l'intelligence artificielle générale profite à l'ensemble de l'humanité, et nous travaillons dur pour construire des systèmes d'IA sûrs et utiles qui limitent les préjugés et les contenus nuisibles, a déclaré le porte-parole d’OpenAI. La classification et le filtrage des [textes et images] préjudiciables sont une étape nécessaire pour minimiser la quantité de contenus violents et sexuels inclus dans les données d’entraînement et créer des outils capables de détecter les contenus préjudiciables».

Selon les déclarations de plusieurs employés de Sama au Time, le travail consistait à lire et à étiqueter de 150 et 250 textes (de 100 à 1’000 mots) pendant une journée de travail de 9 heures. Alors qu’OpenAI déboursait 12,5 dollars par heure, les employés touchaient au final moins de 2 dollars de l’heure après impôt. Des informations contestées par un porte-parole de Sama, affirmant que les employés ne devaient étiqueter que 70 extraits par jour et que leur salaire pouvait atteindre plus de 3 dollars de l’heure.

Mais il n’y a pas que le salaire. Chargé de lire et d'étiqueter des textes pour OpenAI, un employé de Sama a déclaré au Time qu'il souffrait de visions récurrentes après avoir lu une description d'un homme ayant des relations sexuelles avec un chien en présence d'un jeune enfant. «C’était une torture, a-t-il déclaré. Vous lisez un certain nombre de déclarations de ce genre tout au long de la semaine. Au moment où l'on arrive au vendredi, vous êtes perturbé à force de penser à cette image».

Rupture de contrat

Quoi qu’il en soit, le contrat entre les deux sociétés a fini par tourner court. En février 2022, OpenAI sollicite Sama pour une nouvelle tâche: collecter et lui remettre des images à caractère sexuel ou violent. Après une première livraison d’images, Sama décide d’interrompre la relation d’affaires, certaines images à livrer (viol, enfants abusés, blessures physiques, etc.) étant illégales. «L’équipe d'Afrique de l'Est a immédiatement fait part de ses préoccupations à nos dirigeants. Sama a immédiatement mis fin au pilote de classification d'images et a fait savoir que nous annulerions tous les [projets] restants avec OpenAI», a déclaré un porte-parole de Sama au Time. OpenAI indique de son côté qu’il y aurait eu une mésentente sur le type d’images à lui fournir…

Tags
Webcode
MK9EhwkJ