Generate Culture

Féminiser Wikipedia avec des biographies générées automatiquement

Seuls 20% des biographies de Wikipedia concernent des femmes. Pour y remédier, une chercheuse de Facebook/Meta a développé un modèle IA capable de générer automatiquement des articles sur des personnalités féminines. L’approche présente toutefois des limites.

L'article de Wikipedia consacré à la pionnière de l'informatique Ada Lovelace. Sur le site, seul une biographie sur cinq concerne une personnalité féminine.
L'article de Wikipedia consacré à la pionnière de l'informatique Ada Lovelace. Sur le site, seul une biographie sur cinq concerne une personnalité féminine.

Une chercheuse du laboratoire d’intelligence artificielle de Facebook à Paris a développé un modèle capable de créer des articles biographiques de personnalités réelles. Son idée, utiliser l’outil pour peupler Wikipedia d’articles sur des personnalités féminines. Angela Fan relève que ces dernières ne comptent que pour un cinquième des biographies que compte actuellement Wikipedia. Un problème sachant que l’encyclopédie participative fait office de référence, figure parmi les premiers résultats d’une recherche en ligne, et sert souvent de source aux écoliers pour leurs exposés. Sans compter que les articles de Wikipedia servent aussi à entraîner des algorithmes susceptibles d’intégrer ainsi cette représentation biaisée.

Génération automatisée de biographies

La chercheuse voit dans son approche une démarche complémentaire aux initiatives existantes pour écrire «manuellement» des biographies féminines. «Faire des recherches, créer une bibliographie et la rédiger sont des activités intensives, mais il existe une multitude d'informations disponibles sur le web qui peuvent être utilisées pour raconter l'histoire de femmes dont les réalisations, les voix et les héritages ont été oubliés ou marginalisés», explique-t-elle sur le blog de Meta AI.

Le modèle développé par Angela Fan procède en plusieurs étapes. D’abord, il apprend à identifier sur le web les informations importantes pour la biographie. Il s’en sert ensuite pour rédiger le texte à proprement parler, tandis qu’un troisième module crée la bibliographie à partir des sources qu’il a utilisées. Le modèle va ainsi produire l’un après l’autre les différents contenus composants l’article Wikipedia: jeunesse, éducation et carrière.

Problèmes des contenus générés automatiquement

Le système souffre toutefois de plusieurs problèmes connus de la génération automatique de textes. D’abord, il tend à reproduire les biais figurant dans ses sources et textes d’entraînement. Il risque par exemple d’employer la formule «femme scientifique» plutôt que «scientifique», ou de consacrer une partie exagérément importante de l’article à la vie privée, pour la simple raison que le web fournit davantage d’informations sur cet aspect des personnalités féminines. Ensuite, les modèles de génération de contenus produisent parfois des informations fantaisistes. En l’occurrence, dans le cadre du projet de recherche, 68% du texte généré dans les biographies ne figurait pas dans les sources.

>> Sur le sujet: Modèles de langage géants: des risques à la hauteur des capacités

Par ailleurs, au même titre que la censure algorithmique de contenus non-désirés, la génération algorithmique de contenus désirés porte atteinte à la compréhension qu’ont les utilisateurs des contenus qui leur sont présentés. Sans compter que la pratique est également employée à des fins moins nobles (phishing, fake news). Ainsi, Google indique dans ses consignes qu'il supprime de ses résultats les contenus générés automatiquement lorsqu’ils sont «destinés à manipuler les classements de recherche plutôt qu’à aider les utilisateurs».

Tags
Webcode
DPF8_253522