Les chercheurs tirent la sonnette d’alarme

Non, l’IA n’est toujours pas une source d’information fiable

par René Jaun et traduction/adaptation ICTjournal

Les LLM peinent encore à relater fidèlement l’actualité. Selon une étude menée par un réseau de médias publics européens, 45% des déclarations générées par les IA contiennent des erreurs. Les auteurs alertent sur les limites de fiabilité de ces systèmes et appellent les développeurs à réagir.

(Source: Salvador Rios/Unsplash)
(Source: Salvador Rios/Unsplash)

Quiconque souhaite s’informer de manière fiable ne devrait pas se reposer sur ChatGPT ou ses équivalents. Les grands modèles de langage ont encore tendance à déformer les faits, mélanger les sources ou inventer des détails.

Rien de vraiment nouveau jusque-là. Mais qu’en est-il concrètement de la fiabilité des informations fournies par les grands modèles de langage? Un consortium de 22 médias publics s’est penché sur la question, sous la direction de la BBC et de l’Union européenne de radio-télévision (UER). Les médias participants — parmi lesquels la SRF en Suisse — couvrent 18 pays et 14 langues. Ils ont soumis une série de questions d’actualité aux versions gratuites de ChatGPT, Copilot, Perplexity et Gemini disponibles au moment de l’étude (entre fin mai et début juin 2025), puis ont vérifié l’exactitude des réponses.

Résultat: 45% des réponses présentaient au moins une erreur importante. Dans 81% des cas, les chercheurs ont également relevé des «erreurs mineures». Les problèmes les plus fréquents concernaient les sources: 31% des réponses contenaient des erreurs significatives dans les citations ou les références. Les auteurs soulignent le risque pour les médias lorsque l’IA leur attribue à tort une fausse information. Gemini s’est révélé le plus problématique avec 72% d’erreurs de sources, contre 24% pour ChatGPT et 15% pour Perplexity et Copilot.

Les autres erreurs concernaient la précision et le contexte (14% des cas). En tenant compte de l’ensemble des fautes, Gemini reste le modèle le moins fiable (76% d’erreurs significatives), suivi de Copilot (37%), ChatGPT (36%) et Perplexity (30%).

Meilleures références en anglais

Sur les 3’113 questions posées, les modèles d’IA n’en ont refusé que 17, soit un taux de refus de 0,5%, contre 3% lors de la première étude de la BBC, précisent les auteurs.

Bien que la diversité des médias participants se prête à une comparaison entre les pays, les auteurs soulignent que ce n’était pas l’objectif de l’étude. Des conclusions peuvent certes être tirées pour certaines langues et certains pays, mais elles demeurent limitées en raison de la taille relativement restreinte des échantillons et doivent donc être interprétées avec prudence. 

Les auteurs partagent néanmoins quelques conclusions concrètes: le taux de réponses erronées varie  entre 26% et 67%, selon le pays. Par ailleurs, les assistants d’IA insèrent plus souvent des liens cliquables vers des sources fiables lorsqu’ils sont utilisés en anglais que dans d’autres langues.

Quelques signes d’amélioration

Les chercheurs qualifient leur étude de «l’une des plus grandes analyses transnationales de ce type». Elle s’appuie sur une première enquête publiée en début d’année par la BBC. Comme l’édition actuelle a impliqué un nombre bien plus important d’entreprises de média, une comparaison directe des résultats n’est pas possible, précise le rapport. En revanche, il reste possible de comparer les conclusions de la BBC avec celles de la première étude.

Le taux d’erreurs majeures a diminué de 51% à 37% par rapport à la première étude. Les erreurs de précision sont passées de 31% à 25%, avec une nette amélioration pour Gemini (de 46% à 25%). En revanche, le modèle de Google reste le plus défaillant pour les références de sources (47%), tandis que Copilot réduit ce taux de 27% à 10%.

Un risque pour la réputation des médias

«Des progrès ont été réalisés, mais il reste beaucoup à faire», écrivent les auteurs. Ils rappellent qu’une majorité d’utilisateurs font confiance aux résumés produits par l’IA: selon une autre étude de la BBC, plus d’un tiers des adultes au Royaume-Uni estiment que les assistants d’IA fournissent des synthèses fiables.

Les erreurs dans les résumés générés par l’IA ont également des conséquences pour les sources d’information: 42% des adultes déclarent qu’ils feraient moins confiance à un média original si un résumé d’IA contenait des erreurs. Selon les auteurs, le public tient à la fois les fournisseurs d’IA et les marques d’information pour responsables de ces fautes. Le risque réputationnel pour les entreprises médiatiques est donc élevé, même lorsque l’erreur provient uniquement de l’assistant d’IA. Ce risque est encore accentué par la popularité croissante des résumés générés par IA, comme ceux proposés par Google, qui privent souvent les utilisateurs d’un accès direct à la source originale.

Les chercheurs appellent les développeurs à réagir

Les auteurs recommandent, parmi les pistes d’amélioration, de renforcer la visibilité et l’accessibilité des contenus issus de médias publics fiables. Ce sont les responsables politiques et les autorités de régulation qui sont appelés à agir en ce sens. Quant aux médias, ils ont la responsabilité d’expliquer au public à la fois les limites et les atouts des assistants d’IA.

Mais selon les chercheurs, c’est du côté des développeurs d’IA que l’action est la plus urgente. Les auteurs estiment qu’ils n’ont pas encore pris suffisamment au sérieux le problème des informations erronées — une situation qui, selon eux, doit impérativement évoluer.

Les éditeurs devraient permettre aux concepteurs de modèles d’IA de mieux contrôler l’utilisation de leurs contenus par les assistants d’IA — ou d’en interdire l’accès. Lorsque cette utilisation est autorisée, les applications d’IA devraient afficher clairement les sources et citations, accompagnées de liens visibles vers les contenus originaux, présentés dans un format uniforme. Enfin, les développeurs d’IA devraient communiquer plus explicitement sur le taux d’erreur de leurs produits.

La BBC met à disposition l’intégralité de l’étude sur son site.

Tags
Webcode
u4iwJkc2