Sens commun

L’IA peine toujours à traiter les ambiguïtés du langage humain

Des chercheurs ont élaboré un challenge pour tester la compréhension qu’ont les systèmes NLP du langage humain. Des progrès restent à faire…

Photo: Unsplash
Photo: Unsplash

Grâce aux techniques de deep learning, le traitement automatisé du langage humain (Natural Language Processing ou NLP) a fait des progrès importants et rapides ces dernières années. Les performances d’outils de traduction en ligne tels que DeepL sont là pour le prouver. Restent que les outils NLP peinent encore à comprendre toutes les subtilités du langage humain, comme le montre une étude* publiée par des chercheurs de l’Allen Institute for Artificial Intelligence de l’Université de Washington.

Tester le sens commun

Les auteurs de la recherche ont pris pour point de départ le Winograd Schema Challenge, une alternative au test de Turing employée pour évaluer la capacité des modèles neuronaux à résoudre les ambiguïtés d’une phrase avec la même justesse qu’un humain. Un test du raisonnement de sens commun de l’IA en quelque sorte…

Ainsi, par exemple, le test demande à l’algorithme de déterminer dans cette paire de phrases celles où le pronom «ils» se réfère aux lions et celle ou il se réfère aux zèbres:

Les lions ont mangé les zèbres parce qu'ils sont des prédateurs.

Les lions ont mangé les zèbres parce qu'ils sont bien en chair.

Avec les progrès du NLP, les modèles neuronaux sont aujourd’hui capables de répondre correctement aux 273 problèmes similaires du test. Selon les chercheurs, cette performance ne signifie pas nécessairement que le système comprend la phrase, mais plutôt qu’il fait une déduction correcte, car il sait que le terme «lion» est souvent associé à celui de «prédateur». Il trouve la bonne réponse mais peut-être pas pour la bonne raison, avertissent les chercheurs.

Test refaçonné pour éviter les réponses faciles

Ainsi, pour tester si les systèmes de NLP comprennent vraiment le sens des phrases qui leur sont proposées, les chercheurs ont développé un test plus compliqué baptisé WinoGrande. D’une part, via le crowdsourcing, ils ont produit un nombre considérablement plus grand de paires de phrases tests. D’autre part, ils ont développé un outil algorithmique pour retirer les paires de phrases où des associations permettraient à l’IA de répondre sans vraiment comprendre - comme dans le cas des lions et des zèbres.

Avec ce test plus ardu, les résultats sont bien moins bons indiquent les chercheurs. Ainsi, alors que l’humain répond correctement aux challenges dans 94% des cas, les systèmes neuronaux qu’ils ont utilisés n’y parviennent qu’entre 60% et 80% des cas.

Et si on testait sur DeepL?

Notre rédaction s’est essayée à tester comment le traducteur DeepL se comporte face à une phrase ambigüe issue du Winograd Schema Challenge:

Le pronom anglais «it» étant traduit soit «il» soit «elle» en français, on constate que l’algorithme se trompe dans le deuxième cas…

(*) La recherche: WINOGRANDE: An Adversarial Winograd Schema Challenge at Scale

Tags
Webcode
DPF8_172488