Intelligence émotionnelle: l’IA performe mieux, mais sur des cas standardisés
Menée par des chercheurs de l’Université de Genève et de l’Université de Berne, une étude récente montre que ChatGPT et d’autres IA répondent mieux que des humains à des tests émotionnels. Des résultats obtenus toutefois dans des conditions très structurées, qui ne reflètent pas la complexité du réel.

Les LLM de type ChatGPT, Claude ou Gemini sont capables de performances supérieures à celles des humains dans des tests d’intelligence émotionnelle. C’est la conclusion d’une étude menée par des chercheurs de l’Université de Genève (UNIGE) et de l’Université de Berne (UniBE), publiée dans la revue Communications Psychology. Les résultats suggèrent un potentiel d’utilisation de ces IA dans des domaines comme le coaching ou la gestion de conflits, à condition de prendre en compte plusieurs limites importantes.
Des mises en situation standardisées
L’équipe scientifique a soumis six IA génératives (ChatGPT-4, ChatGPT-o1, Claude 3.5 Haiku, Copilot 365, Gemini 1.5 Flash et DeepSeek V3) à cinq tests utilisés dans la recherche et le monde professionnel pour évaluer les capacités de compréhension, régulation et gestion des émotions. Ces tests comportaient des scénarios précis où il fallait identifier le comportement émotionnellement le plus pertinent. Les mêmes exercices ont également été proposés à un panel d’humains.
Selon Marcello Mortillaro, adjoint scientifique au Centre interfacultaire en sciences affectives (CISA) de l’UNIGE, les IA ont répondu correctement à 82% des questions en moyenne, contre 56% pour les participants humains. «Cela démontre que ces IA possèdent des connaissances sur les émotions et sur ce qu’implique un comportement émotionnellement intelligent», déclare-t-il dans le communiqué de l’UNIGE.
Dans une seconde phase, ChatGPT-4 s’est vu confier la tâche de générer de nouveaux scénarios de test. Ceux-ci ont ensuite été validés par plus de 400 personnes. Katja Schlegel, auteure principale de l’étude et chercheuse à l’Institut de psychologie de l’UniBE, affirme que les tests générés étaient comparables aux tests d’origine en termes de clarté, de fiabilité et de réalisme, tout en ayant été produits en un temps très court.
Des performances qui ne reflètent pas la complexité du réel
Dans leur article, les chercheurs mentionnent toutefois plusieurs limitations, indiquant entre autres que les tests utilisés sont basés sur des situations bien définies, avec des réponses attendues explicites. Or, les interactions émotionnelles réelles sont souvent ambigües, incomplètes ou nécessitent l’interprétation de signaux subtils. La sensibilité des IA à de légères modifications dans les formulations remet en question leur robustesse dans des contextes moins structurés.
Autre point critique: les tests et les données d’entraînement des IA sont centrés sur des normes occidentales. Des réponses considérées comme adéquates dans ce contexte culturel pourraient ne pas convenir à d’autres cultures, où les règles d’expression et de régulation des émotions diffèrent sensiblement.
Enfin, les chercheurs rappellent que les mécanismes internes des modèles restent peu transparents. Il est donc difficile de comprendre comment l’IA parvient à ses réponses ou à générer de nouveaux scénarios. Des modifications apportées au modèle ou à ses données d'apprentissage pourraient entraîner des changements de performance difficiles à prévoir.
Malgré ces limites, l’étude indique que les grands modèles de langage pourraient contribuer à améliorer la compréhension des dynamiques émotionnelles, à condition d’un encadrement strict.