Bullshit-meter

Mesurer la langue de bois en la comparant aux contenus générés par l’IA

Plus des contenus ressemblent à ceux que peut générer une IA, moins ils contiennent d’informations neuves. Des chercheurs l’ont vérifié en comparant les propos tenus par les dirigeants d’entreprises suite à la publication des résultats financiers avec ceux de ChatGPT, et en analysant l'impact que ces propos ont eu sur le comportement des investisseurs.

(Source: Nick Fewings sur Unsplash)
(Source: Nick Fewings sur Unsplash)

Après la publication de leurs résultats financiers, les dirigeants des entreprises cotées se livrent à l’exercice des "earnings calls". Lors de ces conférences téléphoniques, les investisseurs et analystes financiers cherchent à en savoir davantage, à mieux comprendre ce qui se cache derrière les chiffres et les affirmations calibrées des communications officielles, à obtenir des informations supplémentaires pour orienter leurs décisions. En même temps, ils sont souvent déçus, les CxO se bornant à reformuler ce qui a déjà été dit et à ressasser des généralités sur les tendances, sur le marché, etc.

ChatGPT comme benchmark

Pour mesurer le caractère informatif de ces conférences téléphoniques, des chercheurs* ont comparé les contenu des réponses des dirigeants lors de plus de 190’000 calls avec celui produit par des outils d’IA générative, notamment ChatGPT. En effet, ces systèmes sont tout à fait en mesure de répéter des choses connues, alors qu’ils sont incapables d’apporter des informations vraiment neuves, ces dernière s’échappant par définition à leurs données d’entraînement.

Les chercheurs ont ainsi développé un indice qui, à l’aide de l’analyse de langage (NLP), évalue combien les propos des dirigeants se distinguent de ceux de ChatGPT et consorts. Ils ont baptisé leur indice HAID pour «Human AI Difference». Plus l’indice HAID est élevé, plus le contenu a des chances d’être informatif, moins il est élevé plus le contenu ressemble a celui de l’IA et donc à de la langue de bois.

Pour vérifier si ces contenus sont bel et bien plus informatifs, ils ont ensuite comparé la valeur de l’indice HAID de chaque "earning call" avec le comportement des investisseurs et l’activité boursière qui s’en sont suivis. Conformément à leur hypothèse, ils constatent que les appels les plus informatifs (HAID élevé) sont corrélés avec l’activité boursière (augmentation des volumes de transaction anormaux), avec les prévisions des analystes (mois d’erreur, moins de désaccord) et avec la liquidité du marché.

«Il est possible que les entreprises en tirent la conclusion suivante : si les résultats sont mauvais, vous devriez demander à ChatGPT d'organiser votre conférence téléphonique sur les résultats, mais s'ils sont bons, vous devriez le faire vous-même », commente non sans ironie, l’éditorialiste financier Matt Levine sur le site de Bloomberg.

(*) Executives vs. Chatbots: Unmasking Insights through Human-AI Differences in Earnings Conference Q&A

Webcode
CzDpnE8K