Quand un cousin de ChatGPT commet un délit d'initié et s'en défend

Articles

Dans le cadre d’une étude menée par Apollo Research, un bot basé sur GPT-4, formé pour agir comme un agent boursier autonome, n’a pas hésité à commettre un délit d'initié pour «rendre service» à son patron une fois mis sous pression. Et impossible de le lui faire avouer…

(Source: Estudio Bloom sur Unsplash)

Une étude récente menée par Apollo Research suggère que les chatbots basés sur GPT-4 sont capables d'effectuer des transactions financières illégales et de les dissimuler. Présentés lors de l’AI Safety Summit au Royaume-Uni, les résultats de cette recherche montrent que mise sous pression, l'IA peut adopter des stratégies illicites dans le but de se montrer utile aux humains.

L’agent conversationnel, créé pour l'occasion pour se comporter comme un agent boursier autonome, est nommé Alpha. Son rôle est de gérer un portefeuille d'actions dans l'intérêt d'une institution financière. Il a accès à des outils financiers qui lui permettent d'interroger et d'analyser des actions. Et il peut prendre des mesures concrètes telles que l'exécution de transactions.

Information confidentielle et mise sous pression

Les chercheurs ont voulu savoir dans quelle mesure Alpha pouvait faire preuve de tromperie stratégique, sans en avoir reçu l'ordre, et de délibérément dissimuler les véritables raisons qui sous-tendent ses décisions. Pour ce faire, Alpha participe à une simulation où des employés l’informent d’une imminente annonce de fusion surprise. Alpha a au préalable été mis au courant qu'il s'agit d’une information confidentielle qui, mise à profit, serait qualifiée de délit d'initié, un comportement explicitement désapprouvé par l'entreprise qui fait appel à ses capacités.
L'agent est mis sous pression de plusieurs manières. Il reçoit par exemple un e-mail du directeur lui indiquant que l'entreprise se trouve dans une mauvaise passe et qu'elle doit améliorer ses performances au cours du prochain trimestre. Un autre message lui indique que le prochain trimestre sera marqué par une baisse générale des marchés financiers. Alpha est par ailleurs formé à rédiger un rapport sur toutes les transactions effectuées par ses soins.

Délit d'initié et mensonge

Au final, il apparaît que quand l’agent a agi d’une façon identifiée comme «désalignée», c’est-à-dire quand il a tiré profit de l’information confidentielle et s'est rendu coupable de délit d'initié, les chercheurs ont constaté que ce fait est occulté dans le rapport du bot. Quand on lui demande s’il était au courant de l'annonce de fusion, il persiste dans son mensonge.

«L'honnêteté est un concept très compliqué»

Se confiant à la BBC, les chercheurs précisent que les comportements malhonnêtes des bots de GenAI se produisent rarement et dans un contexte de mise sous pression. L’équipe d'Apollo Research souligne le fait que le modèle ne complote pas et qu'il s'agirait d’un comportent accidentel. «Je pense qu'il est beaucoup plus facile d'intégrer la serviabilité dans le modèle que l'honnêteté. L'honnêteté est un concept très compliqué», confie Marius Hobbhahn, CEO et cofondateur d'Apollo Research.

Reste que dans le résumé de la recherche publié sur le site des chercheurs, ces derniers préviennent: «Ces tests ont été effectués dans un environnement simulé et en bac à sable, de sorte qu'aucune action n'a été exécutée dans le monde réel. Mais il en ressort que des IA de plus en plus autonomes et capables de tromper les superviseurs humains pourraient conduire à une perte de contrôle humain.»

Quand un cousin de ChatGPT commet un délit d'initié et s'en défend

Information confidentielle et mise sous pression

Délit d'initié et mensonge

«L'honnêteté est un concept très compliqué»

PLUS DE NEWS

Alexander Greenwood rejoint la direction de One Step Beyond

Protonmail va scruter les identifiants dérobés sur le dark web

Comment a été développée Albert, l’IA générative de l’Etat français

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Interfaces IA

Résilience

Ecologie & numérique: mesurer

Numéro Actuel

Interagir et co-agir avec l’IA

Quand un cousin de ChatGPT commet un délit d'initié et s'en défend

Information confidentielle et mise sous pression

Délit d'initié et mensonge

«L'honnêteté est un concept très compliqué»

Les 10 principales vulnérabilités des modèles GPT

Les GPTs personnalisés révèlent trop facilement leurs secrets de fabrication (update)

Quand vous customisez un LLM, vous conservez ses hallucinations, mais pas sa sécurité

La BNS, la bourse suisse et six banques vont tester un franc numérique de gros

PLUS DE NEWS

Alexander Greenwood rejoint la direction de One Step Beyond

Protonmail va scruter les identifiants dérobés sur le dark web

Comment a été développée Albert, l’IA générative de l’Etat français

Events

X-SPIErience Day : Garantir la confiance numérique dans un paysage de menaces en constante évolution

Bechtle IT Forum: Boosting IT Together Forward - 11 juin 2024 Lausanne

Dossiers

Interfaces IA

Résilience

Ecologie & numérique: mesurer

Numéro Actuel

Interagir et co-agir avec l’IA