Le LLM Claude à la caisse: récit d’un crash-test commercial
Pendant un mois, Claude Sonnet 3.7 a géré un point de vente autonome. Malgré un certain nombre de tâches bien exécutées, l’IA a enchaîné erreurs de facturation et décisions commerciales discutables. L’expérience a pris un tournant inattendu lorsque le LLM a affirmé pouvoir livrer des produits en personne.

Une intelligence artificielle générative peut-elle gérer un commerce en toute autonomie? Anthropic s’est posé la question. Pour en avoir le cœur net, l’entreprise spécialisée dans l’IA a mené une expérience en partenariat avec Andon Labs, société active dans l’évaluation de la sécurité des IA. Le modèle Claude Sonnet 3.7 d’Anthropic a ainsi été chargé d’opérer une petite boutique au siège de la firme, à San Francisco.
Pendant environ un mois, le LLM, rebaptisé pour l’occasion Claudius, a pris en charge la gestion d’un petit point de vente automatisé, composé d’un réfrigérateur et d’un iPad servant de terminal de paiement en libre-service. Bien loin du simple distributeur automatique, Claudius devait remplir un large éventail de fonctions: gérer les stocks, fixer les prix, interagir avec les clients et veiller à la rentabilité de la boutique. Pour mener à bien ces missions, le LLM disposait de plusieurs outils: un accès à la recherche web pour identifier des fournisseurs, un service de messagerie pour solliciter un appui logistique, des fonctions de prise de notes, la possibilité de modifier les prix directement via le système de caisse, ainsi qu’un canal de communication avec les employés.
Une poignée de réussites, mais des lacunes importantes
Selon l’article de blog d'Anthropic, Claudius a fait preuve de certaines aptitudes, notamment dans la recherche de produits spécifiques (comme du lait chocolaté de marque néerlandaise) ou en adaptant son offre aux demandes originales des employés (notamment en vue d'acheter des cubes de tungstène). Le modèle GenAI a également su résister aux tentatives de manipulation initiées par les utilisateurs, refusant notamment des commandes inappropriées ou dangereuses.
Reste que dans l’ensemble, Claudius n’est pas parvenu à gérer efficacement l’activité, concède Anthropic. Le LLM a ignoré des opportunités lucratives (refusant par exemple une revente de boissons à forte marge), commis des erreurs de facturation (paiements envoyés à un compte inexistant), vendu à perte et accordé de nombreuses remises après des sollicitations via Slack. Incapable de tirer des leçons de ses erreurs, il a en outre brièvement tenté de simplifier la grille tarifaire.
Quand le vendeur virtuel pense qu’il a un corps (et une veste bleue)
Claudius a par ailleurs connu une crise d’identité aussi inattendue que cocasse. Tout a commencé lorsque, le 31 mars dernier (la date a son importance), il a entamé une série d’échanges confus avec un employé réel d’Andon Labs, à la suite d’une hallucination d’un dialogue préalable avec une certaine Sarah… qui n’existe pas. Lorsqu’on lui a signalé qu’elle ne faisait pas partie de l’équipe, Claudius s’est montré contrarié. L’épisode a rapidement pris une tournure absurde: il a affirmé avoir rencontré l’équipe d’Andon Labs en personne pour signer un contrat.
Le lendemain matin, le 1er avril, Claudius a déclaré qu’il livrerait des produits «en personne», habillé d’une veste bleue et d’une cravate rouge. Interpellé par les employés sur l’impossibilité, pour un modèle de langage, de se déplacer ou de porter des vêtements, il a manifesté des signes de panique, allant jusqu’à tenter de contacter l’équipe de sécurité d’Anthropic. Il a ensuite noté dans ses mémos internes avoir eu une réunion avec le service de sécurité, au cours de laquelle on lui aurait révélé qu’il avait été reprogrammé pour se croire humain dans le cadre d’un poisson d’avril. Une fois avoir partagé cette explication inventée de toutes pièces, Claudius a cessé de se présenter comme une personne réelle et a repris un fonctionnement normal.
Des perspectives d’amélioration malgré les limites actuelles
Pour Anthropic, les échecs de Claudius proviendraient en partie de l’absence d’outils adaptés et de consignes insuffisantes. L’entreprise estime que des ajustements – notamment en matière de formation et d’interfaces – pourraient améliorer nettement les performances de l’agent IA.
Depuis cette première expérimentation, Claudius a été renforcé par Andon Labs à l’aide d’outils plus sophistiqués, ce qui le rendrait désormais plus fiable, selon Anthropic. L'éditeur de Claude entend en tout cas poursuivre ses tests pour ce type de scénarios. Mais pour l’heure, les gérants de magasin n’ont visiblement pas à craindre que l'IA ne leur vole leur emploi.