Vidéo malhonnête

Devin: la prétendue «IA ingénieure logiciel» sous le feu des critiques (update)

La start-up Cognition a récemment annoncé Devin, une solution d'intelligence artificielle censée agir comme ingénieur logiciel via une coordination automatisée entre différents outils courant de développement et de déploiement d'applications. Depuis, des doutes sont apparus sur les réelles capacités de l’outil: une vidéo de démo a par exemple été réfutée de façon convaincante.

(Source: Chris Ried sur Unsplash)
(Source: Chris Ried sur Unsplash)

Mise à jour du 17 avril 2024: Voici quelques semaines, la start-up Cognition Labs a annoncé Devin, un outil basé sur l'intelligence artificielle et conçu pour agir comme un ingénieur logiciel. Les premières démonstrations ont suscité des commentaires impressionnés, plusieurs experts ayant mis en avant, sur les réseaux sociaux, les réelles capacités de Devin (voir ci-dessous). 

Néanmoins, Cognition Labs ne serait pas tout à fait honnête en présentant sa technologie comme la première IA à pouvoir prendre en charge le processus de développement et de déploiement de bout en bout. C’est ce que s’applique à démontrer dans une vidéo la chaîne Youtube «Internet of Bugs», qui s’attèle précisément à «debunker» une vidéo de Cognition Labs montrant Devin en train de réaliser de réelles tâches pour freelance sur la plateforme Upwork. Selon celui qui détient la chaîne «Internet of Bugs», qui se présente comme professionnel du logiciel depuis 35 ans, Cognition Labs a menti sur ce que Devin peut effectivement faire. 

Sur le forum pour développeurs Hacker News, un utilisateur résume la vidéo de debunking, la qualifiant de «réfutation extrêmement solide et convaincante». En bref, il apparaît que le problème qu'on demande à Devin de résoudre ne correspond pas aux exigences du client. En outre, Devin est montré en train de corriger des erreurs dans un repo GitHub, mais les fichiers que l’outil est en train d'éditer n'existent pas réellement dans ce repo. Il semblerait donc que Devin corrige des bugs dans des fichiers qu'il a lui-même créés. Par ailleurs, les modifications apportées au code apparaissent de mauvaise qualité, par exemple Devin écrit sa propre boucle de lecture de fichier de bas niveau au lieu d'utiliser correctement la bibliothèque standard. 

Ce n’est pas la première fois qu’une vidéo de démonstration d’un outil IA est ainsi accusée d'être truquée. Fin 2023, par exemple, on apprenait que Google avait manipulé une vidéo pour faire paraître Gemini plus puissant qu’il ne l’est.

La vidéo de debunking de Devin: 

News du 14 mars 2024: Introduction de l’outil IA Devin

Cognition a dévoilé Devin, un outil basé sur l'intelligence artificielle et conçu pour agir comme un ingénieur logiciel. Dans son annonce, cette start-up californienne ajoute que Devin promet d'améliorer la productivité des équipes en prenant en charge des tâches fastidieuses, permettant aux ingénieurs logiciels de se concentrer sur des défis plus stimulants.

Selon Cognition, Devin peut exécuter des tâches nécessitant des milliers de décisions, apprendre de son expérience, et même corriger des bugs. Le système est équipé d'outils de développement courants (shell, éditeur de code, navigateur…) et permet à l'utilisateur de donner un feedback en temps réel. En bref, Devin serait capable de prendre en charge le processus de développement et de déploiement de bout en bout. Cognition souligne en outre que sa solution peut entraîner et affiner ses propres modèles d'IA. Ces capacités ont été évaluées avec le benchmark SWE-bench, sur lequel Devin a résolu 13,86% des problèmes, alors que le précédent record était de 1,96%, affirme Cognition, jeune pousse qui a déjà bouclé un tour de table de série A de 21 millions de dollars, mené par Founders Fund (géré par l'investisseur Peter Thiel). 

Sur X, certains témoignages laissent à penser que cet «ingénieur logiciel entièrement autonome» bénéficie de réelles capacités. Par exemple, Devin serait ainsi en mesure d’extraire des données de sites web (data scraping) avec efficacité, en prenant en charge de façon automatisée le codage du scraper, l'exécution du code et la création d’un fichier CSV étiqueté.

Ancien responsable IA chez Tesla et actuellement collaborateur chez OpenAI, Andrej Karpathy estime que Devin «est une démonstration impressionnante» montrant comment plusieurs outils de développement peuvent être automatiquement coordonnés, allant dans le sens d’une «supervision humaine qui passe à un niveau d'abstraction de plus en plus élevé». 

Tags
Webcode
nVeWVPJd