Les LLM adoptent chacun leur propre «personnalité» de développeur
Une étude publiée par l’entreprise genevoise Sonar montre que chaque grand modèle de langage (LLM) adopte un style qui lui est propre dans sa manière de générer du code, au-delà des simples benchmarks de performance.

L’entreprise genevoise Sonar, spécialisée dans la qualité logicielle, a publié l’étude The Coding Personalities of Leading LLMs. Celle-ci met en avant une dimension encore peu étudiée des grands modèles de langage (LLM): leur style de programmation. Selon le rapport, chaque modèle adopte une «personnalité» particulière lorsqu’il génère du code.
Selon l’étude, les approches habituelles, centrées sur des benchmarks de performance, ne suffisent pas à évaluer pleinement ces outils. «Il est essentiel d’aller au-delà des seuls benchmarks de performance et de comprendre le mosaïque des capacités des modèles de code, leurs personnalités et leurs habitudes», indique Sonar.
Points communs entre les modèles
Les chercheurs ont évalué cinq modèles: Claude Sonnet 4 et 3.7 (Anthropic), GPT-4o (OpenAI), Llama 3.2 90B (Meta) et OpenCoder-8B (open source). Chacun a été soumis à plus de 4’400 exercices de programmation en Java.
L’étude met en évidence des points forts communs: génération de code syntaxiquement valide, compétences algorithmiques solides et capacité à transposer des concepts entre langages (Java et Python). Mais elle souligne aussi des faiblesses partagées par les différents modèles, tel qu’un manque de sensibilité à la sécurité. Par exemple, entre 56% et 70% des vulnérabilités détectées dans leur code sont classées «BLOCKER» par les auteurs de l’étude, c’est-à-dire le niveau de gravité le plus élevé.
Les modèles présentent également des problèmes récurrents de rigueur en matière de développement logiciel, tels que des fuites de ressources ou des violations de contrats d’API, ainsi qu’une tendance marquée à produire du «code smell» (code difficile à maintenir), qui représente plus de 90% des problèmes relevés.
Des «archétypes» de personnalités
Au-delà des traits communs, Sonar dresse pour chaque modèle un archétype qui résume son style de programmation. Claude Sonnet 4 est ainsi décrit comme un «architecte senior»: il réussit le plus grand nombre de tests mais produit un code verbeux et complexe, propice aux bugs critiques. OpenCoder-8B adopte au contraire une approche concise, utile pour le prototypage rapide, mais affiche la densité d’erreurs la plus élevée. Quant à Llama 3.2 90B, il est présenté comme une «promesse non tenue», avec des performances moyennes et un profil de sécurité particulièrement fragile. GPT-4o apparaît comme un «généraliste efficace», polyvalent mais enclin à des erreurs logiques fréquentes. Claude 3.7 se distingue par un style plus équilibré, avec une documentation abondante.
Selon Sonar, ces résultats soulèvent avant tout des questions de fiabilité et de sécurité du code généré par l’IA. Dans un contexte où ces outils sont de plus en plus intégrés dans le quotidien des développeurs, la firme genevoise estime qu’un contrôle humain et l’appui d’outils d’analyse automatisée restent indispensables.