Lakera lance un benchmark open source pour tester la sécurité des LLM
Développé avec Check Point et l’UK AI Security Institute, le nouvel outil vise à évaluer la résistance des LLM à la base des agents d’IA.
Acquise en 2025 par le fournisseur israélien Check Point Software Technologies, Lakera renforce désormais la stratégie du groupe en matière de sécurité de l’IA. La société zurichoise, spécialisée dans la protection des modèles d’intelligence artificielle, a annoncé, avec l’UK AI Security Institute, le lancement du Backbone Breaker Benchmark (b3), un cadre d’évaluation open source visant à tester la robustesse des grands modèles de langage (LLM) au sein des agents d’IA, selon un communiqué.
Le b3 introduit une approche appelé «threat snapshots» — des «instantanés de menace» —, qui consiste à isoler les moments critiques d’un agent — ceux où les vulnérabilités des modèles sont les plus susceptibles d’apparaître — afin de tester leur résistance face à des attaques réalistes, sans reproduire la totalité du flux de travail d’un agent. Cette méthode doit permettre aux développeurs et aux fournisseurs de modèles de mieux comprendre la solidité de leurs systèmes et d’améliorer leur posture de sécurité.
Selon le rapport technique publié sur arXiv, le Backbone Breaker Benchmark se compose de dix scénarios de test («threat snapshots»), chacun décliné en trois niveaux de difficulté (L1 à L3) pour mesurer la résistance des modèles à des attaques de complexité croissante. Les auteurs distinguent la sécurité, définie comme la capacité d’un modèle à résister à des attaques intentionnelles, de la sûreté, qui relève plutôt de la fiabilité ou du risque de contenu toxique.
Les premiers tests, menés sur 31 modèles de langage, montrent que les capacités de raisonnement avancées améliorent significativement la sécurité, tandis que la taille du modèle n’est pas corrélée à sa robustesse. Les modèles propriétaires obtiennent en moyenne de meilleurs scores que les modèles à poids ouverts, bien que ces derniers tendent à combler l’écart.
Une base issue du red teaming de Gandalf
Le benchmark s’appuie sur un ensemble de 19’433 attaques adversariales issues de Gandalf: Agent Breaker, un jeu de simulation développé par Lakera. Il évalue notamment la capacité des modèles à résister à des attaques telles que l’exfiltration de system prompts (texte d’instruction interne guidant le comportement d’un modèle), l’injection de code malveillant, la génération de liens de phishing, les dénis de service ou encore les appels non autorisés à des outils externes.
«Les threat snapshots nous permettent de révéler systématiquement des vulnérabilités restées invisibles dans les flux d’agents complexes», explique Mateo Rojas-Carulla, cofondateur et directeur scientifique de Lakera. «Nous voulons offrir aux développeurs et aux fournisseurs de modèles un moyen réaliste d’évaluer et d’améliorer leur sécurité».
Lakera précise que les versions publiques du jeu de données excluent les attaques les plus efficaces, afin d’éviter tout risque de mésusage et que les fournisseurs de modèles concernés ont été contactés avant publication.

Le Backbone Breaker Benchmark est disponible sous licence open source sur arXiv.