Filtrage des prompts et des contenus

La start-up suisse Lakera lance sa solution de protection des LLM

Lakera lance une solution fonctionnant via une API, qui protège les modèles d’IA générative contre les prompts malveillants, et travaille à filtrer les contenus générés par ces mêmes modèles. La jeune pousse zurichoise a levé 10 millions de dollars plus tôt dans l’année.

L'équipe de la start-up zurichoise Lakera, qui a levé 10 millions de dollars pour sa solution de protection des IA génératives.
L'équipe de la start-up zurichoise Lakera, qui a levé 10 millions de dollars pour sa solution de protection des IA génératives.

Fondée en 2021, la start-up zurichoise Lakera lance sa solution de sécurisation des grands modèles de langage (LLM) sur lesquels s’appuient les outils d’IA générative. Baptisée Lakera Guard, la solution protège notamment les LLM d’attaques de type prompt injection.

Filtrer les prompts malveillants

Dans ces attaques, un utilisateur manipule le modèle à l’aide d’instructions (prompts) savamment choisies ou, indirectement, via le téléchargement de fichiers contenant eux-mêmes de telles instructions. Ainsi par exemple, un prompt malveillant pourrait conduire le modèle à contourner les garde-fous mis en place par ses concepteurs. Ou un utilisateur malveillant pourrait élaborer un CV contenant des instructions pour que le modèle indique qu’il s’agit d’un excellent candidat, lorsqu’un recruteur lui demandera de résumer le document.

Déployée via une API et donc une simple ligne de code, la solution Lakera Guard se charge ainsi de vérifier les prompts avant qu’ils ne soient transmis au modèle. Pour ce filtrage, la jeune pousse s’appuie à la fois sur des bases de données publiques et sur les idées de prompts malveillants qu’elle collecte en mode crowdsourcing via Gandalf, un jeu éducatif en ligne invitant les utilisateurs à essayer de hacker un système LLM.

«Alors que les entreprises déploient rapidement leurs stacks d'IA générative, nous visons à être le premier choix pour tout ce qui concerne la sécurité dans l'ensemble de l'organisation", ajoute David Haber. "Des développeurs aux CISO, il est important que toutes les parties prenantes soient habilitées à intégrer l'IA sans les risques », explique David Haber, fondateur et CEO de la start-up.

gandalf

Le jeu éducatif Gandalf permet à Lakera de collecter des prompts malveillants pour sa base de données.

Filtrer les outputs des LLM

Lakera Guard permet ainsi de protéger simplement aussi bien les LLM publics, que les modèles déployés par les entreprises. Par exemple des instances personnalisées de modèles open source.

Outre cette protection des modèles face à des prompts malveillants, Lakera travaille également à protéger les utilisateurs des outputs des modèles. D’une part en filtrant les réponses au vocabulaire toxique ou à caractère sexuel, d’autre part en corrigeant certaines hallucinations générées par les LLM. Ainsi que l’explique David Haber à ICTjournal: «Lakera Guard couvre deux types d'hallucinations: les cas où les résultats du modèle contredisent les instructions initiales du système et les cas où les résultats du modèle sont incorrects d'un point de vue factuel par rapport aux connaissances de référence. Dans les deux cas, nos clients fournissent à Lakera le contexte dans lequel le modèle interagit et nous nous assurons que le modèle n'agit pas en dehors de ces limites. Nos fonctions d'hallucination sont en version bêta et nous les testons avec des entreprises sélectionnées ».

Côté business, Lakera compte déjà plusieurs clients, dont Cohere, l’un des fleurons du secteur des LLM, valorisé à plus de 2 milliards de dollars. Lakera elle-même a levé 10 millions de dollars plus tôt dans l’année dans un tour de financement mené par le fond suisse de capital risque Redalpine.

Webcode
Bc5b4hft