Protection des données

Les LLM peuvent désanonymiser des internautes à grande échelle

Une étude récente montre que des LLM peuvent identifier des personnes à partir de publications en ligne pourtant anonymes. En combinant raisonnement et recherche automatisée, ces systèmes parviennent à relier des comptes et à inférer des identités à grande échelle, soulevant de nouvelles questions en matière de protection de la vie privée.

(Source: TechTonic/stock.adobe.com)
(Source: TechTonic/stock.adobe.com)

Intitulée Large-Scale Online Deanonymization with LLMs, une récente étude montre que, à partir de quelques publications seulement, des LLM sont capables d’inférer des attributs personnels tels que le lieu de résidence, l’activité professionnelle ou les centres d’intérêt. Ces informations peuvent ensuite être utilisées pour rechercher des correspondances plausibles sur le web. Il ne s’agit pas d’une identification automatique garantie, mais d’un processus d’inférence probabiliste fondé sur l’agrégation d’indices publics.

Les auteurs rappellent que l’identification d’individus à partir d’un nombre limité d’attributs est connue de longue date, mais qu’elle restait jusqu’ici difficile à appliquer à grande échelle en raison du caractère non structuré des données et du recours à des investigations humaines. Les LLM changent la donne en rendant possible une structuration automatisée de ces informations, combinée à des capacités de raisonnement et de recherche.

Des expériences contrôlées sur plusieurs plateformes

Afin d’évaluer ces capacités sans désanonymiser directement des personnes n’ayant pas déjà rendu publiques certaines informations, plusieurs protocoles expérimentaux ont été mis en place. Le premier consiste à relier des comptes appartenant à une même personne sur différentes plateformes. Des comptes Hacker News publics, volontairement reliés à des profils LinkedIn, ont été anonymisés a posteriori puis soumis à des modèles chargés de retrouver la correspondance correcte parmi un grand nombre de candidats.

Un second protocole repose sur la division artificielle de comptes existants sur Reddit, selon une dimension temporelle ou communautaire. Dans ces scénarios, les LLM, combinant embeddings et raisonnement, surpassent nettement les méthodes traditionnelles fondées sur les métadonnées ou les schémas d’activité.

Des performances élevées malgré le passage à l’échelle

L’analyse montre que les performances se dégradent progressivement à mesure que la taille des ensembles de candidats augmente, mais qu’une précision élevée est maintenue même lorsque ceux-ci atteignent plusieurs dizaines de milliers de profils. Les auteurs estiment qu’avec davantage de ressources de calcul et l’amélioration continue des modèles, ces méthodes pourraient déjà s’appliquer à l’échelle de plateformes entières.

Enfin, l’approche a été testée sur un jeu de données réel composé d’entretiens anonymisés issus d’un programme de recherche d’Anthropic. Sur 125 entretiens, neuf personnes ont pu être identifiées sur la base d’une vérification manuelle, en l’absence de données de référence officielles.

L’étude explore également plusieurs pistes de mitigation. Les plateformes pourraient restreindre l’accès aux données et limiter les exports massifs. Côté fournisseurs de modèles, les mécanismes de refus et de surveillance d’usage montrent des limites, ces attaques pouvant être décomposées en tâches apparemment bénignes. Plus largement, les auteurs soulignent la nécessité de réduire la diffusion cumulative d’informations personnelles dans des espaces publics ou sous pseudonymes.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi! 

Tags
Webcode
jJyLcXaA