EPFL-Mobilière

Le big data des assurances pour compléter les statistiques publiques

Des chercheurs de l’EPFL ont mis au point une méthode de big data exploitant les données anonymisées de plus d’un million d'assurés de La Mobilière. Ils sont ainsi parvenus à identifier des variables utiles pour prédire certains indicateurs socio-économiques dans 170 villes suisses.

(Source: Pavlo Vakhrushev / Fotolia.com)
(Source: Pavlo Vakhrushev / Fotolia.com)

Le big data jette des perspectives intéressantes pour fournir des indicateurs socio-économiques aux statisticiens et aux autorités. Pour explorer concrètement ces possibilités, des chercheurs du Laboratoire des relations humaines-environnementales dans les systèmes urbains (HERUS) de l’EPFL ont puisé dans les données anonymisées de clients de l’assureur La Mobilière. «L'idée était de voir s'il est possible d'utiliser ces informations pour prédire certains facteurs socio-économiques des villes, qui pourraient décrire la qualité de l'espace et de l'environnement urbains. L’avantage est que ces données sont peu coûteuses si l'entreprise est disposée à nous les fournir, car elles existent déjà, et il est possible d’effectuer les enquêtes chaque année sans frais supplémentaires», explique Emanuele Massaro, l’un des auteurs de l’étude publiée dans PLOS ONE.

600’000 profils anonymes

Les chercheurs ont exploité des techniques de data mining sur 1’341’328 clients anonymisés et extrait les données démographiques (âge, sexe, code postal, profession, état civil,...), ainsi que celles liées au logement et aux voitures des assurés. Ces données ont été agrégées à l’échelle des 170 municipalités suisses les plus peuplées, fournissant finalement près de 600’000 profils identifiés par un code unique. Cet ensemble de données a permis de créer plus de 30 variables, à partir desquelles celles correspondant le mieux à chaque indicateur socio-économique ont été sélectionnées. De quoi élaborer un modèle de régression spatiale permettant de prédire précisément douze variables correspondant à six catégories: population, transport, travail, espace et territoire, logement, et économie. « Bien sûr, nos prédictions ne peuvent pas remplacer les recensements, mais donnent des indicateurs annuels. Nous voulons aussi montrer que ces bases de données contiennent beaucoup d'informations pertinentes sur le plan social, au-delà du marketing et des études de marché, et donc que les entreprises devraient davantage collaborer avec les chercheurs », précise Emanuele Massaro.

Données incomplètes et difficiles d’accès

Le modèle statistique développé a toutefois des limitations. Notamment car les données des assurances sont incomplètes sur le plan démographique, les moins de 18 ans n'étant pas pris en compte. L’étude souligne en outre les questions de protection des données et la difficulté à pouvoir disposer de ce type de données. «Les données propriétaires sont généralement exploitées pour des avantages commerciaux et le profit au sein de l'organisation, et ne sont pas accessibles à l'ensemble de la communauté scientifique».

Reste que la méthode mise au point pourrait compléter celles employées par les services publics de statistique. Le communiqué de l’EPFL précise que l’Office fédéral de la statistique (OFS) s’intéresse au big data pour créer des scénarios prédictifs utiles à la société. Pour rappel, l’OFS vient de se réorganiser pour intégrer une division dédiée à la gestion nationale des données, ainsi qu’un nouveau centre de compétence en science des données.

Tags
Webcode
DPF8_210003