Big data

Frédéric Schütz, SIB: «On a souvent affaire à des données qui n’ont pas été collectées pour l’usage que l’on en fait»

| mise à jour
par Interview : Rodolphe Koller

L’essor du big data marque l’entrée des statistiques dans une foule de domaines de l’entreprise. Entretien avec Frédéric Schütz, statisticien au SIB Institut Suisse de Bioinformatique.

Frédéric Schütz est statisticien au SIB Institut Suisse de Bioinformatique. Il est également chargé de cours à l’Université de Lausanne.
Frédéric Schütz est statisticien au SIB Institut Suisse de Bioinformatique. Il est également chargé de cours à l’Université de Lausanne.

Quelle est votre définition du big data?

Il y a l’idée de combiner des informations de diverses sources, qui forcément ne sont ni homogènes, ni très structurées, et dont on peut extraire une certaine richesse. Ensuite, naturellement, il y a l’acceptation répandue qu’il s’agit de grandes quantités de données que l’on ne peut pas traiter par des méthodes habituelles. 

Quelle est votre pratique du big data en tant que statisticien dans le domaine de la bioinformatique?

Je suis spécialisé dans l’étude de données liées aux sciences de la vie et c’est quelque chose que l’on connaît depuis de nombreuses années, sans utiliser pour autant le terme de big data. Depuis cinq ans, on a par exemple des méthodes qui nous permettent de séquencer les génomes humains quotidiennement en combinant des milliards d’informations de manière très rapide. D’ailleurs de grands noms dans le domaine du big data viennent du monde des sciences de la vie ou de la physique.

Avec le big data, on dit souvent qu’il s’agit d’explorer les données pour faire émerger des questions, plutôt que de trouver des réponses. Que pensez-vous de ce renversement?

L’exploration et la visualisation des données sont au cœur de mon travail, notamment pour détecter des anomalies. Le problème c’est que l’esprit humain est ainsi fait qu’il est bien meilleur pour découvrir des patterns que pour déterminer si des corrélations ne sont que le fruit du hasard. De sorte que les données ne parlent pas de façon neutre mais plutôt comme quelqu’un qui serait interrogé dans un poste de police avec un spot dans les yeux. Il faut veiller à ne pas faire dire aux données plus qu’elles n’ont à dire. Une pratique courante en statistique pour éviter ce genre de problème consiste à scinder les données et à tester sur un second jeu de données les corrélations apparues dans un premier jeu. C’est quelque chose qui fait parfois défaut dans le domaine de la finance, où les stratégies élaborées à partir d’un historique ne sont pas testées sur de nouvelles données.

La vogue du big data sonne un peu comme un appel à toutes les entreprises à faire de la statistique. A quels autres biais faut-il prendre garde lorsque l’on traite des grands volumes de données?

Le premier risque concerne la qualité des données, comme le veut l’adage: «garbage in, garbage out». Les chiffres tendent à donner une impression d’objectivité, mais, dans le big data, on a souvent affaire à des données qui n’ont pas été collectées pour l’usage que l’on en fait. Si les données existent, c’est que quelqu’un a décidé de les collecter, pour certains motifs et avec une certaine méthode. A cet égard, les données judiciaires sont très intéressantes, parce que leur collecte est souvent davantage dictée par la quantité que par la qualité. Plus j’ai d’empreintes digitales, plus j’ai de profils ADN, plus j’ai de photos, plus j’aurai de chances d’identifier quelqu’un. Par contre, il n’y a aucune motivation à supprimer une donnée de cette base ou à chercher à l’améliorer. On préfère ne pas risquer de supprimer les données de quelqu’un qui un jour commettra peut-être un délit, quitte à ce que des personnes se voient empêchées de prendre l’avion parce qu’elles sont fichées, comme c’est le cas parfois aux Etats-Unis. Les coûts sont en quelque sorte externalisés si bien que ces listes ne cessent de grossir. Mais le problème de la collecte des données concerne aussi d’autres domaines. A l’instar de certaines études marketing, dont on ne sait si elles ont été retenues au détriment d’autres études aux résultats moins intéressants commercialement.

Lorsque l’on utilise le big data pour délivrer des résultats de recherche sur le web ou pour mieux cibler des promotions et des publicités, ce problème se pose moins…

Effectivement, et cela m’amène à la problématique des erreurs et à la question de leur traitement. On a beaucoup cité en exemple la chaîne de supermarchés américaine Target, qui avait identifié qu’une fille était enceinte avant ses propres parents et lui avait envoyé une offre promotionnelle de produits pour bébés. Dans les faits, il est relativement aisé pour un supermarché d’analyser l’historique d’achat des clientes ayant une carte de fidélité et d’identifier ce qu’elles achètent quelques mois avant d’avoir un enfant. Au moment d’utiliser ces informations pour faire un mailing, la chaîne a plutôt intérêt à cibler large, et à éliminer les faux négatifs. Si une femme enceinte ne reçoit pas l’offre, c’est peut-être une vente de perdue. Dans le cas contraire, on ne risque que le coût du mailing. Idem lorsque Facebook me suggère de nouveaux amis. Cette logique est donc sensée d’un point de vue économique. Elle est en revanche problématique dans le domaine de la sécurité, lorsque l’on élargit la liste des personnes interdites de vol pour ne pas risquer de manquer un terroriste. 

Qu’en est-il des corrélations? Y a-t-il là aussi des risques d’abus?

Lorsque l’on constate une corrélation, cela n’implique pas qu’il y ait causation. Ici aussi, on peut prendre l’exemple de Target et il serait intéressant de se pencher sur le lien effectif entre l’achat de tel ou tel produit et le fait d’être enceinte. L’analyse est souvent biaisée. Si l’on regarde les gens qui consomment de la cocaïne, on va peut-être constater que beaucoup d’entre eux ont commencé par fumer du cannabis, mais c’est insuffisant pour établir une causation. Peut-être le taux de personnes fumant du cannabis est-il le même chez les non-consommateurs de cocaïne. On peut aussi trouver que les cocaïnomanes ont commencé par boire du lait, sans qu’il n’y ait pour autant de lien de cause à effet.

Kommentare

« Plus