Invité

Utiliser de bonnes données comme boussole

par Georges-Simon Ulrich, Directeur de l’Office fédéral de la statistique (OFS), Président de la Commission de statistique de l’ONU

Les données ne déploient tout leur potentiel que dans leur utilisation concrète. Lorsqu’elles sont exploitées intelligemment, elles créent une réelle valeur ajoutée pour la politique, l’économie, la recherche et la société. En nous aidant à nous orienter, elles affinent les décisions et stimulent l’innovation.

Des données de qualité ne suffisent pas. Leur potentiel ne se réalise que grâce à une utilisation responsable, par exemple pour améliorer la prise de décision, affiner les politiques publiques ou générer de nouvelles connaissances dans la recherche et la société. Une fois collectées, préparées et rendues accessibles, une étape importante est certes franchie. Mais la véritable valeur ajoutée apparaît seulement dans un second temps, lorsque les données alimentent des analyses, soutiennent les décisions ou servent de base à de nouvelles applications. Elles deviennent alors, dans de nombreux domaines de la vie, notre boussole.

De meilleures décisions grâce à une utilisation intelligente des données

Dans ce contexte, la statistique publique joue un rôle central. Elle a pour mission de fournir des informations fiables et adaptées aux besoins des utilisateurs sur les principaux domaines de la vie. Ces informations constituent une base essentielle pour la planification, la prise de décision politique et l’orientation de la société. Grâce aux progrès technologiques, les systèmes statistiques deviennent de plus en plus performants, agiles et orientés vers les besoins. Ils réagissent plus rapidement aux nouvelles problématiques et fournissent, notamment en période de crise, des informations pertinentes en temps utile.

L’expérience de la pandémie de Covid-19 a montré à quel point ces capacités sont déterminantes. Dès avril 2020, peu après le début de la crise, le suivi national de la mortalité («Momo») a été étendu à l’échelle régionale. Le modèle statistique a depuis permis de suivre en continu la surmortalité en Suisse et dans les cantons. L’Office fédéral de la statistique (OFS) a pour cela utilisé des données issues du registre de l’état civil, mettant ainsi en œuvre une réutilisation des données. Il a ainsi offert aux chercheurs, aux autorités et au public des repères actualisés.

Par ailleurs, les registres de données de base constituent dans de nombreux domaines un socle essentiel pour une réutilisation efficace des données. Ils fournissent des bases fiables, clairement attribuables et réutilisables à plusieurs reprises, notamment sur les personnes ou les entreprises.

Croiser et réutiliser les données

Le croisement de données issues de différentes sources permet de mettre en évidence des corrélations jusqu’alors invisibles. Ainsi, des données de santé peuvent être combinées avec des données environnementales ou de mobilité afin de mieux comprendre l’évolution des maladies. Un exemple: pour analyser les causes du cancer, il ne suffit pas d’examiner les données des personnes malades. Il faut également disposer de données représentatives concernant des personnes en bonne santé. L’OFS dispose à cet effet de données de base, notamment sur la population, l’emploi et les revenus. Ces données peuvent être utilisées secondairement, bien entendu de manière anonymisée et protégée. La réutilisation ­secondaire signifie que les données ne sont pas uniquement exploitées pour leur objectif initial. Grâce à cette approche, il devient possible de combiner les données, d’obtenir de nouvelles connaissances et d’informer de manière fondée les autorités et la population.

Nouvelles connaissances grâce à la science des données et à l’IA

Un autre levier de création de valeur réside dans l’utilisation de la science des données et de l’intelligence artificielle. Le centre de compétences en science des données de la Confédération (DSCC) soutient l’administration dans l’adoption et le développement de nouvelles méthodes.

À titre d’exemple, le projet «Apprentissage automatique Sécurité sociale» (ML_SoSi) a analysé un jeu de données anonymisé et interconnecté d’une manière inédite afin de mieux comprendre les effets du chômage en Suisse. Jusqu’à récemment, la statistique présentait une limite: elle permettait de mesurer le nombre de chômeurs et les retours à l’emploi, mais sans exploiter pleinement les données existantes. Or, en les reliant intelligemment, il devient possible d’identifier des schémas typiques: quelle proportion des chômeurs recourt ensuite à l’aide sociale? Combien se retirent durablement du marché du travail? Combien quittent la Suisse? Ces données existaient déjà, mais n’ont pu être analysées de cette manière que récemment.

Concernant l’intelligence artificielle, il est important de ne pas la considérer uniquement comme un outil de travail, mais aussi comme une «utilisatrice» des données. De nombreuses applications basées sur les données accèdent aujourd’hui aux bonnes informations lorsqu’on leur en facilite l’accès. Cela implique non seulement de fournir des données de haute qualité et cohérentes, mais aussi de les structurer et de les documenter de manière à ce qu’elles puissent être traitées efficacement par des systèmes d’IA. Cela requiert des formats standardisés, des métadonnées clairement définies ainsi qu’une documentation complète des processus de collecte et de traitement.

Innover grâce à la protection des données et à la collaboration

La création de valeur à partir des données ne relève pas uniquement de la technique: elle repose aussi sur une collaboration étroite entre les différents acteurs. À titre d’exemple, l’OFS donne déjà chaque année accès à des données individuelles à des chercheurs dans plus de 700 cas, sous contrat de protection des données, et réalise environ 100 mises en relation ciblées de données pour des analyses pertinentes. Les observations réalisées sur un groupe peuvent ainsi être croisées avec des données de population afin d’évaluer la représentativité des résultats.

Dans les mois et années à venir, l’OFS entend renforcer encore sa collaboration avec la recherche et d’autres utilisateurs. Un exemple d’importance nationale est Digisanté, le programme commun de l’Office fédéral de la santé publique (OFSP) et de l’OFS visant à promouvoir la transformation numérique du système de santé. Il comprend notamment le projet SpiGes, qui met en œuvre la réutilisation de données dans le domaine hospitalier stationnaire. Dans ce cadre, un Microdata Center est également en cours de développement pour permettre l’exploitation et le croisement sécurisés de microdonnées internes et externes.

Au cœur de ce dispositif, l’OFS met en place un «analytics workspace», un environnement virtuel doté d’outils d’analyse de données, dans lequel sont mises à disposition des données pseudonymisées. Les chercheurs y effectuent eux-mêmes les opérations de croisement et d’analyse, et les résultats y sont conservés. Seuls les résultats finaux sont exportés après validation. Chaque projet dispose d’un espace dédié, supprimé une fois les travaux terminés.

Par ailleurs, la plateforme «LOMAS» est utilisée pour la première fois dans le cadre de Digisanté. Elle permet aux utilisateurs autorisés d’analyser des données à distance sans accéder directement aux jeux de données sous-jacents. Cette approche, dite «eyes-off», empêche tout accès aux données brutes. Les algorithmes sont envoyés sur la plateforme, exécutés sur place, et les résultats sont préparés de manière à empêcher toute identification individuelle, notamment grâce à des techniques comme la «differential privacy», qui consiste à ajouter du bruit statistique.

Tout repose sur la confiance

Il est clair que les fournisseurs de données comme l’OFS opèrent dans un domaine sensible. Ils doivent garantir en permanence la protection des données et de la vie privée. Une utilisation responsable repose sur des règles claires, des processus transparents et des mécanismes techniques de protection. Lorsque ces conditions sont réunies, les possibilités de création de connaissances deviennent quasi illimitées, car de nombreuses données collectées dans le secteur public peuvent également servir à la recherche, à la planification ou à l’innovation.

En fin de compte, tout repose sur un choix de société: souhaitons-nous utiliser les données de manière consciente pour favoriser le progrès? Cette décision ne peut être positive que si elle s’appuie sur la confiance: confiance dans la qualité des données, dans les institutions qui les fournissent et dans les règles qui encadrent leur utilisation.

Si tel est le cas, les données deviennent bien plus qu’une ressource abstraite: elles se transforment en un instrument puissant pour mieux comprendre les enjeux, prendre des décisions éclairées et stimuler l’innovation de manière ­ciblée. Elles deviennent notre boussole.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi! 

Webcode
yuEscfuK