Les bonnes données ne tombent pas du ciel
Lorsque nous analysons, relions ou utilisons des données pour créer de nouveaux produits de données et applications, cela génère de la valeur et de nouvelles connaissances. Mais en amont, les données doivent être générées de manière appropriée. Un bon input constitue le point de départ de toute utilisation des données: la qualité commence à la source.
Les données sont aujourd’hui partout, mais elles ne se créent pas toutes seules. Elles proviennent d’observations, de mesures, d’enquêtes ou de processus administratifs – et portent toujours la marque de leur origine. Celui qui collecte les données décide des questions posées, de la méthode et du moment de la collecte. Ces décisions influencent dès le départ les conclusions possibles et déterminent si les données pourront être réutilisées à d’autres fins, c’est-à-dire si elles sont adaptées à une utilisation multiple. C’est pourquoi la première étape dans le monde des données est décisive: l’input.
Beaucoup de données sont inutilisables
Dans un monde numérisé, la tentation est grande de ne penser qu’à ses propres besoins lors de la collecte de données. Mais c’est une vision à court terme. En effet, la véritable valeur des données réside dans le fait qu’elles peuvent souvent être utilisées au-delà de leur objectif initial. Pour cela, il faut des standards et des règles. En Suisse, l’OFS a pour mandat de coordonner ce travail entre les différentes autorités fédérales: l’Ordonnance sur la numérisation stipule que l’OFS doit développer les instruments permettant d’harmoniser les données. Parmi ses partenaires clés figurent la Chancellerie fédérale (secteur TNI) ainsi que l’Administration numérique Suisse, une organisation de collaboration entre la Confédération et les cantons. L’un de leurs objectifs communs: assurer que des données ayant la même signification soient décrites de manière identique. Cette harmonisation «à la source» est essentielle: si tout le monde utilise les mêmes termes, formats et classifications, les données peuvent être plus facilement combinées et utilisées à d'autres fins, par exemple dans la planification et la recherche, dans le respect bien sûr de la protection des données.
C’est le noyau du programme de gestion nationale des données (NaDB), lancé par le Conseil fédéral en 2019. Il vise à permettre la réutilisation multiple des données au sein de l’administration fédérale et à simplifier les processus. L’un des objectifs est d’éviter les doublons dans l’administration. Un autre est de soulager la population, par exemple dans les enquêtes statistiques ou les interactions avec les autorités. Selon le principe du «Once Only», les données doivent être collectées une seule fois mais pouvoir être utilisées plusieurs fois.
Les bases doivent être FAIR
Pour que cela fonctionne, les données doivent être FAIR, c’est-à-dire findable (faciles à trouver), accessible (accessibles), interoperable (compatibles entre elles) et reusable (réutilisables). Le premier principe signifie qu’on peut retrouver facilement les données grâce à des identifiants uniques et à des métadonnées. L’accessibilité garantit que les données sont disponibles selon des conditions claires. L’interopérabilité assure que des données provenant de différentes sources peuvent être combinées sur les plans juridique, organisationnel, technique et sémantique: en d’autres termes, qu’on a le droit et la capacité de les réunir. La réutilisabilité implique que les données sont suffisamment documentées pour rester exploitables ultérieurement pour de nouvelles questions. En outre, on se réfère de plus en plus au principe élargi FAIR2, qui exige également des données fiables (trustworthy) et traçables (traceable). Tout cela n’est possible que si les données sont, dès le départ, décrites de manière uniforme, bien documentées et lisibles par machine.
Bien sûr, pour que les données soient interopérables, il faut des références communes. Les données de base et les registres, tels que le numéro d'identification des entreprises (IDE), constituent cette base. Ils garantissent que les personnes, les entreprises ou les lieux sont clairement identifiés dans les différents systèmes de données. L'OFS gère ou coordonne des registres centraux de ce type et veille à leur maintenance et à leur documentation uniformes.
Ne pas oublier la notice d’accompagnement
Répondre à toutes ces exigences est un défi de taille. En effet, comme mentionné précédemment, les données ne sont jamais neutres: chaque collecte répond à un objectif et suit une méthode spécifiques. Ces facteurs déterminent les informations qui sont incluses et celles qui manquent. Les personnes qui collectent des données doivent s'assurer que les utilisateurs ultérieurs pourront les interpréter correctement afin d'éviter les malentendus et les interprétations erronées.
C'est là que les métadonnées entrent en jeu: elles décrivent l'origine, la méthode de collecte et les limites d'un ensemble de données. Sans elles, les données sont difficiles à classer, ce qui augmente le risque de conclusions erronées. Prenons l'exemple des données sur les revenus: sans métadonnées, vous ne savez pas s'il s'agit d'un revenu brut, net ou imposable. Avec de bonnes métadonnées, idéalement standardisées, vous savez exactement quelles définitions et catégories ont été utilisées. Un peu comme la liste des ingrédients sur un emballage alimentaire.
Suivi et accompagnement
En tant que «Data Steward» de la Suisse, l’OFS coordonne la gestion commune des données à l’échelle nationale. Cela signifie qu’il veille à ce que les données répondent, dès leur création, aux exigences nécessaires pour divers usages futurs. Cela inclut également la responsabilité d’un usage éthique, conforme au droit et transparent des données. En résumé: il s’agit d’assurer une gestion responsable des données tout au long de leur cycle de vie.
À cela s'ajoute la question de la qualité. La qualité ne signifie pas perfection, mais adéquation à différents usages. Elle englobe des dimensions telles que l'exactitude, l'exhaustivité, la cohérence, l'actualité et la disponibilité. Dès la création des données, il faut vérifier si les données générées répondent à ces exigences.
Qui contrôle?
Dans tous ces efforts en faveur de bonnes données, un point essentiel ne doit pas être oublié: les données appartiennent à des personnes, à des entreprises ou à des institutions. La Suisse accorde une grande importance à la souveraineté des données et à l’autodétermination numérique, c’est-à-dire au droit de garder le contrôle de ses propres données. Parallèlement, il existe des bases légales qui autorisent certaines exceptions dans l’intérêt public. Ainsi, l’OFS peut utiliser des données personnelles à des fins statistiques, à condition de garantir la protection des données. Les données sont traitées de manière à exclure toute identification des individus – seule la connaissance statistique compte. Dit autrement, savoir qui est Bettina Zimmermann, où elle habite, combien elle gagne ou comment va sa santé n’intéresse pas la statistique. Ce qui compte, c’est de savoir combien de personnes comme Bettina Zimmermann existent, en quoi elles diffèrent et comment leurs conditions de vie évoluent au fil du temps. C’est la seule manière de saisir les évolutions sociétales et de permettre des décisions éclairées. Des décisions dont, dans l’idéal, Bettina Zimmermann profitera également.
De bonnes données pour l’ère de l’IA
À l’ère de l’IA générative, la qualité des données prend une nouvelle dimension. Les modèles d’IA apprennent à partir des données qu’on leur fournit. Si les données et leurs métadonnées ne sont ni trouvables, ni lisibles, ni claires pour la machine, les résultats produits refléteront exactement ces lacunes. Cela peut mener à des conclusions erronées ou à des informations trompeuses. Les systèmes d’IA agentique, actuellement testés dans les entreprises et les administrations, exigent un socle de données constamment accessible et bien décrit, sans quoi ils produiront des résultats contradictoires ou erronés. De bonnes données FAIR et observables constituent donc la meilleure barrière de sécurité contre les erreurs de l’IA. Seules des données de haute qualité permettent de développer des systèmes intelligents réellement utiles aux humains.
La monnaie de la réalité
Si l’IA risque de créer une réalité alternative en s’appuyant sur des données incorrectes ou manquantes, alors les bonnes données deviennent la «monnaie de la réalité». Elles instaurent confiance, stabilité et repères communs. L’OFS et ses partenaires veillent à ce que les données soient interopérables, transparentes, comparables et utilisées de manière éthique, afin que la Suisse puisse agir sur une base factuelle solide.
A l'avenir aussi, les données de qualité ne tomberont pas du ciel. C'est à nous qu’il appartient de veiller à ce que les données soient fiables et utilisables dès le départ.
L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi!