Open science

Ce «connectome» qui va interconnecter les données de recherche en Suisse

La fondation Switch veut développer une plateforme d'open science pour l'interconnexion des données de recherche en Suisse. Responsable du développement technologique du projet, Philippe Cudré-Mauroux (Exascale Infolab de l’Université de Fribourg) nous en dit plus.

Le Prof. Philippe Cudré-Mauroux est responsable de Exascale Infolab de l’Université de Fribourg.
Le Prof. Philippe Cudré-Mauroux est responsable de Exascale Infolab de l’Université de Fribourg.

Dans l’optique d'accélérer l'adoption de l'open science en Suisse, la fondation Switch souhaite créer une infrastructure à même de faciliter le partage des données de recherche, les rendre plus accessibles et réutilisables. Pour conceptualiser et déployer ce que la fondation nomme un «connectome de données de recherche», deux laboratoires (SWITCH Innovation Labs) ont été mis en place avec des partenaires des hautes écoles. Le premier est dirigé par l’Académie suisse des sciences techniques (SATW), qui travaille sur la traçabilité de la qualité des données de recherche. Pouvoir mesurer cette qualité de façon transparente étant une condition nécessaire au bon fonctionnement d’une plateforme d’interconnexion des données scientifiques.

Le second volet du projet, qui se focalise sur les technologies et outils au service de ce connectome, est mené par l’Exascale Infolab de l’Université de Fribourg. Son responsable, le Prof. Philippe Cudré-Mauroux, se confie sur les objectifs et les challenges du développement de cette plateforme d'open science.

A quels besoins cherche principalement à répondre le projet d’interconnexion de données scientifiques que vous supervisez?

Concrétiser la vision de l’open data devient notamment crucial pour créer des modèles de deep learning performant. Mais les chercheurs accèdent aujourd’hui difficilement aux données scientifiques, lesquelles sont stockées dans des dizaines de milliers d’entrepôts de données différents. Le projet de connectome de Switch vise à indexer et interconnecter les données, afin de s’assurer que tous les acteurs de la recherche en Suisse - chercheurs mais aussi les organismes de financement - trouvent les données dont ils ont besoin.

Allez-vous travailler aussi bien sur une nouvelle architecture de données que sur des outils logiciels?

Dans un premier temps, nos travaux consistent effectivement à modéliser l'architecture de données. Nous avons besoin de métadonnées et il est nécessaire de créer une ontologie pour définir les différents jeux de données. Nous sommes pour ce faire dans un contexte favorable car il existe déjà des standards de métadonnées. Dès 2020 nous allons réunir plusieurs acteurs pour définir un schéma de données à partir de ces standards. Deuxièmement, il s'agira de créer les outils logiciels pour permettre aux chercheurs de publier plus facilement leurs données. Nous développerons ensuite un serveur qui interconnecte les données disparates dans le but de proposer un moteur de recherche à la Google pour trouver toute sorte de jeux de données de recherche à travers une seule plateforme centralisée. L’idée est de développer une interface pour les utilisateurs mais aussi des API pour la mise en place de processus automatisés.

Quels sont les principaux challenges technologiques du projet?

Il y en a beaucoup. Je pense notamment à la problématique du ranking, donc du positionnement des résultats du moteur de recherche. Il conviendra de mettre au point des algorithmes capable de classer avec pertinence non pas des pages web mais des jeux de données. C’est un sacré défi qui pose des questions sur le modèle d’indexation le plus optimal. Doit-on indexer toutes les métadonnées ou une partie? Fait-il aussi indexer les données elles-mêmes, ce qui paraît compliqué au vu de leur diversité? Je pense qu’au final le plus gros challenge sera l’interconnexion des données. Avec des métadonnées plus ou moins hétérogènes et surtout des données très hétérogènes, comment va-ton pouvoir les lier? Les schémas de métadonnées standardisés simplifient certes la tâche, mais il faudra fatalement faire quelque part de l’intégration de données.

Avec son projet de «connectome de données de recherche», la fondation Switch souhaite aussi protéger le patrimoine national de recherche. (Source: Fondation Switch)

Tags
Webcode
DPF8_163936