Techniques

Vers un écosystème complexe et interconnecté pour favoriser l’ouverture de la science des données

Quelle influence le paradigme numérique, couplé à la notion émergente de science ouverte a-t-il sur le partage des résultats de recherches académiques? Qu’en est-il des notions de reproductibilité et réutilisabilité de la recherche scientifique? Rapide tour d’horizon et zoom sur la situation en science des données.

Olivier Verscheure, Directeur Exécutif du Swiss Data Science Center (SDSC).
Olivier Verscheure, Directeur Exécutif du Swiss Data Science Center (SDSC).

Un monde hautement digitalisé à l’origine de la science ouverte

La notion de science ouverte (open science en anglais) est devenue le sujet de nombreux débats et articles, et ce depuis quelques années maintenant.

 

Celle-ci a pour but de partager des hypothèses, protocoles et résultats et de les soumettre à des analyses critiques visant à leur amélioration. Elle promeut une démarche scientifique recouvrant des pratiques fondées sur le recours à internet, à des outils collaboratifs ou au web «social».

 

L’image du savant isolé, poursuivant ses travaux dans son atelier ou laboratoire avant de publier un article divulguant des conclusions souvent difficilement vérifiables a donc aujourd’hui définitivement rejoint les livres d’histoires.

 

La digitalisation de notre société a en effet entraîné une évolution notable de la manière de communiquer des résultats de recherches, qu’elles soient réalisées dans le cadre académique ou industriel.

 

La science est en effet passée de la publication de conclusions avec ses détails (sur des supports papiers, puis électroniques), à la publication de données associées, puis à du code et prochainement à un véritable «objet» interconnecté.

 

Des innovations à venir

Pour de nombreux chercheurs, l’ouverture de la science implique de plus l’idée que chacun devrait être en mesure de valider une expérience publiée, et que donc la publication scientifique doit et va évoluer vers un écosystème complexe interconnecté.

 

Cette étape nécessite le développement de solutions numériques et d’outils informatiques novateurs. La science des données (data science pour les anglophones) n’échappe pas à cette mouvance, et a même tendance à l’accélérer. Par exemple, la sensibilité de certaines données issues de domaines tels que la médecine ou la finance implique des besoins de contrôle d’accès, protection et traçabilité accrus, uniquement possibles lorsque le stockage des données, leur analyse et interprétation font partie du même environnement d’exécution.

 

Un tel environnement permettrait également la validation des conclusions d’une recherche en substituant un jeu de données à un autre. On pourrait aussi imaginer remplacer une partie du code de recherche afin de comparer des résultats et in fine valider, infirmer ou améliorer les conclusions d’autres scientifiques.

 

Cette démarche ouverte et collaborative implique ainsi de pouvoir relancer les expériences faites par d’autres dans un système assurant une traçabilité optimale, ce qui est aujourd’hui encore difficilement réalisable.

 

Les développements à venir devraient offrir de quoi occuper les data scientists pour quelques années!

 

Swiss Data Science Center (SDSC)

Le Swiss Data Science Center (SDSC) est une entreprise commune de l’EPFL et de l’EPFZ. La mission du SDSC est d’accélérer l’adoption de la science des données et les techniques d’apprentissage-machine dans le cadre des disciplines académiques des EPF, et plus largement de la communauté académique suisse et du secteur industriel.

www.datascience.ch

Webcode
DPF8_33717