En passe de devenir une exigence, l’ouverture et le partage des données scientifiques pourraient déboucher sur de nouvelles découvertes. Cela nécessite la mise en place d’outils appropriés, mais aussi une réflexion coordonnée au-delà des frontières.

Cet article a été publié dans le numéro 298 de CNRS le Journal.

La donnée est la pierre de touche de toute démarche scientifique. C’est elle qui permet d’établir de nouvelles découvertes. Elle qui tranche en faveur d’une hypothèse ou d’une autre. Elle encore qui défait des théories et permet d’en imaginer de nouvelles. Sans elle la science est aveugle. Mais aussi étonnant que cela puisse être, si une bonne part des articles scientifiques publiés chaque année prend la voie du libre accès, les données sur lesquelles reposent ces travaux demeurent étonnamment en retrait… Pire, dans certains cas, il est même impossible de remettre la main sur les données originales d’une publication. « La question du partage des données de recherche est bien moins avancée que celle des publications », concède Marin Dacos, en charge du Plan national pour la science ouverte lancé à l’été 2018 par le ministère français de l’Enseignement supérieur, de la Recherche et de l’Innovation. « Dans de nombreuses disciplines, il n’y a pas ou peu de culture de partage et de documentation des données afin d’en faciliter la réutilisation », regrette-t-il.



Certains domaines ont toutefois depuis longtemps montré la voie à suivre : « Dès 1977, les astronomes ont défini un format d’échange de données numériques permettant de partager les observations astronomiques ainsi que toutes les informations associées, comme le lieu, les conditions d’observation, le type d’instruments, etc. », rappelle la chercheuse Françoise Genova, qui a dirigé le Centre de données astronomiques de Strasbourg entre 1995 et 2015. Forte de cette expérience pionnière, elle accompagne à présent au niveau national, européen et international la réflexion sur l’ouverture des données.

Des données faciles à trouver, accessibles, interopérables et réutilisables

Cette réflexion se déroule dans un contexte international qui a fortement évolué ces dernières années. De grands organismes publics de recherche comme la National Science Foundation aux États-Unis, ou le Conseil européen de la recherche, souhaitent en effet que les données produites par les programmes scientifiques qu’ils financent soient désormais accessibles en accès ouvert – « mais fermé quand c’est nécessaire », nuance Alain Schuhl, directeur général délégué à la science du CNRS, en évoquant par exemple le cas d’un dépôt de brevet associé aux données.

Pour guider au mieux les chercheurs dans cette voie, cette volonté d’ouverture s’accompagne d’un ensemble de recommandations. Elles se résument dans un nouveau concept, à l’allure d’un slogan : Fair, pour « Facile à trouver, Accessible, Interopérable et Réutilisable ». Si à l’ère d’Internet et des moteurs de recherche, les deux premiers critères – facile à trouver, accessible – semblent peu poser de difficultés techniques, les deux derniers manquent encore à ce jour de solutions universelles : « La diversité des données scientifiques et les différences de pratique exigent d’aborder le problème discipline par discipline », souligne, réaliste, Françoise Genova.

Si certaines disciplines scientifiques comme l’astronomie, la cristallographie ou la génomique sont déjà avancées sur ces points, la mise en place de standards internationaux est encore un vaste chantier dans de nombreux domaines. L’interopérabilité et la réutilisabilité des données exigent en effet qu’elles soient accompagnées d’un ensemble de descriptions permettant de les interpréter correctement et de les utiliser conjointement. Une mesure seule ne dit rien en elle-même si l’on ignore les conditions dans lesquelles elle a été obtenue (dire uniquement qu’il fait 10 °C rend cette donnée isolée inexploitable. En revanche, dire que ce matin 12 novembre 2019 il fait 10 °C selon un type de thermomètre bien précis et que la mesure a été réalisée en plein Paris, donne tout son sens à cette mesure qui peut alors être intégrée à d’autres relevés de températures).

Enfin, pour être facilement réutilisables, comme l’exige le dernier critère, ces données et leurs descriptions détaillées doivent de surcroît être disponibles dans un format standard. Autrement dit, inscrites dans un document lisible par tout un chacun – à l’image des formats internationaux permettant d’échanger via Internet de la musique ou des vidéos. « Si certaines disciplines scientifiques comme l’astronomie, la cristallographie ou la génomique sont déjà avancées sur ces points, la mise en place de standards internationaux est encore un vaste chantier dans de nombreux domaines », analyse Françoise Genova.

Pour épauler les scientifiques dans cette voie, un organisme international a vu le jour : la RDA (pour Research Data Alliance). Elle compte à présent 8 800 membres répartis dans 137 pays. « Elle offre un cadre de discussion et de partage des savoir-faire entre les communautés scientifiques du monde entier », se réjouit-elle. À noter qu’en France, la plateforme Opidor (Outils et services pour optimiser le partage et l’interopérabilité des données de la recherche), développée au CNRS par l’Institut de l’information scientifique et technique, avait depuis quelques années anticipé cette évolution. Elle offre dès à présent plusieurs outils afin d’accompagner les scientifiques qui souhaitent bâtir un plan de gestion de données conforme aux recommandations Fair : « Ce plan de gestion de données est d’ailleurs depuis 2019 exigé par l’Agence nationale de la recherche pour toute demande de financements », souligne Françoise Genova.

Une réflexion à tous les échelons

En plus des questions épineuses sur la forme que doit prendre ce partage, la question des ressources physiques stockant ces données demeure entière. Qui aura la charge d’héberger physiquement et de pérenniser l’accès à ces masses considérables de données ? « C’est une réflexion qu’il faut mener à tous les échelons, régionaux, nationaux et internationaux, et de concert avec les différents organismes de recherche », souligne Alain Schuhl.



La possibilité de rassembler de vastes ensembles de données issus de différents horizons pourrait permettre d’extraire de nouvelles connaissances grâce aux logiciels de fouille de données. Au-delà de ces défis techniques, « l’évaluation des chercheurs demeure un des obstacles à l’adhésion à ces bonnes pratiques, pointe François Genova. Les gens qui s’impliquent dans ces problématiques passent de fait moins de temps à mener leurs propres recherches. Ils prennent davantage de risques pour leur carrière. La mobilisation des organismes de recherche sur ce point est essentielle. » C’est en tout cas le souhait affiché par le Plan national pour la science ouverte : encourager et promouvoir ces pratiques chez tous les acteurs de la recherche publique en France. L’enjeu dépasse d’ailleurs la seule question de principe d’ouverture des données.

C’est aussi toute une nouvelle branche prometteuse de la science qui est en train d’émerger dans le sillage des données ouvertes. « La possibilité de rassembler de vastes ensembles de données issus de différents horizons pourrait permettre d’extraire de nouvelles connaissances grâce aux logiciels de fouille de données », anticipe Alain Schuhl.

Le principe des données ouvertes n’est donc pas qu’une simple question de partage. C’est aussi la promesse d’ouvrir de nouveaux horizons à la science. ♦