5.3.2 Diffuser les données en Open Research Data
La problématique autour de la diffusion des données est identique à celle des publications scientifiques :
- ouverture, mise à disposition,
- signalement,
- archivage.
De la même manière que l'Open Access doit favoriser la diffusion des publications en libre accès, la démarche d'Open Research Data vise à rendre accessible au plus grand nombre d'utilisateurs les données de recherche générées. Ces deux approches sont complémentaires pour la communauté scientifique.
Les enjeux de l'ouverture des données de la recherche sont multiples :
- rentabiliser la recherche par la réutilisation des données,
- garantir la qualité scientifique d'une hypothèse en la justifiant par les données qui en sont à la source (replicabilité),
- rendre plus difficile la fraude.
On appelle jeu de données scientifiques :
- « Des informations qualitatives ou quantitatives [...] qui sont factuelles. Ces données peuvent être brutes ou primaires (directement issues d'une mesure), ou dérivées de données primaires, mais ne sont pas encore le produit d'analyse ou d'interprétation autres que de calculs ». Définition de la Royal Society de Londres. Ces données sont généralement gérées par des grandes infrastructures,
- « Des enregistrements factuels (textes, chiffres, images, sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de recherche. » Définition de l'OCDE (2007). Ces données suivent le même processus que les publications, avec les problématiques similaires, même si plusieurs éléments diffèrent fondamentalement entre publications et données : le cadre juridique des données est actuellement plus flou, les éditeurs scientifiques sont moins présents sur ce domaine, la dépendance disciplinaire est plus forte et l'hétérogénéité des objets à gérer est plus grande et plus conséquente.
En effet, deux différents types de données existent :
- données accompagnant la publication, ou supplementary data.
- données en instance de traitement (dans les réservoirs de grands organismes)
Les données de la recherche ne sont pas les enregistrements « autour » du travail de recherche (carnets de terrain, analyses préliminaires, les projets et les rapports de recherche...).
Le cycle de vie des données de la recherche varie selon les disciplines. Dans certains cas, les données primaires auront de la valeur, dans d'autres seules les données intermédiaires devront être conservées de façon pérenne. Les chercheurs eux-mêmes ont la responsabilité de décider du cycle de vie de leurs données, défini dans le plan de gestion des données (data management plan). Ils peuvent définir la durée d'embargo, en lien avec les règles fixées par leurs agences de financement, leurs éditeurs, etc. Les délais varient ainsi, selon les pays et les disciplines.
Les données de la recherche sont donc :
- produites dans un processus de recherche : générées pour valider une hypothèse, souvent produites en masse, souvent agrégées et coopératives (interdisciplinarité),
- potentiellement réutilisables,
- éventuellement financées en totalité ou partiellement sur fonds publics
- numériques.
Ces jeux de données sont stockés dans des « réservoirs de données » de deux types :
- entrepôts publics
- entrepôts dépendants des éditeurs
Et :
- entrepôts internationaux, disciplinaires le plus souvent,
- entrepôts nationaux,
- entrepôts locaux ou régionaux. Il manque actuellement d'entrepôts de ce type.
Objectif
Partager avec la communauté scientifique les jeux de données scientifiques utilisés ou produits dans le cadre d'un projet de recherche.
Périmètre
Le processus présenté ci-dessous est le processus applicable pour tous projets financés dans le cadre d'appels à projet européens. Ce processus constitue une cible pouvant être adaptée/allégée en fonction des caractéristiques du projet.
Description du processus
En entrée
- Décision liée au règlement de l'appel à projet
- Volonté de la direction de projet de déposer en open Data
En sortie
- Jeux de données déposées.
Synthèse descriptive
Objets métiers
Plan de gestion de données (DMP)
L'Open Research Data au niveau de la stratégie de recherche européenne
Au-delà de la démarche Open Access, la Commission a commencé, en outre, à mener des expériences en matière de libre accès aux données recueillies au cours de travaux de recherche (Open data) financés par des fonds publics (par exemple les résultats d'expériences sous forme numérique), en tenant compte des questions légitimes liées aux intérêts commerciaux du bénéficiaire des fonds ou au respect de la vie privée.
L'Open Data est un des volets de la stratégie d'Open Science de la Commission Européenne, comme illustré par le lancement de l'Open Science Policy Platform, avec 8 groupes de travail, dont un est dédié aux FAIR Open Data (Findable, Accessible, Interoperable, Re-usable).
Par ailleurs dans un souci de lever les barrières à la circulation et au partage des données de recherche, la Commission européenne soutient à travers le projet RDA Europe, la participation de la recherche européenne à l'initiative internationale « Research Data Alliance ». Dans une approche très participative bottom-up, RDA soutient de nombreux groupes de travail sur tous les sujets traitant des données de recherche : signalement, préservation, identification, traitement, sont abordés sous des angles thématiques ou génériques, fournissant des recommandations, des guides bonnes pratiques, des standards, etc. ;