5.3.2 Diffuser les données en Open Research Data

De cadre_de_coherence
Aller à : navigation, rechercher

La problématique autour de la diffusion des données est identique à celle des publications scientifiques :

  • ouverture, mise à disposition,
  • signalement,
  • archivage.

De la même manière que l'Open Access doit favoriser la diffusion des publications en libre accès, la démarche d'Open Research Data vise à rendre accessible au plus grand nombre d'utilisateurs les données de recherche générées. Ces deux approches sont complémentaires pour la communauté scientifique.

Les enjeux de l'ouverture des données de la recherche sont multiples :

  • rentabiliser la recherche par la réutilisation des données,
  • garantir la qualité scientifique d'une hypothèse en la justifiant par les données qui en sont à la source (replicabilité),
  • rendre plus difficile la fraude.

On appelle jeu de données scientifiques :

  • « Des informations qualitatives ou quantitatives [...] qui sont factuelles. Ces données peuvent être brutes ou primaires (directement issues d'une mesure), ou dérivées de données primaires, mais ne sont pas encore le produit d'analyse ou d'interprétation autres que de calculs ». Définition de la Royal Society de Londres. Ces données sont généralement gérées par des grandes infrastructures,
  • « Des enregistrements factuels (textes, chiffres, images, sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de recherche. » Définition de l'OCDE (2007). Ces données suivent le même processus que les publications, avec les problématiques similaires, même si plusieurs éléments diffèrent fondamentalement entre publications et données : le cadre juridique des données est actuellement plus flou, les éditeurs scientifiques sont moins présents sur ce domaine, la dépendance disciplinaire est plus forte et l'hétérogénéité des objets à gérer est plus grande et plus conséquente.

En effet, deux différents types de données existent :

  • données accompagnant la publication, ou supplementary data.
  • données en instance de traitement (dans les réservoirs de grands organismes)

Les données de la recherche ne sont pas les enregistrements « autour » du travail de recherche (carnets de terrain, analyses préliminaires, les projets et les rapports de recherche...).

Le cycle de vie des données de la recherche varie selon les disciplines. Dans certains cas, les données primaires auront de la valeur, dans d'autres seules les données intermédiaires devront être conservées de façon pérenne. Les chercheurs eux-mêmes ont la responsabilité de décider du cycle de vie de leurs données, défini dans le plan de gestion des données (data management plan). Ils peuvent définir la durée d'embargo, en lien avec les règles fixées par leurs agences de financement, leurs éditeurs, etc. Les délais varient ainsi, selon les pays et les disciplines.

Les données de la recherche sont donc :

  • produites dans un processus de recherche : générées pour valider une hypothèse, souvent produites en masse, souvent agrégées et coopératives (interdisciplinarité),
  • potentiellement réutilisables,
  • éventuellement financées en totalité ou partiellement sur fonds publics
  • numériques.

Ces jeux de données sont stockés dans des « réservoirs de données » de deux types :

  • entrepôts publics
  • entrepôts dépendants des éditeurs

Et :

  • entrepôts internationaux, disciplinaires le plus souvent,
  • entrepôts nationaux,
  • entrepôts locaux ou régionaux. Il manque actuellement d'entrepôts de ce type.


Objectif

Partager avec la communauté scientifique les jeux de données scientifiques utilisés ou produits dans le cadre d'un projet de recherche.

Périmètre

Le processus présenté ci-dessous est le processus applicable pour tous projets financés dans le cadre d'appels à projet européens. Ce processus constitue une cible pouvant être adaptée/allégée en fonction des caractéristiques du projet.

Description du processus

En entrée

  • Décision liée au règlement de l'appel à projet
  • Volonté de la direction de projet de déposer en open Data

En sortie

  • Jeux de données déposées.

Synthèse descriptive

Etapes Acteurs Période

a) Formaliser un Plan de gestion de données (DMP)

  • Initié en début de projet
  • Révisé en cours de projet
  • Finalisé en cours de projet

b) Produire la section du DMP traitant des informations sur le projet (Section 1)

Direction du projet (chercheurs) En phase de projet

c) Produire la section du DMP traitant de la responsabilité des données (Section 2)

Direction du projet (chercheurs

d) Produire la section du DMP ressources nécessaires à la mise en œuvre du DMP (Section 3)

Direction du projet (chercheurs

e) Produire la section du DMP traitant de la description des données (Section 4.1)

Direction du projet (chercheurs A l'issue du projet

f) Produire la section du DMP traitant des modalités (stockage, sécurité, accès) (Section 4.2)

Services informatiques A l'issue du projet

g) Produire la section du DMP traitant des métadonnées en s'appuyant sur les standards propres à la discipline scientifique concernée (Section 4.3)

Référents Informations scientifiques et techniques
PersonnelAgent employé par l'établissement (rémunéré ou non), l'établissement pouvant être son employeur principal ou non, et pour laquelle l'établissement gère une carrière ou un contrat. de documentation
A l'issue du projet

h) Produire la section du DMP traitant de la dissémination des données : partage, diffusion, réutilisation des données (Section 4.4)

Référents Informations scientifiques et techniques A l'issue du projet

i) Produire la section du DMP traitant des conditions d'archivage : sélection, conservation des données (Section 5)

Référents Informations scientifiques et techniques A l'issue du projet

j) Dépôt et dissémination des données en conformité avec le DMP
Remarque : le choix de mettre ou non en Open Access des données doit être effectué en lien avec la stratégie de publication : embargo...

Selon DMP

k) Exploitation

Institution de recherche
Structure de recherche
Bases de données internationales

Objets métiers

Plan de gestion de données (DMP)

L'Open Research Data au niveau de la stratégie de recherche européenne

Au-delà de la démarche Open Access, la Commission a commencé, en outre, à mener des expériences en matière de libre accès aux données recueillies au cours de travaux de recherche (Open data) financés par des fonds publics (par exemple les résultats d'expériences sous forme numérique), en tenant compte des questions légitimes liées aux intérêts commerciaux du bénéficiaire des fonds ou au respect de la vie privée.

L'Open Data est un des volets de la stratégie d'Open Science de la Commission Européenne, comme illustré par le lancement de l'Open Science Policy Platform, avec 8 groupes de travail, dont un est dédié aux FAIR Open Data (Findable, Accessible, Interoperable, Re-usable).

Par ailleurs dans un souci de lever les barrières à la circulation et au partage des données de recherche, la Commission européenne soutient à travers le projet RDA Europe, la participation de la recherche européenne à l'initiative internationale « Research Data Alliance ». Dans une approche très participative bottom-up, RDA soutient de nombreux groupes de travail sur tous les sujets traitant des données de recherche : signalement, préservation, identification, traitement, sont abordés sous des angles thématiques ou génériques, fournissant des recommandations, des guides bonnes pratiques, des standards, etc. ;