5.3.2 Diffuser les données en Open Research Data

De cadre_de_coherence
Révision de 16 janvier 2017 à 10:36 par Abrillard (discussion | contributions) (Synthèse descriptive)

Aller à : navigation, rechercher

La problématique autour de la diffusion des données est identique à celle des publications scientifiques :

  • ouverture, mise à disposition,
  • signalement,
  • archivage.

De la même manière que l'Open Access doit favoriser la diffusion des publications en libre accès, la démarche d'Open Research Data vise à rendre accessible au plus grand nombre d'utilisateurs les données de recherche générées. Ces deux approches sont complémentaires pour la communauté scientifique.

Les enjeux de l'ouverture des données de la recherche sont multiples :

  • rentabiliser la recherche par la réutilisation des données,
  • garantir la qualité scientifique d'une hypothèse en la justifiant par les données qui en sont à la source (replicabilité),
  • rendre plus difficile la fraude.

On appelle jeu de données scientifiques :

  • « Des informations qualitatives ou quantitatives [...] qui sont factuelles. Ces données peuvent être brutes ou primaires (directement issues d'une mesure), ou dérivées de données primaires, mais ne sont pas encore le produit d'analyse ou d'interprétation autres que de calculs ». Définition de la Royal Society de Londres. Ces données sont généralement gérées par des grandes infrastructures,
  • « Des enregistrements factuels (textes, chiffres, images, sons) qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de recherche. » Définition de l'OCDE (2007). Ces données suivent le même processus que les publications, avec les problématiques similaires, même si plusieurs éléments diffèrent fondamentalement entre publications et données : le cadre juridique des données est actuellement plus flou, les éditeurs scientifiques sont moins présents sur ce domaine, la dépendance disciplinaire est plus forte et l'hétérogénéité des objets à gérer est plus grande et plus conséquente.

En effet, deux différents types de données existent :

  • données accompagnant la publication, ou supplementary data.
  • données en instance de traitement (dans les réservoirs de grands organismes)

Les données de la recherche ne sont pas les enregistrements « autour » du travail de recherche (carnets de terrain, analyses préliminaires, les projets et les rapports de recherche...).

Le cycle de vie des données de la recherche varie selon les disciplines. Dans certains cas, les données primaires auront de la valeur, dans d'autres seules les données intermédiaires devront être conservées de façon pérenne. Les chercheurs eux-mêmes ont la responsabilité de décider du cycle de vie de leurs données, défini dans le plan de gestion des données (data management plan). Ils peuvent définir la durée d'embargo, en lien avec les règles fixées par leurs agences de financement, leurs éditeurs, etc. Les délais varient ainsi, selon les pays et les disciplines.

Les données de la recherche sont donc :

  • produites dans un processus de recherche : générées pour valider une hypothèse, souvent produites en masse, souvent agrégées et coopératives (interdisciplinarité),
  • potentiellement réutilisables,
  • éventuellement financées en totalité ou partiellement sur fonds publics
  • numériques.

Ces jeux de données sont stockés dans des « réservoirs de données » de deux types :

  • entrepôts publics
  • entrepôts dépendants des éditeurs

Et :

  • entrepôts internationaux, disciplinaires le plus souvent,
  • entrepôts nationaux,
  • entrepôts locaux ou régionaux. Il manque actuellement d'entrepôts de ce type.


Objectif

Partager avec la communauté scientifique les jeux de données scientifiques utilisés ou produits dans le cadre d'un projet de recherche.

Périmètre

Le processus présenté ci-dessous est le processus applicable pour tous projets financés dans le cadre d'appels à projet européens. Ce processus constitue une cible pouvant être adaptée/allégée en fonction des caractéristiques du projet.

Description du processus

En entrée

  • Décision liée au règlement de l'appel à projet
  • Volonté de la direction de projet de déposer en open Data

En sortie

  • Jeux de données déposées.

Synthèse descriptive

Etapes Acteurs Période

a) Formaliser un Plan de gestion de données (DMP)

  • Initié en début de projet
  • Révisé en cours de projet
  • Finalisé en cours de projet

b) Produire la section du DMP traitant des informations sur le projet (Section 1)

Direction du projet (chercheurs) En phase de projet

c) Produire la section du DMP traitant de la responsabilité des données (Section 2)

Direction du projet (chercheurs

d) Produire la section du DMP ressources nécessaires à la mise en œuvre du DMP (Section 3)

Direction du projet (chercheurs

e) Produire la section du DMP traitant de la description des données (Section 4.1)

Direction du projet (chercheurs A l'issue du projet

f) Produire la section du DMP traitant des modalités (stockage, sécurité, accès) (Section 4.2)

Services informatiques A l'issue du projet

g) Produire la section du DMP traitant des métadonnées en s'appuyant sur les standards propres à la discipline scientifique concernée (Section 4.3)

Référents Informations scientifiques et techniques
PersonnelAgent employé par l'établissement (rémunéré ou non), l'établissement pouvant être son employeur principal ou non, et pour laquelle l'établissement gère une carrière ou un contrat. de documentation
A l'issue du projet

h) Produire la section du DMP traitant de la dissémination des données : partage, diffusion, réutilisation des données (Section 4.4)

Référents Informations scientifiques et techniques A l'issue du projet

i) Produire la section du DMP traitant des conditions d'archivage : sélection, conservation des données (Section 5)

Référents Informations scientifiques et techniques A l'issue du projet

j) Dépôt et dissémination des données en conformité avec le DMP
Remarque : le choix de mettre ou non en Open Access des données doit être effectué en lien avec la stratégie de publication : embargo...

Selon DMP

k) Exploitation

Institution de recherche
Structure de recherche
Bases de données internationales

Objets métiers

Plan de gestion de données (DMP)

Le tableau ci-dessous présente les informations par section, structurant le DMP

Section 1 Projet (acronyme, identifiant)
Appel à projet
Réf. de la convention de financement
Titre du projet
Responsable scientifique du projet
Structure de recherche de rattachement
Section 2 Nom du responsable de la gestion des données au cours du projet de recherche
Propriété des données A qui appartiennent les données produites et/ou réutilisées ? Quels droits régissent les bases de données et leurs contenus ? Comment se répartit la propriété intellectuelle sur les données ? etc.
La propriété des données est fixée par l'accord de consortium définissant le rôle des partenaires du projet. La négociation des termes de l'accord en amont du projet et du DMP est essentielle, car elle conditionne en partie les modalités de partage et de dissémination ultérieures des données
Section 3 Matériel Estimer les espaces de stockage nécessaires au cours du projet et leur coût, ainsi que le coût de la plateforme d'archivage à l'issue du projet.
PersonnelAgent employé par l'établissement (rémunéré ou non), l'établissement pouvant être son employeur principal ou non, et pour laquelle l'établissement gère une carrière ou un contrat. Estimer le temps nécessaire à la gestion et la curation des données en ETP et le coût correspondant.
Formations
Montant financier Estimez le montant global de la mise en œuvre du DMP.
Section 4 Nombre de jeux de données Cette partie précise le nombre de jeux de données qui seront produits et/ou reçus dans le cadre du projet
Section 4.1 (par jeu de données) Identifiant et nom du jeu de données Information obligatoire
Nature des données Ce champ précise le type de données qui seront produites ou utilisées dans le cadre du projet : données d'enquête, échantillons, code logiciel, corpus de texte, photographies, etc.
Réutilisation de données existantes Ce champ précise si le projet s'appuie sur la réutilisation de données ou jeux de données déjà existants et éventuellement produits par d'autres équipes de recherche.
Méthode de production des données Ce champ vient préciser le processus de production ou d'élaboration des données utilisées : instrument de mesure, enquête, analyse, observation, compilation, simulation, etc. Indiquez s'il s'agit de données produites au cours du projet, de réutilisation de données préexistantes ou des deux. Indiquez les normes qualité utilisées le cas échéant.
Formats des données* (formats originels ou de conversion) Dans le cas où les données feraient l'objet de conversions, une simple mention du format d'origine est suffisante ; en revanche il est préférable de documenter à minima la correspondance (mapping) entre les formats. Une description détaillée des formats de conversion est obligatoire dans le contexte du DMP
Section 4.2 Support des données Papier
Numérique
Volumétrie prévisionnelle En mesure de stockage. Elle pourra être réévaluée au cours du projet.
Type d'hébergement Matériel et le lieu physique de stockage.
Risques ou menaces sur les données Risques susceptibles de menacer les exigences de confidentialité, de disponibilité et d'intégrité des données tout au long de la phase active du projet. Un référentiel de menaces est disponible dans la méthode EBIOS.
Garantie de confidentialité des données Précautions prises pour garantir la confidentialité des données au regard des éventuels risques détectés. Selon la norme ISO 7498-2 (ISO90), la confidentialité est la propriété d'une information qui n'est ni disponible ni divulguée aux personnes, entités ou processus non autorisés.
Dans le droit européen, tous les responsables de traitement ou sous-traitants doivent veiller à préserver la confidentialité des données
Garantie d'intégrité et de traçabilité Précautions prises pour garantir l'intégrité et la traçabilité des données au regard des éventuels risques détectés. Selon la norme ISO 7498-2 (ISO90), l'intégrité est la prévention d'une modification non autorisée de l'information. Préciser les outils et précautions mis en œuvre pour suivre la production et l'analyse des données au cours du projet.
Lecture des données La lecture des données nécessite-t-elle le recours à un logiciel ou un outil spécifique ?
Garantie de disponibilité des données La disponibilité est la propriété d'accessibilité au moment voulu des données et des fonctions par les utilisateurs autorisés
Gestion des accès De quelle manière les chercheurs partenaires du projet auront-ils accès aux données pendant la recherche
Echanges et partage Les données feront-elles l'objet d'échange ou de partage avec de tiers acteurs
Section 4.3 Standards et formats disciplinaires des métadonnées Certaines disciplines s'appuient sur des standards et des formats de métadonnées qui leur sont propres. Ils doivent être utilisés en priorité pour assurer l'interopérabilité des données entre les différents systèmes et les différents utilisateurs.
Mode de production et responsabilité des métadonnées Organisation dans la production des métadonnées
Règles de nommage des jeux de données Règles de nommage envisagées pour harmoniser le nom des jeux de données.
Section 4.4 Principe général de diffusion Règles de diffusion qui s'appliquent à la majorité des données produites dans le cadre du projet, selon les droits associés.
Type de licence Conditions de partage et de réutilisation des données diffusées dans le cadre du projet ainsi que la licence et les éventuelles contreparties économiques qui peuvent y être associées.
Potentiel de réutilisation Public cible envisagé (grand public, communauté scientifique, secteur privé, etc.) et perspectives d'application ou de développement à partir des données.
Existence de publications associées aux données O/N
(à renseigner à la fin du projet)
Dépôt et dissémination des données Existe-t-il une base de données disciplinaire en ligne dans laquelle ces données pourraient être déposées ?
Identification des jeux de données sensibles Ce champ répertorie les jeux de données susceptibles d'échapper au principe de diffusion : données scientifiques protégées ou à risque, données de gestion, données nominatives, données stratégiques
Justification du principe d'exception aux conditions générales de diffusion Ce champ détaille la nature du risque ou de la contrainte pesant sur les données susceptibles de justifier l'exception au principe de diffusion. Le risque peut être de nature variée : exposition de ressources rares (biodiversité, archéologie, etc.), risque industriel, respect de la vie privée, priorité d'exploitation, etc.
Ex. 1 : Données à caractère personnel.
Ex. 2 : Secret défense
Ex. 3 : Demande de brevet en cours.
Mesures de protection
Embargo L'embargo est une protection temporaire qui permet de remettre à une certaine date la libre diffusion et/ou la réutilisation des données. L'embargo ne nécessite pas d'autorisation autre que celle du propriétaire. Les conditions de secret ou de discrétion au cours d'une période d'embargo sont moindres qu'une mesure de confidentialité.
Section 5 Sort des données à l'issue du projet Devenir des données au terme de la phase active du projet et de la dissémination et valorisation des résultats.
Sélection des données Les données n'ont pas toutes vocations à être archivées sur le long terme, néanmoins le visa de l'archiviste est recommandé avant toute opération de destruction massive de données. Indiquez les jeux de données qui auront vocation à être conservés à moyen ou long terme en raison de leur valeur scientifique, juridique, ou patrimoniale.
Volume final des données
Durées de conservation préconisée Cette durée varie fortement. Elle peut aller de quelques mois à l'éternité. Les durées de conservation doivent prendre en compte les exigences légales et réglementaires existantes.
Plateforme d'archivage Sur quelle plateforme d'archivage pérenne ces données seront-elles archivées à long terme ? Les plateformes d'archivage électronique doivent être agréées par le Ministère de la Culture. Certaines universités disposent de conventions avec des plateformes.

L'Open Research Data au niveau de la stratégie de recherche européenne

Au-delà de la démarche Open Access, la Commission a commencé, en outre, à mener des expériences en matière de libre accès aux données recueillies au cours de travaux de recherche (Open data) financés par des fonds publics (par exemple les résultats d'expériences sous forme numérique), en tenant compte des questions légitimes liées aux intérêts commerciaux du bénéficiaire des fonds ou au respect de la vie privée.

L'Open Data est un des volets de la stratégie d'Open Science de la Commission Européenne, comme illustré par le lancement de l'Open Science Policy Platform, avec 8 groupes de travail, dont un est dédié aux FAIR Open Data (Findable, Accessible, Interoperable, Re-usable).

Par ailleurs dans un souci de lever les barrières à la circulation et au partage des données de recherche, la Commission européenne soutient à travers le projet RDA Europe, la participation de la recherche européenne à l'initiative internationale « Research Data Alliance ». Dans une approche très participative bottom-up, RDA soutient de nombreux groupes de travail sur tous les sujets traitant des données de recherche : signalement, préservation, identification, traitement, sont abordés sous des angles thématiques ou génériques, fournissant des recommandations, des guides bonnes pratiques, des standards, etc. ;