5.3.1.4.4 Exploitation de différents réservoirs et enrichissement


Objectif

Exploiter divers réservoirs de notices

Périmètre

Ce sous-processus concerne l'exploitation de différents réservoirs : collecte, formatages, homogénéisation, dé-doublonnage, enrichissements (ajout des identifiants RNSRCf. Répertoire National des Structures de Recherche.).

Description du processus

En entrée

  • Notice existante
  • Métadonnées associées, prenant en compte le format et le référentiel de la base.

En sortie

  • Notice enrichie

Synthèse descriptive

Etapes Acteurs Période

a) Import/moissonnage d'archives, catalogues de publication et autres sources
Il peut être, suivant les cas systématique et régulier, ou à la demande.

Plateforme de signalement

b) Dédoublonnage, remise en qualité, remise en cohérence avec les référentiels
Ce travail ne peut être effectué de manière totalement automatique aujourd'hui.

Plateforme de signalement

c) Enrichissement éventuel
Les notices peuvent être enrichies par croisement avec des référentiels structures et auteurs, référentiels métiers (listes de vocabulaires, thésaurus, référentiels) ou autres plateformes (GeoEthno, Pactols Rameau, LCSH, BNE, Gemet, Lexvo, GeoNames, etc.) permettant la recherche et l'accès aux données numériques et numérisées de la recherche en sciences humaines et sociales.

Plateforme de signalement

d) Valorisation des résultats
Le travail effectué peut être valorisé en mettant à disposition :

  • des outils de recherche (par facette, plein-texte),
  • le calcul de métriques,
  • des dispositifs d'alerte,
  • des données qualifiées :
    • notices,
    • référentiels (chercheurs, structures...) permettant d'être utilisées comme pivot,
  • des données permettant d'être exploitées pour générer par exemple :
    • le CV d'un chercheur, la présentation de l'activité d'une structure de recherche,
    • le détail de l'activité d'un chercheur ou d'une structure de recherche.
Plateforme de signalement

De nombreux formats existent pour effectuer ce moissonnage et ce transfert de notices :

Format des notices (métadonnées)

Dublin Core Le Dublin Core est un schéma de métadonnées. Il comprend officiellement 15 éléments de description formels (titre, créateur, éditeur), thématiques (sujet, description, langue...) et relatifs à la propriété intellectuelle.
MARC Le format MARC (MAchine-Readable Cataloging) est un format d'échange de données bibliographiques.
KBART Le format KBART (Knowledge Bases And Related Tools) est une recommandation définie par le NISO (National Information Standards Organization)
KBART préconise un format dans lequel les éditeurs pourront décrire puis mettre à disposition les métadonnées nécessaires à la gestion des accès aux ressources. Elle a avant tout été conçue pour les métadonnées de périodiques, mais une seconde version a permis de l'élargir aux livres électroniques.
RDF Le RDF (Resource Description Framework) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions.
Ce standard a été défini par le World Wide Web Consortium.
TEF Format de signalement des thèses

Protocole de référencement et de propagation des contenus

OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting L'OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting est un protocole informatique développé par l'Open Archives Initiative afin d'échanger des métadonnées. Il permet de constituer et de mettre à jour automatiquement des entrepôts centralisés où les métadonnées de sources diverses peuvent être interrogées simultanément. Utilisé notamment par les Archives Ouvertes et les entrepôts institutionnels, il s'est aujourd'hui largement répandu dans les institutions patrimoniales et notamment les bibliothèques (source : Wikipédia).
OPDS L'OPDS Catalogs (pour Open Publication Distribution System) est un format de syndication pour l'édition électronique s'appuyant sur ATOM et le protocole HTTP
Z3950 Le protocole Z39.50 est un protocole de communication informatique client-serveur pour rechercher à travers un réseau informatique des informations dans des bases de données. Il est surtout utilisé par les bibliothèques pour interroger simultanément plusieurs catalogues. (source : Wikipédia)
SUSHI SUSHI est un protocole de moissonnage défini par le NISO (National Information Standards Organization) : ANSI/NISO Z39.93-2014
Flux RSS

Ces protocoles et formats ont l'inconvénient de peu prendre en compte les identifiants des auteurs et des établissements associés. Les identifiants DOICf. Digital object identifier., ISSNCf. International Standard Serial Number. et ISBNCf. International Standard Book Number. sont généralement utilisés pour identifier les documents.

Les identifiants auteurs et établissements peuvent être pris en compte :

  • via l'extension des protocoles cités ci-dessus,
  • via des protocoles ad-hoc,
  • via le format CERIFCf. Common European Research Information Format. de l'association européenne euroCRIS. Cerif est un format informatique utilisé pour représenter les données d'un système d'information de recherche. Son objectif principal est de faciliter l'échange d'information entre les systèmes d'information de recherche des différents pays membres de l'Union Européenne et/ou leurs établissements de recherche. Dans ce cadre-là, il permet de décrire les différentes productions de la recherche, dont les publications. Un travail particulier a été effectué concernant l'intégration des CRIS aux archives ouvertes et archives institutionnelles. Joachim Schöpfel affirme (Joachim Schopfel. « Le format CERIFCf. Common European Research Information Format. du projet euroCRIS. Un cadre de référence pour l'identification des chercheurs et les archives institutionnelles ») que « le seul format européen suffisamment avancé, normalisé, soutenu par l'administration scientifique européenne, libre, accepté par un nombre croissant d'organismes, d'institutions et d'administrations, que ce soit au plan local, régional ou national, est le format CERIFCf. Common European Research Information Format.. Tout comme l'initiative OAI avec une normalisation minimale (OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting, Dublin Core) a largement contribué à l'essor et à l'interopérabilité des archives ouvertes, CERIFCf. Common European Research Information Format. est à ce jour le seul format capable de fournir une solution pour le développement des systèmes d'information de recherche en Europe, dans la perspective d'une infrastructure connectée, interopérable, partagée. »

Concernant la remise en qualité des notices, et notamment le dé-doublonnage, une expérimentation a été effectuée dans le cadre de ConditorProjet, issu d'une recommandation du projet BSN, de recensement de l'ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports ...) de la communauté de l'Enseignement Supérieur et de la Recherche.<br>Conditor doit s'alimenter à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servir également de source pour ces réservoirs. La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d'applications qui pourront exploiter ses données. [http://www.bibliothequescientifiquenumerique.fr/conditor/ http://www.bibliothequescientifiquenumerique.fr/conditor/]. Cette démarche s'est basée sur la distinction de trois types de métadonnées :

  • les métadonnées utilisées pour l'appariement des notices bibliographiques entre elles ou dé doublonnage : titres, auteurs, « sources » (titre ou identifiant de niveau supérieur donc de revue pour un article, de l'ouvrage pour un chapitre...), collations (volume, numéro, première page pour un article), identifiants de documents ou autres productions, date de publication,
  • les métadonnées utilisées pour les alignements avec le RNSRCf. Répertoire National des Structures de Recherche. (adresses, affiliations) en vue de l'attribution de l'identifiant national de structure et avec IdRefCf. Identifiants et Référentiels. (auteurs) pour détecter des identifiants IdRefCf. Identifiants et Référentiels. potentiels.
  • les métadonnées non indispensables aux appariements et alignements avec les référentiels de structures ou d'auteurs, mais très utiles à partager entre partenaires (identifiants d'auteurs, mots clés, classification, données de recherche associées, financements, liens vers texte intégral, données de gestion...).