5.3.1.4.4 Exploitation de différents réservoirs et enrichissement
Objectif
Exploiter divers réservoirs de notices
Périmètre
Ce sous-processus concerne l'exploitation de différents réservoirs : collecte, formatages, homogénéisation, dé-doublonnage, enrichissements (ajout des identifiants RNSRCf. Répertoire National des Structures de Recherche.).
Description du processus
En entrée
- Notice existante
- Métadonnées associées, prenant en compte le format et le référentiel de la base.
En sortie
- Notice enrichie
Synthèse descriptive
Etapes | Acteurs | Période |
a) Import/moissonnage d'archives, catalogues de publication et autres sources |
Plateforme de signalement | |
b) Dédoublonnage, remise en qualité, remise en cohérence avec les référentiels |
Plateforme de signalement | |
c) Enrichissement éventuel |
Plateforme de signalement | |
d) Valorisation des résultats
|
Plateforme de signalement |
De nombreux formats existent pour effectuer ce moissonnage et ce transfert de notices :
Format des notices (métadonnées)
Dublin Core | Le Dublin Core est un schéma de métadonnées. Il comprend officiellement 15 éléments de description formels (titre, créateur, éditeur), thématiques (sujet, description, langue...) et relatifs à la propriété intellectuelle. |
MARC | Le format MARC (MAchine-Readable Cataloging) est un format d'échange de données bibliographiques. |
KBART | Le format KBART (Knowledge Bases And Related Tools) est une recommandation définie par le NISO (National Information Standards Organization) KBART préconise un format dans lequel les éditeurs pourront décrire puis mettre à disposition les métadonnées nécessaires à la gestion des accès aux ressources. Elle a avant tout été conçue pour les métadonnées de périodiques, mais une seconde version a permis de l'élargir aux livres électroniques. |
RDF | Le RDF (Resource Description Framework) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Ce standard a été défini par le World Wide Web Consortium. |
TEF | Format de signalement des thèses |
Protocole de référencement et de propagation des contenus
Ces protocoles et formats ont l'inconvénient de peu prendre en compte les identifiants des auteurs et des établissements associés. Les identifiants DOICf. Digital object identifier., ISSNCf. International Standard Serial Number. et ISBNCf. International Standard Book Number. sont généralement utilisés pour identifier les documents.
Les identifiants auteurs et établissements peuvent être pris en compte :
- via l'extension des protocoles cités ci-dessus,
- via des protocoles ad-hoc,
- via le format CERIFCf. Common European Research Information Format. de l'association européenne euroCRIS. Cerif est un format informatique utilisé pour représenter les données d'un système d'information de recherche. Son objectif principal est de faciliter l'échange d'information entre les systèmes d'information de recherche des différents pays membres de l'Union Européenne et/ou leurs établissements de recherche. Dans ce cadre-là, il permet de décrire les différentes productions de la recherche, dont les publications. Un travail particulier a été effectué concernant l'intégration des CRIS aux archives ouvertes et archives institutionnelles. Joachim Schöpfel affirme (Joachim Schopfel. « Le format CERIFCf. Common European Research Information Format. du projet euroCRIS. Un cadre de référence pour l'identification des chercheurs et les archives institutionnelles ») que « le seul format européen suffisamment avancé, normalisé, soutenu par l'administration scientifique européenne, libre, accepté par un nombre croissant d'organismes, d'institutions et d'administrations, que ce soit au plan local, régional ou national, est le format CERIFCf. Common European Research Information Format.. Tout comme l'initiative OAI avec une normalisation minimale (OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting, Dublin Core) a largement contribué à l'essor et à l'interopérabilité des archives ouvertes, CERIFCf. Common European Research Information Format. est à ce jour le seul format capable de fournir une solution pour le développement des systèmes d'information de recherche en Europe, dans la perspective d'une infrastructure connectée, interopérable, partagée. »
Concernant la remise en qualité des notices, et notamment le dé-doublonnage, une expérimentation a été effectuée dans le cadre de ConditorProjet, issu d'une recommandation du projet BSN, de recensement de l'ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports ...) de la communauté de l'Enseignement Supérieur et de la Recherche.<br>Conditor doit s'alimenter à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servir également de source pour ces réservoirs. La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d'applications qui pourront exploiter ses données. [http://www.bibliothequescientifiquenumerique.fr/conditor/ http://www.bibliothequescientifiquenumerique.fr/conditor/]. Cette démarche s'est basée sur la distinction de trois types de métadonnées :
- les métadonnées utilisées pour l'appariement des notices bibliographiques entre elles ou dé doublonnage : titres, auteurs, « sources » (titre ou identifiant de niveau supérieur donc de revue pour un article, de l'ouvrage pour un chapitre...), collations (volume, numéro, première page pour un article), identifiants de documents ou autres productions, date de publication,
- les métadonnées utilisées pour les alignements avec le RNSRCf. Répertoire National des Structures de Recherche. (adresses, affiliations) en vue de l'attribution de l'identifiant national de structure et avec IdRefCf. Identifiants et Référentiels. (auteurs) pour détecter des identifiants IdRefCf. Identifiants et Référentiels. potentiels.
- les métadonnées non indispensables aux appariements et alignements avec les référentiels de structures ou d'auteurs, mais très utiles à partager entre partenaires (identifiants d'auteurs, mots clés, classification, données de recherche associées, financements, liens vers texte intégral, données de gestion...).