5.3.1.4.4 Exploitation de différents réservoirs et enrichissement
[masquer]
{{#if: 5.3.1.4 Signalement des publications |
- Parent : 5.3.1.4 Signalement des publications|}}{{#if: 5.3.1.4.3 Récupération de notices |
- Précédent: 5.3.1.4.3 Récupération de notices|}}{{#if: |
- Suivant: {{{suivant}}}|}}{{#if:
|
- Sous-processus:
Sommaire
Ce sous-processus concerne l'exploitation de différents réservoirs : collecte, formatages, homogénéisation, dé-doublonnage, enrichissements (ajout des identifiants RNSR).
Description du processus
En entrée
- Notice existante
- Métadonnées associées, prenant en compte le format et le référentiel de la base.
En sortie
- Notice enrichie
Synthèse descriptive
Etapes | Acteurs | Période |
a) Import/moissonnage d'archives, catalogues de publication et autres sources |
Plateforme de signalement | |
b) Dédoublonnage, remise en qualité, remise en cohérence avec les référentiels |
Plateforme de signalement | |
c) Enrichissement éventuel |
Plateforme de signalement | |
d) Valorisation des résultats
|
Plateforme de signalement |
De nombreux formats existent pour effectuer ce moissonnage et ce transfert de notices :
Format des notices (métadonnées)
Dublin Core | Le Dublin Core est un schéma de métadonnées. Il comprend officiellement 15 éléments de description formels (titre, créateur, éditeur), thématiques (sujet, description, langue...) et relatifs à la propriété intellectuelle. |
MARC | Le format MARC (MAchine-Readable Cataloging) est un format d'échange de données bibliographiques. |
KBART | Le format KBART (Knowledge Bases And Related Tools) est une recommandation définie par le NISO (National Information Standards Organization) KBART préconise un format dans lequel les éditeurs pourront décrire puis mettre à disposition les métadonnées nécessaires à la gestion des accès aux ressources. Elle a avant tout été conçue pour les métadonnées de périodiques, mais une seconde version a permis de l'élargir aux livres électroniques. |
RDF | Le RDF (Resource Description Framework) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Ce standard a été défini par le World Wide Web Consortium. |
TEF | Format de signalement des thèses |
Protocole de référencement et de propagation des contenus
OAI-PMH | L'OAI-PMH est un protocole informatique développé par l'Open Archives Initiative afin d'échanger des métadonnées. Il permet de constituer et de mettre à jour automatiquement des entrepôts centralisés où les métadonnées de sources diverses peuvent être interrogées simultanément. Utilisé notamment par les Archives Ouvertes et les entrepôts institutionnels, il s'est aujourd'hui largement répandu dans les institutions patrimoniales et notamment les bibliothèques (source : Wikipédia). |
OPDS | L'OPDS Catalogs (pour Open Publication Distribution System) est un format de syndication pour l'édition électronique s'appuyant sur ATOM et le protocole HTTP |
Z3950 | Le protocole Z39.50 est un protocole de communication informatique client-serveur pour rechercher à travers un réseau informatique des informations dans des bases de données. Il est surtout utilisé par les bibliothèques pour interroger simultanément plusieurs catalogues. (source : Wikipédia) |
SUSHI | SUSHI est un protocole de moissonnage défini par le NISO (National Information Standards Organization) : ANSI/NISO Z39.93-2014 |
Flux RSS |
Ces protocoles et formats ont l'inconvénient de peu prendre en compte les identifiants des auteurs et des établissements associés. Les identifiants DOI, ISSN et ISBN sont généralement utilisés pour identifier les documents.
Les identifiants auteurs et établissements peuvent être pris en compte :
- via l'extension des protocoles cités ci-dessus,
- via des protocoles ad-hoc,
- via le format CERIF de l'association européenne euroCRIS. Cerif est un format informatique utilisé pour représenter les données d'un système d'information de recherche. Son objectif principal est de faciliter l'échange d'information entre les systèmes d'information de recherche des différents pays membres de l'Union Européenne et/ou leurs établissements de recherche. Dans ce cadre-là, il permet de décrire les différentes productions de la recherche, dont les publications. Un travail particulier a été effectué concernant l'intégration des CRIS aux archives ouvertes et archives institutionnelles. Joachim Schöpfel affirme (Joachim Schopfel. « Le format CERIF du projet euroCRIS. Un cadre de référence pour l'identification des chercheurs et les archives institutionnelles ») que « le seul format européen suffisamment avancé, normalisé, soutenu par l'administration scientifique européenne, libre, accepté par un nombre croissant d'organismes, d'institutions et d'administrations, que ce soit au plan local, régional ou national, est le format CERIF. Tout comme l'initiative OAI avec une normalisation minimale (OAI-PMH, Dublin Core) a largement contribué à l'essor et à l'interopérabilité des archives ouvertes, CERIF est à ce jour le seul format capable de fournir une solution pour le développement des systèmes d'information de recherche en Europe, dans la perspective d'une infrastructure connectée, interopérable, partagée. »
Concernant la remise en qualité des notices, et notamment le dé-doublonnage, une expérimentation a été effectuée dans le cadre de Conditor. Cette démarche s'est basée sur la distinction de trois types de métadonnées :
- les métadonnées utilisées pour l'appariement des notices bibliographiques entre elles ou dé doublonnage : titres, auteurs, « sources » (titre ou identifiant de niveau supérieur donc de revue pour un article, de l'ouvrage pour un chapitre...), collations (volume, numéro, première page pour un article), identifiants de documents ou autres productions, date de publication,
- les métadonnées utilisées pour les alignements avec le RNSR (adresses, affiliations) en vue de l'attribution de l'identifiant national de structure et avec IdRef (auteurs) pour détecter des identifiants IdRef potentiels.
- les métadonnées non indispensables aux appariements et alignements avec les référentiels de structures ou d'auteurs, mais très utiles à partager entre partenaires (identifiants d'auteurs, mots clés, classification, données de recherche associées, financements, liens vers texte intégral, données de gestion...).