5.3.1.4 Signalement des publications



A des fins de facilitation de l'accès au texte intégral, d'évaluation, de pilotage, que cela soit au niveau d'un chercheur, d'une structure de recherche, d'un établissement, d'une région ou nationalement, le cadre de cohérence SI Recherche préconise la mise en place d'une base regroupant l'ensemble des signalements de la production de la communauté scientifique nationale.

Le signalement des publications sous forme de notices doit permettre d'identifier correctement documents et parties prenantes : auteurs, organismes associés Différents types d'identifiant permettent d'identifier de manière unique et de manière pérenne les publications. Ces identifiants sont décrits dans le document Nomenclature du Cadre de cohérence SI Recherche.

Préconisation du Cadre de Cohérence SI Recherche

Même si diverses sources existent et que des initiatives sont lancées, il n'existe pas actuellement de base couvrant l'ensemble du périmètre :

  • les bases Scopus et Web of Science, éditées respectivement par Elsevier et par Thomson Reuters, offrent une large couverture internationale mais les critères de sélection des revues par les éditeurs ne sont pas forcément adaptés à certaines disciplines dans le cadre d'une évaluation nationale. Les traitements mis en place par les éditeurs pour l'identification des établissements ne sont pas satisfaisants notamment du fait de manque de normalisation des signatures, mais pas uniquement. Les établissements effectuent souvent des repérages dans ces bases pour leurs propres besoins de production d'indicateurs scientifiques. Attention : l'utilisation de ces bases nécessite un abonnement payant et les licences d'utilisation sont très limitatives.
  • l'OSTCf. Observatoire des sciences et des techniques. du HCERES travaille sur la base du WoSCf. Web of Science., en l'enrichissant par l'introduction de différentes nomenclatures et par un travail de repérage automatique et/ou organisé avec les établissements.
  • HALCf. Hyper articles en ligne. et les différentes archives ouvertes institutionnelles permettent, au-delà du dépôt de publication en archive ouverte, de simplement créer les notices de signalement même si ce n'est pas leur objectif.
  • La base Sudoc et le portail theses.fr, maintenus par l'Abes, contiennent l'ensemble des thèses en cours et réalisées.
  • Sudoc contient l'ensemble des ouvrages publiés acquis par les bibliothèques de l'ESR,
  • le projet ISTEX (Initiative d'excellence de l'Information Scientifique et Technique) a pour principal objectif d'offrir, à l'ensemble de la communauté de l'enseignement supérieur et de la recherche, un accès en ligne aux collections rétrospectives de la littérature scientifique dans toutes les disciplines en engageant une politique nationale d'acquisition massive de documentation,
  • l'expérimentation ConditorProjet, issu d'une recommandation du projet BSN, de recensement de l'ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports ...) de la communauté de l'Enseignement Supérieur et de la Recherche.<br>Conditor doit s'alimenter à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servir également de source pour ces réservoirs. La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d'applications qui pourront exploiter ses données. [http://www.bibliothequescientifiquenumerique.fr/conditor/ http://www.bibliothequescientifiquenumerique.fr/conditor/] vise à créer à terme une telle cible (un référentiel commun des notices de publications décrivant la production scientifique nationale). Une expérimentation a été conduite afin de maquetter les traitements à réaliser de rapprochement, de dé-doublonnage, de qualification des informations provenant de plusieurs sources. Le projet est actuellement en attente de financement.

Une telle base pourrait notamment être alimentée :

  • à partir de déclarations de production des chercheurs, effectués par eux-mêmes ou par une cellule support des établissements,
  • à partir de notices fournies par les éditeurs des bases bibliographiques voire des publications scientifiques,
  • à partir de différents réservoirs tels que les archives ouvertes ou archives institutionnelles

Objectif

Signalement de publications, par création dans des bases ad hoc de notices référençant la publication, notamment dans le cas où la publication n'est pas disponible en Open Access ou dans le cas où elle est mal référencée. Ces signalements sous forme de notices doivent identifier correctement documents et parties prenantes : auteurs, organismes associés. Différents types d'identifiant permettent d'identifier de manière unique et de manière pérenne les publications. Ces identifiants sont décrits dans le document Nomenclature du Cadre de cohérence SI Recherche.

Périmètre

Ce sous-processus concerne les déclarations de production des chercheurs, effectués par eux-mêmes ou par une cellule support des établissements (dans Hal ou une autre archive, un SI recherche...). HALCf. Hyper articles en ligne. offre ce type de fonctionnalité mais il faut noter la volonté de séparer clairement la fonction d'enregistrement de notices bibliographiques de la fonction d'archivage (contenu scientifique).

Description du processus

En entrée

  • Publication
  • Métadonnées associées, prenant en compte le format et le référentiel de la base.

En sortie

  • Valorisation des résultats, au travers des notices créées

Synthèse descriptive

Etapes Acteurs Période

a) Création d'une notice, signalement de la publication dans une base bibliographique La notice peut être éventuellement récupérée d'autres sources : autres archives, bases de données éditeurs, autres bases de données (ADS-NASA, ArXivArchive de prépublications électroniques d'articles scientifiques dans les domaines de la physique, l'astrophysique, des mathématiques, de l'informatique, des sciences non linéaires et de la biologie quantitative, et qui est accessible gratuitement par Internet. Le site est hébergé au départ au Los Alamos National Laboratory., Pubmed, etc.).

Chercheur/Structure de soutien

b) Eventuellement, suivant l'organisation, enrichissement de la notice Les personnels de documentation dans l'enrichissement des notices

Structure de soutien

c) Import/moissonnage d'archives, catalogues de publications et autres sources
Suivant les cas, il peut être systématique et régulier, ou à la demande.

Plateforme de signalement

d) Dédoublonnage, remise en qualité, remise en cohérence avec les référentiels
Ce travail ne peut être effectué de manière totalement automatique aujourd'hui.

Plateforme de signalement

e) Enrichissement éventuel
Les notices peuvent être enrichies par croisement avec des référentiels structures et auteurs, référentiels métiers (listes de vocabulaires, thésaurus, référentiels) ou autres plateformes (GeoEthno, Pactols Rameau, LCSH, BNE, Gemet, Lexvo, GeoNames, etc.), permettant la recherche et l'accès aux données numériques et numérisées de la recherche en sciences humaines et sociales.

Plateforme de signalement

f) Valorisation des résultats
Le travail effectué peut être valorisé en mettant à disposition :

  • des outils de recherche (par facette, plein-texte),
  • le calcul de métriques,
  • des dispositifs d'alerte,
  • des données qualifiées :
    • notices,
    • référentiels (chercheurs, structures...) permettant d'être utilisées comme pivot,
  • des données permettant d'être exploitées pour générer par exemple :
    • le CV d'un chercheur, la présentation de l'activité d'une structure de recherche,
    • le détail de l'activité d'un chercheur ou d'une structure de recherche.
Plateforme de signalement

De nombreux formats existent pour effectuer ce moissonnage et ce transfert de notices :

Format des notices (métadonnées)

Dublin Core Le Dublin Core est un schéma de métadonnées. Il comprend officiellement 15 éléments de description formels (titre, créateur, éditeur), thématiques (sujet, description, langue...) et relatifs à la propriété intellectuelle.
MARC Le format MARC (MAchine-Readable Cataloging) est un format d'échange de données bibliographiques.
KBART Le format KBART (Knowledge Bases And Related Tools) est une recommandation définie par le NISO (National Information Standards Organization)
KBART préconise un format dans lequel les éditeurs pourront décrire puis mettre à disposition les métadonnées nécessaires à la gestion des accès aux ressources. Elle a avant tout été conçue pour les métadonnées de périodiques, mais une seconde version a permis de l'élargir aux livres électroniques.
RDF Le RDF (Resource Description Framework) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions.
Ce standard a été défini par le World Wide Web Consortium.
TEF Format de signalement des thèses

Protocole de référencement et de propagation des contenus

OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting L'OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting est un protocole informatique développé par l'Open Archives Initiative afin d'échanger des métadonnées. Il permet de constituer et de mettre à jour automatiquement des entrepôts centralisés où les métadonnées de sources diverses peuvent être interrogées simultanément. Utilisé notamment par les Archives Ouvertes et les entrepôts institutionnels, il s'est aujourd'hui largement répandu dans les institutions patrimoniales et notamment les bibliothèques (source : Wikipédia).
OPDS L'OPDS Catalogs (pour Open Publication Distribution System) est un format de syndication pour l'édition électronique s'appuyant sur ATOM et le protocole HTTP
Z3950 Le protocole Z39.50 est un protocole de communication informatique client-serveur pour rechercher à travers un réseau informatique des informations dans des bases de données. Il est surtout utilisé par les bibliothèques pour interroger simultanément plusieurs catalogues. (source : Wikipédia)
SUSHI SUSHI est un protocole de moissonnage défini par le NISO (National Information Standards Organization) : ANSI/NISO Z39.93-2014
Flux RSS

Ces protocoles et formats ont l'inconvénient de peu prendre en compte les identifiants des auteurs et des établissements associés. Les identifiants DOICf. Digital object identifier., ISSNCf. International Standard Serial Number. et ISBNCf. International Standard Book Number. sont généralement utilisés pour identifier les documents.

Les identifiants auteurs et établissements peuvent être pris en compte :

  • via l'extension des protocoles cités ci-dessus,
  • via des protocoles ad-hoc,
  • via le format CERIFCf. Common European Research Information Format. de l'association européenne euroCRIS. Cerif est un format informatique utilisé pour représenter les données d'un système d'information de recherche. Son objectif principal est de faciliter l'échange d'information entre les systèmes d'information de recherche des différents pays membres de l'Union Européenne et/ou leurs établissements de recherche. Dans ce cadre-là, il permet de décrire les différentes productions de la recherche, dont les publications. Un travail particulier a été effectué concernant l'intégration des CRIS aux archives ouvertes et archives institutionnelles. Joachim Schöpfel affirme (Joachim Schopfel. « Le format CERIFCf. Common European Research Information Format. du projet euroCRIS. Un cadre de référence pour l'identification des chercheurs et les archives institutionnelles ») que « le seul format européen suffisamment avancé, normalisé, soutenu par l'administration scientifique européenne, libre, accepté par un nombre croissant d'organismes, d'institutions et d'administrations, que ce soit au plan local, régional ou national, est le format CERIFCf. Common European Research Information Format.. Tout comme l'initiative OAI avec une normalisation minimale (OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting, Dublin Core) a largement contribué à l'essor et à l'interopérabilité des archives ouvertes, CERIFCf. Common European Research Information Format. est à ce jour le seul format capable de fournir une solution pour le développement des systèmes d'information de recherche en Europe, dans la perspective d'une infrastructure connectée, interopérable, partagée. »

Concernant la remise en qualité des notices, et notamment le dé-doublonnage, une expérimentation a été effectuée dans le cadre de ConditorProjet, issu d'une recommandation du projet BSN, de recensement de l'ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports ...) de la communauté de l'Enseignement Supérieur et de la Recherche.<br>Conditor doit s'alimenter à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servir également de source pour ces réservoirs. La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d'applications qui pourront exploiter ses données. [http://www.bibliothequescientifiquenumerique.fr/conditor/ http://www.bibliothequescientifiquenumerique.fr/conditor/]. Cette démarche s'est basée sur la distinction de trois types de métadonnées :

  • les métadonnées utilisées pour l'appariement des notices bibliographiques entre elles ou dé doublonnage : titres, auteurs, « sources » (titre ou identifiant de niveau supérieur donc de revue pour un article, de l'ouvrage pour un chapitre...), collations (volume, numéro, première page pour un article), identifiants de documents ou autres productions, date de publication,
  • les métadonnées utilisées pour les alignements avec le RNSRCf. Répertoire National des Structures de Recherche. (adresses, affiliations) en vue de l'attribution de l'identifiant national de structure et avec IdRefCf. Identifiants et Référentiels. (auteurs) pour détecter des identifiants IdRefCf. Identifiants et Référentiels. potentiels.
  • les métadonnées non indispensables aux appariements et alignements avec les référentiels de structures ou d'auteurs, mais très utiles à partager entre partenaires (identifiants d'auteurs, mots clés, classification, données de recherche associées, financements, liens vers texte intégral, données de gestion...).