5.3.1.4 Signalement des publications
A des fins de facilitation de l'accès au texte intégral, d'évaluation, de pilotage, que cela soit au niveau d'un chercheur, d'une structure de recherche, d'un établissement, d'une région ou nationalement, le cadre de cohérence SI Recherche préconise la mise en place d'une base regroupant l'ensemble des signalements de la production de la communauté scientifique nationale.
Le signalement des publications sous forme de notices doit permettre d'identifier correctement documents et parties prenantes : auteurs, organismes associés Différents types d'identifiant permettent d'identifier de manière unique et de manière pérenne les publications. Ces identifiants sont décrits dans le document Nomenclature du Cadre de cohérence SI Recherche.
Préconisation du Cadre de Cohérence SI Recherche
Même si diverses sources existent et que des initiatives sont lancées, il n'existe pas actuellement de base couvrant l'ensemble du périmètre :
- les bases Scopus et Web of Science, éditées respectivement par Elsevier et par Thomson Reuters, offrent une large couverture internationale mais les critères de sélection des revues par les éditeurs ne sont pas forcément adaptés à certaines disciplines dans le cadre d'une évaluation nationale. Les traitements mis en place par les éditeurs pour l'identification des établissements ne sont pas satisfaisants notamment du fait de manque de normalisation des signatures, mais pas uniquement. Les établissements effectuent souvent des repérages dans ces bases pour leurs propres besoins de production d'indicateurs scientifiques. Attention : l'utilisation de ces bases nécessite un abonnement payant et les licences d'utilisation sont très limitatives.
- l'OSTCf. Observatoire des sciences et des techniques. du HCERES travaille sur la base du WoSCf. Web of Science., en l'enrichissant par l'introduction de différentes nomenclatures et par un travail de repérage automatique et/ou organisé avec les établissements.
- HALCf. Hyper articles en ligne. et les différentes archives ouvertes institutionnelles permettent, au-delà du dépôt de publication en archive ouverte, de simplement créer les notices de signalement même si ce n'est pas leur objectif.
- La base Sudoc et le portail theses.fr, maintenus par l'Abes, contiennent l'ensemble des thèses en cours et réalisées.
- Sudoc contient l'ensemble des ouvrages publiés acquis par les bibliothèques de l'ESR,
- le projet ISTEX (Initiative d'excellence de l'Information Scientifique et Technique) a pour principal objectif d'offrir, à l'ensemble de la communauté de l'enseignement supérieur et de la recherche, un accès en ligne aux collections rétrospectives de la littérature scientifique dans toutes les disciplines en engageant une politique nationale d'acquisition massive de documentation,
- l'expérimentation ConditorProjet, issu d'une recommandation du projet BSN, de recensement de l'ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports ...) de la communauté de l'Enseignement Supérieur et de la Recherche.<br>Conditor doit s'alimenter à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servir également de source pour ces réservoirs. La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d'applications qui pourront exploiter ses données. [http://www.bibliothequescientifiquenumerique.fr/conditor/ http://www.bibliothequescientifiquenumerique.fr/conditor/] vise à créer à terme une telle cible (un référentiel commun des notices de publications décrivant la production scientifique nationale). Une expérimentation a été conduite afin de maquetter les traitements à réaliser de rapprochement, de dé-doublonnage, de qualification des informations provenant de plusieurs sources. Le projet est actuellement en attente de financement.
Une telle base pourrait notamment être alimentée :
- à partir de déclarations de production des chercheurs, effectués par eux-mêmes ou par une cellule support des établissements,
- à partir de notices fournies par les éditeurs des bases bibliographiques voire des publications scientifiques,
- à partir de différents réservoirs tels que les archives ouvertes ou archives institutionnelles
Objectif
Signalement de publications, par création dans des bases ad hoc de notices référençant la publication, notamment dans le cas où la publication n'est pas disponible en Open Access ou dans le cas où elle est mal référencée. Ces signalements sous forme de notices doivent identifier correctement documents et parties prenantes : auteurs, organismes associés. Différents types d'identifiant permettent d'identifier de manière unique et de manière pérenne les publications. Ces identifiants sont décrits dans le document Nomenclature du Cadre de cohérence SI Recherche.
Périmètre
Ce sous-processus concerne les déclarations de production des chercheurs, effectués par eux-mêmes ou par une cellule support des établissements (dans Hal ou une autre archive, un SI recherche...). HALCf. Hyper articles en ligne. offre ce type de fonctionnalité mais il faut noter la volonté de séparer clairement la fonction d'enregistrement de notices bibliographiques de la fonction d'archivage (contenu scientifique).
Description du processus
En entrée
- Publication
- Métadonnées associées, prenant en compte le format et le référentiel de la base.
En sortie
- Valorisation des résultats, au travers des notices créées
Synthèse descriptive
De nombreux formats existent pour effectuer ce moissonnage et ce transfert de notices :
Format des notices (métadonnées)
Dublin Core | Le Dublin Core est un schéma de métadonnées. Il comprend officiellement 15 éléments de description formels (titre, créateur, éditeur), thématiques (sujet, description, langue...) et relatifs à la propriété intellectuelle. |
MARC | Le format MARC (MAchine-Readable Cataloging) est un format d'échange de données bibliographiques. |
KBART | Le format KBART (Knowledge Bases And Related Tools) est une recommandation définie par le NISO (National Information Standards Organization) KBART préconise un format dans lequel les éditeurs pourront décrire puis mettre à disposition les métadonnées nécessaires à la gestion des accès aux ressources. Elle a avant tout été conçue pour les métadonnées de périodiques, mais une seconde version a permis de l'élargir aux livres électroniques. |
RDF | Le RDF (Resource Description Framework) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Ce standard a été défini par le World Wide Web Consortium. |
TEF | Format de signalement des thèses |
Protocole de référencement et de propagation des contenus
Ces protocoles et formats ont l'inconvénient de peu prendre en compte les identifiants des auteurs et des établissements associés. Les identifiants DOICf. Digital object identifier., ISSNCf. International Standard Serial Number. et ISBNCf. International Standard Book Number. sont généralement utilisés pour identifier les documents.
Les identifiants auteurs et établissements peuvent être pris en compte :
- via l'extension des protocoles cités ci-dessus,
- via des protocoles ad-hoc,
- via le format CERIFCf. Common European Research Information Format. de l'association européenne euroCRIS. Cerif est un format informatique utilisé pour représenter les données d'un système d'information de recherche. Son objectif principal est de faciliter l'échange d'information entre les systèmes d'information de recherche des différents pays membres de l'Union Européenne et/ou leurs établissements de recherche. Dans ce cadre-là, il permet de décrire les différentes productions de la recherche, dont les publications. Un travail particulier a été effectué concernant l'intégration des CRIS aux archives ouvertes et archives institutionnelles. Joachim Schöpfel affirme (Joachim Schopfel. « Le format CERIFCf. Common European Research Information Format. du projet euroCRIS. Un cadre de référence pour l'identification des chercheurs et les archives institutionnelles ») que « le seul format européen suffisamment avancé, normalisé, soutenu par l'administration scientifique européenne, libre, accepté par un nombre croissant d'organismes, d'institutions et d'administrations, que ce soit au plan local, régional ou national, est le format CERIFCf. Common European Research Information Format.. Tout comme l'initiative OAI avec une normalisation minimale (OAI-PMHCf. Open Archives Initiative Protocol for Metadata Harvesting, Dublin Core) a largement contribué à l'essor et à l'interopérabilité des archives ouvertes, CERIFCf. Common European Research Information Format. est à ce jour le seul format capable de fournir une solution pour le développement des systèmes d'information de recherche en Europe, dans la perspective d'une infrastructure connectée, interopérable, partagée. »
Concernant la remise en qualité des notices, et notamment le dé-doublonnage, une expérimentation a été effectuée dans le cadre de ConditorProjet, issu d'une recommandation du projet BSN, de recensement de l'ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports ...) de la communauté de l'Enseignement Supérieur et de la Recherche.<br>Conditor doit s'alimenter à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servir également de source pour ces réservoirs. La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d'applications qui pourront exploiter ses données. [http://www.bibliothequescientifiquenumerique.fr/conditor/ http://www.bibliothequescientifiquenumerique.fr/conditor/]. Cette démarche s'est basée sur la distinction de trois types de métadonnées :
- les métadonnées utilisées pour l'appariement des notices bibliographiques entre elles ou dé doublonnage : titres, auteurs, « sources » (titre ou identifiant de niveau supérieur donc de revue pour un article, de l'ouvrage pour un chapitre...), collations (volume, numéro, première page pour un article), identifiants de documents ou autres productions, date de publication,
- les métadonnées utilisées pour les alignements avec le RNSRCf. Répertoire National des Structures de Recherche. (adresses, affiliations) en vue de l'attribution de l'identifiant national de structure et avec IdRefCf. Identifiants et Référentiels. (auteurs) pour détecter des identifiants IdRefCf. Identifiants et Référentiels. potentiels.
- les métadonnées non indispensables aux appariements et alignements avec les référentiels de structures ou d'auteurs, mais très utiles à partager entre partenaires (identifiants d'auteurs, mots clés, classification, données de recherche associées, financements, liens vers texte intégral, données de gestion...).