ml4rrieu / barometre_science_ouverte_uvsq

Baromètre de la science ouverte de l'UVSQ (Université de Versailles St Quentin en Yvelines)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Baromètre de la science ouverte de l'UVSQ

Le Baromètre de la science ouverte de l'UVSQ reprend celui de l'université de Lorraine (mars 2020) dont le code a été partagé sur gitlab. Deux modifications ont été apportées : la première permet d'intégrer les publications venant de HAL ne possédant pas de DOI, la seconde apporte des informations sur les frais de publication (Article Processing Charges : APC).



Intégrer les publications de HAL sans DOI

Afin de minimiser les lacunes, les publications sans DOI venant de HAL ont été intégrées. Cette quantité de publications supplémentaires modifie évidemment les résultats d'accès ouvert, et impacte aussi la méthodogie à plusieurs étapes : dédoublonnage, détection de l'accès ouvert et alignement des rétérentiels.

Résultats

L'intégration des publications de HAL sans DOI baisse le pourcentage de publication en accès ouvert. Voici la comparaison pour l'UVSQ

année DOI seuls DOI ou halId
2015 54.8 % 49.3%
2016 56.3% 52.1%
2017 60.2% 56.6%
2018 58.6% 55.1%
2019 58.6% 57.0%

Dédoublonnage

Les publications sans DOI ont été dédoublonnées à partir d'une normalisation des titres : retrait des espaces, accents et mise en minuscule. Les publications de HAL sans DOI ayant un titre identique à une autre publication ont été retirées.

Cette étape permet également d'identifier des publications HAL où le DOI pourrait être manquant (voir les tableaux HAL dans /data/out/).

Détection de l'accès ouvert

Une publication dans HAL est en accès ouvert si au moins une des conditions suivantes est remplie

  • la métadonnée submitType_s contient file
  • la métadonnée linkExtId_s contient arxiv ou pubmedcentral

Alignement des référentiels

Deux dictionnaires ont été réalisés afin d'aligner (i) les types de document de HAL avec ceux de Crossref et (ii) les domaines scientifiques de HAL avec ceux du baromètre français de la science ouverte. Voir /data/match_referentials.json

Pister les APC

Le but est de savoir si une publication a nécessité des frais de publication (Article Processing Charges : APC). En considérant les "accords transformants" (publish & read), les changements possibles de modèle économique des revues, et enfin les éventuelles exonérations (waivers) il reste difficile de savoir si des APC ont été payés. L'algorithme réalisé propose donc une estimation de la présence ou non d'APC. En décembre 2020 il s'est révélé efficace à plus de 85 %. Enfin, le pistage d'APC se fait au niveau de de l'article, et non des affiliations : l'algorithme reste indifférent à l'établissement ayant payé les APC.

Quatre étapes permettent de détecter la présence d'APC, réalisées par l'algorithme suivant :

  • Le DOI est-il dans OpenAPC ?
    • oui, renseigner doi_in_openapc et extraire le montant payé

    • non, la revue est-elle dans OpenAPC et des frais de publications ont-ils été payés la même année ?

      • oui, renseigner journal_in_openapc et extraire la moyenne des montants payés sur l'année

      • non, le document est-il en open access sur le site de l'éditeur dans une revue hybride ? (utilisation du champs oa_status de unpaywall)

        • oui, renseigner journal_is_hybrid
        • non, la revue est-elle une revue avec APC indéxée dans le DOAJ ?
          • oui, retourner apc_journals_in_doaj, le prix et la devise

Reproduire ce baromètre

  1. Installer Python et les libraries signalées dans le fichier requirement.txt
  2. Télécharger l'archive au format .zip
  3. Ajouter les fichiers bibliographiques de votre établissement
  4. Renommer si nécessaire les noms des fichiers importés dans le code a_consolider_sources.py
  5. Exécuter les codes a_consolider_sources.py puis b_enrichir_data.py, ce dernier doit tourner pendant plusieurs heures afin de récupérer les données de HAL et Unpaywall (env. 4h pour 16k publications). Enfin exécuter c_produire_graphique.py
  6. Retrouver les graphiques générés dans le dossier img

Schéma de données

column description (if needed) source
doi
halId Publication deposit id in HAL hal
hal_coverage Hal coverage (in or missing ) hal
title hal or unpaywall
genre Document type hal or unpaywall
author_count Curiosity : number of authors hal or unpaywall
published_date hal or unpaywall
published_year hal or unpaywall
journal_name hal or unpaywall
journal_issns hal or unpaywall
publisher hal or unpaywall
upw_coverage Unpaywall coverage (oa, missing, closed) unpaywall
oa_status Status/type of open access (green, gold, hybrid, bronze) unpaywall
upw_location Where OA is founded (repository and/or publisher) unpaywall
version Publication version available (submitted, accepted, published) unpaywall
licence licence finded in unpaywall unpaywall
journal_is_in_doaj Is this resource published in a DOAJ-indexed journal unpaywall
journal_is_oa Is this resource published in a completely OA journal unpaywall
is_paratext Is the item an ancillary part of a journal (column disappear if everything is False ) unpaywall
suspicious_journal Is the journal in "predatory" list Stop Predatory Journals
hal_submittedDate When the publication has been submitted in HAL hal
hal_location Where OA is founded (file, arxiv, pubmedcentral), notice if not OA hal
hal_licence Licence in HAL deposit hal
hal_serlArchiving Curiosity : is the deposit made by the author hal
hal_docType Type of document hal
hal_domain Domain, scientific field hal
apc_tracking APC information (doi_in_openapc, journal_in_openapc, journal_is_hybrid, apc_journals_in_doaj) openapc, doaj, unpaywall
apc_amount Rough approximation of APC cost openapc, doaj
apc_currency openapc, doaj
scientific_field Scientific field from barometre-science-ouverte and hal barometre-so, hal
is_oa Is there an OA copy of this ressource hal, unpaywall
oa_type Publisher and/or repository hal, unpaywall

Voir aussi

Remerciements

Eric Jeangirard et Laetitia Bracco. Les équipes et communautés derrière Unpaywall, DOAJ et OpenAPC.

About

Baromètre de la science ouverte de l'UVSQ (Université de Versailles St Quentin en Yvelines)

License:GNU General Public License v3.0


Languages

Language:Python 100.0%