CNRS-LACITO / Pangloss_website

Tools for the Pangloss Collection, an online archive of under-documented languages

Home Page:https://pangloss.cnrs.fr/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

association de photos à des ressources spécifiques dans Pangloss

alexis-michaud opened this issue · comments

Train de modifs à lancer pour l'association de photos (et plus généralement d'images) dans MédiaHAL à des ressources Pangloss.

Plusieurs méthodes :

  • sans doute la plus pratique : une base "maison" sur le site de l'interface de consultation de la collection Pangloss. Un tableau associerait certaines photos à 1 locutrice/locuteur, et ces photos pourraient être affichées sur les pages de toutes les ressources associées à cette personne.
    Les photos auraient leur URL : soit hébergement sur le site Pangloss lui-même, soit URL pérenne & stable sur un autre serveur.
    Limite du système : fragilité dans le temps. Les images seraient hébergées sur le site Pangloss, sans être archivées comme le sont les ressources linguistiques de la collection Pangloss.

  • recommandation de type "bonne pratique" pour les cas où ça marche : association des ressources à des images dans MédiaHAL, en tirant parti de la possibilité qu'offre MédiHAL, quand on dépose une photo, de l'associer à des ressources, au moyen d'un DOI. (Autant de DOI qu'on veut.)
    Une recommandation que la collection Pangloss ferait aux déposants serait la suivante : quand c'est possible et pertinent, déposer dans MédiHAL les photos liées aux ressources de la collection Pangloss (photo de locutrice/locuteur, photos d'un terrain spécifique, photos d'objets/lieux mentionnés dans les récits...) soient déposées dans MédiHAL. Il y a un champ "Données associées" qu'on peut renseigner dans les métadonnées de MédiHAL (comme des autres archives HAL), en y indiquant un ou plusieurs DOI.
    La pratique recommandée consisterait donc à indiquer les documents associés à une photo, au moyen de DOI.
    Il faudrait alors que l'interface Pangloss (pangloss.cnrs.fr) aille périodiquement moissonner les dépôts MédiHAL en y cherchant des DOI de ressources de la collection Pangloss.
    Inconvénients :

    • chaîne de traitement sans doute assez lourde à mettre en place
    • l'association entre ressources et photos est à indiquer lien par lien, en renseignant un champ des métadonnées MédiHAL. S'il y a 100 ressources pour 1 locutrice/locuteur, il faut saisir à la main un à un dans MédiHAL le DOI de chacune de ces 100 ressources, pour chacune des photos qu'on souhaite lui associer
    • certaines photos peuvent, aux yeux des déposant.e.s, ne pas mériter d'être déposées dans une archive (type MédiHAL) indépendamment des ressources dans la collection Pangloss : photo d'1 personne, par exemple.

Avantages :
- pérennité de l'hébergement des photos
- cohérence entre outils : utilisation d'une fonctionnalité intéressante de MédiHAL (lien par les métadonnées entre divers éléments d'un "écosystème" des données de la recherche)
- encouragement pour les chercheuses & chercheurs à déposer dans MédiHAL des photos (celles-ci sont généralement considérées par les linguistes comme des documents très secondaires, d'où une forte déperdition au final : peu de photos conservées, ce qui constitue une perte d'informations)

@EdouardSombie : il vaudrait la peine de prendre le temps d'un échange avec @Balthazar45, qui gère la collection MédiHAL du laboratoire et connaît bien le domaine

Alors, un petit point suite à l'échange d'aujourd'hui, avec un exemple.

La première photo sur la page de présentation du corpus naxi est celle-ci :
image

Elle est déposée dans MediHAL ici.

Le test consisterait donc à relier les 2 bases de données : celle du site Pangloss, et celle de MediHAL. Afficher la photo en allant la chercher "à la volée" dans MediHAL (intégration en utilisant le format le plus adapté : par exemple celui-ci ?), si ça ne retarde pas trop le chargement de la page ?

Pour les utilisatrices & utilisateurs, la manip' consistant à saisir les photos deviendrait la suivante : au lieu de charger la photo dans l'onglet "Fichiers - Images langues" avant de saisir le titre dans la page du corpus concerné, il y aurait le choix, dans l'interface ci-dessous, entre une adresse (url) renvoyant au site Pangloss lui-même (dans un premier temps au moins, cette option resterait possible) et un identifiant MediHAL, de type hal-02863061 (identifiant MediHAL de la photo prise ici en exemple).
image
À la saisie, au lieu de simplement "URL", on lirait : "URL ou identifiant MediHAL (de type : hal-02863061)"

image

Il faudrait se connecter à l'API de mediHAL pour récupérer l'URL à partir d'un identifiant.
Vous avez une adresse à me donner et les infos de l'API ?

Bonne question ! Le lien "Documentation" du site de MédiHAL renvoit à la doc généraliste de HAL, laquelle ne mentionne pas d'API pour l'affichage de documents.

image

@Balthazar45 à vous de jouer pour chercher l'info ?

Bonjour,
Pour effectuer un développement spécifique, l'API de recherche de HAL est à disposition sur le lien suivant : https://api.archives-ouvertes.fr/docs/search.

Capture d’écran 2023-08-29 à 11 42 55

Le point d'entrée de la collection LANGUES_ET_CIVILISATIONS_A_TRADITION_ORALE est comme suit : //api.archives-ouvertes.fr/search/LANGUES_ET_CIVILISATIONS_A_TRADITION_ORALE/.

Ensuite possibilité de récupérer les identifiants des vignettes : https://api.archives-ouvertes.fr/search/LANGUES_ET_CIVILISATIONS_A_TRADITION_ORALE/?q=*:*&fl=thumbId_i&wt=json.

Les URL des miniatures sont composées de la manière suivante : //thumb.ccsd.cnrs.fr/thumbId_i/small, //thumb.ccsd.cnrs.fr/thumbId_i/medium et //thumb.ccsd.cnrs.fr/thumbId_i/large. Par exemple, https://thumb.ccsd.cnrs.fr/8689059/large.