Cet atelier présente deux librairies Python, keybert et keyphrase-vectorizers, pour la tâche d'extraction de concepts-clés à partir de textes, en s'appuyant sur l'approche PatternRank (Schopf et al., 2022).
Notre objectif est d'extraire les « phrases-clés » à partir d'un échantillon du corpus des textes médicaux écrits par Jean-Martin Charcot (fondateur de la neurologie moderne en France au XIXe s.) d'une part, et d'autre part à partir des textes écrits par ses élèves et collègues (Désiré Magloire Bourneville, Georges Gilles de la Tourette etc.).
Cette tâche s'inscrit dans le projet de thèse en cours axé sur le pistage de la circulation du discours médical de Jean-Martin Charcot.
Atelier | Extraction des concepts-clés à partir du fonds Charcot |
Modalité | présentiel |
Intervenante | Ljudmila PETKOVIC |
Date | 30/04/2024 |
Lieu | DataLab, Bibliothèque nationale de France (Site François-Mitterrand) |
Horaire | 10h-12h |
Langue | française |
- Contexte de recherche
- Extraction des phrases-clés : état de l'art
- Méthode
keybert
- Méthode PatternRank (
keybert
+keyphrase-vectorizers
)
- ordinateurs avec une bonne connexion internet
- accès à Google Colab
- une première expérience en programmation en langage Python serait un plus, mais les débutant·e·s sont les bienvenu·e·s
Ljudmila Petkovic, Extraction des concepts-clés à partir du fonds Charcot, Paris : université Sorbonne Université, 2024 https://github.com/ljpetkovic/Charcot_KeyBERT_Keyphrase-Vectorizers
ljudmila.petkovic[at]sorbonne-universite.fr
Ce travail est autorisé sous une licence Creative Commons Attribution 4.0 International Licence.