ljpetkovic / Charcot_KeyBERT_Keyphrase-Vectorizers

Matériel pour l'atelier ObTIC « Extraction de concepts-clés à partir du fonds Charcot », le 30 avril 2024, 10h-12h, DataLab (BnF).

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Extraction de concepts-clés à partir du fonds Charcot

Cet atelier présente deux librairies Python, keybert et keyphrase-vectorizers, pour la tâche d'extraction de concepts-clés à partir de textes, en s'appuyant sur l'approche PatternRank (Schopf et al., 2022).

Notre objectif est d'extraire les « phrases-clés » à partir d'un échantillon du corpus des textes médicaux écrits par Jean-Martin Charcot (fondateur de la neurologie moderne en France au XIXe s.) d'une part, et d'autre part à partir des textes écrits par ses élèves et collègues (Désiré Magloire Bourneville, Georges Gilles de la Tourette etc.).

Cette tâche s'inscrit dans le projet de thèse en cours axé sur le pistage de la circulation du discours médical de Jean-Martin Charcot.

Informations pratiques

Atelier Extraction des concepts-clés à partir du fonds Charcot
Modalité présentiel
Intervenante Ljudmila PETKOVIC
Date 30/04/2024
Lieu DataLab, Bibliothèque nationale de France (Site François-Mitterrand)
Horaire 10h-12h
Langue française

Programme

  1. Contexte de recherche
  2. Extraction des phrases-clés : état de l'art
  3. Méthode keybert
  4. Méthode PatternRank (keybert + keyphrase-vectorizers)

Prérequis

  • ordinateurs avec une bonne connexion internet
  • accès à Google Colab
  • une première expérience en programmation en langage Python serait un plus, mais les débutant·e·s sont les bienvenu·e·s

Citer ce dépôt

Ljudmila Petkovic, Extraction des concepts-clés à partir du fonds Charcot, Paris : université Sorbonne Université, 2024 https://github.com/ljpetkovic/Charcot_KeyBERT_Keyphrase-Vectorizers


Contact

ljudmila.petkovic[at]sorbonne-universite.fr


Licence

68747470733a2f2f692e6372656174697665636f6d6d6f6e732e6f72672f6c2f62792f322e302f38387833312e706e67

Ce travail est autorisé sous une licence Creative Commons Attribution 4.0 International Licence.

About

Matériel pour l'atelier ObTIC « Extraction de concepts-clés à partir du fonds Charcot », le 30 avril 2024, 10h-12h, DataLab (BnF).


Languages

Language:Jupyter Notebook 57.6%Language:TeX 40.2%Language:Python 2.2%