Ce projet s'inscrivait dans le cadre du mémoire de M2 d'Anaëlle Baledent,
Le dossier code contient les scripts utilisé, le sous dossier data contient le corpus déjà taggé
Pour l'étiquetage du Corpus:
- Java -
- Stanford tagger - Étiqueteur morphosyntaxique
POur le reste :
- Python3 -
- NLTK -
- Numpy -
- Scikit-Learn - Classification non-supervisée
- Scipy - Dendrogramme
- Mathplotlib - Affichage des graphiques
python3 01_extract_pattern.py
python3 02_get_frequences.py
python3 06_tests_clustering.py
Chapitres :
for i in corpus/*/* ; do python cut_chapter.py $i ; done
Le corpus doit être au format brut .txt
.
settings.json doit contenir : base : le répertoire du stanford tagger jarname: le nom du fichier jar On peut s'inspirer de settings.json.example
python Stanford_Corpus.py expe_Dumas_feval/corpus2/Dumas/acte_chapter1.txt
for i in expe_Dumas_feval/corpus2/*/* ; do python Stanford_Corpus.py $i ; done
À titre indicatif, le temps d'éxécution est le suivant :
# lignes | Temps d'exécution |
---|---|
10 | 0m12.364s |
100 | 1m13.538s |
1000 | 12m53.592s |
python3 01_extract_pattern.py
python3 02_get_frequences.py patterns/patt_dumas_feval_min\=4_max\=5.json
Pour obtenir les fréquences, il faut lancer cette ligne :
python3 03_get_GR.py
python3 04_patt_to_corpus.py res_minsupp\=200 retour_au_texte_min\=4_max\=5.json
python3 06_tests_clustering.py patterns/patt_dumas_feval_min\=4_max\=5.json_freq.json
pythonw 07_tests_dendogram.py patterns/patt_dumas_feval_min\=4_max\=5.json_freq.json
##Travail sur les cChapitres
python 01_extract_pattern.py
python 02_get_frequences.py patterns/patt_dumas_les-trois-mousquetaires_min\=4_max\=5.json
python3 06_tests_clustering.py patterns/patt_dumas_les-trois-mousquetaires_min\=4_max\=5.json_freq.json
b
- Anaëlle BALEDENT - AnaelleBaledent
- Gaël LEJEUNE - rundimeco
This project is licensed under the MIT License - see the LICENSE.md file for details
- Hat tip to anyone whose code was used