wolf257 / L3_lingCorpus_CorpusAnalysis

Utilitary in Python3 for NLP

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Consigne

Réaliser une analyse linguistique sur le corpus des cours en ligne de l’année dernière. http://perso.limsi.fr/pap/inalco/...

Pour cela il faudra télécharger les cours en pdf, les transcrire en texte (par ex. pdftotext), normaliser les documents, les mettre au format XML (création d’une DTD), calculer les différentes distributions, caractères, mots, etc. au moyen de programmes écrits en python.

Vous pourrez aussi réaliser un étiquettage des mots avec les étiquettes associées aux mots d’un dictionnaire disponible à l’URL: http://www.cnrtl.fr/lexiques/morphalou/

Puis faire une analyse linguistique (si possible diachronique) à au moins 2 niveaux (par fichier et globalement).

Les programmes seront accompagné d’un rapport expliquant les différentes étapes du projet, les problèmes rencontrés et les solutions trouvées.

About

Utilitary in Python3 for NLP


Languages

Language:Python 42.7%Language:Perl 27.5%Language:TeX 18.1%Language:Shell 11.6%