Traitement Automatique des Langues
Extraction d'information et classification par genre de pièces de théâtre classique français
Eleonore Bartenlian et Adrien Pavao
Informations utiles extraites des textes :
- L’auteur,
- La taille moyenne des phrases,
- La longueur du texte,
- Le type (vers ou prose)
- L’inspiration (Histoires chrétiennes, etc.)
- La structure (nombre d’actes)
- La période (le siècle)
- Le nombre de personnages
- Le genre pour lequel les mots du texte ont le plus de correspondance.
Apprentissage sur 824 données et 50 classes différentes. Taux de réussite de la classification avec un Random Forest Classifier : 79%.