pprablanc / automatic-text-summary

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Projet d'école: Fouille de texte

Résumer automatiquement une oeuvre littéraire. Nous prendrons comme exemple d'application le livre Dune de Frank Herbert. Pour des raisons de droit d'auteur, il n'est pas possible de le mettre en ligne sur ce repository.

Contexte

Ce projet de groupe s'inscrit dans le cadre d'une évaluation du cours de "Text Mining" du Master 2 Data Mining. Ce projet a été réalisé par Julien Mirval et Pierre Prablanc.

Descriptif du sujet

Les outils informatiques et statistiques ont montré un réel potentiel pour l’étude d’œuvres littéraires dont le volume rend l’analyse manuelle fastidieuse voire impossible. L’objectif principal de ce projet consiste à proposer une manière de résumer une œuvre de manière à donner un bref aperçu du contenu à une personne qui n’aurait pas le temps de la parcourir dans son ensemble. Il s’agit d’une forme de Reader’s Digest qui pose un certain nombre de questions, parmi lesquelles :

— Quelle forme doit prendre la restitution créée automatiquement ? S’agit-il de conserver une forme d’expression en langage naturel (une suite de phrases, par exemple) ou faut-il imaginer d’autres moyens de réaliser la restitution (nuage de mots-clefs, thématiques, réseau de person- nages, etc.) ?

— S’agit-il de créer une méthode valable pour tous les types d’œuvres littéraires, ou certaines méthodes peuvent-elles être conçues de manière ad-hoc pour tel ou tel style ?

— Quel degré de détail doit être choisi pour réaliser cette restitution ? Le résumé peut en effet prendre la forme d’une simple phrase ou d’un résumé composé de plusieurs pages, elles-mêmes intégrant plusieurs points de vue différents sur l’œuvre ? Le sujet de ce projet est volontairement ouvert et laisse donc la possibilité de faire de nombreuses propositions. Il faut cependant garder à l’esprit trois éléments essentiels :

Le projet doit être l’occasion d’expérimenter des techniques abordées durant le cours de fouille de textes, que celles-ci aient été vues en détail (modélisation thématique) ou juste aperçues (résumé automatique),

Le barème prendra en compte le niveau de difficulté choisi dans la réalisation du projet (un nuage des mots-clefs les plus fréquents sera jugé très facile, tandis que générer un résumé totalement original avec des approches génératives sera jugé plus difficile),

Il ne s’agit pas de développer une méthode ad-hoc pour cet unique livre mais de garder l’idée que ce vous proposez pourra être testé sur un autre livre.

Pour finir, l’œuvre littéraire est imposée : il s’agit de la série Dune, écrite par F. Herbert. Vous aurez à votre disposition le premier ouvrage de l’écrivain, mais le travail proposé sera testé sur d’autres livres de la série (avec le même format en entrée). Les données étant protégées par copyright, elles sont fournies de manière individuelle et ne doivent être diffusées sous aucun prétexte.

About

License:MIT License


Languages

Language:Python 100.0%