AmauryFaure / project_article_1

Projet réalisé pour INSPIRE d'Article 1, mise en place d'algorithme de modération.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Projet d'intégration INSPIRE Article 1

Ce projet a été réalise avec l'association Article 1 par Amaury Faure dans le cadre d'un projet d'intégration à l'École Centrale de Lille. Le but du projet est de développer un algorithme permettant de repérer des contenus textuels "dangereux".

Description du projet :

Le fichier Project_A1_Simple.ipynb contient des implémentations d'algorithme de modération des messages utilisant la librairie Scikit-Learn. On utilise aussi la méthode de Bag Of Words ainsi que TF-IDF conjugué à une régression logisitique.

Le fichier Project_A1_CamemBERT.ipynb contient une implémentation de CamemBERT, un réseau neuronal basé sur BERT, entrainé pour la classification de séquence.

Le fichier serving.ipynb contient une implémentation du Serving d'un modèle CamemBERT via Ray-Serve.

Les 3 autres fichiers contiennent des textes utiles pour l'entraînement et le test des algorithmes :

  • AmauryModerationAllMessagesInspireFrom3Aout2020.xlsx: Contient des échanges de la plateforme INSPIRE, indisponible sur ce répertoire.
  • fr_dataset_test.csv: Contient des tweets en français provenant de Multilingual and Multi-Aspect Hate Speech Analysis, où certains tweets utilisé pour l'entraînement ont été retiré
  • selected_tweets.csv: un fichier contenant des tweets sélectionnés pour l'entraînement. Plus d'informations sur la sélection des tweets here.

Réutilisation des notebooks :

Pour réutiliser ces notebooks il faudra soit les télécharger et les utiliser en local soit les ouvrir directement dans google colab. Concernant le notebook CamemBERT, étant donné le besoin d'un GPU, je conseille de l'ouvrir avec Google Colab dans un premier temps.

Pour faire tourner les notebooks, j'importe les fichiers présent dans ce répertoire via mon Drive. Il faudra donc probalement changer le chemin des fichiers pour correspondre à votre emplacement.

Une fois cela fait chaque notebook doit pouvoir s'éxécuter.

About

Projet réalisé pour INSPIRE d'Article 1, mise en place d'algorithme de modération.

License:MIT License


Languages

Language:Jupyter Notebook 100.0%