SamuelTelesSilva / toxic_comment_detection

Detecção de comentários ou textos preconceituosos com processamento de linguagem natural. Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Detection of toxic comments in Brazilian Portuguese

Projeto 🔥

  • Detecção de comentários ou textos preconceituosos com processamento de linguagem natural

Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

Dataset

O conjunto de dados utilizado, foi ToLD-BR com 21000 comentários toxicos, contendo algumas labels: homophobia, obscene, insult, racism, misogyny e xenophobia.

João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton (2020): Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis. Published at AACL-IJCNLP 2020. arxiv version

Conteúdo ✨

  • Normalização de texto

    • Tokenização
    • Capitalização
    • Remoção de palavras vazias (stopwords)
    • Lematização e/ou Radicalização (Stemming)
    • Remoção de emoji que tem nos comentários do Twitter
    • Utilizando a ferramenta enelvo para arrumar as palavras da internet
  • Embedding das palavras com Bert e Hugging Face 🤗

  • Classificação de texto Multilabel com Spacy e Sklearn

    • Embedding das palavras com Spacy
    • Técnicas de classificação utilizadas
      • Random Forest
      • Naive Bayes Classifier
      • Support Vector Machine (SVM)
      • Logistic Regression
      • Gradient Boosting
    • Técnicas de amostragem
      • undersampling
      • oversampling
  • Classificação de texto Multilabel com Bert e Hugging Face 🤗

    • Embedding das palavras com Bert
    • Técnicas de classificação utilizadas
      • Random Forest
      • Naive Bayes Classifier
      • Support Vector Machine (SVM)
      • Logistic Regression
      • Gradient Boosting
    • Técnicas de amostragem
      • oversampling - SMOTE
  • Classificação de texto binária com Bert

    • Embedding das palavras com Bert
    • Técnicas de classificação utilizadas
      • Random Forest
      • Naive Bayes Classifier
      • Support Vector Machine (SVM)
      • Logistic Regression
      • Gradient Boosting
    • Técnicas de amostragem
      • oversampling - SMOTE
  • Classificação de texto binária com Bert e Keras

    • Embedding das palavras com Bert
    • Deep learning com keras
    • Técnicas de amostragem
      • oversampling - SMOTE

Notebooks 💻

  • Normalização de texto Open In Colab

  • Embedding das palavras com Bert Open In Colab

  • Classificação de texto Multilabel com Spacy e Sklearn Open In Colab

  • Classificação de texto Multilabel com BERT Open In Colab

  • Classificação de texto binária com BERT 🤗 Open In Colab

  • Classificação de texto binária com BERT, Keras e Hugging Face 🤗 Open In Colab

Como usar esse conteúdo❓

Licença 🚩

The source code for the site is licensed under the MIT license, which you can find in the LICENSE file.

About

Detecção de comentários ou textos preconceituosos com processamento de linguagem natural. Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

License:MIT License


Languages

Language:Jupyter Notebook 100.0%