bert binary-classification deep-learning keras-tensorflow multilabel-classification natural-language-processing portuguese-brazilian python sentiment-analysis sentiment-classification sklearn spacy-nlp toxic-comment-classification normalization-text

Detection of toxic comments in Brazilian Portuguese

Projeto 🔥

Detecção de comentários ou textos preconceituosos com processamento de linguagem natural

Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

Dataset

O conjunto de dados utilizado, foi ToLD-BR com 21000 comentários toxicos, contendo algumas labels: homophobia, obscene, insult, racism, misogyny e xenophobia.

João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton (2020): Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis. Published at AACL-IJCNLP 2020. arxiv version

Conteúdo ✨

Normalização de texto
- Tokenização
- Capitalização
- Remoção de palavras vazias (stopwords)
- Lematização e/ou Radicalização (Stemming)
- Remoção de emoji que tem nos comentários do Twitter
- Utilizando a ferramenta enelvo para arrumar as palavras da internet
Embedding das palavras com Bert e Hugging Face 🤗
Classificação de texto Multilabel com Spacy e Sklearn
- Embedding das palavras com Spacy
- Técnicas de classificação utilizadas
  - Random Forest
  - Naive Bayes Classifier
  - Support Vector Machine (SVM)
  - Logistic Regression
  - Gradient Boosting
- Técnicas de amostragem
  - undersampling
  - oversampling
Classificação de texto Multilabel com Bert e Hugging Face 🤗
- Embedding das palavras com Bert
- Técnicas de classificação utilizadas
  - Random Forest
  - Naive Bayes Classifier
  - Support Vector Machine (SVM)
  - Logistic Regression
  - Gradient Boosting
- Técnicas de amostragem
  - oversampling - SMOTE
Classificação de texto binária com Bert
- Embedding das palavras com Bert
- Técnicas de classificação utilizadas
  - Random Forest
  - Naive Bayes Classifier
  - Support Vector Machine (SVM)
  - Logistic Regression
  - Gradient Boosting
- Técnicas de amostragem
  - oversampling - SMOTE
Classificação de texto binária com Bert e Keras
- Embedding das palavras com Bert
- Deep learning com keras
- Técnicas de amostragem
  - oversampling - SMOTE

Notebooks 💻

Normalização de texto
Embedding das palavras com Bert
Classificação de texto Multilabel com Spacy e Sklearn
Classificação de texto Multilabel com BERT
Classificação de texto binária com BERT 🤗
Classificação de texto binária com BERT, Keras e Hugging Face 🤗

Como usar esse conteúdo❓

Precisa ter o dataset ToLD-BR
- Para obter o dataset acesse o link https://github.com/JAugusto97/ToLD-Br#readme
Precisa ter o modelo BERT pré-treinado
- Para obter o modelo acesse a pagina do huggingface 🤗 https://huggingface.co/neuralmind/bert-base-portuguese-cased
Para utilizar os Notebooks
- No tópico Notebooks tem o botão do colab , clique no botão para abrir o notebook.
- Bibliotecas e pacotes já estão no colab.
- Como utilizar o google colab?
  - acesse esse link https://colab.research.google.com/github/anthony-agbay/python-resource-guide/blob/master/notebooks/intro-notebooks.ipynb

Licença 🚩

The source code for the site is licensed under the MIT license, which you can find in the LICENSE file.

About

Detecção de comentários ou textos preconceituosos com processamento de linguagem natural. Projeto apresentado ao Curso de Especialização Lato sensu de Inteligência Artificial e Aprendizado de Máquina da Universidade Nove de Julho.

bert binary-classification deep-learning keras-tensorflow multilabel-classification natural-language-processing portuguese-brazilian python sentiment-analysis sentiment-classification sklearn spacy-nlp toxic-comment-classification normalization-text

MIT License

Languages

Language:Jupyter Notebook 100.0%