barbaraneves / gender-bias-in-virtual-assistants

Final Project of the Data Science postgraduate class at MDCC/UFC

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Identifying Gender Bias in Virtual Assistants

To be published!

alt text

Projeto Final da disciplina de Ciência de Dados - UFC 2021.1, em sua maioria feito no Google Colab. Colocamos em um repositório para facilitar o acesso e a correção.


Objetivos

  1. Desenvolver um projeto inédito de Ciência de Dados o mais próximo possível de um projeto real, a fim de demonstrar os conhecimentos adquiridos ao longo da disciplina.
  2. Comparar os algoritmos escolhidos com conjuntos de dados reais utilizando métricas de avaliação vistas ou não na disciplina.

Abstract

A definir

Resultados

Task Dataset Sample Stratified Split F1 LSTM F1 BERT
Tocixity, Multi-label Wikipedia Toxic Comments Undersampling (~20k) Yes 0.67 0.68
Gender Bias, Multiclass MDGender ~2k Yes 0.75 0.88
Gender Bias, Multiclass ConvAI2 50k Yes 0.69 0.81
Gender Bias, Multiclass LIGHT 50k Yes 0.73 0.83

Quick Start

Environment

Use o virtualenv para criar um ambiente Python.

virtualenv venv --python=python3

source venv/bin/activate

Usage

Use o package manager pip para instalar os pacotes necessários através do comando abaixo.

pip install -r requirements.txt

Depois, basta executar:

jupyter notebook

Visão Geral e Checkpoints

ml canvas

Fornecemos abaixo os passos a serem seguidos para entendimento do projeto em forma de checkpoints.

Na verdade, ao longo do desenvolvimento do trabalho, tivemos de entregar 3 checkpoints. Dos listados acima, os checkpoints oficiais são os 1 e 2, e os restantes dizem respeito mais a nossa organização interna. Nos avise se algo não estiver claro.

Contato

Você pode enviar suas perguntas ou comentários para Bárbara, Lucas, Samir e Vinicius :)

About

Final Project of the Data Science postgraduate class at MDCC/UFC

License:MIT License


Languages

Language:Jupyter Notebook 99.7%Language:Python 0.3%