vinnyalvs / MineracaoDadosEnemTeresina

Metodologia de Mineração de Dados do Enem 2019 aplicado para a cidade de Teresina

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

MineracaoDadosEnemTeresina

Feito com Jupyter Notebook e a ferramenta Orange

Objetivos

Estudo de caso sobre Estudantes do último ano do Ensino Médio da cidade de Teresina Piaui

Minhas sugestão é baixar o Ambiente de desenvolvimento Anaconda (https://www.anaconda.com/products/individual#Downloads)

Metodologia:

  1. Limpeza e tratamento de dados
  2. Aplicação de algoritmo de clusterização Kmeans com Sci-kit Learn
  3. Aplicação de algoritmo de mineração de regras de associação com Orange ou bilioteca apyori

Como executar

Primeiro Precisa baixar a base dos microdados do ENEM em http://inep.gov.br/microdados

Atualizar a localização do arquivo na variável path do notebook Leitura Microdados Enem

  1. Criar pasta Dados
  2. Criar pasta Gráficos

A partir daí executar os notebooks na seguinte ordem:

  1. Leitura Microdados Enem
  2. TratandoDadosEnem
  3. TratandoDadosEnem_Apriori
  4. Clusterização
  5. Executar o Worlflow do Orange
  6. Resultados (é possível executar esse Jupyter diretamente pois o arquivo agrupadas_notas_normalizadoQuantil.csv esta versionado)

Para gerar as regras de associação, usar o programa Orange na base resultante da clusterização (agrupadas_notas_normalizadoQuantil.csv)

  1. Abrir no programa Orange o workflow AnaliseCluster_NOTAS

  2. Carregar o arquivo agrupadas_notas_normalizadoQuantil.csv

  3. Abrir o widget Association Rules:

    • Definir os parâmetros:
    • Support: 20%
    • Confidence: 70%

    (esses foram os valores usados para o artigo, pode mudar conforme desejar)

Análise da Clusterização

Valor de Silhueta Clusterização 3D Silhueta

Análise da distribuição das Notas pelos Clustes

Notas_perCLuster NotaMedia_perCluster CoordernadasParalelas

Análise Descritiva das Variáveis para cada Cluster

Notas Clusterização Notas Clusterização Notas Clusterização Notas Clusterização Notas Clusterização

About

Metodologia de Mineração de Dados do Enem 2019 aplicado para a cidade de Teresina


Languages

Language:Jupyter Notebook 100.0%