pixel-debug / Machine-Learning

Códigos e enunciados utilizados no curso de Aprendizado de Máquina feito em 2020.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Machine-Learning




Primeira parte:

Análise de Atributos para Diferenciar Espécies de Plantas do Gênero Iris


Plantas do gênero Iris possuem diversas espécies que podem ser diferenciadas por algumas caracteristicas da flor. Nesta prática, iremos investigar quais atributos distinguem melhor algumas espécies dessa planta. Para isso, usaremos este dataset que possui 150 plantas do gênero Iris com atributos de sua flor (propriedades):
  • Tamanho e largura do cálice (em cm)

  • Tamanho e largura da pétala (em cm)

Existem 3 espécies de plantas do genero Iris na base que serão usadas: Iris Setosa, Iris Virginifica e Iris Versicolor

Roteiro da prática:

  • Calcular do InfoGain de cada atributo. Armazene o resultado em um DataFrame de duas colunas - nome do atributo e valor de infogain - ordene essa tabela pelo InfoGain.

  • Gerar um gráfico de disperção (scatter plot) em que o eixo x e y são os dois atributos com InfoGain mais altos e com 3 grupos, cada grupo, uma espécie de flor diferente.

Segunda parte:

Impacto do Overfitting/Underfitting - Estimativa Automática da Qualidade de Conteúdo Nesta prática, foram usados dados de 3.294 artigos da Wikipédia rotulados manualmente quanto a sua qualidade.

Esses artigos passaram por uma avaliação pela comunidade de editores da Wikipedia. Tais editores classificaram esses artigos quanto a qualidade da seguinte forma:

  • Artigo Destaque (FA): Os artigos atribuídos a esta classe são, de acordo com os avaliadores, os melhores artigos da Wikipédia.
  • Classe A (AC): os artigos da Classe A são considerados completos, mas com alguns problemas pendentes que precisam ser resolvidos para serem promovidos a Artigos em destaque.
  • Artigo Bons (GA): Bons Artigos são aqueles sem problemas de lacunas ou conteúdo excessivo. Essas são boas fontes de informação, embora outras enciclopédias possam fornecer um conteúdo melhor.
  • Classe B (BC): os artigos atribuídos a essa classe são considerados úteis para a maioria dos usuários, mas carecem de informações mais precisas.
  • Classe Inicial (ST): os artigos da Classe Inicial ainda estão incompletos, embora contenham referências e ponteiros para informações mais completas.
  • Artigos Rascunhos (SB): os artigos de toco são artigos de rascunho, com poucos parágrafos. Eles também têm poucas ou nenhumas citações.

Assim, Dalip et. al. (2009) fizeram o preprocessamento desses artigos para serem extraídos indicadores de qualidades tais como: idade do artigo, tamanho, número de citações. Com tais indicadores e a classe de qualidade, foi possível realizar a predição automática de qualidade de artigos da Wikipédia.

Foi feita uma previsão da qualidade usando os indicadores proposto por Dalip et. al. (2009) e uma árvore de decisão.

Programação orientada a objetos:

Práticas para testar os conhecimento em programação orientada a objetos na linguagem python.

About

Códigos e enunciados utilizados no curso de Aprendizado de Máquina feito em 2020.


Languages

Language:Jupyter Notebook 99.4%Language:Python 0.6%Language:Dockerfile 0.0%Language:Shell 0.0%Language:Makefile 0.0%