LeDSantos / K-foldCrossValidation_K-NearestNeighbors

O objetivo deste exercício é implementar o processo de k-fold cross validation (validação cruzada), técnica predominantemente utilizada em Aprendizado de Máquina para avaliar o poder de generalização de modelos. Esta técnica será aplicada para avaliação de modelos de k-nearest neighbors (KNN) para classificação com o dataset Pima Indian Diabetes (disponível para download no projeto), o qual tem como objetivo tentar predizer se um paciente tem diabetes baseado em um pequeno conjunto de atributos demográficos e clínicos. Este conjunto de dados é composto por 768 instâncias, sendo 500 da classe negativa (0, não possui diabetes) e 268 da classe positiva (1, possui diabetes). Além da classe (coluna “Outcome”), existem 8 atributos preditivos numéricos a partir do qual a predição deverá ser realizada. Observe que os atributos possuem escalas diferentes, sendo necessário normalizar os valores antes da aplicação do KNN.

Geek Repo

Github PK Tool

LeDSantos / K-foldCrossValidation_K-NearestNeighbors

LeDSantos/K-foldCrossValidation_K-NearestNeighbors Issues

No issues in this repository yet.