Este trabalho foi desenvolvido por Marcos Wenneton Araújo como parte do processo seletivo para integrar o time do Cesar Labs como Cientista de Dados.
Os notebooks aqui apresentados foram desenvolvidos utilizando o Python 3.9.5
e as seguintes bibliotecas:
- pandas
- sklearn
- lightgbm
- matplotlib
- seaborn
- numpy
- plotly
O conteúdo de cada notebook é apresentado a seguir:
dataset_exploration.ipynb
: gráficos e informações relacionados à exploração do dataset. Distribuição de variáveis. Matriz de correlação. Quantidadade de dados faltantes.model_creation.ipynb
: Pré-processamento do conjunto de dados. Feature engineering. Feature selection. Partição dos dados. Pipeline para tratamento dos dados dispostos aos modelos. Técnicas de cross validation para busca de melhores hiperparâmetros. Treinamento e teste de modelos. Apresentação dos resultados obtidos. Próximos passos.
Fonte dos dados: Bias correction of numerical prediction model temperature forecast Data Set