Repositório criado para resolver o desafio Kaggle Titanic. A solução criada envolve quatro scripts, o primeiro (eda.py) realiza toda a parte da análise exploratória dos dados, o segundo (feature.py) faz a limpeza dos dados e utiliza algumas técnicas de feature engineering para criação de novas features, o terceiro script é o model.py, onde é feita a criação do modelo (Random forest, LightGBM), e, por último(predict.py) responsável pela predição da base de teste.
- Baixe o arquivo zip desse repositório
- Instale virtualenv
- Navegue até o repositório onde o arquivo foi extraído e crie um ambiente virtual com
virtual env
- Ative o ambiente com
source env/bin/activate
- Instale a dependências com
pip install -r requirements.txt
- Execute os scripts na seguinte ordem eda.py -> feature.py -> model.py -> predict.py
- Divirta-se
- Label encoder
- One-Hot encoder
- Feature engineering
- Random Grid
- Grid Seach
- K-fold
- Random forest
- LightGBM