Este repositório contém uma análise abrangente dos dados do Titanic, incluindo pré-processamento, visualização de dados e construção de modelos de machine learning para prever a sobrevivência dos passageiros. A solução envolve a implementação de técnicas avançadas como engenharia de features, tratamento de valores ausentes, codificação de variáveis categóricas, balanceamento de classes, e ajuste de hiperparâmetros. O objetivo é criar um pipeline robusto e eficiente para análise e previsão.
- Análise Descritiva e Visualização 📊: Geração de estatísticas resumidas e visualizações detalhadas dos dados.
- Pré-processamento dos Dados 🔧: Implementação de técnicas para preparar os dados para modelagem, incluindo imputação de valores ausentes, engenharia de features e codificação categórica.
- Modelagem Preditiva 🤖: Treinamento e avaliação de modelos de machine learning, como Decision Tree e Random Forest.
- Busca e Exploração de Dados 🔍: Funcionalidades para pesquisar passageiros específicos e explorar características associadas à sobrevivência.
- Ajuste de Hiperparâmetros 🎯: Busca aleatória para otimizar os hiperparâmetros dos modelos, garantindo melhor desempenho preditivo.
- Python: Linguagem principal para a análise e modelagem.
- Pandas & NumPy: Manipulação e análise dos dados.
- Seaborn & Matplotlib: Visualizações gráficas.
- Scikit-learn: Modelagem e validação de modelos de machine learning.
- SMOTE: Técnicas para balanceamento de classes.
- DataPreparation: Módulo responsável pela análise e preparação dos dados.
- ModelTraining: Módulo para treinamento de modelos de machine learning.
- HyperparameterTuning: Módulo para ajuste de hiperparâmetros.
- PassengerSearch: Módulo para busca e exploração de dados de passageiros.
Sinta-se à vontade para abrir um pull request ou relatar problemas na aba de issues. Todas as contribuições são bem-vindas!
🔗 Referências úteis: Kaggle Titanic Dataset, Scikit-learn Documentation.