Este proyecto utiliza el conjunto de datos "Adult" de UCI Machine Learning Repository para predecir si un individuo tiene ingresos superiores a $50,000 al año. Se implementa un modelo XGBoost para este propósito.
-
Importar bibliotecas necesarias: pandas, sklearn, xgboost.
-
Configurar la URL de los datos.
-
Definir los nombres de las columnas.
-
Leer los datos desde la URL.
-
Etiquetar la columna objetivo ("income").
-
Convertir variables categóricas a numéricas.
Este repositorio contiene un código en Python que realiza un análisis de datos y utiliza el algoritmo XGBoost para la clasificación de ingresos entre personas que ganan mas de 50k o menos o igual a 50k al año. A continuación, se proporciona una descripción detallada del código sin incluir el código fuente.
- pandas: Para manipulación y análisis de datos.
- scikit-learn: Para herramientas de aprendizaje automático y preprocesamiento de datos.
- XGBoost: Implementación de Gradient Boosting para mejorar la eficiencia y el rendimiento.
Se accede a datos sobre ingresos desde la URL proporcionada. Los datos se leen en un DataFrame de pandas, utilizando nombres predefinidos para las columnas.
- La columna objetivo "income" se etiqueta como 0 si es "<=50K" y 1 en caso contrario.
- Se convierten las variables categóricas en variables numéricas mediante la codificación de etiquetas.
Los datos se dividen en conjuntos de entrenamiento y prueba en una proporción del 80-20, sin sobre-muestreo.
Se realiza una búsqueda de cuadrícula para ajustar los parámetros del clasificador XGBoost utilizando GridSearchCV. Se exploran diferentes combinaciones de tasas de aprendizaje, número de estimadores, profundidad máxima y peso mínimo por hoja.
- El modelo se entrena con los mejores parámetros encontrados.
- Se realizan predicciones en el conjunto de prueba y se evalúa la precisión del modelo junto con otras métricas de clasificación.
- Se muestra la proporción de clases en los conjuntos de entrenamiento y prueba.
- Se proporciona información y un resumen estadístico del conjunto de datos.
- Se muestran las predicciones del modelo en el conjunto de prueba.
Para ejecutar este código, se recomienda seguir los siguientes pasos:
git clone [https://github.com/tu_usuario/tu_repositorio.git](https://github.com/Cha0smagick/Modelo_predictivo_ganar_mas_de50k.git)
cd Modelo_predictivo_ganar_mas_de50k
python -m venv venv
En Windows:
.\venv\Scripts\activate
En Linux/Mac:
source venv/bin/activate
pip install -r requirements.txt
python app.py