These are the projects I made in the Data Scientist course in TripleTen LatAm.
They involve data Preprocessing, data analysis as well as statistical analysis. Some of them involve the creation of a Machine Learning models.
Topic | Project | Description | Highlights & Libraries |
---|---|---|---|
Data Preprocessing | Borrowers’ risk Analysis | Analysis of the important characteristics to take into account when creating a credit score for a potential client. | pandas, duplicate and missing data, wrong data types, classifying data |
Exploratory Data Analysis | Vehicle Price Analysis | Analysis to determine what factors influence the price of a vehicle and how much they influence. | pandas, numpy, matplot, fix duplicate, missing and outlier values, wrong data types, classify data, dictionary |
Statistical Data Analysis | Phone Plan Analysis | Analyze the behavior of customers with different phone plans to find out which prepaid rate generates more revenue and adjust the advertising budget. | pandas, numpy, matplot, scipy, hypothesis test, multiple data sets |
⭐Project | Videogames Analysis | Identify patterns that determine if a game is successful or not in order to have an efficient planning of advertising campaigns and analyze the success of games by region. | pandas, matplotlib, scipy, numpy, hypothesis test |
Collect and Store Data with SQL | Chicago Taxi Trips Analysis | Analyze the behavior of Taxi passengers in Chicago city and explore the impact of external factors, such as weather, in the rides. | pandas, SQL, matplotlib, seaborn, scipy |
Machine Learning | ML Model: Telephonic Plan Recommendation | Develop a machine learning model based on the behavior of current customers, to recommend telephone plans to new customers. | pandas, GridSearchCV, sklearn, Machine Learning |
ML Supervised Learning | ML Model: Predict bank customers loyalty | Develop a machine learning classification model, based on the behavior of current customers, to predict if they will stay or stop using the bank services soon. | pandas, GridSearchCV, sklearn, Machine Learning |
ML in business | ML Model: Oil region profit and risk prediction | Develop a machine learning model to predict the volume of reserves of new wells and choose the region with the highest benefit and lowest risk. | pandas, numpy, statistics, matplotlib, sklearn |
⭐Project | Gold Extraction Analysis | Create a Machine Learning model to predict the amount of gold mined, optimize production, and remove unprofitable parameters. | pandas, matplotlib, numpy, sklearn |
Linear Algebra | Insurance company data analysis and masking | Analyze data to find similar customers and predict whether a customer will use insurance benefits and how many they will use. Furthermore, mask or obfuscate customer data without affecting the quality of the machine learning models. | pandas, numpy, math, seaborn, sklearn |
Numerical Methods | Vehicle Price Machine Learning Model | Machine learning model that determines the market value of a vehicle taking into account the training time and the speed and quality of the prediction. | pandas, numpy, time, matplotlib, seaborn, sklearn, catboost, lightgbm, xgboost |
Temporal Series | Taxi Orders Machine Learning Model | Machine learning model that predicts taxi orders at a certain time at an airport. | pandas, numpy, matplotlib, statsmodels, sklearn, catboost, lightgbm |
Machine learning for text | ML Model: Classify Movie Reviews | Machine learning model to classify movie reviews as positive or negative. | pandas, numpy, math, re, nltk, matplotlib, seaborn, tqdm, spacy, sklearn, lightgbm |
Artificial Vision | ML Model: Artificial Vision to Determine Age | Using artificial vision, determine the age of a person from an image. To do this, a model is built and evaluated to verify the age of people. | pandas, numpy, matplotlib, tensorflow |
⭐ Final Project | ML Model: Predict service cancellation | Develop a machine learning model that predicts whether a person is likely to cancel a service to offer them promotions and/or special plans. | pandas, matplotlib, seaborn, sklearn, catboost, lightgbm |
Estos son proyectos que hice en el curso de científico de datos en TripleTen LatAm.
Los proyectos involucran preprocesamiento de datos y análisis estadístico.
Tema | Proyecto | Descripción | Características a destacar y librerias |
---|---|---|---|
Preprocesamiento de datos | Análisis del riesgo de prestatarios | Analizar características importantes a tener en cuenta al crear una puntuación de crédito para un cliente potencial. | pandas, valores duplicados y ausentes, tipos de datos erróneos, clasificar datos |
Análisis exploratorio de datos (EDA) | Análisis de precio de vehiculos | Análisis para determinar qué factores influyen en el precio de un vehículo y qué tanto influyen. | pandas, numpy, matplot, corregir valores duplicados, ausentes y atípicos, tipos de datos erróneos, clasificar datos, diccionario |
Análisis estadístico de datos | Análisis de planes telefónicos | Analizar el comportamiento de clientes con distintos planes telefonicos para saber qué tarifa de prepago genera más ingresos y ajustar el presupuesto de publicidad. | pandas, numpy, matplot, scipy, test de hipótesis, mútiples conjuntos de datos |
⭐ Proyecto | Análisis de videojuegos | Identificar patrones que determinan si un juego tiene éxito o no para tener una planificación eficiente de campañas publicitarias y analizar exito de juegos por región. | pandas, matplotlib, scipy, numpy, test de hipótesis |
Recopilación y almacenamiento de datos con SQL | Análisis de viajes de taxis en Chicago | Analizar el comportamiento de los pasajeros de taxis en la ciudad de Chicago y explorar el impacto de factores externos, como el clima, en los viajes. | pandas, SQL, matplotlib, seaborn, scipy |
Machine Learning | Modelo ML: recomendación de planes telefónicos | Desarrollar un modelo de machine learning basado en el comportamiento de clientes actuales, para recomendar planes telefónicos a clientes nuevos. | pandas, GridSearchCV, sklearn, Machine Learning |
ML aprendizaje supervisado | Modelo ML: predecir lealtad de clientes del banco | Desarrollar un modelo de machine learning de clasificación, basado en el comportamiento de los clientes actuales, para predecir si permanecerán o dejarán de utilizar los servicios del banco próximamente. | pandas, GridSearchCV, sklearn, Machine Learning |
ML en negocios | Modelo ML: Predicción de ganancias y riesgos en regiones petroleras | Desarrollar un modelo de machine learning para predecir el volumen de reservas de pozos nuevos y elegir la región con el mayor beneficio y menor riesgo. | pandas, numpy, statistics, matplotlib, sklearn |
⭐ Proyecto | Análisis de extracción de oro | Crear un modelo de Machine Learning para predecir la cantidad de oro extraído, optimizar la producción y eliminar los parámetros no rentables. | pandas, matplotlib, numpy, sklearn |
Álgebra lineal | Análisis y ofuscación de datos de compañia de seguros | Analizar datos para encontrar clientes similares y predecir si un cliente usara las prestaciones del seguro y cuantas usará. Asimismo, enmascarar u ofuscar los datos de los clientes sin afectar la calidad de los modelos de machine learning. | pandas, numpy, math, seaborn, sklearn |
Métodos numéricos | Modelo ML: predicción de precios de vehículos | Modelo de Machine learning que determina el valor de mercado de un vehiculo tomando en cuenta el tiempo de entrenamiento y la velocidad y calidad de la predicción. | pandas,numpy, time, matplotlib, seaborn, sklearn, catboost, lightgbm, xgboost |
Series temporales | Modelo ML: predicción de pedidos de taxis | Modelo de Machine learning que predice pedidos de taxis a determinada hora en un aeropuerto. | pandas, numpy, matplotlib, statsmodels, sklearn, catboost, lightgbm |
Aprendizaje automático para textos | Modelo ML: clasificar reseñas de películas | Modelo de machine learning para clasificar reseñas de películas en positivas o negativas. | pandas, numpy, math, re, nltk, matplotlib, seaborn, tqdm, spacy, sklearn, lightgbm |
Visión artificial | Modelo ML: Visión artificial para determinar la edad | Mediante visión artificial, determinar la edad de una persona a partir de una imagen. Para ello, se construye y evalua un modelo para verificar la edad de las personas. | pandas, numpy, matplotlib, tensorflow |
⭐ Proyecto final | Modelo ML: Pronosticar cancelación del servicio | Desarrollar un modelo de machine learning que predice si una persona es propensa a cancelar algún servicio para ofrecerle promociones y/o planes especiales. | pandas, matplotlib, seaborn, sklearn, catboost, lightgbm |