danielesantiago / Data-Science

Portifólio de Data Science

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

author GPLv3 license contributions welcome

Portfólio de Ciência de Dados

Este repositório armazena as análises desenvolvidas durante o curso "Data Science na Prática" da Sigmoidal, bem como aprendizados próprios. Nota: Os dados utilizados nos projetos (acessados no diretório de dados) são apenas para fins de demonstração.

Instruções para Execução dos Notebooks em Python Localmente

  1. Instale as dependências necessárias.
  2. Execute os notebooks como de costume, usando um servidor Jupyter Notebook, Vscode, etc.

Tópicos

  • Análise Exploratória

    • Análise dos Dados do Airbnb em Hong Kong: Uma análise dos dados do Airbnb na cidade de Hong Kong, utilizando ferramentas de análise estatística para entender os preços médios, tipos de imóveis disponíveis e suas localizações. Além disso, o notebook apresenta visualizações e insights sobre as avaliações dos usuários e os requisitos mais buscados pelos hóspedes.
    • Panorama da COVID-19: Uma análise dos dados da COVID-19 em nível mundial, utilizando ferramentas de visualização para apresentar a evolução dos casos confirmados, mortes e taxas de recuperação em diferentes países. Além disso, o notebook apresenta uma análise dos dados em relação à densidade populacional e IDH dos países, buscando entender possíveis fatores que influenciam a disseminação da doença.

    Ferramentas: Pandas, Seaborn, Matplotlib

  • Machine Learning

    • Detecção de Fraudes em Cartões de Crédito: Neste projeto, é utilizada uma base de dados de transações de cartões de crédito para desenvolver um modelo de aprendizado de máquina capaz de identificar fraudes. São utilizadas técnicas de pré-processamento, análise exploratória e seleção de atributos para treinar modelos de classificação, buscando maximizar a identificação de transações fraudulentas e minimizar falsos positivos.
    • Churn Prediction: Neste projeto, é desenvolvido um modelo de aprendizado de máquina para prever a taxa de churn de clientes em uma empresa fictícia. São utilizadas técnicas de pré-processamento, análise exploratória e seleção de atributos para treinar modelos de classificação, buscando prever quais clientes têm maior probabilidade de abandonar a empresa e identificar possíveis fatores que influenciam nessa decisão. O objetivo final é ajudar a empresa a tomar medidas preventivas para reduzir a taxa de churn e aumentar a retenção de clientes.
    • Credit Risk Analysis: Neste projeto, é utilizada uma base de dados financeiros de clientes para desenvolver um modelo de aprendizado de máquina capaz de avaliar o risco de crédito. O objetivo é prever a probabilidade de um cliente não cumprir com suas obrigações financeiras, o que é conhecido como default. São utilizadas técnicas de pré-processamento para preparar os dados para o treinamento do modelo. Isso pode envolver a limpeza dos dados, tratamento de valores ausentes, e a transformação de variáveis categóricas em numéricas, além de feature engineering, feature selection e balanceamento de classes

    Ferramentas: Sklearn, Imblearn, Pandas, Seaborn, Matplotlib

  • Auto Machine Learning

    • Classificação de Saúde Fetal: Neste projeto, é desenvolvido um modelo de classificação para prever a saúde fetal com base em dados clínicos. São utilizadas técnicas de pré-processamento e análise exploratória para entender a distribuição dos dados e identificar possíveis correlações entre as variáveis. Em seguida, diferentes modelos de aprendizado de máquina são treinados e avaliados para encontrar o que apresenta o melhor desempenho na classificação das diferentes condições de saúde fetal.

    • Previsão de Custos de Seguro de Saúde: Neste projeto, é desenvolvido um modelo de regressão para prever os custos de seguro de saúde com base em informações sobre os segurados. São utilizadas técnicas de pré-processamento e análise exploratória para entender a distribuição dos dados e identificar possíveis correlações entre as variáveis. Em seguida, diferentes modelos de regressão são treinados e avaliados para encontrar o que apresenta o melhor desempenho na previsão dos custos de seguro de saúde. O objetivo final é ajudar as seguradoras a estimar os custos de seus segurados e definir preços mais justos para seus planos de saúde.

    Ferramentas: Pycaret, Sklearn, Imblearn, Pandas, Seaborn, Matplotlib

  • Deep Learning

    • Classificador de Fake News: Neste projeto, desenvolvemos um modelo de classificação de notícias como verdadeiras ou falsas, por meio de redes neurais. O objetivo é criar um classificador de aprendizado de máquina capaz de detectar automaticamente notícias falsas, auxiliando no combate à desinformação. Utilizando um conjunto de treinamento de notícias rotuladas, o modelo é treinado para identificar padrões e distinguir entre notícias verdadeiras e falsas. Esse projeto contribui para a identificação e mitigação da propagação de informações enganosas, visando a promoção de um ambiente informacional mais confiável e seguro.

    Ferramentas: Tensorflow, Sklearn, Pandas, Numpy, Seaborn, Matplotlib

  • Séries Temporais

    • Previsão de Demanda de Vinhos com Séries Temporais: : Neste projeto, é desenvolvido um modelo de previsão de demanda de vinhos com base em séries temporais. São utilizados dados históricos de vendas para treinar e testar diferentes modelos de previsão, como ARIMA, Prophet e LSTM. São utilizadas técnicas de pré-processamento e análise exploratória para entender a distribuição dos dados e identificar possíveis tendências e sazonalidades. O objetivo final é ajudar uma vinícola a antecipar a demanda por seus produtos e otimizar sua produção e distribuição.

    Ferramentas: Prophet, Sklearn, Pandas, Seaborn, Matplotlib

About

Portifólio de Data Science


Languages

Language:Jupyter Notebook 97.3%Language:HTML 2.7%