hugomuniz94

Hugo Muniz's repositories

Pipeline-ETL-DataLake-DW-SQL

Desafio Final do BootCamp de Engenharia de Dados do IGTI. Neste desafio utilizei o Airflow via Docker para orquestração do Pipeline de extração de dados do MongoDB e da API do IBGE, e ingestão no Data Lake S3 da AWS. Após isso os dados foram tratados e filtrados apenas para o público alvo para serem disponibilizados em um DW pelo RDS da AWS utilizando o banco de dados Postgree. Pipelines de Dados. Containers. Bases de Dados SQL e NoSQL. Conexão a APIs. ETL. Data Lake. Processamento de dados distribuído.

Language:Python2 20

Analise-Preditiva-Avancada

Análises de Predições de Vendas e Predições de Subscrições de Serviço. A base Retail foi utilizada nos modelos de regressão para previsão de vendas e a base marketing foi utilizada no modelo de classificação para previsão de subscrições do serviço. No trabalho como um todo foram utilizados os modelos de Regressão Linear e Logística, Árvore de Decisão, SVM e Redes Neurais. Observação: Baixe o arquivo HTML para ver o trabalho completo em formato de relatório.

Language:HTML1 20

Clusterizacao

Análise de Clusters utilizando a base de dados de compras anuais dos clientes de um distribuidor atacadista de Portugal (Wholesale Dataset - UCI repository).

Language:R1 20

Desafios-e-Requisitos-de-Projetos-Analiticos

Modelo de classificação de espessura do friso da roda de trem abaixo de 26mm. Os dados utilizadas são dados reais da empresa Vale. Este foi um trabalho desafiador em termos de modelagem devido a larga escala do dataset (mais de 3 milhões de observações), sendo necessário utilizar o Spark para o processamento destes dados. E em termos de entendimento dos dados, já que o problema era de alta complexidade. O trabalho foi feito com a linguagem R e com a biblioteca SparkR e a apresentação foi montada no R Markdown. No futuro próximo serão feitas melhorias no modelo e na análise exploratória para que seja possível atingir uma melhor perfomance nos modelos.

Language:HTML1 20

Predict-Future-Sales-Kaggle

A tarefa é prever a quantidade total de produtos vendidos em cada loja para o conjunto de teste. Neste script foram realizadas técnicas de Pre-Processamento, Feature Engineering e Ensemble Modeling (Primeiro Nível: Catboost, XGBoost, Random Forest, Regressão Linear, KNN, Segundo Nível: Regressão Linear sobre as predições do primeiro nível).

Language:HTML1 20

Series-Temporais

Trabalho realizado para aprovação na disciplina de Análise de Séries Temporais. Foi realizado a análise e modelagem da serie temporal da entrega de fertilizantes ao mercado brasileiro em mil toneladas no período mensal de janeiro de 1998 até abril de 2020 (Fonte: ANDA)

Language:R1 20

Telco_Churn_ClassPrediction

Análise Exploratória e Modelagem do dataset de uma empresa de telecomunicações, para prever se os clientes irão desistir ou continuar contratando os serviços da empresa. Um típico problema de classificação de Churn. Foi feita a manipulação, limpeza e visualização dos dados, e aplicado Regressão logística, Random Forest e XGBTree para a etapa de modeloagem.

Language:HTML1 10

Analise-de-Grafos-no-Gephi

Neste trabalho foi realizado o web scrapping, utilizando a linguagem R e o R Studio, do site G1 do Globo.com para notícias relacionadas ao BNDES durante o mês de novembro e dezembro de 2020. Posteriormente foi realizado a extração das entidades relacionadas em cada notícia, também pelo R e R Studio, para que fosse possível criar um grafo no programa Gephi. No Gephi foi feito uma análise da força da relação entre os assuntos relacionados ao BNDES em cada comunidade. Este foi um trabalho realizado para aprovação na disciplina de Análise de Mídias Sociais e Mineração de textos do MBA de Business Analytics e Big Data da FGV-RJ.

Language:R020

Classificao-de-Subscricao-de-Servico

Análise de Predições de Subscrições de Serviço. A base marketing foi utilizada para previsão de subscrições do serviço com modelos de classificação. No trabalho como um todo foram utilizados os modelos de Regressão Logística, Árvore de Decisão, SVM e Redes Neurais. Observação: Baixe o arquivo HTML para ver o trabalho completo em formato de relatório.

Language:HTML020

Comportamento-espacial-de-crimes-em-Houston---Padrao-de-Pontos

Trabalho realizado para a aprovação na disciplina de Estatística Espacial da FGV-RJ. Análise do Padrão de Pontos, Efeitos de Primeira e Segunda Ordem, testes de hipótese, Índice de Moran Local e Global,

Language:R020

hello-world

020

IMDB-Semantic-Sentiment-Analysis

This project aims to present an unsupervised semantic sentiment analysis model that not only captures the overall sentiment of the text but also provides a way to analyze the complexity of emotions and subjectivity of the text while maintaining high performance.

Language:Jupyter Notebook010

hugomuniz94

Hugo Muniz's repositories

Pipeline-ETL-DataLake-DW-SQL

Analise-Preditiva-Avancada

Clusterizacao

Desafios-e-Requisitos-de-Projetos-Analiticos

Predict-Future-Sales-Kaggle

Series-Temporais

Telco_Churn_ClassPrediction

Analise-de-Grafos-no-Gephi

Classificao-de-Subscricao-de-Servico

Comportamento-espacial-de-crimes-em-Houston---Padrao-de-Pontos

hello-world

IMDB-Semantic-Sentiment-Analysis

mod1-bootcamp-eng-dados-cloud-igti

Modelagem-Espacial-do-Numero-de-homicidios-no-RJ---Dados-de-area

Modelo-para-Campanha-de-Email-Marketing