Projeto final do curso de Engenharia de dados da SoulCode Academy
- Autores: Anderson Calasans, Giovana de Brito, Suzana Gomes, Wilbert Silva
- Data de entrega: January 17, 2023
- Resumo: Projeto final do curso de engenharia de dados da SoulCode Academy, com relevância na área de crimes (segurança pública), que mostra um estudo comparativo entre as cidades de São Paulo (Brasil) e New York (United States of America) quanto ao número de casos de crimes envolvendo homicídios e os dados envolvendo este tipo de ocorrência.
- Status: Finalizado
- Tema: Crimes (Segurança Pública)
- Type: Projeto Final - Soul Code
- Área de estudo: ETL, Engenharia de dados, GCP, MongoDB, MySQL, Python, SQL
A Mindful Data, empresa de consultoria da área de engenharia de dados, fundada por nós, alunos recém formados do curso de Engenharia de Dados da Soul Code Academy, tem a proposta de atender à demanda de empresas no que se trata de:
- Data Migration;
- Processos de ETL;
- Produção de insights e dashboards para apoiar decisões de negócios;
Nosso squad é composto por:
Nosso projeto seguiu as diretrizes determinada pelos professores do curso de engenharia de dados da SoulCode Academy e fora orientado pelo professor Igor Gondim.
Os requisitos estão descritos logo abaixo:
📌 Definição dos objetivos:
A partir do tema, passamos a etapa de definição dos objetivos e criação de insights preliminares para atender às expectativas das diretrizes passadas pelo proposto do projeto.
Essa etapa está contida aqui:
Objetivos e organização das ideias gerais
📊 Tema escolhido com objetivo geral:
Estudo dos casos de crimes envolvendo mortes entre as cidades de Nova York e São Paulo
📑 Objetivos específicos:
- Traçar o perfil das vítimas
- Mapear quais locais mais violentos
- Evolução da quantidade de crimes de acordo com o período
📈Insights a serem resolvidos:
- Qual o total de ocorrências das duas cidades?
- Ranking dos tipos de crime campeãs em ocorrências
- Qual o período do dia com maior número de ocorrências?
- Laço temporal dos crimes por ano e mês
- Número de ocorrências por cor da pele e sexo
- Quais as regiões (bairros ou distritos) mais perigosos?
Todo nosso processo está descrito no modelo abaixo, passando por todos os tópicos solicitados nas diretrizes do projeto.
Com os objetivos traçados, começamos a busca das bases de dados que utilizaremos. Nos dividimos na busca e encontramos dados oficiais de ambas as cidades disponíveis publicamente.
Para melhorar o entendimento, a partir daqui trataremos ambas as cidades de forma paralela para facilitar a construção do raciocínio.
São Paulo - fonte de dados:
Os dados foram tirados do Portal transparência do Governo do Estado de São Paulo e filtrado apenas os crimes com homicídios para a cidade de São Paulo, dos anos de 2018 a 2021.
Segurança Pública - Transparência
Nova York - fonte de dados:
Os dados escolhidos estão disponíveis no site NYC Open Data, administrado pelos órgão públicos da cidade de Nova York (USA), onde filtramos as ocorrências que tiveram homicídios entre os anos de 2018 a 2021.
NYPD Complaint Data Historic | NYC Open Data
Abaixo estão descritos todo o passo a passo desde a extração, até a união dos datasets de SP e NY já tratados.
DataSet Original SP: Google Colaboratory
DataSet Tratado SP: Google Colaboratory
DataSet Original NY: Google Colaboratory
DataSet Tratado NY: Google Colaboratory
Data Frame juntando os dados de SP e NY: Google Colaboratory
Envio do DataSet tratado ao BigQuery via Apache Beam: Google Colaboratory
Após realizar todos os tratamentos necessários e salvar os dados nos Data Lakes (Cloud Storage e MongoDB), puxamos os dados para o BigQuery, onde fizemos os últimos ajustes e algumas queries para constatar se nosso dados atendiam ao nosso objetivo antes do envio ao Looker Studio.
O DashBoard interativo foi criado com o Looker Studio e está disponível no link abaixo: Dashboard-Projeto Final
🎞️ Apresentação Grupo 1 - Crimes: No Link abaixo está nossa apresentação de slides, neste documento traremos mais detalhes sobre todo o processo.