marcelargarcia / big-data-project

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Desenvolvimento e Avaliação de uma Arquitetura Distribuída para o Cadastro Ambiental Rural

Arquitetura

Para o projeto, foi adotada uma arquitetura baseada em tecnologias modernas de processamento de Big Data. O Ambiente de Desenvolvimento escolhido foi o Databricks e o projeto foi desenvolvido nas etapas "Bronze", "Silver" e "Gold".

Os dados da camada Bronze foram importados para o Databricks File System (DBFS) do Amazon S3 e foram salvos como arquivos Parquet. Como a camada armazena dados brutos, foi focado em escolher uma tecnologia que seria tolerante a falhas e escalável.

Em seguida, nas camadas Silver e Gold, os dados foram armazenados em Delta Lakes a fim de otimizar o processamento analítico.

Para as Consultas Analíticas foi utilizado o Spark SQL, para catalogação dos metadados, o Hive.

Tratamento dos Dados

  • Remoção de duplicatas:
    • Foram removidas 4 linhas
  • Remoção de 4 colunas não utilizadas:
    • data_alteracao_condicao_cadastro
    • modulos_fiscais
    • area_reserva_legal_averbada
    • area_reserva_legal_aprovada_nao_averbada
  • Remoção de nulos da coluna data_inscricao:
    • Foram removidas 12 linhas

Particionamento

Na camada Silver, a estratégia de particionamento foi projetada visando uma distribuição eficiente dos dados e otimização das consultas.

temas_ambientais: Particionado por 'uf' e 'ano_inscricao', permitindo consultas por unidade federativa e ano de inscrição.

Essa estratégia de particionamento foi escolhida com base nos requisitos de consultas analíticas esperadas, priorizando a eficiência e a otimização do desempenho das consultas.

Consultas Analíticas

Na camada Gold, foram criadas duas tabelas para suportar análises mais detalhadas e específicas:

  1. temas_ambientais_por_regiao: Essa tabela foi criada para segmentar os dados pelas regiões do Brasil, permitindo análises regionais específicas.
  2. propriedades_area_nativa_uf: Essa tabela concentra informações sobre propriedades com área remanescente de vegetação nativa, o que é fundamental para análises ambientais.

Além disso, foram realizadas consultas analíticas diversas, incluindo cálculos de áreas, contagens, médias e comparações entre diferentes conjuntos de dados, proporcionando insights valiosos para a tomada de decisões.

About


Languages

Language:Jupyter Notebook 100.0%