Desenvolvimento e Avaliação de uma Arquitetura Distribuída para o Cadastro Ambiental Rural

Arquitetura

Para o projeto, foi adotada uma arquitetura baseada em tecnologias modernas de processamento de Big Data. O Ambiente de Desenvolvimento escolhido foi o Databricks e o projeto foi desenvolvido nas etapas "Bronze", "Silver" e "Gold".

Os dados da camada Bronze foram importados para o Databricks File System (DBFS) do Amazon S3 e foram salvos como arquivos Parquet. Como a camada armazena dados brutos, foi focado em escolher uma tecnologia que seria tolerante a falhas e escalável.

Em seguida, nas camadas Silver e Gold, os dados foram armazenados em Delta Lakes a fim de otimizar o processamento analítico.

Para as Consultas Analíticas foi utilizado o Spark SQL, para catalogação dos metadados, o Hive.

Tratamento dos Dados

Remoção de duplicatas:
- Foram removidas 4 linhas
Remoção de 4 colunas não utilizadas:
- data_alteracao_condicao_cadastro
- modulos_fiscais
- area_reserva_legal_averbada
- area_reserva_legal_aprovada_nao_averbada
Remoção de nulos da coluna data_inscricao:
- Foram removidas 12 linhas

Particionamento

Na camada Silver, a estratégia de particionamento foi projetada visando uma distribuição eficiente dos dados e otimização das consultas.

temas_ambientais: Particionado por 'uf' e 'ano_inscricao', permitindo consultas por unidade federativa e ano de inscrição.

Essa estratégia de particionamento foi escolhida com base nos requisitos de consultas analíticas esperadas, priorizando a eficiência e a otimização do desempenho das consultas.

Consultas Analíticas

Na camada Gold, foram criadas duas tabelas para suportar análises mais detalhadas e específicas:

temas_ambientais_por_regiao: Essa tabela foi criada para segmentar os dados pelas regiões do Brasil, permitindo análises regionais específicas.
propriedades_area_nativa_uf: Essa tabela concentra informações sobre propriedades com área remanescente de vegetação nativa, o que é fundamental para análises ambientais.

Além disso, foram realizadas consultas analíticas diversas, incluindo cálculos de áreas, contagens, médias e comparações entre diferentes conjuntos de dados, proporcionando insights valiosos para a tomada de decisões.

marcelargarcia / big-data-project

Desenvolvimento e Avaliação de uma Arquitetura Distribuída para o Cadastro Ambiental Rural

Arquitetura

Tratamento dos Dados

Particionamento

Consultas Analíticas

About

Languages