turicas / autuacoes-ambientais-ibama

Extrator de PDFs de Autuações Ambientais do IBAMA

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Extrator de PDFs de Autuações Ambientais do IBAMA

Esse script baixa, converte e limpa arquivos PDFs de autuações ambientais gerados pelo IBAMA. O resultado é exportado para CSV.

Metodologia:

  • Para cada estado brasileiro:
    • acessa o site do IBAMA (linkar form)
    • preenche o estado
    • para cada ano desde 1980 ao ano atual:
      • preenche data de início/fim
      • baixa e salva o PDF (estado/ano)
      • extrai os dados do PDF e converte para CSV
  • Criei um programa que acessa a página https://servicos.ibama.gov.br/ctf/publico/areasembargadas/ConsultaPublicaAreasEmbargadas.php e então:
  • Na parte "Consulta Pública", marca "autuações ambientais"
  • Na parte "Dados da Infração", seleciona um dos estados (o programa pode passar por todos os estados - mas esse caso, só fiz para o PA)
  • Preenche o período de 01/01/ANO até 31/12/ANO, onde "ANO" varia de 1980 ao ano atual (o programa roda uma vez para cada ano possível, porque o máximo permitido é 1 ano)
  • Baixa o PDF resultante da busca
  • Converte o PDF para CSV
  • Limpa o arquivo CSV (corrige nomes de municípios, adiciona código IBGE dos municípios etc.)

Instalando

Testado em Python 3.9.5 (pode funcionar em outras versões, mas não é garantido).

pip install -r requirements.txt

Utilização

apenas extrair baixar e extrair

time python -m autuacoes.spider data/download/ data/output/autuacao.csv.gz

01/janeiro a 31/dez

  • --log-level: nível de logging do script (padrão: INFO)
  • --start-year: ano inicial do download (padrão: 1980)
  • --end-year: ano final (padrão: ano atual)

Extrator

em CSVs, utilizando o algoritmo rects-boundaries da extração de PDFs da biblioteca rows.

python -m autuacoes.parser arquivo.pdf arquivo.csv

Você pode utilizar o arquivo que vem com esse repositório como exemplo (como são 64 páginas, irá demorar em torno de 1min35s):

time python -m autuacoes.parser data/amazonas-2010.pdf data/amazonas-2010.csv

About

Extrator de PDFs de Autuações Ambientais do IBAMA

License:GNU Lesser General Public License v3.0


Languages

Language:Python 100.0%