arapiraca / mgdataretriever-main

Automatizador de downloads de datasets sobre Minas Gerais.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

mgdataretriever

Um pacote Python simples que automatiza o download de datasets sobre a economia de Minas Gerais a partir de diversas bases de dados.

Sobre

Criado para fins de aprendizado, o pacote implementa funções para download de datasets a partir de bases de dados remotas, com a finalidade de automatizar o processo de obtenção de dados para trabalhos essencialmente—mas não exclusivamente—econométricos.

Atualmente, é compatível com:

  • Portal da Transparência do Estado
  • Fundação João Pinheiro

Nota: o projeto não possui qualquer vínculo com as organizações aqui citadas.

Roadmap

Mapear novas bases para integração. Caso tenha sugestões, não hesite em entrar em contato!

Sobre o autor

mgdataretriever é desenvolvido por Guilherme O. Silva, estudante de graduação em Ciências Econômicas na UFMG. O projeto não possui qualquer vínculo com a instituição. Entre em contato!

Como usar

Na pasta do projeto a utilizar os datasets, clone o repositório com

git clone https://github.com/guilhermeolivsilva/mgdataretriever

Instale as dependências necessárias com

pip install requirements.txt

Portal da Transparência de MG

Basta importar o pacote e instanciar um objeto para começar a trabalhar:

from mgdataretriever import TransparenciaMg
meuObjeto = TransparenciaMg()

O Portal da Transparência disponibiliza datasets agrupados por conjuntos, de modo que um único conjunto pode possuir diversos datasets associados.

  1. Liste conjuntos de datasets disponíveis com
meuObjeto.listarConjuntos()
  1. Liste os datasets associados ao conjunto com
meuObjeto.listarDatasetsPorConjunto('nome-do-conjunto')

Observe que o argumento da função deve ser idêntico a um dos resultados retornados no passo 1.

transparenciaMg.listarDatasetsPorConjunto('programa-de-financiamento-2009')
  1. Baixe o dataset desejado
meuObjeto.baixarDataset('nome-do-conjunto', 'nome-do-dataset')

Aqui, também é necessário que o nome do conjunto seja idêntico a um dos resultados do passo 1 e o mesmo para o nome do dataset, em relação a um dos resultados do passo 2.

transparenciaMg.baixarDataset('programa-de-financiamento-2009', 'PPP 2008 Aprovados')
  1. O arquivo estará disponível no diretório
downloads/portal da transparencia/

Fundação João Pinheiro: Minas e-Dados

Basta importar o pacote e instanciar um objeto para começar a trabalhar:

from mgdataretriever import FundacaoJoaoPinheiro
meuObjeto = FundacaoJoaoPinheiro()

Diferentemente da abordagem utilizada pelo Portal da Transparência, a plataforma da Fundação João Pinheiro agrupa as informações dentro do próprio arquivo de cada dataset. Para acessá-los, basta que

  1. Liste os datasets disponíveis com
meuObjeto.listarDatasets()
  1. Baixe o dataset desejado
meuObjeto.baixarDataset(nome-do-dataset')

É necessário que o nome do dataset seja idêntico a um dos resultados do passo 1.

fjp.baixarDataset('Turismo')
  1. O arquivo estará disponível no diretório
downloads/fundacao joao pinheiro/

Roadmap

  • Habilitar a instalação com pip

About

Automatizador de downloads de datasets sobre Minas Gerais.


Languages

Language:Python 100.0%