Um pacote Python simples que automatiza o download de datasets sobre a economia de Minas Gerais a partir de diversas bases de dados.
Criado para fins de aprendizado, o pacote implementa funções para download de datasets a partir de bases de dados remotas, com a finalidade de automatizar o processo de obtenção de dados para trabalhos essencialmente—mas não exclusivamente—econométricos.
Atualmente, é compatível com:
- Portal da Transparência do Estado
- Fundação João Pinheiro
Nota: o projeto não possui qualquer vínculo com as organizações aqui citadas.
Mapear novas bases para integração. Caso tenha sugestões, não hesite em entrar em contato!
mgdataretriever é desenvolvido por Guilherme O. Silva, estudante de graduação em Ciências Econômicas na UFMG. O projeto não possui qualquer vínculo com a instituição. Entre em contato!
Na pasta do projeto a utilizar os datasets, clone o repositório com
git clone https://github.com/guilhermeolivsilva/mgdataretriever
Instale as dependências necessárias com
pip install requirements.txt
Basta importar o pacote e instanciar um objeto para começar a trabalhar:
from mgdataretriever import TransparenciaMg
meuObjeto = TransparenciaMg()
O Portal da Transparência disponibiliza datasets agrupados por conjuntos, de modo que um único conjunto pode possuir diversos datasets associados.
- Liste conjuntos de datasets disponíveis com
meuObjeto.listarConjuntos()
- Liste os datasets associados ao conjunto com
meuObjeto.listarDatasetsPorConjunto('nome-do-conjunto')
Observe que o argumento da função deve ser idêntico a um dos resultados retornados no passo 1.
transparenciaMg.listarDatasetsPorConjunto('programa-de-financiamento-2009')
- Baixe o dataset desejado
meuObjeto.baixarDataset('nome-do-conjunto', 'nome-do-dataset')
Aqui, também é necessário que o nome do conjunto seja idêntico a um dos resultados do passo 1 e o mesmo para o nome do dataset, em relação a um dos resultados do passo 2.
transparenciaMg.baixarDataset('programa-de-financiamento-2009', 'PPP 2008 Aprovados')
- O arquivo estará disponível no diretório
downloads/portal da transparencia/
Basta importar o pacote e instanciar um objeto para começar a trabalhar:
from mgdataretriever import FundacaoJoaoPinheiro
meuObjeto = FundacaoJoaoPinheiro()
Diferentemente da abordagem utilizada pelo Portal da Transparência, a plataforma da Fundação João Pinheiro agrupa as informações dentro do próprio arquivo de cada dataset. Para acessá-los, basta que
- Liste os datasets disponíveis com
meuObjeto.listarDatasets()
- Baixe o dataset desejado
meuObjeto.baixarDataset(nome-do-dataset')
É necessário que o nome do dataset seja idêntico a um dos resultados do passo 1.
fjp.baixarDataset('Turismo')
- O arquivo estará disponível no diretório
downloads/fundacao joao pinheiro/
- Habilitar a instalação com pip