cuducos / minha-receita

🏢 Sua API web para consulta de informações do CNPJ da Receita Federal

Home Page:https://minhareceita.org

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

0 cnpjs depois de longo tempo de processamento

anapaulagomes opened this issue · comments

Baixei os dados de dezembro de 2022 e executei o minha-receita transform -d data/. Tudo pareceu rolar bem - demorou entre 12 e 24 horas para executar tudo, incluindo os índices. Mas ao executar uma consulta no banco vi que não tinha nenhum registro lá. 💔 Ideias?

Ah, só pra dar um pouco de contexto do que preciso: quero extrair todos os logradouros e seus tipos para treinar um modelo que identifica endereços no https://github.com/DadosAbertosDeFeira/tomba/.

Mas ao executar uma consulta no banco vi que não tinha nenhum registro lá. 💔 Ideias?

Muito estranho, nunca vi isso. Acho que vou precisar de mais detalhes para pensar em algo:

  • PostgreSQL estava no Docker ou no sistema operacional nativo?
  • Como você criou esse banco de dados?
  • Vc conseguiu identificar no teu HD/SSD algum local que inflou mais ou menos 100Gb ao longo do processo?

Ah, uma dica: não sei o porquês (@gomex, acode), mas o processo de escrita do banco de dados do Docker é extremamente lento (digo isso pois tu mencionou 12-24h). Com PostgreSQL rolando direto no sistema operacional aqui roda em pouco mais de 2h.

  • PostgreSQL estava no Docker ou no sistema operacional nativo?
    No Docker

  • Como você criou esse banco de dados?
    Com o comando docker-compose run --rm minha-receita create. Mas como estava dando erro, rodei com o minha-receita transform -d data/ local 🤔

  • Vc conseguiu identificar no teu HD/SSD algum local que inflou mais ou menos 100Gb ao longo do processo?
    Não consegui. Inclusive, a pasta data/postgres continua pequena, acabei de notar. Talvez o processo rolou e só não gravou no banco mesmo (mas não entendi a demora - fora o tempo de processamento do JSON e tal).

Vou tentar instalar o postgres local pra testar novamente. Valeu!

Com o comando docker-compose run --rm minha-receita create. Mas como estava dando erro, rodei com o minha-receita transform -d data/ local 🤔

Acho que aí pode ter desencontro. Com o docker-compose ele lê o DATABASE_URL do .env. Quando você rodou local, será que não tinha outra DATABASE_URL configurada?

Não, não tinha. O .env tá apontando pro banco do docker-compose mesmo. Mas boa dica essa de rodar com o postgres local. Instalei aqui e vou rodar. :)

Deu certo :) 92GB

Obrigada!