georgevbsantiago / qsacnpj

Pacote que trata e organiza os dados do Cadastro Nacional da Pessoa Jurídica (CNPJ)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Quantidade reduzida de CNPJs

willopinheiro opened this issue · comments

Olá!
Antes de tudo, parabéns pela iniciativa e pela qualidade do código. Ficou show!!!

Fiz o download hoje dos dados de CNPJ (a partir do arquivo CSV único) e verifiquei que constam em torno de 20 milhões de CNPJs. Ocorre que aqui no órgão onde trabalho temos uma base de cnpj adquirida em 12/2017 junto ao SERPRO e nessa base constam 36 milhões de CNPJs.

Sabem explicar essa grande diferença? será que algum tipo de empresa não foi incluída na exportação? ou será que houve algum erro no código q fez com que alguns cnpjs não fossem gerados no cvs?

Se souberem alguma explicação, favor me avisem.

Olá, @willopinheiro

Conforme conversamos e registrado também no grupo "Dados Abertos .BR" no Telegram, a suposta inconsistência na quantidade de dados foi gerada pelo código usado pela sua equipe na ora de importar os dados do CSV.

Como indicado na conversa que tivemos, caso opte por usar o CSV, faça a importação dos dados por partes (chunck), usando funções como a readr::read_delim_chuncked ou a readr::read_lines_chuncked (acrescido de da função callback nos argumentos da função anterior) do pacote readr
De outro modo, vocês podem usar a base de dados liberada pelo SQLite para realizar essa importação/exportação de dados.

Atualmente, tendo como referência a base de dados liberada pela Receita Federal em maio de 2019, constam 40.754.938 registros/observações/linhas.

Por fim, cabe precise de mais algum esclarecimento, estamos a disposição.