Quantidade reduzida de CNPJs
willopinheiro opened this issue · comments
Olá!
Antes de tudo, parabéns pela iniciativa e pela qualidade do código. Ficou show!!!
Fiz o download hoje dos dados de CNPJ (a partir do arquivo CSV único) e verifiquei que constam em torno de 20 milhões de CNPJs. Ocorre que aqui no órgão onde trabalho temos uma base de cnpj adquirida em 12/2017 junto ao SERPRO e nessa base constam 36 milhões de CNPJs.
Sabem explicar essa grande diferença? será que algum tipo de empresa não foi incluída na exportação? ou será que houve algum erro no código q fez com que alguns cnpjs não fossem gerados no cvs?
Se souberem alguma explicação, favor me avisem.
Olá, @willopinheiro
Conforme conversamos e registrado também no grupo "Dados Abertos .BR" no Telegram, a suposta inconsistência na quantidade de dados foi gerada pelo código usado pela sua equipe na ora de importar os dados do CSV.
Como indicado na conversa que tivemos, caso opte por usar o CSV, faça a importação dos dados por partes (chunck), usando funções como a readr::read_delim_chuncked
ou a readr::read_lines_chuncked
(acrescido de da função callback
nos argumentos da função anterior) do pacote readr
De outro modo, vocês podem usar a base de dados liberada pelo SQLite para realizar essa importação/exportação de dados.
Atualmente, tendo como referência a base de dados liberada pela Receita Federal em maio de 2019, constam 40.754.938 registros/observações/linhas.
Por fim, cabe precise de mais algum esclarecimento, estamos a disposição.