Nova base disponível da Receita
cmmp opened this issue · comments
Existe uma base do dia 04/07/2020 disponível no site da Receita agora:
https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj
seria interessante termos a versão em sqlite disponibilizada pelo pacote :)
Eu executei o código nessa base nova, mas aparentemente alguma coisa estranha aconteceu. Gerei o arquivo do sqlite usando o código:
qsacnpj::gerar_bd_cnpj(path_arquivos_txt = "D:/qsa_cnpj",
localizar_cnpj = "NAO",
n_lines = 100000,
armazenar = "sqlite")
Porém o número de cnpjs está um pouco estranho. Na base mais recente disponível no repositório, eu tinha 43.887.581 cnpjs na tabela cnpj_dados_cadastrais_pj
. Depois que executei o código na nova base da receita tenho 75.941.044 entradas na tabela, porém apenas 42.375.755 entradas distintas - select count(distinct(cnpj)) from cnpj_dados_cadastrais_pj
vs select count(cnpj) from cnpj_dados_cadastrais_pj;
. Imagino que as entradas por cnpj deveriam ser todas distintas nessa tabela, não?
O que poderia ter ocorrido?
obrigado
@georgevbsantiago olhando um pouco mais a fundo, encontrei muitos registros duplicados, porém eles apresentam as seguintes diferenças, p. ex.
trata-se de um mesmo CNPJ.
Outros registros estão simplesmente duplicados na tabela mesmo, sem diferenças em alguns campos.
Olá, @cmmp , até o próximo final de semana, disponibilizarei a nova base de dados do CNPJ tratada. Em relação aos problemas enfrentados por você durante a execução do código, não conseguiria indicar a causa, pois precisaria de diversas informações sobre a sua máquina (Windows ou Linux) e a versão dos pacotes R que vocês está utilizando.
Olá @georgevbsantiago !
Show!
A máquina que usei foi esta aqui:
R version 3.6.3 (2020-02-29)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04 LTS
Matrix products: default
BLAS: /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C
[3] LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8
[7] LC_PAPER=en_US.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] qsacnpj_0.1.9
loaded via a namespace (and not attached):
[1] compiler_3.6.3 magrittr_1.5
Instalei o pacote do github usando o remotes.
abs
Acabei de realizar o tratamento dos dados.
Ao executar o comando de contagem e contagem de distintos nos números do CNPJ, o SQLite informou o mesmo valor. Ou seja, não foram registrados CNPJ em duplicidade após o tratamento dos dados.
Verifique se você não baixou arquivos repetidos do site da Receita Federal.
Além disso, recomendo utilizar o R 4.0.2 e a última versão dos pacotes do CRAN.
Comandos utilizados para verificar se existem dados duplicados na tabela dos dados cadastrais do CNPJ
SELECT COUNT(cnpj) FROM cnpj_dados_cadastrais_pj
SELECT COUNT(DISTINCT cnpj) FROM cnpj_dados_cadastrais_pj