georgevbsantiago / qsacnpj

Pacote que trata e organiza os dados do Cadastro Nacional da Pessoa Jurídica (CNPJ)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Nova base disponível da Receita

cmmp opened this issue · comments

Existe uma base do dia 04/07/2020 disponível no site da Receita agora:
https://receita.economia.gov.br/orientacao/tributaria/cadastros/cadastro-nacional-de-pessoas-juridicas-cnpj/dados-publicos-cnpj

seria interessante termos a versão em sqlite disponibilizada pelo pacote :)

Eu executei o código nessa base nova, mas aparentemente alguma coisa estranha aconteceu. Gerei o arquivo do sqlite usando o código:

qsacnpj::gerar_bd_cnpj(path_arquivos_txt = "D:/qsa_cnpj",
                       localizar_cnpj = "NAO",
                       n_lines = 100000,
                       armazenar = "sqlite")

Porém o número de cnpjs está um pouco estranho. Na base mais recente disponível no repositório, eu tinha 43.887.581 cnpjs na tabela cnpj_dados_cadastrais_pj. Depois que executei o código na nova base da receita tenho 75.941.044 entradas na tabela, porém apenas 42.375.755 entradas distintas - select count(distinct(cnpj)) from cnpj_dados_cadastrais_pj vs select count(cnpj) from cnpj_dados_cadastrais_pj;. Imagino que as entradas por cnpj deveriam ser todas distintas nessa tabela, não?

O que poderia ter ocorrido?

obrigado

@georgevbsantiago olhando um pouco mais a fundo, encontrei muitos registros duplicados, porém eles apresentam as seguintes diferenças, p. ex.

image

trata-se de um mesmo CNPJ.

Outros registros estão simplesmente duplicados na tabela mesmo, sem diferenças em alguns campos.

Olá, @cmmp , até o próximo final de semana, disponibilizarei a nova base de dados do CNPJ tratada. Em relação aos problemas enfrentados por você durante a execução do código, não conseguiria indicar a causa, pois precisaria de diversas informações sobre a sua máquina (Windows ou Linux) e a versão dos pacotes R que vocês está utilizando.

Olá @georgevbsantiago !

Show!

A máquina que usei foi esta aqui:

R version 3.6.3 (2020-02-29)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C
 [3] LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8
 [7] LC_PAPER=en_US.UTF-8       LC_NAME=C
 [9] LC_ADDRESS=C               LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base

other attached packages:
[1] qsacnpj_0.1.9

loaded via a namespace (and not attached):
[1] compiler_3.6.3 magrittr_1.5

Instalei o pacote do github usando o remotes.

abs

Acabei de realizar o tratamento dos dados.
Ao executar o comando de contagem e contagem de distintos nos números do CNPJ, o SQLite informou o mesmo valor. Ou seja, não foram registrados CNPJ em duplicidade após o tratamento dos dados.
Verifique se você não baixou arquivos repetidos do site da Receita Federal.
Além disso, recomendo utilizar o R 4.0.2 e a última versão dos pacotes do CRAN.

Comandos utilizados para verificar se existem dados duplicados na tabela dos dados cadastrais do CNPJ
SELECT COUNT(cnpj) FROM cnpj_dados_cadastrais_pj
SELECT COUNT(DISTINCT cnpj) FROM cnpj_dados_cadastrais_pj