georgevbsantiago / qsacnpj

Pacote que trata e organiza os dados do Cadastro Nacional da Pessoa Jurídica (CNPJ)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Possível erro na coluna "opção_pelo_mei"

rv-alberto opened this issue · comments

Antes de mais nada, parabéns pelo trabalho com esse pacote e muito obrigado por disponibilizar os csv's. É incrível o benefício que está gerando ao facilitar o acesso a esses dados!

Trabalhando com o csv da ultima atualização (set/2020), notei um número muito grande de células vazias na coluna "opção_pelo_mei", que deveria ter valores "S" ou "N". Eu estava procurando a quantidade de MEI na situação cadastral "8" (que significa "baixado") e o resultado foi absurdamente pequeno, se não me engano 225 linhas em toda a base, quando na verdade deveria ter sido algo na casa dos milhões.

Pensei ser algum erro no download ou no carregamento da base que fiz por aqui. Mas repeti o processo e deu a mesma coisa. Pode me ajudar a solucionar essa questão?

Obrigado por reportar. Vou verificar.

Olá, @rv-alberto
Qual script você usou para gerar a consulta?
E com base em qual informação você acha que deveria ter milhões de registros na combinação de pesquisa que você quer fazer?
Você já tentou fazer a mesma pesquisa nas bases mais antigas disponibilizadas no README para comprar os resultados?

George, rodei aqui com a base de 04/jul também, veja o resultado de cruzar as colunas "situação cadastral" e "opção pelo mei".
Em julho havia 5.252.179 linhas na intersecção de "situação cadastral: 8" e "opção pelo MEI: S". Em setembro cai para 1.967.

Base de julho:

           1        2        3        4        8
        1401  1106814    17344   163727  1223607
  N    75208  9126028   145524  3255352 13194478
  S     2803 10852102     5441    45060  5252179

Base de setembro:

           1        2        3        4        8
        1420  1115450    17438   162198  1235873
  N    78608  9768729   147602  3260847 18630507
  S       98 10728239     3951      837     1967

O código foi basicamente carregar os dados (usei R) e cruzar essas colunas usando a função table().

cnpj_0 <- fread(file = "cnpj_dados_cadastrais_pj.csv",
                 sep = "#",
                 select = c(4, 8, 9, 14, 15, 16, 23, 36))

table(cnpj_0$opcao_pelo_mei, cnpj_0$situacao_cadastral)

Já vi algumas funções terem dificuldade de carregar a base da RFB, mas usando a fread() nunca tive problema. Esses números que eu cheguei estão corretos?

Ok. Obrigado pela resposta. Vou verificar. Att

Olá, @rv-alberto

Fiz algumas análises pelo SQLite e chegamos aos mesmos resultados.

SELECT *
FROM cnpj_dados_cadastrais_pj
WHERE situacao_cadastral = "08"  AND opcao_pelo_mei = "S"

Julho:
5.252.179

Setembro:
1.967

Veja. O código de tratamento dos dados não altera esse tipo de informação. Apenas separamos os dados para disponibilizá-los de forma tabula, para pronto uso em sistemas de banco de dados ou softwares de análise. Ou seja, essa informação é originária da base de dados da Receita Federal.

Esse seu achado é curioso, mas deve ter a ver como a Receita Federal cadastra as informações na base dela.
Nos dados liberados em julho, constavam 19.670.264 empresas com situacao_cadastral = "08".
Já nos dados de setembro, esse valor foi de 19.868.347.

Ao comparar esses dados (situação cadastral) com os dados opcao_pelo_mei, verifica-se que a Receita Federal alterou os dados dos MEI de opcao_pelo_mei = "S" para "N" das pessoas jurídicas em situacao_cadastral = "08".
Contudo, não saberia dizer a razão dessa alteração.

Você poderia fazer um pedido de acesso à informação na Receita Federal questionando essa questão e nos informar qual foi a resposta?

Excelente George, eu imaginava que o problema pudesse estar na base original da RFB mesmo. Mandei uma solicitação de informações, recebendo a resposta coloco aqui. Obrigado!

Maravilha.

Se identificar mais alguma coisa, é só abrir uma issue.

Vou deixar essa issue aberta até você informar a resposta da Receita Federal, ok?

No mais, se puder, deixe um comentário no tópico:
Por que a base de dados do CNPJ é importante para você?
Link

George, recebi uma resposta pelo Fala.BR:

"Prezado(a), boa tarde, informa-se por meio desta ouvidoria que foi feito um batimento das informações constantes no Portal do Simples Nacional, e foram verificadas inconsistências quanto às opções pelo SN e MEI, e a extração de Setembro é a mais atualizada."

Não sei se eles entenderam o problema. Pela alteração nas bases, quase todos os MEI que estavam na "situação_cadastral" 8 e 4 foram reclassificados na coluna "opção_pelo_mei", passando de "sim" para "não". Vamos ver como virão as próximas extrações.