henriquepgomide / caRtola

Extração de dados da API do CartolaFC, análise exploratória dos dados e modelos preditivos em R e Python - 2014-22. [EN] Data munging, analysis and modeling of CartolaFC - the most popular fantasy football game in Brazil. Data cover years 2014-23.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Dúvidas em relação aos dados disponibilizados

gabriel19913 opened this issue · comments

Olá pessoal, ótimo trabalho que vocês tem desenvolvido.
Vou trabalhar com os dados disponibilizados por vocês em um projeto, mas tenho algumas dúvidas que gostaria de saber se vocês poderiam me ajudar.

  1. No arquivo 2017_dados_agregados.csv presente na pasta data/2017, notei que não há dados para 'avg.CV' apesar de 'avg.CV.l05' estar presente, já para CA o 'avg.CA' está presente enquanto o 'avg.CA.l05' não está. Então imagino que possa ter ocorrido alguma confusão com essas variáveis.
  2. Outra questão que gostaria de saber é em relação aos 'dados_agregados_limpos.csv' lá estão presentes somente os anos de 2014, 2016, 2017. Existe algum motivo dos dados de demais anos não terem sido inseridos? Porque estou fazendo uma engenharia reversa pra tentar obter e limpar os dados para os arquivos dos outros anos assim como vocês fizeram para esses que foram incluídos, e estou tendo um pouco de dificuldade rsrs.

oi, @gabriel19913

eu posso te responder a questão 2, já que era eu que criava esse arquivo. Basicamente, ele não existe mais desde 2018 por que, a partir desse ano, o padrão dos dados mudaram e o meu script pra gerar tal arquivo não iria funcionar mais pra ele.

Então, se você tiver disposição pra gerar esse arquivo pro outros anos, sinta-se bem vindo e vai ser de grande valia.

A questão 1, eu acredito que o @henriquepgomide pode lhe responder melhor.

Um grande abraço

@gabriel19913

Tudo bem?

A primeira pergunta foi bem respondida pelo Arnaldo, como sempre. Se você for trabalhar com modelagem de dados, lembre-se que cartões amarelos são infrequentes; talvez trabalhar com faltas seja um caminho melhor.

Quanto aos dados limpos, eu simplesmente parei de gerar devido à baixa procura. A partir de 2017, parte do interesse meu e do Arnaldo foi desviado para outros pontos ligados ao cartola e nossas vidas profissionais.

Estou disponível para conversar sobre os assuntos e sobre o repositório!

Grande abraço e até!
:)

Muito obrigado pelas respostas @henriquepgomide e @arnaldog12.
E gostaria muito de agradecer pelo trabalho que vocês realizaram.
Vou utilizar os dados brutos mesmo e extrair características a partir deles.
Vi que em alguns arquivos você acrescentaram informações sobre o time também além de outras features.
O que vocês consideraram durante a pesquisa de vocês como features determinantes na predição da pontuação?

Abraço.