henriquepgomide / caRtola

Extração de dados da API do CartolaFC, análise exploratória dos dados e modelos preditivos em R e Python - 2014-22. [EN] Data munging, analysis and modeling of CartolaFC - the most popular fantasy football game in Brazil. Data cover years 2014-23.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

IDs dos Times Dados_Agregados.csv e times_ids.csv

marciofornari opened this issue · comments

Ola, tudo bem?
Estou desenvolvendo um relatório porém no arquivo dados_agregados_limpos.csv o ID dos times que é a coluna ClubeID é o nome do próprio time e no arquivo times_ids.csv a coluna id são números.
Outra situação que encontrei é que no arquivo dados_agregados são alguns campos como CA, CV, A, estão vindos todos como Decimal 1.0, 2.0, etc, o correto seria vir no formato Inteiro.

Uma questão que gostaria que vocês disponibilizassem seriam juntar todos os arquivos das rodadas de todos os anos em um arquivo completo com os dados das rodadas e o ano. Assim ficaria somente 1 arquivo com as colunas, atletas, ca, fc, o numero da rodada e o ano.

Oi, Marcio
no arquivo dados_agregados_limpos.csv não tem os ids dos times por que a ideia é que esse arquivo tenha dados prontos pra treinar modelos de Machine Learning. Como o nome do time é mais informativo do que o id, preferimos manter o nome do time. De toda forma, você pode fazer joins com os nomes dos times nos arquivos times_ids.csv pra pegar os ids, se preferir. Entretanto, repare que os ids podem mudar ano a ano.

Pra converter os campos CA, CV, A de decimal pra inteiro, você pode usar a função astype do Pandas.

Por último, não é tão fácil juntar os arquivos de todos os anos em um só, já que cada ano tem seu formato próprio. Além disso, há dados em certos anos que não estão presentes em outros. Assim, mesmo que juntássemos tudo, alguns dados continuariam presentes só nos seus respectivos anos. Se você pudesse fazer isso, ficaríamos super felizes em receber seu pull request. Isso iria ajudar muita gente com certeza.

Olá @arnaldog12, vou tentar fazer um trabalho de juntar os arquivos. Sou analista de Business Intelligence e irei montar um Dashboard em uma ferramenta de BI e irei disponibilizar isso futuramente. Por isso a ideia de criar ligações entre os IDS dos times nos dados_agregados e o cadastro dos times e o arquivo unico das Rodadas de todos os anos. Nesse dashboard a ideia é disponibilizar campos para os usuários fazerem filtros por exemplo: Saber em 2018 no jogo entre Grêmio x Internacional qual jogador teve a maior pontuação, ou, nos últimos 3 anos no jogo entre Corinthians x Palmeiras quais posições tiveram maior pontuação. Isso tudo eu consigo saber, porém teria que ser em um arquivo único para facilitar.

Legal, Marcio.
Desejo sucesso nessa sua ferramenta e aguardo ansiosamente o seu Pull Request.
Abraços,