Resultados do modelo preditivo em 2017

Question

Resultados do modelo preditivo em 2017

arnaldog12 opened this issue 7 years ago · comments

Nessa planilha você pode conferir os jogadores que o nosso modelo preditivo acreditou que iam fazer boas pontuações e a pontuação real do jogador na respectiva rodada.

Esse ano utilizamos Redes Neurais como principal modelo preditivo, mas também chegamos a testar Random Forests e XGb. Ainda não fizemos nenhuma análise em cima das predições, mas pretendemos fazer em breve.

E aí? Você acha que nosso modelo mandou bem ou não?
Será que deveríamos ter utilizado outros modelos?

fir3f0x · Answer 1 · Tue Apr 17 2018 20:55:56 GMT+0800 (China Standard Time)

Opa bom dia.. Estou iniciando meus estudos em ciencia de dados e achei esses script do cartola e comecei a estuda-lo... Mas esta dando erro ao rodar:

df_players = predict_best_players(df_samples, reg, n_players=25)
df_rodada.iloc[df_players.index][['Apelido', 'Posicao', 'ClubeID']].sort_values('Posicao')

Ja rodei pra tentar arrumar e nada kkk

Arnaldo Gualberto · Answer 2 · Wed Apr 18 2018 06:28:34 GMT+0800 (China Standard Time)

Boa noite, @fir3f0x

tentei rodar aqui agora o código do Jupyter notebook Análise dos Dados.ipynb e o código funcionou tranquilo. Analisando o erro que você mostrou, por algum motivo está faltando alguma coluna nos seus dados. Então, talvez possa ser alguma dessas coisas:

Você está com o código mais atualizado do repositório?
Você rodou todas as células das seções "0. Dependências e configurações", "1. Limpeza dos dados" e "2. Criação das amostras", antes de rodar a seção "4. Predições"?

fir3f0x · Answer 3 · Wed Apr 18 2018 19:33:33 GMT+0800 (China Standard Time)

Estou rodando no windows 10.. Ja quando tento rodar o conda env create ja aparece

Mas todos os pacotes estao instalados só nao nessas versões. Seria um problema?
E sim rodei todas as celulas na sequencia. De qualquer forma baixei novamente os arquivos e vou rodar . Mas ja era a ultima versao disponivel

fir3f0x · Answer 4 · Wed Apr 18 2018 19:50:10 GMT+0800 (China Standard Time)

Acho que descobri minha falha... Rodei a sessão 3. Treinamento do modelo. Essa sessão não deve ser executada novamente?

Segui na sequencia que vc falou e deu certo. Executei a sessão 3 e o erro volta.. Mudei apenas pra ele pegar os dados de 2016 e 2017 mas ai já da o erro.

Arnaldo Gualberto · Answer 5 · Wed Apr 18 2018 20:21:07 GMT+0800 (China Standard Time)

A sessão 3 não precisa ser executada se você não quer treinar um novo modelo.
Já que você está executando a sessão 3, você talvez deve estar esquecendo alguma coluna.
Tem como você criar um gist com o seu Jupyter notebook?

macsong · Answer 6 · Wed Apr 18 2018 21:16:55 GMT+0800 (China Standard Time)

Arnaldo,
Bem interessante o seu trabalho, mas os cálculos estatísticos voltaram com um resultado médio muito baixo. Eu participo do Cartola desde a sua origem e tenho trabalhado nesta linha estatística há algum tempo.

Acredito que falta apenas um pequeno dado para que sua predição seja melhorada em pelo menos 20%.

Mande um e-mail para mim. Vamos conversar sobre: macson.guedes@flir.com.br

Abraço

Rafael Pierre · Answer 7 · Thu Apr 19 2018 07:04:24 GMT+0800 (China Standard Time)

Põe na roda ai, @macsong :)

Olhando os resultados, achei o modelo muito bom.

No meu caso, o que trouxe alguma melhoria foi utilizar Random Forests como modelo preditivo ao invés de Redes Neurais.

macsong · Answer 8 · Thu Apr 19 2018 07:06:33 GMT+0800 (China Standard Time)

kkkkkkk A variação é tão grande e a população tão baixa que os resultados são loucos. Me passa o telefone que acho mais fácil para conversarmos. Vai ser fácil aplicar e testar o resultado, mas tenho outras ideias loucas também. Macson Guedes From: Rafael Pierre <notifications@github.com> Sent: quarta-feira, 18 de abril de 2018 20:04 To: henriquepgomide/caRtola <caRtola@noreply.github.com> Cc: Guedes, Macson <macson.guedes@flir.com.br>; Mention <mention@noreply.github.com> Subject: Re: [henriquepgomide/caRtola] Resultados do modelo preditivo em 2017 (#33) Põe na roda ai, @macsong<https://github.com/macsong> :) Olhando os resultados, achei o modelo muito bom. No meu caso, o que trouxe alguma melhoria foi utilizar Random Forests como modelo preditivo ao invés de Redes Neurais. — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub<#33 (comment)>, or mute the thread<https://github.com/notifications/unsubscribe-auth/Aktx6QEou-iUPMBu41CPy8hGSN2HG0Vmks5tp8Z6gaJpZM4Q7DUx>.

…

________________________________ Notice to recipient: This email is meant for only the intended recipient of the transmission, and may be a communication privileged by law, subject to export control restrictions or that otherwise contains proprietary information. If you receive this email by mistake, please notify us immediately by replying to this message and then destroy it and do not review, disclose, copy or distribute it. Thank you in advance for your cooperation.

Fernando Silva · Answer 9 · Thu Jun 07 2018 08:43:31 GMT+0800 (China Standard Time)

Eu tive o mesmo problema que o @fir3f0x ao rodar o notebook nos comandos abaixo:
df_players = predict_best_players(df_samples, reg, n_players=25)
df_rodada.iloc[df_players.index][['Apelido', 'Posicao', 'ClubeID']].sort_values('Posicao')

@fir3f0x voce conseguiu resolver o problema ?

Bruno Eurico · Answer 10 · Thu Jul 26 2018 05:11:48 GMT+0800 (China Standard Time)

Boa tarde.

Gostaria de saber, como vocês fazem para realizar a atualização das rodadas? Como vocês fazem para obter os dados de cada rodada? Existe alguma API para obter todos esses dados das rodadas?

Arnaldo Gualberto · Answer 11 · Thu Jul 26 2018 05:28:43 GMT+0800 (China Standard Time)

Boa noite, @brunoeurico

Nós utilizamos a API do Cartola mesmo. O lado ruim é que a API do Cartola só disponibiliza os dados rodada a rodada, ou seja, não há um histórico desses dados via API. Por conta disso, toda semana a gente pega esses dados e vai armazenando para criar o histórico.

getzleo · Answer 12 · Wed Aug 22 2018 08:32:11 GMT+0800 (China Standard Time)

df_players = predict_best_players(df_samples, reg, n_players=25)
df_rodada.iloc[df_players.index][['Apelido', 'Posicao', 'ClubeID']].sort_values('Posicao')

Com erro?

Solucao:
df_samples['e'] = 1
df_rodada = df_test[(df_test['Rodada'] == (ROUND_TO_PREDICT-1)) & (df_test['Status'] == "Provável")]
df_samples = to_samples(df_rodada)

T. D. Fleck · Answer 13 · Mon Oct 01 2018 06:17:57 GMT+0800 (China Standard Time)

Fala pessoal,

Nas últimas semanas testei uns modelos pra fazer predições pro Cartola e criei um repositório pra quem quiser dar uma olhada e também tiver alguma sugestão (tdanf/cartola-predictions).
Vocês tão fazendo modelos para 2018?

Abraço!

Henrique Gomide, Ph.D. · Answer 14 · Fri Oct 05 2018 00:21:19 GMT+0800 (China Standard Time)

Não consegui achar o repositório! Curioso aqui para ver! Abraços! Em dom, 30 de set de 2018 às 19:17, Thiago Fleck <notifications@github.com> escreveu:

…

Fala pessoal, Nas últimas semanas testei uns modelos pra fazer predições pro Cartola e criei um repositório pra quem quiser dar uma olhada e também tiver alguma sugestão (tdanf/cartola-predictions). Vocês tão fazendo modelos para 2018? Abraço! — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#33 (comment)>, or mute the thread <https://github.com/notifications/unsubscribe-auth/ABxKo58_S2jiPP0qea9ZQOD7a1HAMC0gks5ugUMWgaJpZM4Q7DUx> .

-- Henrique Gomide Web: http://github.com/henriquepgomide

T. D. Fleck · Answer 15 · Fri Oct 05 2018 08:18:25 GMT+0800 (China Standard Time)

Opa! Segue o link https://github.com/tdanf/cartola-predictions

Thiago S Silva - Via Consulting · Answer 16 · Tue May 14 2019 04:49:59 GMT+0800 (China Standard Time)

Olá, como gero o arquivo dados_agregados ?
Gostaria de executar as predições com os dados de 2019, mas não sei qual deve ser a ordem de execução dos algoritmos.

Michelangelo Redondo dos Anjos · Answer 17 · Thu May 16 2019 11:55:52 GMT+0800 (China Standard Time)

Porque os dados de treino tem que ter dois jogos consecutivos de um jogador? a pontuação dele só está sendo prevista de acordo com a rodada passada?

Arnaldo Gualberto · Answer 18 · Mon May 20 2019 19:21:53 GMT+0800 (China Standard Time)

Oi, @mranjos
Sim. Em 2017, eu utilizava só os dados da última rodada para prever a próxima, mesmo sabendo que isso não era o ideal. Mesmo assim, a rede funcionou bem.
Entretanto, esse ano já comecei o desenvolvimento de uma rede neural recorrente (LSTM) para levar em consideração o histórico de rodadas do jogador. Se você puder me ajudar, o código encontra-se aqui.

Michelangelo Redondo dos Anjos · Answer 19 · Mon May 20 2019 21:30:26 GMT+0800 (China Standard Time)

@arnaldog12 entendi. Então, sou pouco familiarizado com o Python, estava transcrevendo os códigos para o R e ai acabei parando nessa etapa pois não tinha entendido muito bem. Estava pensando em criar uma regressão mais simples e interpretável do que uma rede neural, mas pode ser testada várias técnicas. Poderia ajudar sim na rede recorrente, mas ai seria no R, porque gastaria um tempinho pra aprender implementar no python.

getzleo · Answer 20 · Mon May 20 2019 21:43:00 GMT+0800 (China Standard Time)

@arnaldog12 primeiro de tudo, show o LSTM, realmente é a melhor opção para regressão, estou fazendo alguns testes (ando complicado de tempo para testar) porem existem alguns parametros que estou mudando não na NN para nos dados.

Tem uma gama de resultados / dados adicionais que são importantes:

RNN dos times, jogos anteriores: X vs S, gera score dos times.
Separar os jogadores realmente por posicao, principalmente defesa onde o SG é fator relevante. (Um mesmo time pode ter um ataca fraco e ter uma defesa forte, ai o SG faz diferença), score do time tem que entrar como feature do jogador
Cruzamento de jogos da rodada atual (prognostico), evitando cruzar ataque e defesa de times que se enfrentam na roda.

Michelangelo Redondo dos Anjos · Answer 21 · Mon May 20 2019 22:47:46 GMT+0800 (China Standard Time)

Concordo com o @getzleo , acho que seria interessante montar um book de variáveis antes de ir pra técnica, adicionando ao que o @getzleo falou, talvez segmentar os times em grandes / médios / pequenos, jogos em casa e fora, como feature também, possa ser interessante, por exemplo, jogador X quando joga contra time grande fora de casa tende a ter em média um score menor ou maior.

getzleo · Answer 22 · Mon May 20 2019 22:58:06 GMT+0800 (China Standard Time)

@mranjos casa vs fora é geralmente 65/35% não importa muito o time, e tem o empate na jogada ainda. Isto é fato.

Não precisa segmentar em grande/medio/pequeno, apenas colocando os % de casa/empate/fora já é um score a mais.

Tem outros fatores também , inclusive "clima/tempo". Pensa pessoal do sul jogando no calor infernal do nordeste ou vice-versa, até isto influencia.

Por isto o score casa vs fora é importante alem do jogo em si

getzleo · Answer 23 · Tue May 21 2019 09:50:08 GMT+0800 (China Standard Time)

Outra, alterei o Model para:

model = Sequential()
model.add(LSTM(units=256, return_sequences=True, input_shape=x.shape[1:]))
model.add(Dropout(rate=0.2))
model.add(Dense(units=64, activation='linear'))
model.add(Dropout(rate=0.2))
model.add(Dense(units=16, activation='relu'))
model.add(Dropout(rate=0.2))
model.add(LSTM(units=16, return_sequences=False))

model.add(Dense(units=1, activation='linear'))
model.summary()

model.compile(optimizer='adam', loss='mean_squared_error')

model.fit(x, y, batch_size=64, epochs=300)

Melhorou muito os "negativos" e os positivos pico de pontuação

getzleo · Answer 24 · Tue May 21 2019 10:07:55 GMT+0800 (China Standard Time)

Com o Model acima

Arnaldo Gualberto · Answer 25 · Tue May 21 2019 19:34:43 GMT+0800 (China Standard Time)

Também concordo com @mranjos e o @getzleo que devemos colocar mais algumas variáveis. Acho que as mais importantes agora são com qual time o jogador irá jogar na próxima rodada e se jogará fora ou em casa. O importante é que esses dados sejam da próxima rodada, já que a rede vai tentar prever baseado na próxima rodada. Alguém se disponibiliza a gerar esses dados, por favor?

Arnaldo Gualberto · Answer 26 · Tue May 21 2019 19:36:21 GMT+0800 (China Standard Time)

Esse seu modelo ficou muito legal, @getzleo
Nunca tinha visto colocar camadas Dense entre camadas LSTM. Isso é comum?

Independente disso, os resultados ficaram legais. Você deu commit nessa rede?

getzleo · Answer 27 · Tue May 21 2019 19:48:29 GMT+0800 (China Standard Time)

@arnaldog12 vamos lá.
O que ao meu ver falta e vou tentar implementar o quanto antes:

1 - Jogos da rodada, ranking times
2 - Jogador: Joga em Casa ou Fora
3 - Divisão em: Defesa e Ataque (quem começa com SG tem que ser tratado diferente, pois o ZERO dele são 5 pontos)
4 - Na previsão: Soltar 5 jogadores com maiores "predictions" de pontuacao por posição, e mostrar o quanto o sistema preve de pontos.
5 - Não muito dificil dar input das cartoletas que você tem Ex: 110,00 e ele montar o time para você com maiores probalilidades até 110,00 de gasto, pois não adianta nada ele soltar um time que você não pode montar, outra coisa importante a verificar é a relação pontos/cartoleta do jogador na linha de tempo. Tem muitos jogadores caros que não valem a escalação

Quanto ao Dense dentro do LSTM sim , em alguns modelos é normal e sobe muito a confiança do modelo. Mas deve ser sempre testado e validado. Ainda mais com ativadores diferentes, não dei commit não, mas fique a vontade para comitar se quiser

Arnaldo Gualberto · Answer 28 · Tue May 21 2019 19:54:04 GMT+0800 (China Standard Time)

Opa, @getzleo

Os atributos dos itens 1 e 2 são interessantíssimos. O item 3, entretanto, eu acredito que não seja necessário. Uma rede neural facilmente faz essa associação. Por exemplo, se construíssimos uma rede que calculasse a pontuação dado os scouts + posição do jogador, com certeza o erro seria zero. Então, acho que não precisamos perder tempo com esse atributo.

Os itens 4 e 5 eu me comprometo a fazer. Então, se você extrair os atributos dos itens 1 e 2, eu fico com os itens 4 e 5. Pode ser?

Michelangelo Redondo dos Anjos · Answer 29 · Tue May 21 2019 23:45:54 GMT+0800 (China Standard Time)

@getzleo Esse ranking times seria a posição do time na tabela? Senão, acho que seria interessante essa informação também.

Henrique Gomide, Ph.D. · Answer 30 · Wed May 22 2019 00:00:06 GMT+0800 (China Standard Time)

Em vez do colocar o ranking, talvez valha a pena colocar o valor estimado do elenco. A variável talvez nos dê mais informação. Abraço,

…

On Tue, May 21, 2019, 12:45 PM mranjos ***@***.***> wrote: @getzleo <https://github.com/getzleo> Esse ranking times seria a posição do time na tabela? Senão, acho que seria interessante essa informação também. — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#33?email_source=notifications&email_token=AAOEVI464U3LTYACLIBUYTTPWQKLHA5CNFSM4EHMGUY2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODV4KXMY#issuecomment-494447539>, or mute the thread <https://github.com/notifications/unsubscribe-auth/AAOEVI6UUQGHPC4LWOM5NOLPWQKLHANCNFSM4EHMGUYQ> .

getzleo · Answer 31 · Wed May 22 2019 00:10:36 GMT+0800 (China Standard Time)

@mranjos @henriquepgomide quando digo raking é o resultado da RNN dos jogos. Um "Rating" e não ranking, para ser mais especifico.
Posicao simples no campeonato nao muda muito.

Valor do Elenco é relativo, tem jogador caro pontuando pouco.
O que pode ser a melhor opcao talvez seja Resultados Jogos + Media dos Time + Jogo seguinte, ai ter um rating para deixar como feature de jogador, vou fazer umas analises cruzando estes dados e ver o nivel de confiança desta informaçao.

getzleo · Answer 32 · Wed May 22 2019 00:12:20 GMT+0800 (China Standard Time)

@arnaldog12 vou tentar validar e implementar os itens 1 e 2 o quanto antes

Arnaldo Gualberto · Answer 33 · Wed May 22 2019 01:15:29 GMT+0800 (China Standard Time)

ótimo, @getzleo 💯

Henrique Gomide, Ph.D. · Answer 34 · Wed May 22 2019 01:22:07 GMT+0800 (China Standard Time)

My bad.

…

On Tue, May 21, 2019, 2:15 PM Arnaldo Gualberto ***@***.***> wrote: ótimo, @getzleo <https://github.com/getzleo> 💯 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33?email_source=notifications&email_token=AAOEVI2SCMYGR72M3LL2JSTPWQU3FA5CNFSM4EHMGUY2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODV4SS5I#issuecomment-494479733>, or mute the thread <https://github.com/notifications/unsubscribe-auth/AAOEVI5YSY5SX5TIVD3TSYDPWQU3FANCNFSM4EHMGUYQ> .

Michelangelo Redondo dos Anjos · Answer 35 · Wed May 22 2019 01:34:39 GMT+0800 (China Standard Time)

Vocês já estão com os dados limpos acrescentando 2018 e 2019?

Junior Goulart · Answer 36 · Tue May 28 2019 04:42:47 GMT+0800 (China Standard Time)

Fala Henrique tudo bem? Cara ano passado fiz contato com vc por não conseguir rodar o os scripts aqui disponibilizados por vc,... Data Science era uma grande caixa preta para mim,.. mas fui para a luta, e hoje volto aqui com disposição a tentar ajudar no projeto.
Com os dados disponibilizados por vc e outros web scraping que fiz pela net,... consegui criar uma analise sobre os confrontos da rodada. Dê uma olhada nesse link www.cartolytics.club.

Vou começar a interagir por aqui para ajudar no que precisar.... abraços!

Henrique Gomide, Ph.D. · Answer 37 · Fri May 31 2019 16:45:27 GMT+0800 (China Standard Time)

Que ótima notícia! Bem vindo ao navio pirata. Parabéns pelo esforço e dedicação. Vejo três caminhos de contribuição. # Resolver issues Existem alguns issues que foram marcados. Se quiser atacá-los seria ótimo. # Estender o código Manda brasa e implemente uma ideia de análise. # Estudos e tutoriais Muitos cartoleiros acreditam que a terra é plana. Qualquer estudo dizendo sobre o tamanho do impacto do mando de casa na pontuação de jogadores jogará luz sobre o fantasy. Pelos bons contatos que recebo, muita gente vem aqui aprender data science. Existe melhor maneira de aprender do que ensinar?* * Licença poética aqui porque existem várias maneiras melhores de aprender do que ensinar. Abraços, Henrique.

…

On Mon, May 27, 2019, 5:42 PM traluog ***@***.***> wrote: Fala Henrique tudo bem? Cara ano passado fiz contato com vc por não conseguir rodar o os scripts aqui disponibilizados por vc,... Data Science era uma grande caixa preta para mim,.. mas fui para a luta, e hoje volto aqui com disposição a tentar ajudar no projeto. Com os dados disponibilizados por vc e outros web scraping que fiz pela net,... consegui criar uma analise sobre os confrontos da rodada. Dê uma olhada nesse link www.cartolytics.club. Vou começar a interagir por aqui para ajudar no que precisar.... abraços! — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33?email_source=notifications&email_token=AAOEVI5MWNSHLMLL7WORHYLPXRBURA5CNFSM4EHMGUY2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODWKPRIA#issuecomment-496302240>, or mute the thread <https://github.com/notifications/unsubscribe-auth/AAOEVIYFXF2HEQVFC6XZZVTPXRBURANCNFSM4EHMGUYQ> .