🦆 Hungry Geese 🦆

🎉 Month 5 Winners - Goose luck! 🎉

このレポジトリは HandyRL の fork です

チームのベストソリューションは、また別です。。😂

rating 1200 以上の agent の対戦履歴をもとに、勝者の行動を教師データとして学習する

GPUサーバーで python main.py -ts
CPUサーバーの config.yaml で
- num_parallel を使用するCPU数にする
- server_address をGPUサーバーのアドレスにする
CPUサーバーで python main.py -w

GPUが遊んでいるようならGPUサーバーの config.yaml の num_batchers を増やす
config.yaml の batch_size は GPUのメモリサイズに合わせる
- ただし learning rate がこの batch_size に依存しているっぽいこのあたり
config.yaml の maximum_episodes はGPUサーバーのメモリサイズに依存する (モデルサイズによるが128GBで 100万くらい)

parameters.md のメモ (間違っているかも)

こちらを ~~パクる~~ 参考にして、以下の更新をした。

探索のたびに、(探索済みの局面も)推論を行う
- 推論のたびに、ランダムにモデルが選ばれる(アンサンブル効果)
- 推論のたびに、局面をランダムにスライドさせる
- 推論のたびに、敵 3体のチャネルをシャッフルする
ベストな行動は、直近での推論結果のみで決める
- 推論結果は、4択しかなく、選択肢の差がモデルによっては付きやすいため
ある確率で、推論結果にルールを適用する
- それによって、正面衝突を回避しやすくする

モデル同士で対戦し、成績の良いモデルを submit する

MIT License

Language:Python 99.4%Language:Jupyter Notebook 0.6%Language:Makefile 0.0%