Rock-Paper-Scissors サンプル

じゃんけん対戦の強化学習サンプルコードです。

以下のライブラリを使用しています。

インストール

引数のlogdirのパスを prob_dist_logsやjurina_logsに変更することでほかの学習モデルのトレーニング可視化が可能です。

停止はCtrl+C。

学習済みモデルの平均報酬値を標準出力へ表示します。

以下のグラフは、平均報酬値結果を実行し、まとめたものです。

じゃんけんAI対戦ができるWebアプリケーションを起動します。

停止はCtrl+Cを押します。

動作させると、「あれ？」となるとおもいます。実は上記の通り実行したWebじゃんけんアプリを何度か使うと、プレイヤーはAIがかならず1つの手を出し続けることに気づくと思います。

AI側の手をちらしたいと考えた時、どのようにこのコードを変更すればよいかは各自で考えてみてください。

ちらした手を出すことが収益最大化につながるようにするには..がヒントです。

オレはようやくのぼりはじめたばかりだからな

このはてしなく遠い強化学習坂をよ..

未完

上記OSS以外にも、以下のサイトを活用しています。