Deep-Reinforcement-Learning-Book

書籍「つくりながら学ぶ！深層強化学習」、著者：株式会社電通国際情報サービス小川雄太郎、出版社: マイナビ出版 (2018/6/28) のサポートリポジトリです。

最下部に正誤表を記載しております。

図ブロック崩しを攻略（A2Cを使用し、GPU1枚で3時間の学習後）

図迷路をランダムに移動

図迷路を強化学習

図迷路内の各位置の価値を学習

図倒立振子を制御

正誤表

[1] 初版：p. 46

パラメータθの更新量の式において、符号がマイナスであるべき部分がプラスになっていました。これに伴い以下3点の修正をお願いします。

[1-1] p. 46 式（2行目）
⊿θ_{s, a_j} = {N(s_i, a_j) + P(s_i, a_j) N(s_i, a)} / T
↓
⊿θ_{s, a_j} = {N(s_i, a_j) - P(s_i, a_j) N(s_i, a)} / T


[1-2] p. 47 コード（上段）
delta_theta[i, j] = (N_ij + pi[i, j] * N_i) / T
↓
delta_theta[i, j] = (N_ij - pi[i, j] * N_i) / T


[1-3] p. 48 コード
stop_epsilon = 10**-8
↓
stop_epsilon = 10**-4

About

書籍「つくりながら学ぶ！深層強化学習」のサポートリポジトリです

Languages

Language:Jupyter Notebook 100.0%