SteadfastAsArt/-Reinforcement-Learning-five-in-a-row-

1.基于 tensorflow 的强化学习的五子棋人机对弈

深度强化学习，即 Deep Reinforcement Learning, 通过给每个 action 特定的 reward, 进行不断的尝试，使程序在某个状态 (state),的时候可以朝着最大化的受益 (reward) action 变换 state, 基于强化学习的五子棋对弈人机对弈系统就基于这个原理出发。

2. Deep Reinforcement Learning 原理

DQN 原理简述

2. 系统神经网络结构

该神经网络的输入输出及相关状态：

输入：19 * 19 的棋盘状态矩阵，现在改成了 1*722 的棋盘状态矩阵，其中 1-366 是代表一方的落子状态，367-722 代表另外一方的落子状态。
输出：一行 361 列的Q值矩阵，即是表示每个 action 所代表的q值(这里action用坐标表示)。五子棋神经网络用的双神经网络的方法，两个神神经网络的结构相同，分别是 Q-eval 和 Q_target.
Q_eval：参数时刻更新，用于得到q表，从而选取动作。
Q_target:参数滞后，主要用于保存以前的参数。

3.原理流程图

4.激活函数

ReLu(Rectified Linear Units)激活函数。

5.梯度下降

RMSProp方法。

6. 更新过程

储存落子过程 memory

[s1,r1,a1,s_1]
[s2,r2,a3,s_3]
[sn,rn,an,s_n]

即是
[state, reward, action, state_next]

表示当执行某个 action，使的 state 变为 state_next 获得的收益为 reward。

存储了一定的数据量的时候随机从 memory 中选取 m 项数据，将[s1,s2,s3…..,sm]输入 Q_eavl(具有最新参数的神经网络)，得到 Q_eval = [q1:q2:q3,,,,:qm]，同理 [s_1,s_2,s_3…..,s_m] 输入 _target(滞后参数神经网络)，得到 Q_next = [q_1;q_2;q_3;,,,;q_m]。让后对相应 action 位置的 q 值进行更新，计算 target[0,ation] = R + gama * max(q_next), 其中gama为延迟回报率。计算误差：loss = target[0,ation]- Q_eval[0,ation]，将误差反向传播，修改神经网络结构参数。从而使落子的决策可以得到更多的回报值。

7. 计算机的自我对弈

这里将期盼的状态 (state), 用一个一维数组表示，其中 1 代表该位置已被落子，这样棋盘的每个状态都可以用一个一位数组表示。该棋盘初始状态如下：

[
0, 0, 0, 0,....0,
0, 0, 0, 0,....0,
., ., ., .,.....,
., ., ., .,.....,
., ., ., .,.....,
0, 0, 0, 0,....0,
] 执行，先手(假设程序1)随机下，得到一个 state_0 [ // 对方落子情况，初始局所以都为 0 0, 0, 0, 0,
0, 0, 0, 0,
0, 0, 0, 0,
0, 0, 0, 0,

// 我方落子情况
0, 0, 0, 0,
0, 0, 1, 0,
0, 0, 0, 0,
0, 0, 0, 0,
]

此时程序2，将数组前后两部分对调，作为一个 state 输出到神经网络，得到并执行 action，假设落子情况为如下
[
// 对方落子情况
0, 0, 0, 0,
0, 0, 1, 0,
0, 0, 0, 0,
0, 0, 0, 0,
// 我方落子(此处我方指程序 2 )
0, 0, 0, 0,
0, 0, 0, 0,
0, 1, 0, 0,
0, 0, 0, 0,
]

程序 1 侧目前所见目前棋盘状态如下 state_1

[ // 对方落子
0, 0, 0, 0,
0, 0, 0, 0,
0, 1, 0, 0,
0, 0, 0, 0, //我方落子
0, 0, 0, 0,
0, 0, 1, 0,
0, 0, 0, 0,
0, 0, 0, 0,
]

程序 1 将该 state_1 输入神经网络得到一个 action_1，并执行，假设如下,得到 state_2

[
// 对方落子
0, 0, 0, 0,
0, 0, 0, 0,
0, 1, 0, 0,
0, 0, 0, 0, //我方落子
0, 0, 0, 0,
0, 0, 1, 0,
0, 0, 1, 0,
0, 0, 0, 0,
]

然后根据 state_2, 根据棋盘的连子情况(自定得分规则), 得到该 action_1 动作的得分，即得到一条数据

[state_1, reward_1, action_1, state_2], 当执行到一定步数的时候，利用这些数据来反向修改神经网络的参数，使其能够沿着能够生成最大 reward 的 action 趋近。

8. 运行截图

程序日志

计算机自我对弈训练落子分布

人机对弈落子分布

9.运行环境

python 3.5
tensorflow
tkinter
numpy

10.运行方式

运行trun_this.py进行计算机自我对弈训练运行run 经行人机对弈

11.总结

1. 结果

经过计算机不断地自我对弈，在计算机的人机对弈的测试中，计算机会根据最大的 q 值下，也都会收到一些回报值，也就是说，在对弈的过程中，计算机五子棋程序已具备一些智能。

2. 不足之处

落子不够智能可能原因：

训练数据不够准确。
训练数据量太少
神经网络结构问题

SteadfastAsArt / -Reinforcement-Learning-five-in-a-row-