GWDx/Irene

Irene

名称来源于 Portrait of Irène Cahen d'Anvers

围棋 AI，仿照 Alphago，主要实现了简单的策略网络和蒙特卡洛树搜索算法

Alphago 主要使用了卷积网络（策略网络、价值网络）和蒙特卡洛树搜索算法、强化学习等技术。

其中 features 包括棋的位置、各个位置气的数量、最近的移动记录等信息。

AlphaGo 使用的是更多层卷积（包含残差网络）、更多 features，使用强化学习产生更多的数据。

由于计算资源的限制，Irene 只使用有监督的形式训练大约 2000 张棋谱。因为价值网络的预测较为不准确，MCTS 中使用棋子数作为评估指标。

文件	用途
filter.py	从原始数据中选取合适的（没有让子）
go.py	围棋规则
features.py	从各张棋谱中获取数据
prepareData.py	准备数据
net.py	策略网络、价值网络的结构
train.py	训练网络
genMove.py	使用训练的网络生成输出（直接使用策略网络，或者用 MCTS 搜索）
gtp.py	以 GTP 协议从命令行传输落子位置等信息

下载代码

git clone https://github.com/GWDx/Irene.git
cd Irene

安装依赖

pip install torch numpy sgfmill

获取并处理数据

wget https://homepages.cwi.nl/~aeb/go/games/games.7z
7z x games.7z

python filter.py
python prepareData.py

训练网络

python train.py policyNet
python train.py playoutNet
python train.py valueNet

以 GTP 协议运行

可以使用图形界面的 Sabaki 连接 GTP 协议的程序

python gtp.py

策略网络（AI 执白）与人对弈的局面：

MCTS（执白）与策略网络（执黑）对弈的结果，白棋胜：

使用策略网络，并结合以棋子数为评估指标的 MCTS 搜索时，AI 倾向于吃子。相较于仅使用策略网络，计算力有所提高。但围棋更重要的是围空，吃子有时未必有利于围空。

围棋 AI，仿照 AlphaGo

MIT License

Language:Python 100.0%