这是一个我学习《深入浅出强化学习-原理入门》的学习代码仓库,主要是一些书上的例子和书后面的练习题的代码
- gym二次开发相关文件配置
- 改写gym下的core.py文件
- 利用gym二次开发的一个网格游戏例子
- 利用gym二次开发的一个迷宫游戏例子
2-马尔科夫决策过程(Markov Decision Process)
- 学习生活的例子
- 里面对于迷宫的环境模拟的课后作业
- 网格游戏在均匀策略下的策略评估例子
- 策略迭代算法流程图
- 网格游戏在贪婪策略下的策略迭代例子
- 值迭代算法流程图
- 网格游戏在贪婪测略下的值迭代例子
- 迷宫游戏在动态规划下的课后作业
- 蒙特卡罗方法采样
- 蒙特卡罗方法评估
5-时间差分值迭代(Temporal Difference)
- Q-learning算法流程图
- Sarsa算法流程图
- Sarsa(λ)算法流程图
- 利用gym二次开发的一个推箱子游戏例子
- 利用时间差分学习推箱子实例
6-值函数逼近(Value Function Approximate)
- Deep Q-learning算法流程图
- Deep Q-learning算法模板
- 利用Deep Q-learning写的flappy游戏