haohaohaohaohaohaozhang / rl_learn

我的强化学习笔记和学习材料:book: still updating ... ...

强化学习的学习仓库

这是我个人学习强化学习的时候收集的比较经典的学习资料、笔记和代码，分享给所有人。

入门指南

入门指南

课程笔记

实验目录

所有的实验源代码都在lib目录下，来自dennybritz。在原先代码的基础上，增加了对实验背景的具体介绍、代码和公式的对照。

Gridworld：对应MDP的Dynamic Programming
Blackjack：对应Model Free的Monte Carlo的Planning和Controlling
Windy Gridworld：对应Model Free的Temporal Difference的On-Policy Controlling：SARSA。
Cliff Walking：对应Model Free的Temporal Difference的Off-Policy Controlling：Q-learning。
Mountain Car：对应Q表格很大无法处理（state空间连续）的Q-Learning with Linear Function Approximation。
Atari：对应Deep-Q Learning。

其他重要学习资料：

About

我的强化学习笔记和学习材料:book: still updating ... ...

Languages

Language:Jupyter Notebook 98.9%Language:Python 1.1%