MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

Home Page:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Simple_PPO 中最后一个state的值是否应该为0?

YingxiaoKong opened this issue · comments

莫凡你好,我看了你的程序,然后想起来我们老师课上讲过,最后一个state的q-value应该是0.我看了一点其他人的程序,有的人也把最后一个state 的返回值写为0,是否是真的需要呢?

最后终止时总要给Q一个赋值吧?不然程序怎么走啊?
实际问题按实际物理意义来,不是0也可以

是的,需要按照模拟的实际情况来判断赋值多少。

可以这么理解,不过有种情况是环境没有尽头,所以也不会有last state.