ljpzzz / machinelearning

My blogs and code for machine learning. http://cnblogs.com/pinard

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

dqn算例中reward为什么要覆写呢?

tsukiikekaoru opened this issue · comments

在dqn算例中第140行为什么要用 reward = -1 if done else 0.1重新覆写reward为1或者0.1呢?而不是用gym环境给出的reward。https://zhuanlan.zhihu.com/p/21477488 这篇文章中结构差不多,但没有覆写,而是一个新的变量reward_agent = -1 if done else 0.1,其他dqn变种的算例中也都同样如此。

你好,这里可以覆写,也可以不覆写。
如果你想自己设计下这个环境的奖励函数,重新设计奖励,看看有没有效果提升,那么就可以覆写。
如果仅仅是学习,跑一下即可,那么不用覆写。