dqn算例中reward为什么要覆写呢？

Question

dqn算例中reward为什么要覆写呢？

tsukiikekaoru opened this issue 4 years ago · comments

在dqn算例中第140行为什么要用 reward = -1 if done else 0.1重新覆写reward为1或者0.1呢？而不是用gym环境给出的reward。https://zhuanlan.zhihu.com/p/21477488 这篇文章中结构差不多，但没有覆写，而是一个新的变量reward_agent = -1 if done else 0.1，其他dqn变种的算例中也都同样如此。

刘建平(Pinard Liu) · Answer 1 · Wed Jan 06 2021 09:40:44 GMT+0800 (China Standard Time)

你好，这里可以覆写，也可以不覆写。
如果你想自己设计下这个环境的奖励函数，重新设计奖励，看看有没有效果提升，那么就可以覆写。
如果仅仅是学习，跑一下即可，那么不用覆写。