Dueling DQN部分的疑问
Ruanzhh opened this issue · comments
Ruanzhh commented
在介绍Dueling DQN的部分,描述到”在同一个状态下,所有动作的优势值之和为 0,因为所有动作的动作价值的期望就是这个状态的状态价值。“,我的理解是所有动作的优势值在策略 pi 下的期望为0,而不是之和为0?不知道我的理解有没有问题。
Forest Lee commented
一组数据每个值减去该组数据的平均值,这组数据的和就是0了
https://hrl.boyuai.com/
Ruanzhh opened this issue · comments
在介绍Dueling DQN的部分,描述到”在同一个状态下,所有动作的优势值之和为 0,因为所有动作的动作价值的期望就是这个状态的状态价值。“,我的理解是所有动作的优势值在策略 pi 下的期望为0,而不是之和为0?不知道我的理解有没有问题。
一组数据每个值减去该组数据的平均值,这组数据的和就是0了