為甚麼P值不需要傳進去?

Question

為甚麼P值不需要傳進去?

shtse8 opened this issue 4 years ago · comments

https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/5.2_Prioritized_Replay_DQN/RL_brain.py#L103

為甚麼P值不需要傳進去? 而是拿Tree的MaxP去做呢?

Kyle Tse · Answer 1 · Wed Aug 12 2020 23:13:47 GMT+0800 (China Standard Time)

greedy TD-error prioritization演算法在經驗池中儲存了每個transition最後encounter的TD-error，用這種方式，將會以TD-error的絕對值最大的進行回放。這裡如果當一個新的transition到來時，我們不知道它的TD-error，那麼就把這個transition的TD-error值設定為最大，這樣可以保證所有的經驗都會被至少回放一次。這種方法效果筆隨機抽取（uniform）效果好。

我有答案了