MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

Home Page:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

為甚麼P值不需要傳進去?

shtse8 opened this issue · comments

greedy TD-error prioritization演算法在經驗池中儲存了每個transition最後encounter的TD-error,用這種方式,將會以TD-error的絕對值最大的進行回放。這裡如果當一個新的transition到來時,我們不知道它的TD-error,那麼就把這個transition的TD-error值設定為最大,這樣可以保證所有的經驗都會被至少回放一次。這種方法效果筆隨機抽取(uniform)效果好。

我有答案了