A3C代码有问题
muxixixixi opened this issue · comments
在算优势函数R(s)-V(s)的时候两者维度不匹配,算V之前是加了一维最终是两维,R是一维,后面用这个advantage去乘policy也就有问题了
深度学习入门开源书,基于TensorFlow 2.0案例实战。Open source Deep Learning book, based on TensorFlow 2.0 framework.
muxixixixi opened this issue · comments
在算优势函数R(s)-V(s)的时候两者维度不匹配,算V之前是加了一维最终是两维,R是一维,后面用这个advantage去乘policy也就有问题了