第十四章SAC 算法代码实践中tanh_normal分布的对数概率密度不太对

Question

第十四章SAC 算法代码实践中tanh_normal分布的对数概率密度不太对

SurprisedCat opened this issue a year ago · comments

# 计算tanh_normal分布的对数概率密度
        log_prob = log_prob - torch.log(1 - torch.tanh(action).pow(2) + 1e-7)

根据公式来看，其中不需要再对action，再执行一次tanh了。

tryall-mint · Answer 1 · Mon Jul 10 2023 11:26:29 GMT+0800 (China Standard Time)

是的，我也发现这个问题，我试着直接使用 action.pow(2) ，效果是一样

Forest Lee · Answer 2 · Sun Jul 30 2023 13:46:37 GMT+0800 (China Standard Time)

我查阅了原论文，发现确实有问题，应该直接是action的平方，参考论文附录: (https://arxiv.org/pdf/1801.01290.pdf)[https://arxiv.org/pdf/1801.01290.pdf]'

公式如下

Jordan · Answer 3 · Mon Aug 28 2023 12:59:45 GMT+0800 (China Standard Time)

uu们，看不懂论文里的这个压缩变换，有会的同学可以教教我吗？
$a=\tanh(u)$
是一一映射，变换之后为什么对应的概率会变呀🤡
为什么不是直接相等：
$\pi(a\mid s)=\mu(u\mid s)$
而是：
$\pi(a\mid s)=\mu(u\mid s)\left | \det(\frac{da}{du})\right |^{-1}$
望指教，不胜感激❤️

Forest Lee · Answer 4 · Mon Aug 28 2023 13:31:38 GMT+0800 (China Standard Time)

uu们，看不懂论文里的这个压缩变换，有会的同学可以教教我吗？ a=tanh(u)a=tanh⁡(u)a=\tanh(u) 是一一映射，变换之后为什么对应的概率会变呀🤡 为什么不是直接相等： π(a∣s)=μ(u∣s)π(a∣s)=μ(u∣s)\pi(a\mid s)=\mu(u\mid s) 而是： π(a∣s)=μ(u∣s)∣∣det(dadu)∣∣−1π(a∣s)=μ(u∣s)|det(dadu)|−1\pi(a\mid s)=\mu(u\mid s)\left | \det(\frac{da}{du})\right |^{-1} 望指教，不胜感激❤️

参考我的文章
https://zhuanlan.zhihu.com/p/647639991?utm_psn=1773870892767891457

关于这部分的推导：

补充推导：

Jordan · Answer 5 · Mon Aug 28 2023 14:01:14 GMT+0800 (China Standard Time)

@Aegis1863 君所言，令我如拨云见日，茅塞顿开呀😊

Zhou Hojay · Answer 6 · Sun Mar 31 2024 16:37:26 GMT+0800 (China Standard Time)

如果没理解错，最后实际的动作是，所以根据上面一样的推导，最后的 $\log\pi(action\mid s)$ 应该还要在原有基础上 $-\log(bound)$ ，即return前加上log_prob -= torch.log(torch.tensor(self.action_bound))。
虽然很恰巧的是倒立摆里bound=1。

CGGbang · Answer 7 · Wed Jun 26 2024 20:26:58 GMT+0800 (China Standard Time)

uu们，看不懂论文里的这个压缩变换，有会的同学可以教教我吗？ a=tanh(u)a=tanh⁡(u)a=\tanh(u) 是一一映射，变换之后为什么对应的概率会变呀🤡 为什么不是直接相等： π(a∣s)=μ(u∣s)π(a∣s)=μ(u∣s)\pi(a\mid s)=\mu(u\mid s) 而是： π(a∣s)=μ(u∣s)∣∣det(dadu)∣∣−1π(a∣s)=μ(u∣s)|det(dadu)|−1\pi(a\mid s)=\mu(u\mid s)\left | \det(\frac{da}{du})\right |^{-1} 望指教，不胜感激❤️

参考我的文章 https://zhuanlan.zhihu.com/p/647639991?utm_psn=1773870892767891457

关于这部分的推导：

补充推导：

请问一下，这个补充推导和你的关于这部分的推导有啥关系吗？

Forest Lee · Answer 8 · Wed Jun 26 2024 20:42:53 GMT+0800 (China Standard Time)

uu们，看不懂论文里的这个压缩变换，有会的同学可以教教我吗？ a=tanh(u)a=tanh⁡(u)a=\tanh(u) 是一一映射，变换之后为什么对应的概率会变呀🤡 为什么不是直接相等： π(a∣s)=μ(u∣s)π(a∣s)=μ(u∣s)\pi(a\mid s)=\mu(u\mid s) 而是： π(a∣s)=μ(u∣s)∣∣det(dadu)∣∣−1π(a∣s)=μ(u∣s)|det(dadu)|−1\pi(a\mid s)=\mu(u\mid s)\left | \det(\frac{da}{du})\right |^{-1} 望指教，不胜感激❤️

参考我的文章 https://zhuanlan.zhihu.com/p/647639991?utm_psn=1773870892767891457
关于这部分的推导：
补充推导：

请问一下，这个补充推导和你的关于这部分的推导有啥关系吗？

补充的推导是在其他地方找的，其中(3)式就是我那个回答上面Jordan-Haidee问题的解释。

CGGbang · Answer 9 · Wed Jun 26 2024 21:14:14 GMT+0800 (China Standard Time)

uu们，看不懂论文里的这个压缩变换，有会的同学可以教教我吗？ a=tanh(u)a=tanh⁡(u)a=\tanh(u) 是一一映射，变换之后为什么对应的概率会变呀🤡 为什么不是直接相等： π(a∣s)=μ(u∣s)π(a∣s)=μ(u∣s)\pi(a\mid s)=\mu(u\mid s) 而是： π(a∣s)=μ(u∣s)∣∣det(dadu)∣∣−1π(a∣s)=μ(u∣s)|det(dadu)|−1\pi(a\mid s)=\mu(u\mid s)\left | \det(\frac{da}{du})\right |^{-1} 望指教，不胜感激❤️

参考我的文章 https://zhuanlan.zhihu.com/p/647639991?utm_psn=1773870892767891457
关于这部分的推导：
补充推导：

请问一下，这个补充推导和你的关于这部分的推导有啥关系吗？

补充的推导是在其他地方找的，其中(3)式就是我那个回答上面Jordan-Haidee问题的解释。
感谢哥们，这两个方式推出来是一样的。十分感谢

CGGbang · Answer 10 · Wed Jun 26 2024 21:17:28 GMT+0800 (China Standard Time)

CGGbang commented a month ago

M · Answer 11 · Mon Jul 01 2024 21:47:07 GMT+0800 (China Standard Time)

@xiyanzzz 我也是这么想的。因为action = action_bound * tanh(normal_sample)，所以应该在对数概率上减去log action_bound。