boyu-ai / Hands-on-RL

https://hrl.boyuai.com/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

第9章-策略梯度算法 中的交叉熵损失体现在代码哪里 ?

chensisi0730 opened this issue · comments

第9章-策略梯度算法 中的交叉熵损失体现在代码哪里 ?
是log_prob = torch.log(self.policy_net(state).gather(1, action)) 这里吗 ?