boyu-ai / Hands-on-RL

https://hrl.boyuai.com/

boyu-ai/Hands-on-RL Issues

马尔可夫决策过程，MDP转化为MRP时计算的P疑似有误
Updated 2 months ago
DQN和AC算法中的q_targets的loss计算为什么最后要乘（1-done）呢？
Updated 2 months ago2
关于web教程布局的建议
Updated 3 months ago
CartPole-v0环境训练reward超过上限值200？
Closed 3 months ago1
第十四章SAC 算法代码实践中tanh_normal分布的对数概率密度不太对
Updated 3 months ago6
第十三章 DDPG算法代码实践中的一点疏漏
Updated 3 months ago
多臂老虎机的代码里面init_prob为什么是1.0?
Updated 3 months ago
3.5公式不准确
Closed 3 months ago
关于环境初始化的一点提示
Updated 3 months ago
网页版教程 3.3.2 价值函数推导过程有些模糊
Updated 4 months ago
21章MADDPG代码问题，存在维度不匹配
Updated 4 months ago1
DQN ReplayBuffer
Updated 4 months ago1
20章的代码问题
Updated 4 months ago3
第七章DQN代运行报错
Updated 4 months ago3
3.5公式错误
Updated 5 months ago1
用spyder跑PPO代码，kernel自动关闭了
Closed 6 months ago
PPO在单摆实验中为什么要对reward=(reward+8)/8的修改呢？
Updated 6 months ago1
SAC伪代码存在一点小问题
Updated 6 months ago
将AC改为off-policy后，每次训练500条左右的经验就会报错，显示action_dist = torch.distributions.Categorical(probs)这行代码的运行结果为tensor([[nan, nan]]
Updated 6 months ago3
ValueError: expected sequence of length 3 at dim 2 (got 0)
Updated 7 months ago6
7.4 DQN 算法反向传播有没有进行求导？？
Updated 7 months ago1
公式错误---https://hrl.boyuai.com/chapter/1/时序差分算法#55-q-learning-算法
Closed 7 months ago1
SAC算法——状态价值函数存在问题
Updated 8 months ago
运行环境
Updated 8 months ago1
第七章DNQ回报超出200
Closed 9 months ago1
已解决
Closed 9 months ago
失业三年人不认可该观点！：UCB的U_t(a)的分母分母中为拉动每根拉杆的次数加上常数 1 ，这确保每个动作**至少被探索一次**
Updated 9 months ago
第7章-DQN算法训练时报出错误 ValueError: expected sequence of length 4 at dim 2 (got 0)
Closed a year ago8
MARL的PPT的第7页和8页参考文献咋相同？
Updated 10 months ago1
Dueling DQN部分的疑问
Updated 10 months ago2
第 10 章 Actor-Critic 算法语法小问题.
Closed 2 years ago1
第三章马尔科夫决策过程 3.3.1计算回报的函数有问题
Updated a year ago
第八章 `In [7]`代码块，VAnet() 疑似有误
Updated a year ago
第8章拓展阅读公式推导结果有误，补充分部积分过程
Updated a year ago
关于开发环境配置
Updated a year ago4
第9章-策略梯度算法中的交叉熵损失体现在代码哪里？
Updated a year ago
制作了 EPUB 格式
Updated a year ago
蒙特卡罗采样动作和状态 temp变量为什么是累加呢
Updated a year ago
DDPG算法篇笔误
Closed a year ago1
第18章cql代码
Updated a year ago
第十六章模型预测控制 EnsembleModel类：train方法的问题
Updated a year ago1
第20章未定义win?
Closed a year ago
网页版本与纸质书的区别？
Updated a year ago
Action Space Limitations in Continuous PPO Algorithm in Chapter 12
Updated a year ago
14.3公式错误
Updated a year ago
1.3节强化学习的环境中的公式含义不清
Updated a year ago
2.5公式错误
Updated a year ago1
关于使用multiDiscrete acttion spaces的例子
Updated a year ago
2.4公式错误
Updated a year ago
第 10 章 Actor-Critic 算法代码实践
Closed a year ago1