boyu-ai/Hands-on-RL Issues
马尔可夫决策过程,MDP转化为MRP时计算的P疑似有误
Updated关于web教程布局的建议
UpdatedCartPole-v0环境训练reward超过上限值200?
Closed 1第十三章 DDPG算法 代码实践中的一点疏漏
Updated多臂老虎机的代码里面init_prob为什么是1.0?
Updated3.5公式不准确
Closed关于环境初始化的一点提示
Updated网页版教程 3.3.2 价值函数 推导过程有些模糊
Updated21章MADDPG代码问题,存在维度不匹配
Updated 1DQN ReplayBuffer
Updated 120章的代码问题
Updated 3第七章DQN代运行报错
Updated 33.5公式错误
Updated 1SAC伪代码存在一点小问题
Updated7.4 DQN 算法反向传播有没有进行求导??
Updated 1SAC算法——状态价值函数存在问题
Updated运行环境
Updated 1第七章DNQ回报超出200
Closed 1已解决
ClosedMARL的PPT的第7页和8页参考文献咋相同?
Updated 1Dueling DQN部分的疑问
Updated 2第 10 章 Actor-Critic 算法 语法小问题.
Closed 1第三章 马尔科夫决策过程 3.3.1计算回报的函数有问题
Updated第八章 `In [7]`代码块,VAnet() 疑似有误
Updated第8章 拓展阅读公式推导结果有误,补充分部积分过程
Updated关于开发环境配置
Updated 4第9章-策略梯度算法 中的交叉熵损失体现在代码哪里 ?
Updated制作了 EPUB 格式
Updated蒙特卡罗采样动作和状态 temp变量为什么是累加呢
UpdatedDDPG算法篇笔误
Closed 1第18章cql代码
Updated第20章 未定义win?
Closed网页版本与纸质书的区别?
Updated14.3公式错误
Updated1.3节强化学习的环境中的公式含义不清
Updated2.5公式错误
Updated 12.4公式错误
Updated第 10 章 Actor-Critic 算法代码实践
Closed 1