deligentfool / COLA_MADDPG

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问为什么训练完后智能体的奖励值很低

wagh311 opened this issue · comments

commented

你好,我按照README中的命令(python main.py simple_tag_coop examplemodel --n_episodes 40000 --consensus
)运行了代码,但发现训练完后智能体的奖励值很低,跟论文中的差很多,请问是因为我训练的步数太少了吗?是必须要按论文中去执行200W步吗?
image

Sorry,时间有点长导致我之间说的有点问题。文中的纵坐标与tensorboard中的纵坐标虽然写出来相似但是表达意思不同。一个是reward一个是return。tensorboard中的mean_episode_rewards是指一个seed下的一个episode中每一步平均的reward,而论文中mean episode return是指多个seed测试下一个episode中的reward加和的平均值,因此tensorboard中的mean_episode_reward与文中的值相差一个倍数,这个倍数就是一个episode的决策时间长度,main.py中默认为100(附录中有写)。n_episode就使用main.py中默认的20000。因此论文中的横坐标为2M。

另外,建议多试几个seed,不同seed间差异比较大,因此论文测试多个seed并取平均值。

commented

非常感谢您给出详细的回复,还有2个问题想请教您一下:
1.我是从AAAI官网上下载的您的论文,发现只有9页,里面没有包含附录,请问是我下载的论文版本不对吗?
2.我想将您的方法应用在我的合作任务中,不过我在设置智能体的奖励函数时,没有给他们相同的团队奖励,每个智能体获得的奖励也并不相同,请问这会影响您的方法的使用效果吗?换句话说,合作型多智能体强化学习任务中,每个智能体必须要有相同的奖励吗?

哦哦这样子,因为AAAI提交camera-ready版本的时候附录没法上传所以AAAI官网上没有附录,有附录的版本可以在https://arxiv.org/abs/2206.02583 中找到。

额关于第二个问题,其实我觉得学习出来的consensus信号就是让智能体在分布式执行的时候拥有更多的额外信息,这个信息可以让智能体除了局部观测信息以外有一个共同的指引;即类似于对于某个全局状态,这个共识信号相当于是帮助智能体将该状态映射为一个指定的全局reward,就像论文图8中所示。当然也可能有助于智能体各自拥有一个奖赏函数的情况,因为可能在训练初期这种不稳定的信号相当于提升了智能体的探索能力,从而提升了算法的样本效率。综上,其实我也不是特别清楚是否对于你所提到的这种情况有帮助,我觉得可以试一试。

commented

嗯嗯,感谢回复。arXiv上的版本我试了下,点开网页只能显示出文章第一页内容,后面的都显示不出来,不知道为什么
image

你可以检查一下你的网络,尽量使用科学上网。如果之后还有问题可以继续联系我。

commented

谢谢,我使用了科学上网,我试过打开arXiv上的其他文章都是正常的,但这篇文章确实只能显示第一页,不知道为什么

嗯嗯应该还是你电脑网络的问题,可以试试清理缓存之类的,在其他电脑上都可以正常显示

commented

嗯嗯,我再试试,谢谢