thuxugang / doudizhu

AI斗地主

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请教模型强弱问题

xmgfx opened this issue · comments

commented

谢谢回复,那个issue你关的太快,我没来得及回复!新闻我在百度搜索看的:
让AI玩转斗地主 快手实践课题获Deecamp2019最佳团队奖:http://baijiahao.baidu.com/s?id=1642397979642328759&wfr=spider&for=pc
牺牲睡眠、耽误论文,三周开发出「斗地主」AI,他们拿下了今年 DeeCamp 最佳团队奖:https://cloud.tencent.com/developer/article/1494263
那可能是今年这届实现的,原来每年的题目是一样的啊。
想另外请教几个问题:
1.基于蒙特卡洛搜索的AI>基于强化学习的AI 这是在相同训练时间下比较 还是模型优势导致的啊?
2.蒙特卡洛理论上还是暴力搜索那套,为什么会比强化学习模型更强呢? 我认为强化学习应该还是有很大提升潜力,如果想继续优化提升基于强化学习模型的,你认为有哪些方向比较有效?
3.结合最近学术界开发德扑AI的经验,非完美信息博弈里面各种CFR模型取得了不小突破,这说明CFR模型用在斗地主上会更强吗?

在17年那会,RL处理这个问题不是很好,因为reward没法精确给,比如你一手烂牌,你在怎么用优秀的策略,都会输,那些最优策略反而会给负的reward;如果你一手好牌,闭眼睛都能赢,那些不好的策略反而会给正的reward。当时reward很关键,设计好reward,会有很大提升,但是很麻烦。如果每一步都有reward的极限就成了规则based的了。
MCTS在有限空间时候,肯定是最强的,而且我们时间有限,限定了AI可以看到对手牌。
最近没有跟进最新进展,很抱歉没法回答这个问题。

commented

谢谢,很有启发。

谢谢,很有启发。

在17年那会,RL处理这个问题不是很好,因为reward没法精确给,比如你一手烂牌,你在怎么用优秀的策略,都会输,那些最优策略反而会给负的reward;如果你一手好牌,闭眼睛都能赢,那些不好的策略反而会给正的reward。当时reward很关键,设计好reward,会有很大提升,但是很麻烦。如果每一步都有reward的极限就成了规则based的了。
MCTS在有限空间时候,肯定是最强的,而且我们时间有限,限定了AI可以看到对手牌。
最近没有跟进最新进展,很抱歉没法回答这个问题。

你好。据说2019 DeeCamp他们做出来以后先开源了。然后又闭源了。请问是否有关注 。有在闭源之前得到一些代码吗 ,据说采用了多策略模型?

sorry哈,这个就不太清楚了