请教模型强弱问题

Question

请教模型强弱问题

xmgfx opened this issue 5 years ago · comments

谢谢回复，那个issue你关的太快，我没来得及回复！新闻我在百度搜索看的：
让AI玩转斗地主快手实践课题获Deecamp2019最佳团队奖：http://baijiahao.baidu.com/s?id=1642397979642328759&wfr=spider&for=pc
牺牲睡眠、耽误论文，三周开发出「斗地主」AI，他们拿下了今年 DeeCamp 最佳团队奖：https://cloud.tencent.com/developer/article/1494263
那可能是今年这届实现的，原来每年的题目是一样的啊。
想另外请教几个问题：
1.基于蒙特卡洛搜索的AI>基于强化学习的AI 这是在相同训练时间下比较还是模型优势导致的啊？
2.蒙特卡洛理论上还是暴力搜索那套，为什么会比强化学习模型更强呢？我认为强化学习应该还是有很大提升潜力，如果想继续优化提升基于强化学习模型的，你认为有哪些方向比较有效？
3.结合最近学术界开发德扑AI的经验，非完美信息博弈里面各种CFR模型取得了不小突破，这说明CFR模型用在斗地主上会更强吗？

徐罡 · Answer 1 · Fri Dec 20 2019 09:09:24 GMT+0800 (China Standard Time)

在17年那会，RL处理这个问题不是很好，因为reward没法精确给，比如你一手烂牌，你在怎么用优秀的策略，都会输，那些最优策略反而会给负的reward；如果你一手好牌，闭眼睛都能赢，那些不好的策略反而会给正的reward。当时reward很关键，设计好reward，会有很大提升，但是很麻烦。如果每一步都有reward的极限就成了规则based的了。
MCTS在有限空间时候，肯定是最强的，而且我们时间有限，限定了AI可以看到对手牌。
最近没有跟进最新进展，很抱歉没法回答这个问题。

xmgfx · Answer 2 · Fri Dec 20 2019 12:13:44 GMT+0800 (China Standard Time)

谢谢，很有启发。

IamHuskar · Answer 3 · Tue Mar 31 2020 01:19:43 GMT+0800 (China Standard Time)

谢谢，很有启发。

在17年那会，RL处理这个问题不是很好，因为reward没法精确给，比如你一手烂牌，你在怎么用优秀的策略，都会输，那些最优策略反而会给负的reward；如果你一手好牌，闭眼睛都能赢，那些不好的策略反而会给正的reward。当时reward很关键，设计好reward，会有很大提升，但是很麻烦。如果每一步都有reward的极限就成了规则based的了。
MCTS在有限空间时候，肯定是最强的，而且我们时间有限，限定了AI可以看到对手牌。
最近没有跟进最新进展，很抱歉没法回答这个问题。

你好。据说2019 DeeCamp他们做出来以后先开源了。然后又闭源了。请问是否有关注。有在闭源之前得到一些代码吗，据说采用了多策略模型？

徐罡 · Answer 4 · Tue Mar 31 2020 07:31:57 GMT+0800 (China Standard Time)

sorry哈，这个就不太清楚了