如果非要问 AlphaGo 有什么缺点,那就是下棋不像人类和 AlphaGo 对弈过的顶级棋手都有这种感受,他们觉得 AI 落子经常让人捉摸不透
这不仅是 AlphaGo 的问题,许多 AI 系统无法解释,且难以学习如果想让 AI 与人类协作,就不得不解决这个问题现在,来自 Meta AI 等机构的研究者们打造出一个能战胜人类顶级棋手,且更容易复盘棋谱的 AI
他们用人类棋谱训练 AI 模仿,并让后者超越了人类。
上图分别展示了该方法在国际象棋,围棋的表现。
纵轴为 AI 与原始模型对弈的胜率,横轴为 AI 预测人类落子位置的 Top—1 准确度可以看出新的算法在两方面都已经超过了 SOTA 结果
像人类,还能打败人类
正所谓鱼与熊掌难以兼得AlphaGo 使用的自我博弈与蒙特卡洛树搜索,虽然练就了无比强大的 AI,但它的下棋更像凭直觉,而非策略如果要让 AI 更像人类,更应当使用模仿学习,但是这却很难让 AI 达到人类顶级棋手水准
Meta AI 和 CMU 的研究者发现,加入了 KL 正则化搜索后,一切都不一样了AI 的落子策略变得与人类棋手更加相似,这就是他们提出的新方法
piKL—hedge 的执行步骤如下:
在下图中,piKL—Hedge可以生成预测人类博弈的策略,其准确度与模仿学习相同,同时性能强 1.4 倍另一方面,在实现更高预测准确性的同时,piKL—Hedge 优于非正则化搜索的策略
本文共有三位共同一作,分别是来自 Meta AI 的 Athul Paul Jacob,David Wu,以及 CMU 的 Gabriele Farina。
Athul Paul Jacob 同时也是 MIT CSAIL 的二年级博士生,从 2016 年到 2018 年,他还在 Mila 担任访问学生研究员,在 Yoshua Bengio 手下工作,与 Bengio 共同发表了多篇论文。
David Wu 是 Meta AI 的国际象棋和围棋首席研究员。
Gabriele Farina 是 CMU 一名六年级博士生,曾是 2019—2020 年 Facebook 经济学和计算奖学金的获得者,他的研究方向是人工智能,计算机科学,运筹学和经济学。
另外,Gabriele Farina 还参与过著名的 CMU 德州扑克 AI 程序 Libratus 的开发。
论文地址:
。