新AlphaGo这么强!36小时从0自学成大师,100:0把李世乭版秒成渣渣 | Nature论文

简介:
本文来自AI新媒体量子位(QbitAI)

f51a5d8397191f9806bb13a724c65ec087e795ba

“它最终超越了我们所有预期”。

DeepMind团队又放惊天消息。

简单地说,AlphaGo又有了重大进步。DeepMind把这个新版本的围棋AI称为AlphaGo Zero。之所以这样命名,是因为这个AI完全从零开始,自我学习下围棋,完全脱离人类知识。

以前其他版本的AlphaGo,都经过人类知识的训练,它们被告知人类高手如何下棋。而最新发布的AlphaGo Zero使用了更多原理和算法,从0开始,使用随机招式,40天后成为围棋界的绝世高手。真真正正的自学成才。

新的AlphaGo Zero使用了一种全新的强化学习方式,从0基础的神经网络开始,与搜索算法结合,不断进化调整、迭代升级。AlphaGo Zero的不同之处在于:

  • 除了黑白棋子,没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工设计的特征。
  • AlphaGo Zero只用了一个神经网络,而不是两个。以前AlphaGo是由“策略网络”和“价值网络”来共同确定如何落子。
  • AlphaGo Zero依赖神经网络来评估落子位置,而不使用rollouts——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方会获胜。

创新工场AI工程院副院长王咏刚用“大道至简”四个字评价新版的AlphaGo Zero。


上述种种,让AlphaGo Zero异常强大。

“人们一般认为机器学习就是关于大数据和海量计算,但是DeepMind通过AlphaGo Zero的案例发现,算法比计算或者数据可用性更重要”,AlphaGo团队负责人席尔瓦(Dave Silver)介绍说,AlphaGo Zero的计算,比之前的AlphaGo减少了一个数量级。

74b6105b9a873dc83ebb747c14a061502bc5c7ba

如上图所示,AlphaGo Zero也只用了4个TPU。

AlphaGo Zero到底多厉害,且看官方公布的成绩单:

  • 3小时后,AlphaGo Zero成功入门围棋。
  • 仅仅36小时后,AlphaGo Zero就摸索出所有基本而且重要的围棋知识,以100:0的战绩,碾压了当年击败李世乭的AlphaGo v18版本。
  • 21天后,AlphaGo Zero达到了Master的水平。这也就是年初在网上60连胜横扫围棋界的版本。Master后来击败了柯洁。
  • 40天后,AlphaGo Zero对战Master的胜率达到90%。也就是说,AlphaGo Zero成为寂寞无敌的最强围棋AI。

c6b9ca1fc471065c8c89790c025afdfe92981d95

DeepMind主要作者之一的黄士杰博士总结:AlphaGo Zero完全从零开始,初始阶段甚至会填真眼自杀。AlphaGo Zero自学而成的围棋知识,例如打劫、征子、棋形、布局先下在角等等,都与人类的围棋观念一致。

“间接呼应了人类几千年依赖围棋研究的价值”,黄士杰写道。

9e625f1e8b5b6113e7b6298ebd1fc380f8ba2c10

技术细节

DeepMind的最新研究成果,已经全文发布在《自然》杂志上。这也是第二篇在《自然》杂志上发表的AlphaGo论文。

论文摘要

人工智能的长期目标是创造一个会学习的算法,能在特定领域中从一块白板开始,超越人类。最近,AlphaGo成为第一个在围棋游戏中打败世界冠军的程序。AlphaGo中的树搜索使用深度神经网络来评估位置、选择落子。这些神经网络用人类专家的棋谱来进行监督学习的训练,并通过自我对弈来进行强化学习。本文介绍了一种仅基于强化学习的方法,除了游戏规则之外,没有人类的数据、指导或者领域知识。AlphaGo成了它自己的老师:一个被训练来预测AlphaGo自己落子选择以及对弈结果的神经网络。这个神经网络提高了树搜索的强度,提高了落子质量、增强了自我对弈迭代的能力。从一块白板开始,我们的新程序AlphaGo Zero的表现超越了人类,并以100-10击败了以前曾打败世界冠军的AlphaGo版本。

AlphaGo Zero的强化学习

上面提到AlphaGo使用了一个神经网络,这是怎么做到的?

DeepMind使用了一个新的神经网络fθ,θ是参数。这个神经网络将原始棋盘表征s(落子位置和过程)作为输入,输出落子概率(p, v)= fθ(s)。这里的落子概率向量p表示下一步的概率,而v是一个标量估值,衡量当前落子位置s获胜的概率。

这个神经网络把之前AlphaGo所使用的策略网络和价值网络,整合成一个单独的架构。其中包含很多基于卷积神经网络的残差模块。

AlphaGo Zero的神经网络,使用新的强化学习算法,自我对弈进行训练。在每个落子位置s,神经网络fθ指导进行MCTS(蒙特卡洛树)搜索。MCTS搜索给出每一步的落子概率π。通常这种方式会选出更有效的落子方式。

因此,MCTS可以被看作是一个强大的策略提升operator。这个系统通过搜索进行自我对弈,使用增强的MCTS策略决定如何落子,然后把获胜z作为价值样本。

这个强化学习算法的主要理念,实在策略迭代过程中,反复使用这些这些搜索operator:神经网络的参数不断更新,让落子概率和价值(P,v)=fθ(s)越来越接近改善后的搜索概率和自我对弈赢家(π, z)。这些新参数也被用于下一次的自我对弈迭代,让搜索变得更强大。整个过程如下图所示。

b0fb7e45251c4aeac1407c880bee4600a09bd785

上图解释了AlphaGo Zero中的自我对弈强化学习。图a展示了程序的自我对弈过程。程序在从s1到st的棋局中进行自我对弈,在任意位置st,程序会用最新的神经网络fθ来执行MCTS αθ,根据MCTS计算出的搜索概率at∼πt选择落子位置,根据游戏规则来决定最终位置sT,并计算出胜者z。

图b展示了AlphaGo Zero中的神经网络训练过程,神经网络以棋盘位置st为输入,将它和参数θ通过多层CNN传递,输出向量Pt和张量值vt,Pt表示几步之后可能的局面,vt表示st位置上当前玩家的胜率。为了将Pt和搜索概率πt的相似度最大化,并最小化vt和游戏实际胜者z之间的误差,神经网络的参数θ会不断更新,更新后的参数会用到如图a所示的下一次自我对弈迭代中。

  • 7abab154e1141dc24ae2941a3f65447258da1829

AlpaGo Zero中的MCTS结构如上图所示,从图a显示的选择步骤可以看出,每次模拟都会通过选择最大行为价值Q的边缘,加上置信区间上限U来遍历树,U取决于存储先验概率P和访问次数N。

图b显示,叶节点扩展和相关位置s的评估都是通过神经网络(P(s, ·),V(s)) = fθ(s)实现的,P的向量值存储在s的出口边缘。

图c显示了更新行为价值Q以追踪该行为下面子树中所有评估V的平均值。

图d显示,搜索完成后,搜索概率π返回,与N1/τ成比例,其中N是从根状态每次移动的访问次数,τ是控制温度的参数。

从零开始的训练

DeepMind在论文中表示,应用了强化学习的pipeline来训练AlphaGo Zero,训练从完全随机的行为开始,并在没有认为干预的情况下持续3天。

训练过程中,生成了490万盘自我博弈对局,每个MCTS使用1600次模拟,相当于每下一步思考0.4秒。下图显示了在自我对弈强化学习期间,AlphaGo Zero的表现。整个训练过程中,没有出现震荡或者灾难性遗忘的困扰。

9caa5860d4487322911b50df8b9d527c17b0b90c

令人惊讶的是,AlphaGo Zero在训练36小时后,表现就优于击败李世乭的版本AlphaGo Lee。当年那个版本经过了数月的训练。AlphaGo Zero使用了4个TPU,而击败李世乭的AlphaGo使用了48个TPU。

下图就是AlphaGo Zero和AlphaGo Lee的神经网络架构比较。

81eaf6f392682b7f4e5c9598589886f404ec295c

论文全文

855bc649597427f377bbd56cce22dce185a899ca

论文的共同第一作者是David Silver、Julian Schrittwieser、Karen Simonyan。

关于这篇论文,可以直接从这个地址下载:

https://deepmind.com/documents/119/agz_unformatted_nature.pdf

DeepMind还放出AlphaGo Zero的80局棋谱,下载地址在此:

https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip

本文作者:李林 千平 
原文发布时间:2017-10-19 
相关文章
|
6月前
|
人工智能 算法
ChatGpt 能成为恋爱大师吗?
ChatGpt 能成为恋爱大师吗?
55 0
|
算法
算法学习 | 与大师对话,翻阅大师手稿中的数学题
今天分享大师们遇到的有趣的数学题,探索解题的过程,寻找解决方案,以及怎样更加全面的思考问题。
110 1
|
机器学习/深度学习 存储 人工智能
不避嫌、不遮丑!陈天琦导师自批NeurIPS2018最佳论文:没那么神,问题很多
近日,陈天琦的导师David Duvenaud在NeurIPS 2019上回顾了此前获NeurIPS 2018最佳论文的研究。他表示,这篇论文从写作动机上是为了讨好前辈,在数据处理上没有对基线方法进行调参,导致结果的确定性没那么高,并对一些科技媒体的夸大和不实报道做了澄清。他不避嫌、不遮丑的坦诚态度赢得了网友的好感和敬佩。
522 0
不避嫌、不遮丑!陈天琦导师自批NeurIPS2018最佳论文:没那么神,问题很多
|
机器学习/深度学习 C++
百度飞桨世界冠军带你从零实践强化学习第五天(三岁白话时间)
百度飞桨世界冠军带你从零实践强化学习第五天(三岁白话时间)
150 0
百度飞桨世界冠军带你从零实践强化学习第五天(三岁白话时间)
|
机器学习/深度学习 C++
百度飞桨世界冠军带你从零实践强化学习第四天(三岁白话时间)
这里是三岁,这里吧第四的素材和资料整理了一下,大家康康,有什么不足的欢迎提出,批评指正!!!
92 0
百度飞桨世界冠军带你从零实践强化学习第四天(三岁白话时间)
|
机器学习/深度学习 缓存 负载均衡
豆瓣评分9.5,哈佛、斯坦福、普林斯顿等都在用的算法经典教材
  先看看作者吧,Jon Kleinberg是美国国家科学院(NAS)、美国国家工程院(NAE)、美国人文与科学院(AAAS)三料院士,在计算机科学领域是“传说级”的人物。而且他还获得过国际数学家大会颁发“奈望林纳奖”,这个奖是数学家大会为了表彰信息科学方面的重要数学贡献而设的。——来自豆瓣
290 0
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
154 0
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
|
机器学习/深度学习
假期福利 | 林轩田《机器学习基石》资源汇总
假期福利 | 林轩田《机器学习基石》资源汇总
160 0
假期福利 | 林轩田《机器学习基石》资源汇总
|
机器学习/深度学习 设计模式 算法
靠谱,这是我见过最好的编程指南了!赶快收藏吧,错过大学就白上了!
靠谱,这是我见过最好的编程指南了!赶快收藏吧,错过大学就白上了!
114 0
|
机器学习/深度学习 人工智能 数据可视化
CVPR论文经不起复现推敲?是学术会议水了还是我飘了
很多人工智能学者都在抱怨目前的 AI 顶级会议接收论文数量大幅膨胀,论文质量也显著下降,其中有一部分经不起复现的推敲。最近,在 Reddit 上一个「较真」的网友就对 CVPR2018 的一篇大会接收论文进行复现,发现了其中的问题。此贴在 Reddit 上引发了众人的热烈讨论,其中包括对学术会议同行评审机制的审视。
271 0
CVPR论文经不起复现推敲?是学术会议水了还是我飘了