北京邮电大学计算机与围棋研究所所长刘知青：AlphaGo与柯洁人机大战展望-阿里云开发者社区

5月18-20日，由中国电子学会主办，ZD至顶网协办的第八届中国云计算大会在北京国家会议中心隆重举办。在20日上午的主会场中，北京邮电大学计算机与围棋研究所所长、教授刘知青分享了主题为“AlphaGo与柯洁人机大战展望”的精彩演讲。

北京邮电大学计算机与围棋研究所所长刘知青：AlphaGo与柯洁人机大战展望

北京邮电大学计算机与围棋研究所所长、教授刘知青

刘知青在演讲中详细讲述了AlphaGo与李世石人机大战的前因后果，并进一步展望了AlphaGo与柯洁的人机大战场景。他讲到：“作为圈内的知情者来看，阿尔法狗的技术进展完全是基于早期的研究成果，当然其中也有新的技术突破。因为我们也做了十年的计算机围棋研究，所以在阿尔法狗和李世石比赛之前，他们也邀请我去做了直播的技术讲解。在去之前我就做了一个预测，我在微博上发表了三条观点，因为当时很多人希望我做一下对比赛的预测，我就说了三点：第一李世石不可能全胜；第二机器胜算更大一点；第三李世石甚至会感到非常意外。”

以下是刘知青的演讲实录：（以下内容根据现场速记整理，未经发言嘉宾确认，仅供参考，谢绝转载。）

刘知青：大家上午好，感谢中国电子学会邀请我来报告阿尔法与柯洁的展望。阿尔法狗和李世石的大战引起了全面的关注，是不是有柯洁的大战我们还是可以讨论。首先我想报告一下阿尔法狗成长过程，这成长过程了解有助于我们理解阿尔法狗技术的背景。我们再仔细的解读一下阿尔法狗核心技术。希望大家对这技术有一个更正确的和全面的体会。

最后我们展望一下阿尔法狗和柯洁的人机大战。

首先我们看一下阿尔法狗的一些关键成长结点。阿尔法狗团队呢，他们组织了这围棋团队，大概在两年前，应该在3月份，就是到现在为止大概有两个月的时间。但是比赛的时候正好是两年前，在2014年3月组织这团队，这团队的组织目的就是要验证是否可以通过神经网络的技术来理解围棋这个复杂的事物。团队组织了以后，到了2015年的8月份时候，阿尔法狗其实已经全面的超越了当时所有的计算机围棋的程序。我们知道这个事情是有一些内幕消息的。因为在2015年的11月份，我们当时组织了世界范围内的一个计算机围棋比赛，我们邀请了全部知名的这些系统到北京来，进行计算机围棋大战，其中一名最积极参与者，叫做（英文），他是法国的教授，他第一个我还帮助你邀请更多的人来，但是到了8月份给我写一封信刘教授我10月份不能来，原因看起来非常简单，因为他在8月份的时候知道了（英文）这成果，他们也就没有必要到北京来再做这比赛了。

到了10月份的时候，通过杂志上面看到，他们战胜了樊辉，中国的职业二段，也是欧洲的职业冠军，虽然他已经脱离了中日韩主流的围棋比赛领域。但是他毕竟是经过职业训练的。战胜他也是前所未有的一个事情。

到了今年的1月份，阿尔法狗的进展又有了新的进步，它到了版本18。跟樊辉5：0战胜了。但是到了今年1月份版本18，因为软件是进步，这个事情不是公布出来，是我们有一些内幕消息，通过阿尔法狗的团队和我们的一些接触，得到的东西。

另一方面可以看，阿尔法狗版本18的强度，它可以让阿尔法狗版本13，也就是战胜樊辉的版本。世界上面没有一个职业选手，应该有这样的能力，可以让樊辉三个子、四个子，所以这也是（英文团队有信心直接挑战李世石。所以他们有计划邀请其他的职业选手，通过中国围棋协会，通过一些私人的关系，邀请中国的职业棋手，本来计划今年春季的时候去伦敦，去硅谷进一步测试，但是一月份版本18出来已经没有什么意义，因为版本18有一个登积分的评价。而职业选手像李世石在3500分，柯洁世界围棋第一人也只在3600分上面，从等积分来看是毫无例外的阿尔法狗会碾压李世石，所以他们1月份取消了原计划对于中国棋手的邀请，而直接宣布了去挑战李世石，当然我们3月份看到了阿尔法狗版本18，完胜李世石。当然存在了4：1，这一盘暴露了阿尔法狗技术的弱点，但并不影响他们整个的情况。

作为圈内的知情者来看，因为我们也做了十年的计算机围棋研究。阿尔法狗这些技术的进展，完全是基于早期的研究成果。当然他们也有新的技术突破，在阿尔法狗和李世石比赛之前，他们邀请我去乐视去做直播，做技术讲解。去之前我就做了一个预测，我在微博上发表了这么三条意见。因为很多人希望我表达一下对于比赛的预测，我就说了三。第一李世石不可能全胜，第二机器胜利更大一点，第三我说李世石甚至会感到非常意外的。

当然我没有直接说，李世石会被机器全面的碾压，我还是留了一点余地，因为毕竟比赛还没有开始，事实上我们看到这些东西都完全得到了验证。我们再看一看，为什么阿尔法狗选择了做围棋，谷歌做围棋。因为围棋是我们现在所知的，人类历史上面发展过来，而不是现在临时设计，它是一个最复杂的游戏，复杂在什么方面呢？叫做天文数字的状态空间复杂度和决策复杂度。同时围棋又涉及多方面的人类智能，包含逻辑思维，你要判断A好还是B好，同时还有形象思维，围棋里面有很多很的图形，其实职业选手之所以很强大，他们是积累了十年甚至更长时间的比赛经验，其实是对形状的一个感知，同时还有优化选择，它是一个综合能力的一个游戏。相比之下呢，国际象棋相对来说比较简单，他们更大程度上面是依赖逻辑判断来做的。所以围棋是公认一个重要的难点。在国际学术界上面，公认认为是人工智能我们领域里面长期的挑战。从1997年战胜卡斯洛夫之后，学术界一致认为这是要做的，他们的观点比较消极，可能需要15年、20年。去年我们在北京举办比赛的时候也做了一个讨论，普遍认为需要20年左右的时间。但是阿尔法狗第二年就把它解决了。为企业是衡量人工智能水平一个重要的标尺。

围棋的突破表示人工智能以完全可以胜任人类诸多的智力的问题，它设计了逻辑思维、形象思维、优化选择的等多种综合能力的表现。我们看到这个突破之后，当然也经过了技术分析，我们认为现在人工智能是处在一个爆发的转折点。

这个阿尔法狗人工智能，和前期的人工智能不太一样。它是一种数据驱动的人工智能，我们还会看到里面使用了大量的数据，经过了大量的计算，训练出了神经网络，这些神经网络是可以提供一些早期，我们无法能够提供的一些能力。

我们看一看阿尔法狗背后的一些核心人工智能方法。它的主要方法就是要解决天文数字的复杂度。这些东西人类是如何解决，我也是参考了职业选手的意见，通过他们的表述和想法来看呢，通常是需要两个事情，一个就是对旗杆的直觉，也就是说它很可能知道这个棋在哪里应该落子，应该这个盘面在当前的情况下面是好还是坏了。这些直觉是职业选手，从五六岁开始学习，到20岁左右得到世界冠军这么长期积累的结果。可能需要像几万盘棋。

当然除了这些直觉之外，还有逻辑判断、逻辑思维，我在下这一步，我再下一步你之后这些相互交换以后他们的变化。职业选手来看有两种技术，一个是对于围棋的直觉，一个是进行搜索和验证。阿尔法狗所使用的人工智能技术，完全是按照人类的这种方法来进行的。早期的人工智能对于直觉是非常非常弱的。它很强，强大在第二点上面，它可以进行搜索，它还进行验证，但是当它少了这些直觉之后，它的搜索空间就巨大的膨胀，以至于现有的计算机资源是无法胜任这些问题的。

所以阿尔法狗的这东西主要就是通过深度神经网络机器学习，获得了围棋的棋杆，这是分成了两部分，一个是落子棋杆，给定任何一个盘面，你得告诉我哪些是真正可能落子点，没有这棋杆的话，你只能按照围棋的规则来落子，它有三百多个落子点，你是不可能有机会、有时间一一进行确认的。实际过程中，一个围棋选手他经过长期的训练之后，他就有了很强的落子棋杆，他就知道当前在哪个落子的。比如说这个图片上面，我们看到了右边现在是黑落子，它有一系列的落子点，比如说我们看到里面有多个，这些落子点，我们从职业围棋选手或者高端的围棋选手看来，都是完全合乎我们人类落子习惯。这些东西是怎么得来的呢？这些是阿尔法狗通过学习了30万盘职业和业余高段棋手棋谱获得了。可能是600万个盘面，这种有监督的机器学习，通过训练13层的深度神经网络，加上一定的围棋的一些知识，这些围棋知识是非常非常少，包含你有多少气一些非常简单的围棋规则。合起来顺便出了这网络，叫做策略网络。就是说你在一个盘面下面我有甚么样的落子策略，它就提供了一个落子棋杆。落子棋杆还不是谷歌做的第一开发。第二个棋杆是叫做胜负棋杆，这可能是更重要的一个，对于围棋的感知。胜负棋杆说的什么呢？就是说扔给任何一个围棋盘面是黑好还是白好。围棋在阿尔法狗之前，计算机围棋对这概念一无所知，它是通过一个方法来去算的，算需要费用大量的时间。待会我会讲到如何去算，但是阿尔法狗训练了一个价值网络，这个网络是如何构建的呢？它有3千万盘的对局，这个对局是自我对局，也就是阿尔法狗左手跟右手自己来比，下了3千万盘，下了3千万盘这一盘棋也需要近一个月的时间。用大型的GPU用了一个月的时间。下了3千万盘棋以后，它把这3千万盘棋每盘里面取出一个盘面，通过这些一个盘面以及胜负结果，做了增强型的机器学习，来获得胜负棋杆。

阿尔法狗的这些学习训练过程，比如说包含30万盘的落子和3千万盘的胜负，这训练的数量级，远超出人类棋手的能力。也就是说完全依赖于棋杆是不够的，所以它需要一系列的技术进行棋杆的验证，当然这是基于数学基础和数学模型。

第一个验证就是胜负棋杆的验证，虽然它的给了一个棋杆，但是这棋敢还只是直觉还不是一个确认的东西，它有一种方法，就是基于期望的一个数学评估模型。它在当前盘面上面进行蒙特别卡洛随机采样，采样过程当它足够一定量的时候，可以进行期望的评估。这期望就可以作为它胜负的评判标准。给了棋杆通过采样再验证。

这个蒙特卡洛树搜索是过去十年围棋当中一直使用的主流技术，它是基于最优选择的搜索，也就是说在那个可能落子点的地方，进行更大规模的搜索，而在那些机会不是很大的地方，作为相对比较小的检查。它会把大量的计算资源和验证的时间，花在他可能的落子点，这可能落子点是基于胜负，完全是以胜率来指引。

但是传统的技术，由于早期没有棋杆的指引，它的展开数量比较大，而且对于捡子的方法比较弱，所以无法有效真正高水平的落子。搜索结果就是这样子，搜索结果他们会得到一个双方最佳的落子顺序。我们看到他们从文章上面公布出来，最佳落子顺序是28步，也就是说它会根据可能的落子选点，展开这棵树最后搜索到28层，这28层并不是全面统一全都是28层，而是在最深的地方有28层。在那些相对来说下的机会很小的地方，比如说第四盘，当李世石对于洼的搜索没有28层。所以他花资源比较少。对于最佳序列28层搜索，这应该是超出了职业选手在一般情况下的搜索范围了。当然如果是一个特定问题，比如说真子（音）某一个特定环节上有更深层次的思考，但是一般情况下28子是超出了人类能力。

什么是阿尔法狗核心突破呢？这个图上面讲了，是他们的（英文）首席执行官他发了一篇像微博一样的东西，但是他是在Facebook上面写的，他说我们的成功不是主要依赖于硬件，而是由于它的神经网络，特别是价值网络的实现。所以它的核心技术是使用深度神经网络获得了围棋的棋杆，尤其是胜负的棋杆。据说他们这胜负的棋杆还在不断的改善和增强中。

我们可以最后展望一下阿尔法狗和柯洁的人机大战。这个事情是不是成为一个现实，我现在也很难讲，但是我可以从技术上面来看一看他们比赛的一个展望。第一是否会有阿尔法狗和柯洁的人机大战，其实从某种意义来讲做一比赛还很合适，因为现在的比赛结果，阿尔法狗是4：1战胜过李世石，柯洁是8：2是李世石，从李世石胜负来看他们非常匹配，但是从等积分上有一些差距，但是刚才等积分还是一个另外方式，登积分还不是职业联赛打出来，还是跟自己不同的版本让子棋获得，所以可能存在了一定水分。

第二就是说如果这阿尔法狗和柯洁比赛真正实现了，他们比赛的结果将是什么。以及应该以什么样的方式来真正组织这一场比赛，对于李世石比赛，其实李世石非常仓促的应战，他可能5分钟之内答应，现在柯洁来跟阿尔法狗我相信不会只有5分钟的准备时间。原因也简单，大家都认识到阿尔法狗的强大，同时我们还可以这么讲，阿尔法狗的强大当时还是1月份的版本18，现在是5月份，我也不知道他们版本19还是21。现在的版本跟版本18将是一个样的差别我们现在很难讲，但是我可以说版本是在进步的过程中，而且他们的技术是非常非常强大的。

好，我就说这么多，感谢中国人工智能协会还有中国围棋协会，等等一系列对我们的工作提供包括，包含电子学会邀请我来做这事情，也感谢国家围棋队的领导，感谢广州棋院在我们做计算机研究过程大力支持，好，谢谢大家。