发明人首次复盘人机大战看阿法狗是如何赢的

2016-03-30 10:06:15已围观次来源：钛媒体编辑：夏雪

　　原标题：阿尔法狗将走入人类生活，发明人首次复盘人机大战

　　钛媒体注：“谷李”世纪大战硝烟散尽，由此引发的机器学习与人工智能的热潮不减反增。日前，AlphaGo (中文俗称“阿尔法狗”)项目负责人，有着阿尔法狗之父之称的大卫·席尔瓦(David Silver)回到英国伦敦，在母校伦敦大学学院(UniversityCollege London，UCL)一场私密会上复盘了人工智能围棋系统AlphaGo与李世石的5番棋大战，在场的听众被禁止拍照。这也是赛后，阿尔法狗团队的首次半公开复盘。

　　UCL计算机系是全英计算机排名第一的学院。在UCL计算机系攻读博士学位的中国留学生张伟楠全程参与了这次分享会，并且在会后与席尔瓦进行了面对面的交流。钛媒体独家约稿张伟楠，根据席尔瓦的分享及会后与席尔瓦的交流，写作此文，席尔瓦也透露了AlphaGo的下一步可能动向以及应用前景。席尔瓦透露，AlphaGo的最新版本自我估分在4500左右，远远超出积分3625的柯洁，实力水平大约在13段左右，人类选手中已然无敌。

　　张伟楠与阿尔法狗之父席尔瓦在交流

　　两周前的那场人机大战，AlphaGo出人意料地获得了压倒性的胜利，4:1战胜了李世石。棋局进程激烈精彩之处，不亚于那些人类棋手创造的历史名局。

　　3月24晶，回到UCL大学，席尔瓦在复盘中详细讲述了AlphaGo背后的技术原理以及谷李5场比赛的分析。

　　获得历史性的胜利之后，外界十分关心AlphaGo的下一步和未来，席尔瓦透露，在《Nature》那篇文章引发广泛关注和轰动之后，AlphaGo团队还将再写一篇论文，与外界分享AlphaGo与李世石比赛中的技术进步。

　　席尔瓦还表示，DeepMind一直希望能够为开发者社区做贡献，他们之前也公布了DQN项目(deep-q-network)的代码——基于深度强化学习的游戏平台。未来他们可能会公布AlphaGo的代码，只要能找到一个合适的方案，但是目前还没有找到。

　　投入20个人的团队，花费大量的财力去做围棋对弈，对谷歌来说意味着什么?下一步会如何延伸到其他产业领域?

　　席尔瓦透露，DeepMind今后的着眼点是和人们日常生活息息相关，并可以改变世界的应用，比如精准医疗、家用机器人以及智能手机助手。

　　AlphaGo之父十年磨一剑

　　似乎在一夜之间，机器选手战胜了人类最顶尖围棋选手。但是，对于席尔瓦来说，人工智能围棋耗时十几年，最终不过是水到渠成。

　　作为AlphaGo的幕后团队的技术主管，也是谷歌DeepMind团队最重要的科学家之一，席尔瓦还身兼UCL大学的教职，是该校计算机系的教授，教授“强化学习”的课程。

　　席尔瓦是在加拿大阿伯塔大学获得博士学位，师从世界上首屈一指的“强化学习”大师理查德·萨顿(Richard S.Sutton)研究强化学习算法，后来在另一座科技圣殿美国麻省理工学院从事博士后研究。

　　在攻读博士以及博士后工作期间，席尔瓦一直致力于强化学习在围棋人工智能上的研究。到英国UCL大学计算机系执教以后，他还经常拿围棋作为授课的应用实例。

　　席尔瓦的课程开始听的人并非很多。三年前，我曾上过他的课程。有一次因故迟到了20分钟，当时的教室里仍然可以找到座位。现在，随着他加入到Deepmind团队，尤其是他掌舵AlphaGo项目名声大噪，他的课程也开始广受欢迎，迟到的人基本上只能站着听课了。

　　加入DeepMind之前，席尔瓦即已开始和CEO戴密斯·哈萨比斯(Demis Hassabis)共同研究强化学习。哈萨比斯在UCL拿到了神经学博士学位。两个人都痴迷于游戏，哈撒比斯少年时曾经是英国国际象棋队队长，在13岁便已经获得国际象棋大师的头衔，青年时自创游戏公司，而席尔瓦则长期对围棋情有独钟。

　　2014年初，在被谷歌收购之前，DeepMind即开始与UCL洽谈，希望能买断席尔瓦的工作时间。这样可以保留他在大学的教职的同时，还可以让他在DeepMind全心工作。

　　加盟DeepMind之后，席尔瓦成立了20个人的AlphaGo团队，专门研究围棋人工智能。汇集整个团队的力量，他要求在技术研发的每一个环节上都追求极致。AlphaGo团队成员就透露，有的智能模块在谷歌团队看来已经很完美了，但是席尔瓦却仍认为不及格，离完美还差很远。

　　长期专注于人工智能与围棋项目，在技术方面追求极致，再加上势大财雄的谷歌的团队配合，最终成就了AlphaGo的骤然爆发。

　　复盘谷李大战

　　复盘是职业围棋选手经常做的一件事，他们相信总结过去一盘棋的经验和教训，可以提高自己的棋艺。

　　AlphaGo团队也做了复盘，通过几张幻灯片的形式，席尔瓦复盘了这5场比赛的胜负关键处，而在场的听众被禁止拍照。

　　第一盘的胜负关键处是，AlphaGo执白棋第102手打入黑空，职业高手们普遍认为这是一招险招，看上去李世石对此也早有准备。事后看，棋局的进程却是李世石应对有误，进入到了AlphaGo的计算步调中。再下了几手棋之后，AlphaGo已经优势明显。

　　第二盘棋的开局不久，AlphaGo就下出了职业棋手们普遍认为不妥的一手棋。席尔瓦称其为反人类(unhuman)一手——第37手5路肩冲。观战的多数职业高手认为这不太成立，超出了职业高手们正常的行棋逻辑。

　　随后的进程，这手棋的价值逐渐闪现，李世石又一次输得毫无脾气。

　　席尔瓦解释道：“多数评论员都第一时间批评这一步棋，从来没有人在这样的情况下走出如此一着。在胜负已定之后，一些专业人士重新思考这一步，他们改口称自己很可能也会走这一着。”

　　而在AlphaGo看来，当时只是一步很正常的走子选择而已。

　　对于第一盘棋和第二盘棋，许多职业围棋选手以及媒体分析都认为，AlphaGo逆转取胜，但是在AlphaGo自身的价值网络所做的实时胜率分析看来，自己始终处于领先。在AlphaGo获胜的4盘中，AlphaGo系统自有的胜率评估始终都是领先李世石，从头到尾压制直到最终获胜。

　　第三盘和第五盘，AlphaGo 都是在棋局刚开始不久，就已经取得了明显优势并持续提高胜率直到终局。与职业棋手根据经验所做的胜负判断不同，AlphaGo的自有胜率评估是基于一个价值模块，做出对棋局胜负的预计。

　　这两种判断截然不同。当第五盘右下角的争夺错综复杂时，AlphaGo选择脱先，转而落子在其他位置。不少职业棋手认为，AlphaGo在此犯错并落后了，但AlphaGo的选择却是依据全局最优估计而做出的。

　　以几局的成败论，AlphaGo的这种判断似乎更为准确。突破了职业棋手对围棋的传统的理解范畴，不再局限于棋手多年培养出来的围棋直觉和套路定式，会选择探索职业棋手正常不愿意考虑的招数。AlphaGo在人类棋谱学习的基础上，还进行了大量的自我对弈，从而研究出了一些人类从未涉及到的走法。

　　“神之一手”的背后

　　AlphaGo系统并非无懈可击，但是，漏洞并不是所谓的模仿棋、打劫等等。它的漏洞体现在李世石赢得比赛的第四盘棋，AlphaGo取得巨大进步的价值模块出现了瑕疵，这也是AlphaGo在5局棋中唯一的一次漏洞，也是唯一的一盘失利。

　　在第四盘棋中，开局之后很快就几陷绝境中的李世石，弈出了被来自中国的世界冠军古力成为“神之一手”的白78手，凌空一挖。坚韧如山的对手突然倒下，AlphaGo变得不知所措，连续出现低级昏招，这也成就了AlphaGo有记载的公开的第一局失利。

　　对于AlphaGo的异常表现，各路观战的职业高手充满了猜测。即使是观赛的哈撒比斯和席尔瓦也都不知道究竟发生了什么。

　　事后的分析显示，在李世石下出第78手之前，AlphaGo自有的胜率评估一直认为自己领先，评估的胜率高达70%。在第78手之后，AlphaGo评估的胜率急转直下，被李世石遥遥领先，之后再也没有缩短差距。

　　为什么AlphaGo面对李世石的第78手表现如此差，是因为它没有想到李世石的这手棋吗?

　　席尔瓦揭晓了这一秘密。AlphaGo的计算体系中，的确曾经评估过这手棋，只是在AlphaGo的评估中，李世石走那一子的概率大概是万分之一，最终，它没有想到李世石会这样走，也就没有计算李世石这样走之后如何应对。

　　赛后，获胜的李世石则说，这一手在他看来是唯一的选择。

　　AlphaGo背后的蒙特卡洛树搜索依赖的策略网络，是根据人类对弈棋谱数据训练出来的模型，它很难去预测白78手这样的所谓手筋妙招，也就很难判断基于这一步继续往下搜索之后的胜负状态。

　　这就是AlphaGo在这5盘对局中表现出的唯一破绽，也是目前人类智慧还领先于AlphaGo背后的大数据驱动的通用人工智能(Data-driven Artificial General Intelligence)的地方。

　　人工智能已然无敌?

　　在此次大赛之前，多数来自职业围棋界的棋手包括李世石自己都认为，李世石会轻松取胜。但是，DeepMind团队却信心满满。另一位DeepMind团队的主力成员也曾经在UCL介绍AlphaGo的进展，在展望与李世石的比赛时，他曾就笃定地预言，AlphaGo会赢。

　　当有人问及从去年10月战胜梵麾，到今年3月对阵李世石，半年时间当中， AlphaGo究竟有哪些方面的提升时，席尔瓦简要回答说：“我们在系统的每一个模型上尽可能推进效果极致，尤其在价值网络上获得了很大的提升。训练价值网络的目标胜率除了通过自我对弈的结果外，我们还使用了搜索策略去尽可能逼近理论的胜率。”

　　直观地说，3月版本的AlphaGo比半年前的水平大概是让4子——让对方先占据4个星位!

　　在战胜李世石之后，中国、韩国、日本许多的职业棋手，包括李世石本人都希望能够再与AlphaGo一战。

　　按照等级分排名，AlphaGo仅次于中国的世界冠军柯洁，排名世界第二。而席尔瓦透露，AlphaGo的最新版本自我估分在4500左右，远远超出现在3600多的柯洁，实力水平大约在13段左右，人类选手中已然无敌!

　　AlphaGo为什么会有这么强劲的表现?在讲座当中，席尔瓦部分地复述和解释了今年1月《Nature》上发表的论文，讲述了人工智能的基本原理以及AlphaGo的技术框架。

　　对于人工智能来说，围棋游戏的难度在于，决策空间实在太大。决策(Decision Making)是人工智能的关键要素，使得机器能够在人类的世界中发挥作用。

　　在围棋以及任何游戏中，一次决策往往使得游戏更新到了一个新的局面，于是影响到了接下来的决策，一直到最终游戏的胜负。人工智能的关键就是在决策空间中搜索达到最大效益的路径，最终体现在当前决策中。

　　围棋棋盘上棋子可能的组合方式的数量就有10的170次方之多，超过宇宙原子总数。在近乎无穷的决策空间中，去暴力搜索出当前棋盘的下一步最优走子是绝对不可能的事情。

　　AlphaGo的方案是在这样的超级空间中，做到尽可能有效的路径选择。其思路是一个框架加两个模块：解决框架是蒙特卡洛树搜索(MonteCarlo Tree Search)，两个模块分别是策略网络和价值网络。

　　策略网络(Policy Network)根据当前棋盘状态决策下一步走子，是典型的人工智能决策问题。策略网络搭建的第一步，基于KGS围棋服务器上30万张业余选手对弈棋谱的监督学习(SupervisedLearning)，来判断当前棋盘人类最可能的下一走子是什么。

　　第二步，是利用监督学习得到的第一个策略网络去通过自我对弈来训练一个加强版的策略网络，学习方法是强化学习(Reinforcement Learning)，自我对弈3000万局，从人类的走子策略中进一步提升。

　　遵循策略网络的判断，在蒙特卡洛树搜索框架下对每个棋盘状态的采样范围就大大减小，这是一个搜索宽度的减小，但是由于一盘围棋总手数可以多达250步以上，搜索的深度仍然带来无法处理的巨大计算量，而这就由第二个模块——价值网络来解决。

　　价值网络(Value Network)的功能是根据当前棋盘状态判断黑白子某一方的胜率，是一个人工智能预测(Prediction)问题。

　　处理预测问题的机器学习模型一般需要直接知道需要预测的真实目标是什么，比如预测第二天的天气，或者预测用户是否会一周内购买某个商品，这些历史数据都有直接的目标数据可供机器学习。而在围棋对局中，给定的一盘棋局完全可能在历史上就找不到哪次对弈出现过这样的局面，也就不能直接得到对弈最终的胜负结果。

　　AlphaGo的解决方法是使用强化学习得到的策略网络，以该棋局为起点进行大量自我对弈，并把最终的胜率记录下来作为价值网络学习的目标。

　　有了价值网络，蒙特卡洛树搜索也就不再需要一直采样到对弈的最后，而是在适当的搜索深度停下来，直接用价值网络估计当前胜率。这样就通过降低搜索的深度来大大减小了运算量。

　　AlphaGo整合了目前机器学习领域的大多数有效的学习模型，包括通过采样来逼近最优解的蒙特卡洛树搜索，通过有监督学习和强化学习训练来降低搜索宽度并作出走子决策的策略网络，以及通过有监督学习训练的降低搜索深度提前判断胜率的价值网络。

　　作为人类棋手翘楚，33岁的职业围棋九段高手李世石，过去15年获得了十几个世界冠军头衔，总共下了1万盘围棋对弈，经过了3万个小时训练，每秒可以搜索10个走子可能。

　　但是，作为人工智能科技进步的代表，吸收了近期机器学习人工智能的最新进展，建立起了全新的价值网络和策略网络，诞生只有两年时间的AlphaGo，差不多经历了3万小时的训练，每秒却可以搜索10万个走子可能。这一刻，胜负已分。

　　人工智能的巨头争夺战

　　在AlphaGo取得巨大成功，获得全世界广泛关注的背后，是谷歌、Facebook、微软等几家科技巨头的竞争。基于人工智能，几大巨头的都开展了各自的项目研究，以及人才争夺。

　　几天前的智能围棋大赛上，Facebook派出了自己研发的“黑暗森林”，获得了第二名，其主创人员田渊栋正是来自于谷歌，他曾经服务于谷歌的无人驾驶汽车项目团队。

　　很明显，黑暗森林现在还不是AlphaGo的对手。

　　2014年下半年以及2015年年中，我曾经两次在微软剑桥研究院实习，参与了微软Xbox音乐推荐引擎的研究项目，期望通过基于强化学习的人工智能算法来交互式地为用户推荐他们喜欢的音乐并从用户提供的反馈中进一步学习。

　　该项目组直接负责人是特拉·格朗普(ThoreGraepel)，业界大名鼎鼎的机器学习专家，又一个技术大咖中的围棋高手。Windows中围棋游戏里的人工智能就是他负责研发的，与席尔瓦一样，他也是UCL计算机系的兼职教授。

　　一个周一的上午，当我来到微软剑桥办公室的时候，一个同事告诉我，格朗普已经离职了，和席尔瓦一样，加入了DeepMind。他后来告诉我，他在DeepMind感受到了前所未有的魅力，以致于他很后悔没有早一些加入。他感叹自己从未见过凝聚力如此之高，目标如此统一，而又没有任何考核压力的团队。

　　后来，格朗普的名字也出现在了《Nature》关于AlphaGo的论文作者名单中，在谷李大战间隙，他曾经与李世石一起接受电视台的采访，熟悉他的人能够明显地感受到，他发自内心快乐。

　　我在微软实习的另一位导师，是毕业于剑桥大学的贝叶斯机器学习方面的专家，他有着扎实的数学功底，在2015年下半年也从微软离职，加入了剑桥的一家做语音识别智能系统的初创公司，不久之后该公司即被苹果公司收购。他带领一个12人的团队，负责苹果Siri智能问答系统的一项技术。

　　就在最近，我在伦敦的酒吧里见到了他，他私下透露，自己正在申请加入DeepMind。他说，现在正处在人工智能真正爆发的历史转折点，从0到1一般的重大。未来5到10年人工智能将会井喷式地发展，无论是工业界还是学术界。在这样一个时代，搞人工智能出身的自己难道不想奋力拥抱浪潮么?

　　在这样一种情境下，他不甘于在团队中做管理，他已经半年没有写过一行程序，没有推过一个数学公式了。“今天的人工智能领域就像是一场举世瞩目的英超德比，全世界的人们都为此感到沸腾。而这个时候，我们人工智能研究员就应该上场比赛，成为主角，而不是在观众席上加油。”

　　AlphaGo的巨大效应让谷歌吸引人才方面占尽优势，但是，Facebook、苹果、微软也不甘就此授首。

　　在格朗普从微软离职之后，一位年轻的女研究员接管了我在微软的实习项目，两人的研究成果在人工智能会议AAAI2016上发表。2015年上半年，她在微软启动了一个叫做AIX的人工智能项目，提供了一个通用人工智能的平台，可以使得计算机科学家通过它编写智能学习程序并在微软旗下的《我的世界》(Minecraft)游戏世界中测试。

　　在AIX里，科学家并不需要直接编程告诉机器人如何完成一个具体的任务，例如选择什么样的路径攀登上一座山的顶峰，而是把如何学习并取得进步的程序输入机器人，让它们来通过和环境的交互来自动学习到完成任务的办法，真正做到“授机器以渔”。

　　与谷歌不一样，微软延续了自己惯用的平台战略思路。巨头之间战略思路不同，事属平常，但都非常看好人工智能、机器学习带来的战略机遇，并同时开始在人才、技术、市场方面的布局和竞争，也许这场竞争会决定未来10年几家巨头竞争的胜负。(本文独家首发钛媒体)

　　钛媒体作者：张伟楠北京优路科技联合创始人