解析AlphaGo背后的3项⼈⼯智能技术柯洁能打败段位更⾼的阿尔法狗2.0?
编者按:病毒性腹泻
本⽂作者陈旸是清华⼤学计算机系博⼠,五彩⼤脑(收集20万Big Idea,为企业市场、公关公司提供创意数据库)创始⼈,AI研究专家。
陈旸从技术⾓度出发,解析了AlphaGo背后的技术原理。关于胜负,他也画了⼀个问号,但他坚定地看好⼈⼯智能。
⽂ | 陈旸
时隔AlphaGo战胜世界围棋⼤师李世⽯⼀年,来⾃中国的世界围棋冠军柯洁也将披上战袍迎战升级版的AlphaGo。
在2016年AlphaGo与李世⽯史诗般的对决中,李世⽯在⾸盘对决中占优势的情况下最终以1:4的⼤⽐分被AlphaGo击败。
今夜不胜防
我是宇航员李世⽯是世界级围棋⼤师,赛前,众多顶尖职业棋⼿普遍看好⼈类会战胜AlphaGo,最终⼤⽐分落败的结果震惊整个科技界和围棋界。机器打败⼈类早前在象棋领域已经发⽣过,但是相⽐象棋⽽⾔,围棋要复杂更多,也正因为如此,围棋⼀直被视为⼈类智⼒的象征。
政治生命AlphaGo能够以如此⼤的领先优势战胜⼈类,其象征意义不⾔⾃明,那么即将与柯洁对战的AlphaGo升级版究竟胜算⼏何,有必要深⼊分析⼀下AlphaGo 1.0版背后附载的技术。
AlphaGo技术解析
理论上来讲,象棋和五⼦棋这类游戏可由终局⾃底向上地推算出每⼀个局⾯的胜负情况,从⽽得到最优策略。
遗憾的是,由于⼤部分博弈游戏状态空间巨⼤,严格计算评估函数是办不到的。于是⼈们设计了 (启发式的) 搜索算法,简单来说就是由当前局⾯开始,尝试看起来可靠的⾏动,达到终局或⼀定步数后停⽌,根据后续局⾯的优劣反馈,选择最优⾏动。
AlphaGo利⽤深度学习达到了该⽬的。“最优策略”和“局⾯判断”可以被量化成为函数。在强化学习⾥,两者被称为策略函数(Policy Function) 和局⾯函数(Value Function),前者衡量在局⾯下执⾏能带来的价值,后者衡量某⼀局⾯的价值,越⼤的值表⽰对当前⾏动的选⼿越有利。
Q和V函数是对我们所谓的“棋感”和“⼤局观”的量化。有了这两个估值函数,AlphaGo在搜索的时候尽量选择估值更⼤的⾏动,达到缩⼩思考范围(减少搜索分⽀)的⽬的。同时即使在未达到终局的情况下,也可以依靠局⾯函数对当前局势优劣做判断。
优劣做判断。
由于不能通过枚举状态空间来精确计算Q和V,传统做法是⼈为的设计估值。这⾥就涉及到识别特征和衡量特征分值两个问题。对于如此复杂的围棋,AlphaGo利⽤机器学习和⼤量数据,⾃动找到特征,同时拟合出估值函数。
兵女
蒙特卡洛树搜索是集以上技术于⼀⾝的搜索框架,通过反复模拟和采样对局过程(称为Rollout)来探索状态空间。它的特点是⾮常容易并⾏、可任何时候停⽌(时间和收益上的平衡)、引⼊了随机性采样⽽减⼩估值错误带来的负⾯影响,并且可以在随机探索的过程中,结合强化学习(Reinforcement Learning),“⾃学”式的调整估值函数,让算法越来越聪明。
AlphaGo结合了3⼤块技术:先进的搜索算法、机器学习算法(即强化学习),以及深度神经⽹络。这三者的关系⼤致可以理解为:蒙特卡洛树搜索 (MCTS) 是⼤框架,是许多⽜逼博弈AI都会采⽤的算法强化学习 (RL) ,这是学习⽅法,⽤来提升AI的实⼒;深度神经⽹络 (DNN) 是⼯具,⽤来拟合局⾯函数和策略函数,这些都不是AlphaGo或者DeepMind团队⾸创的技术。
但是强⼤的团队将这些结合在⼀起,配合Google公司强⼤的计算资源,成就了历史性的飞跃。⼀些个⼈见解:MCTS、RL和DNN这三者,前两者让具有⾃学能⼒、并⾏的博弈算法成为可能,后者让“量化评估围棋局⾯”成为了可能。
月落参横
战胜AlphaGo绝⾮易事
回到即将展开的AlphaGo2.0版与柯洁的对弈中来,2.0版的AlphaGo毫⽆疑问不仅有上述三块核⼼技术,⽽且还在其基础之上强化学习反复积累对战参数,提升⾃⼰的段位,可想⽽知,2.0版AlphaGo的棋艺达到怎样的⾼度。
尽管⼈⼯智能没有穷尽所有可能性,同时,柯洁在当今围棋界⽆可争议的排名第⼀,但是按照去年AlphaGo⼩试⽜⼑的表现来看,柯洁想要战胜“敌⼈”绝⾮易事。因为,AlphaGo对于优劣的计算能⼒惊⼈,它的临场应变能⼒⼏乎不受到任何因素的⼲扰,当然,作为世界冠军的柯洁⼤战经历⽆数,对于设局拆局的精准判断能⼒超乎寻常,极有可能采取相异于⼈类对战的策略战胜AlphaGo。
蚕宝宝的作文归根到底是⼈类的胜利
⼈⼯智能究竟会在多⼤程度上改造⼈类社会,直到现在也是科技界争论的焦点。周鸿祎对⼈⼯智能有犀利的评论,他认为⼈⼯智能本质上是“弱智能”,甚⾄是“伪智能”,搞通⽤型⼈⼯智能的都是骗⼦。
马云在刚刚过去的深圳互联⽹⼤会上也表⽰,AlphaGo战胜⼈类⼜能怎样,归根结底是⼈类的胜利。
与看衰⼈⼯智能对⼈类影响的看法不同,笔者认为⼈⼯智能⽆疑是⼈类智⼒成果的⾼级产物,但是⼀经产⽣必将对⼈类社会有深远的影响,只是这种过程需要从量变的积累到质变的转化,如同20世纪计
法国铁塔算⾰命兴起⼀样,⼈⼯智能也必将⾛上成为⼈类社会基础设施的道路上来。
也就是说,⼈⼯智能会与各⾏各业深度结合,⾛进普通⼈民的⽣活当中,引领新的经济业态的变⾰。现有的⼈⼯智能研究诸如深度学习、⼈脸识别以及语⾳识别等等⽅⾯已经取得重⼤突破,若⼲技术已经运⽤在智能产品当中,尽管离⼤范围上市进⽽达到商⽤的⽬标还有不少的路要⾛,但是并不能因此⽽忽视⼈⼯智能的发展潜⼒。互联⽹的兴起为⼈⼯智能的发展提供了⽆限可能,⼈⼯智能发展的原动⼒——⼤数据,正在史⽆前例的聚集,我们有理由相信,⼈⼯智能的⼤潮已经汹涌⽽来。