阿尔法狗的工作原理及核心技术
阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世
界冠军的人工智能程序,由谷歌(Google)旗下DeepMind公司戴密斯哈萨比斯领衔的团
队开发。
那么阿尔法狗的工作原理是什么?相关技术又有哪些呢?下面让我们一起来看看。
阿尔法狗工作原理阿尔法围棋(AlphaGo)为了应对围棋的复杂性,结合了监督学习和强
化学习的优势。它通过训练形成一个策略网络(policynetwork),将棋盘上的局势作为输
入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络
(valuenetwork)对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜
利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而阿尔法围棋
将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。新
版的阿尔法围棋产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
在获取棋局信息后,阿尔法围棋会根据策略网络(policynetwork)探索哪个位置同时具备
高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中
被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中
对最佳落子的不断揣摩后,阿尔法围棋的搜索算法就能在其计算能力之上加入近似人类的
直觉判断。
围棋棋盘是19x19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示
黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等
其他信息,我们可以用一个361*n维的向量来表示一个棋盘的状态。我们把一个棋盘状态
向量记为s。
当状态s下,我们暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。我们
把下一步的落子的行动也用361维的向量来表示,记为a。
本文发布于:2022-08-01 16:14:50,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/falv/fa/83/50830.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |