阿尔法狗的工作原理及核心技术

更新时间:2024-11-07 18:17:09 阅读: 评论:0


2022年8月1日发
(作者:快钱信用卡支付)

阿尔法狗的工作原理及核心技术

阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世

界冠军的人工智能程序,由谷歌(Google)旗下DeepMind公司戴密斯哈萨比斯领衔的团

队开发。

那么阿尔法狗的工作原理是什么?相关技术又有哪些呢?下面让我们一起来看看。

阿尔法狗工作原理阿尔法围棋(AlphaGo)为了应对围棋的复杂性,结合了监督学习和强

化学习的优势。它通过训练形成一个策略网络(policynetwork),将棋盘上的局势作为输

入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络

(valuenetwork)对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜

利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而阿尔法围棋

将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。新

版的阿尔法围棋产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

在获取棋局信息后,阿尔法围棋会根据策略网络(policynetwork)探索哪个位置同时具备

高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中

被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中

对最佳落子的不断揣摩后,阿尔法围棋的搜索算法就能在其计算能力之上加入近似人类的

直觉判断。

围棋棋盘是19x19路,所以一共是361个交叉点,每个交叉点有三种状态,可以用1表示

黑子,-1表示白字,0表示无子,考虑到每个位置还可能有落子的时间、这个位置的气等

其他信息,我们可以用一个361*n维的向量来表示一个棋盘的状态。我们把一个棋盘状态

向量记为s。

当状态s下,我们暂时不考虑无法落子的地方,可供下一步落子的空间也是361个。我们

把下一步的落子的行动也用361维的向量来表示,记为a。


本文发布于:2022-08-01 16:14:50,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/falv/fa/83/50830.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26