探秘阿尔法围棋机器人

更新时间:2024-11-07 13:31:23 阅读: 评论:0


2022年8月1日发
(作者:药品安全问题)

探秘阿尔法围棋机器人

作者:

来源:《科学导报》2016年第17期

3月10日,“阿尔法围棋”再次战胜李世石。无论执黑执白,李世石均无还手之力。有人欣

喜,有人哀叹,有人惊掉下巴。机器杀伐决断,只凭三种武器:神经网络、蒙特卡洛算法和评

估局面。

首先,“阿尔法围棋”是一团神经网络,不是一本大全棋谱。它下棋不是翻谱,而是跟人一

样靠计算和直觉,但它“少年老成”,直觉更准。

职业棋手有种“棋感”,那是下了上万盘棋后,大脑见多识广,感觉到某一手的优劣,尽管

说不出道理。画画、骑车、拿榔头敲钉子,都是凭感觉,“唯技熟耳”。有个极端的例子,中国

有种专业,可以辨认刚孵蛋出来的小鸡雄雌,他们说不出怎么辨认,凭感觉去选,基本没错。

临帖一万次,有了书法感觉;打谱一万遍就有了棋感。为什么?大脑=神经细胞+神经突

触,突触是大脑的电线,经常“过电”的突触会更强壮。小孩子的大脑正是如此学习:伴随成功

的快乐,刚用过的神经突触就会加强,习惯就养成了。

早在冯·诺依曼时代,科学家就想到用电脑模拟大脑:计算单元+通路,通路的强度可调

节。虚拟大脑一次次接受任务,每次调用不同的神经通路去做,如果任务成功,刚用过的通路

强度会被提高,反之强度降低。

“阿尔法围棋”复制了小孩子的学习过程,成功调高相关通路强度,失败了就调低,使神经

网络在自我对弈百万盘(用不同风格)后调整到最优。

“阿尔法围棋”的“肉身”是神经网络;在此基础上,它有两套心法:蒙特卡洛算法和评估局

面。

蒙特卡洛算法很好理解,很多棋类软件都这么干。你吩咐狗熊去玉米田里掰一个最大的棒

子,但玉米田太大,累死了也走不完。狗熊想了个主意:根据经验选十来个常出大棒子的地

方,仔细一遍。最后掰的大棒子,就算不是整块田里最大的,也差不离。这就是蒙特卡洛式

的狗熊。

围棋盘有19乘19个位置,以前大家认为天文数字的可能性,电脑算不过来的。但蒙特卡

洛算法只选取一小部分有希望的点来考虑。“阿尔法围棋”跟之前的“ZE”等围棋软件都是如

此,倒不出奇。


本文发布于:2022-08-01 16:12:01,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/falv/fa/83/50821.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26