探秘阿尔法围棋机器人
作者:
来源:《科学导报》2016年第17期
3月10日,“阿尔法围棋”再次战胜李世石。无论执黑执白,李世石均无还手之力。有人欣
喜,有人哀叹,有人惊掉下巴。机器杀伐决断,只凭三种武器:神经网络、蒙特卡洛算法和评
估局面。
首先,“阿尔法围棋”是一团神经网络,不是一本大全棋谱。它下棋不是翻谱,而是跟人一
样靠计算和直觉,但它“少年老成”,直觉更准。
职业棋手有种“棋感”,那是下了上万盘棋后,大脑见多识广,感觉到某一手的优劣,尽管
说不出道理。画画、骑车、拿榔头敲钉子,都是凭感觉,“唯技熟耳”。有个极端的例子,中国
有种专业,可以辨认刚孵蛋出来的小鸡雄雌,他们说不出怎么辨认,凭感觉去选,基本没错。
临帖一万次,有了书法感觉;打谱一万遍就有了棋感。为什么?大脑=神经细胞+神经突
触,突触是大脑的电线,经常“过电”的突触会更强壮。小孩子的大脑正是如此学习:伴随成功
的快乐,刚用过的神经突触就会加强,习惯就养成了。
早在冯·诺依曼时代,科学家就想到用电脑模拟大脑:计算单元+通路,通路的强度可调
节。虚拟大脑一次次接受任务,每次调用不同的神经通路去做,如果任务成功,刚用过的通路
强度会被提高,反之强度降低。
“阿尔法围棋”复制了小孩子的学习过程,成功调高相关通路强度,失败了就调低,使神经
网络在自我对弈百万盘(用不同风格)后调整到最优。
“阿尔法围棋”的“肉身”是神经网络;在此基础上,它有两套心法:蒙特卡洛算法和评估局
面。
蒙特卡洛算法很好理解,很多棋类软件都这么干。你吩咐狗熊去玉米田里掰一个最大的棒
子,但玉米田太大,累死了也走不完。狗熊想了个主意:根据经验选十来个常出大棒子的地
方,仔细一遍。最后掰的大棒子,就算不是整块田里最大的,也差不离。这就是蒙特卡洛式
的狗熊。
围棋盘有19乘19个位置,以前大家认为天文数字的可能性,电脑算不过来的。但蒙特卡
洛算法只选取一小部分有希望的点来考虑。“阿尔法围棋”跟之前的“ZE”等围棋软件都是如
此,倒不出奇。
本文发布于:2022-08-01 16:12:01,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/falv/fa/83/50821.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |