人工智能探索——浅谈人类神经网络的复杂性
视觉系统贡献了人类对外界感知的主要信息,本文介绍人类视觉皮层完成识别物体和运动的部分机理,对比人工神经网络探讨人类神经网络的复杂性。
人工智能很有可能在将来超越人类的智能而达到通用人工智能(AGI),但是放任AGI的进化是危险的,相当于把人类的命运交给随机性[1]。为了让AGI倾向于和人类共生,AGI必须具有人类相似的价值观。笔者认为AGI能够形成价值观的一个前提条件是具有感受(Qualia),这些基本的感受使得AGI感知的世界不再是没有任何情感的数字,而是像人类一样感受到光线的亮暗、温度的冷暖、环境的安逸和危险、情绪的欢乐和悲哀…[2]为了建立类人的感知(Perception)和情感(Emotion)系统,我们必须深入对比人类和AI的感知。短期内这些知识可以帮助设计更好的AI算法[3],人工神经网络的模型也可以帮助理解生物神经网络的工作机理[4]。长远来看,具有类人价值观的AGI与人类和平共生,这将是人类未来最乐观的结局。
人类视觉系统
形式与内容灵长目视觉系统 Figure from Ref [6]
颜色英文大全在人类的大脑中,约55%的新皮层(Neocortex)与处理视觉(Vision)信息相关[5],主要的视觉系统由眼球、视神经、视交叉、外侧膝状体核(Lateral Geniculate Nucleus,LGN)和视觉皮层(Visual Cortex)组成。当然视觉信号的处理并非止步于此,而是通过腹侧通路(Ventral Pathway)和背侧通路(Dorsal Pathway)与大脑的其他部位发生交互[6]。本文将通过孔径问题(Aperture Problem)和边缘所有权(Border Ownership)两个方向的研究,介绍视觉皮层处理信号的机理。后续文章再更多探讨注意力(Attention)、
扫视(Saccadic Eye Movement)和预测编码(Predictive Coding)等问题。
51劳动节
Figure from Wikipedia
负责感光的视觉细胞并非均匀的分布在眼球的视网膜(Retina)上,其中位于黄斑(Macula)中心的中央凹(Fovea)集中了大量的视锥细胞。中央凹的直径约1.5mm,覆盖了5°的感受野(Receptive Field)。感受野是神经元能够感受信号的范围,中央凹内部光感受器最集中的区域只有1°的感受野。正因为如此,人类视野中只有中心的图像具有较
高的分辨率。为了获得全景的图像,眼球必须不停的转动。在扫视(Saccade)的模式下,眼球转动的间隔只有120~130ms,这恰恰是视觉系统生成图像的时间(~100ms)。人们在主观上觉得整个视野是清晰的,这是大脑对于扫视图像的高度加工[7]。
仅仅通过扫视这一看似简单的现象,我们就足以发现人类视觉系统和人造成像系统的许多不同。首先,人类视觉的全景图像是通过扫视的不同清晰度图像拼接而成;人造成像系统多是感光芯片一次性曝光得到清晰度均匀的图片。其次,不同神经通路传递信号有明显的时效性,同一皮层内的传播速度约为3.5m/s,跨皮层的传播速度约为0.3m/s,差了一个数量级。多皮层前馈和反馈处理视觉信号有无法跨越的物理极限[8]。在设计人类视觉相关的产品时,100ms这一形成稳定图像感知的最小时间间隔也是需要考虑的重要因素。人工神经网络对于信号处理先后顺序可以人为改变,处理时间也相对可控。最后,人类视觉经常会出现“错误”,很多情况下是大脑对于视觉的预期(Visual Expectation)改变了我们看似客观的视觉。与其说“眼见为实”,不如说是看到大脑所想。人类的视觉系统除了跟人工神经网络一样的前馈(Feedforward)网络,甚至有更多的从大脑其他高级皮层出发到初级视觉皮层的反馈(Feedback)网络,这些反馈信号调节、修正和改变我们观察的世界。
孔径问题
什么乌龟好养
孔径问题(Aperture Problem)是经典的视觉问题,通过有限视野的孔径观察移动的平行条带,仅能观察到与条带垂直方向上的运动。如果想了解真实的运动方向,观察者必须从更大的视野范围获得全局信息。人类大脑的视觉皮层主要分为V1~4,中颞叶(Middle Temporal lobe, MT,或V5)五层。初级视觉皮层V1神经元细胞的感受野非常小,仅对光
亮条在垂直方向上的运动产生信号,好比从孔径里观察物体的局部,是不可能明确全局运动方向的。随着信号在前馈网络传播,高级视觉皮层具有更大的感受野。但是高级视觉皮层是如何整合初级视觉皮层的信息而获得全局的运动方向呢?
惠州西湖
Figure from Ref [9]
哈佛医学院(Harvard Medical School)的Christopher Pack和Richard Born两位教授长期研究灵长目动物视觉对物体运动的识别[9]。他们给猕猴展示移动的光亮条(上图d),运动方向有八种选择,光亮条和运动方向有45°、90°和135°三种夹角选择,共24种组合。研究者在实验中同时记录60个MT神经元的电信号,上图a、b展示其中一个MT神经元的结果。在光亮条开始运动后的70ms内(上图a),这个特定的MT神经元对于向左,左下和向下运动都有强信号。但是光亮条持续运动70ms以上时,该MT神经元对于全局运动方向上的响应收敛到仅对左下方运动产生强信号,而且在45°、90°和135°夹角三种情况下统计上没有明显偏好。也就是说,MT神经元在70ms以后逐渐识别出光亮条的运动方向,该方向与光亮条的夹角无关,尤其是在持续刺激150ms以后(上图c),MT神经元对于物体运动方向的估计误差在±10°以内。
研究证明MT神经元可以快速整合初级视觉皮层的信号,先粗略的识别物体运动的方向,然后随着相同信号刺激的延长,MT神经元对于方向的判断变得更加准确。该研究不排除其他视觉通路对MT的反馈,MT神经元除了识别物体2D运动,解决孔径问题,同时也识别运动速度[10]和速度梯度[6]。
边缘所有权
Rubin's Va 1915
cctv下载如果你注视着这幅经典的Rubin's Va图案,你会发现可以看到一个白色的花瓶,或者两个黑色头像。但是如果你专注的观察,你只能看到其中一种图案,而不能同时看到两种。这类现象被称为边缘所有权(Border Ownership)问题,或者图案背景(Figure-ground)问题。两种结果取决于视觉系统将黑白的边缘归属于花瓶还是头像,归属于花瓶的时候,黑色就成为背景,反之白色就是背景。
excel是什么意思
V2皮层B-cell电信号 Figure from Ref [11]