2023年4月19日发(作者:诸子百家简表)深度学习发展现状
1
深度学习发展现状
王宇航
(北京交通大学计算机与信息技术学院,北京,100044)
摘要:深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进
行分析学习的神经网络,它模仿人脑的机制来解释数据。近年来,随着深度学习逐
渐收到各界的广泛关注,其在各个新年第一课观后感
尖端领域的作用也越来越大,深度学习已经在诸
多领域取得客观的成就。本文简要介绍深度学习的基本理论及思想,着重介绍了近
年来深度学习在各个领域的应用及其发展.
关键字:深度学习;机器学习;人工智能;无监督学习
1 引言
2011年,斯坦福人工智能实验室主任吴恩达领导Google的科学家们,用16000台电脑
模拟了一个模拟人脑神经网络出来,并向这个网络展示了1000万段随机从YouTube上选取
的视频,看看它能学会什么.结果在完全没有外界干涉的条件下,它自己识别出了猫脸.
我们要注意的是,这种机器学习与我们通常意义上说的“机器识别”有所不同.现有的很
多此类识别,需要人工输入一些用于对比的数据,或者一些已经进行初步分类、打好标签的
数据,机器通过学习这些数据的共同点,得出规律,然后再去将规律应用于更大规模的数据
中.粗略地说,这是一种“有监督的学习”,需要人工输入初始数据,有时候还要对识别结果
进行判断,由此促进机器的学习速度.
而深度学习是一种“无监督的学习”.它基于一种学术假设:即人类对外界环境的了解过
程最终可以归结为一种单一算法,而人脑的神经元可以通过这种算法,分化出识别不同物体
的能力.这个识别过程甚至完全不需要外界干预.
还是以识别猫脸为例:吴恩达给神经网络输入了一个单词“cat”,这个神经网络中并没有
辞典,不了解这个单词的含义.但在观看了一千万段视频,它最终确定,cat就是那种毛茸
茸的小动物.这个学习过程,与一个不懂英语的人,在没任何人教他的时候,通过独立观察
学会“cat”的过程几乎一致.
上述事例是深度学习发展中具有里程碑性质的事件,通过以上事件意在形象的向读者说
明深度学习的基本思想.本文意在向读者介绍近年来深度学习在各个领域的应用及其发展.
2
深度学习发展现状
2 深度学习介绍
本节简要介绍深度学习及其思想.
2.1 基本概念
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习
的神经网络,它模仿人脑的机制来解释数据。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结
构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分
布式特征表示。
2.2 核心思想
把学习结构看作一个网络,则深度学习的核心思路如下:
①无监督学习用于每一层网络;
②每次用无监督学习只训练一层,将其训练结果作为其高一层的输入;
③用监督学习去调整所有层
2.3 历史发展
图灵在 1950 年的论文里,提出图灵试验的设想,即,隔墙对话,你将不知道与你谈话
的,是人还是电脑。这无疑给计算机,尤其是人工智能,预设了一个很高的期望值。但是半
个世纪过去了,人工智能的进展,远远没有达到图灵试验的标准。
2006年前,尝试训练深度架构都失败了:训练一个深度有监督前馈神经网络趋向于产
生坏的结果(同时在训练和测试误差中),然后将其变浅为1(1或者2个隐层)。
2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生
Ruslan Salakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪
潮。这篇文章有两个主要观点:1)多隐层的人工神经网络具有优异的特征学习能力,学习
得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2)深度神经网络在训练上
的难度,可以通过“逐层初始化”来有效克服,在这篇文章中,逐层初始化是通过无监督学
习实现的。
当前多数分类、回归等学习方法为浅层结构算法,其局限性在于有限样本和计算单元情
况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。深度学习可
通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现
了强大的从少数样本集中学习数据集本质特征的能力。(多层的好处是可以用较少的参数表
示复杂的函数)。
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学
深度学习发展现状
3
习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学
习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,
通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,
通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测
更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰
富内在信息。
从2006年以来,大量的关于深度学习的论文被发表。
3 深度学习的应用现状及发展
3.1 深度学习在各个领域的应用概述
自2006 年以来,深度学习在学术界持续升温,美国,加拿大,欧洲相继成为此领域的
科研重镇。2010年美国国防部先进研究项目局首次资助深度学习,参与方包括斯坦福大学、
纽约大学和NEC 美国研究院等机构。
2011 年,微软语音识别采用深度学习技术降低语音识别错误率20-30%,是该领域十多
年来最大的突破性进展。
2012 是深度学习研究和应用爆发的一年,深度学习被应用于著名生物制药公司黙克的
分子药性预测问题, 从各类分子中学习发现那些可能成为药物的分子获得世界最好效果;
谷歌的Google Brain 项目用16000 个处理器的服务器集群构建了一套超过10 亿个节点的
具备自主学习能力的神经网络,能自动从输入的大量数据中归纳出概念体系,图片搜索、无
人驾驶汽车和Google Glass 都将会从中受益。6月,Google公司的深度学习系统在识别物
体的精确度上比上一代系统提高了一倍,并且大幅度削减了Android系统语音识别系统的错
误率。百度引入深度学习以后,语音识别效果的提升超过了以往业界在过去15 年里所取得
的成绩。12月,微软亚洲研究院展示了中英即时口译系统,错误率仅为7%,而且发音十分
顺畅。
2013年,欧洲委员会发起模仿人脑的超级计算机项目,计划历时10 年投入16 亿美元,
由全球80 个机构的超过200 名研究人员共同参与,希望在理解人类大脑工作方式上取得重
大进展,并推动更多能力强大的新型计算机的研发,就资助力度,项目范围,和雄心而言,
该项目堪比于大型强子对撞机项目。
库兹韦尔孔子的思想
当前的目标就是帮助计算机理解自然语言并以自然语源与用户对话,虽然库兹
韦尔的目标还要很多年才能实现。他希望将深度学习算法用到解决自然语言的问题上,让计
算机能够发现语言的问题,解决语言的问题。
4
深度学习发展现状
3.2 心脏不好吃什么好
深度学习在搜索引擎方面的应用
由于计算机的高度普及,很多人可能已经固化了“搜索”的印象:面对屏幕上的一个输
入框,敲入一串词语,电脑返回一堆链接,用户再逐个点开查看哪个是自己需要的内容。这
是传统的搜索,其交互方式是人工提炼出关键词输入,才返回答案。所以使用搜索引擎其实
是一种技术,考验的是人能否准确观察问题、恰当提炼主题词,做到这些才有可能得到自己
想要的信息。这就与一切搜索引擎“公平地为每个人提供信息”的初衷相悖了。
但当我们要教会从没接触过电脑的父母这一搜索过程时,就发现它与人类天生的本能并
不相同:父母们往往会指着一株不知名的植物,问电脑是否能告诉我们这是什么;他们也并
不习惯键入文字内容,甚至不会输入法,他们更希望对着电脑说一句“明天什么天气”就能
得到答案。
2013年初,百度建立了深度学习研究院。百度多媒体业务负责人用一个叫“明星脸搜
索”的杨池古村
产品演示了人脸搜索能力。改产品的功能是实验对象实时拍一张照片,百度可以搜索
出这张照片最像哪个明星。令人惊奇的是,在百度作为参考列出的互联网图片搜索照片中出
现的第一张图片就是此次实验对象10年前拍的一张照片。也就是说,在没有任何其他条件
限定的前提下,百度根据一个现实场景,找到了一个确定的人。
深度学习的技术配合上大数据的储备,语音搜索、图像搜索等新兴技术就不再仅仅是技
术的噱头,而是将搜索用户从数亿拓展到数十亿。这也是Google、苹果和百度纷纷在语音
搜索上推出新产品的原因。
另外值得一提的是,在今年国际机器学习大会ICML2013中,Andrew的学生仅用价值
2万美元的GPU集群,就做到了与引言中提到的Google曾经用约100万美元做的猫脸识别
软件相同的准确率。
3.3 深度学习在语音识别方面的应用
2011 年,微软语音识别采用深度学习技术降低语音识别错误率20-30%,是该领域十多
年来最大的突破性进展。
2013年6月18日,微软宣布已经研发出一种新型语音识别技术,可提供“接近即时”
的语音至文本的转换服务,比目前的语音识别技术快两倍,同时,准确率提高了15%。该
技术模仿人类大脑对沟通的理解方式,微软希望利用这个技术在语音识别领域保持领先。
深度神经网络技术能够像人类大脑一样工作,该技术将会取代谷歌等竞争对手在搜索和
安卓产品中常用的声学技术。微软希望使用这项新技术以便在必应搜索引擎中提供速度更快
和更准确的通讯。这种新技术已经在Windows Phone设备上进行测试。
在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。
国内方面,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在
语音识别上的研究。
深度学习发展现状
5
3.4 目前深度学习的研究团队
深度学习已经是计算机科学发展的大势所趋。2011年,吴恩达在谷歌内部领导建立了
Google Brain项目,最近几个月,谷歌在深度学习领域的投入明显加大,收购了加拿大多伦
多大学教授杰弗里•辛顿创建的人工智能机构。中国搜索巨头百度也建立了深度学习实验室,
誓要在深度学习领域投入大量资源。
与此同时,日本的工程师开始构建控制机器人的人工神经网络,南非神经科学家亨利•
马克曼正与来自欧盟和以色列的科学家们合作,希望能利用数千次实验得到的数据在一台超
级计算机中模拟出人脑。
3.5 深度学习目前主要瓶颈
研究的困难仍在于我们无法完全掌握人类大脑的工作原理,但科学家目前在这方面进展
飞速。中国的科学家正在研究一个新的大脑图谱,他们将之命名为“脑网络穹顶”项目。在
美国,随着奥巴马政府宣布将支持筹建一项跨学科的科研项目“基于神经科学技术创新的人
脑研究”,许多类似的项目正雨后春笋般得涌现,“大神经网络时代”已经到来。
BRAIN项目的目标之一,是为绘制大脑复杂回路图开出所需的新技术,种种迹象表明,
BRAIN的工作重心就是人工智能。美国国防部研究部门称,希望 BRAIN项目能够“催生
新的信息处理架构或者计算方法”。
如果我们能够搞清楚人类大脑成千上万的神经元如何互相连结以及中枢神经系统存储
和处理信息的原理,那么像吴恩达这样的工程师对于“人工大脑”的设想就能够更加清晰,
对于人脑的研究成果和数据将能购帮助深度学习算法的研究,也能加速诸如计算机“视觉”、
语言分析,以及苹果和谷歌等公司为智能手机提供的语音识别等技术的发展。
引用加州大学伯克利分校计算神经科学家布鲁诺•奥尔斯豪森的一句话——我们要学习
生物生存使用的技巧,问题的关键在于生物将秘密隐藏得太深了,我们还没有掌握这些秘密
所需要的工具。
4 总结
由深度学习引爆的科技革命,将会催生出多个领域的变革和跨越式发展。首先,深度学
习作为核心信息技术,将本质上提升各类信息服务的质量,大幅提升自然语言、图片、声音
识别和语言翻译等方面的准确率,可以预见未来的信息服务尤其是互联网信息服务的竞争,
将聚焦于深度学习引发的数据智能,能否应用好深度学习将会对信息企业乃至国家的信息安
全产生深远影响。另外,由深度学习带来的各项突破,包括计算机视觉发展推动了下一代智
能汽车的不断完善,以及应用于蛋白质分析等生物和医药领域并取得重要成果,都预示着深
度学习不仅成为新一代信息科学研究的主流方法,更逐渐演变为一项核心通用技术和基础技
术,对于物联网、智能设备、自动驾驶汽车、生物制药、金融和经济调控等多领域具有非常
6
深度学习发展现状
直接的现实意义,将有可能引爆新的经济增长点,引导产业和经济社会的发展方向。尤其需
要注意的是,美国国防部、欧洲委员会都将深度学习列为前沿和革命技术加以资助,我们完
全可以判断深度学习的应用绝不会局限于科技和经济,相信其对社会管理、军事等更多领域
都将产生深远影响。
5 参考文献
[1]
孙志军,薛磊,许阳明,王正.深度学习研究综述[J]. 计算机应用研究Application
Rearch of Computer, 2012年8月, 第29卷(第8期): 2806-2810.
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9] BENGIO Y, DELALLEAU O. On the expressive power of 津津豆腐干
deep architectures [C] //Proc of
the 14 International Conference on Discovery Science. Berlin: Springer-Verlag, 2011:1.
th
[10] BENGIO Y. Learning deep architectures for AI [J]. Foundations and Trends in Mach
Learning, 2009, 2(1):1-127.
[11] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer wi training of deep networks
[C] //Proc of the 12 Annual Conference on Neural Information Processing System. 2006:
th
153-160.
[12] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-bad learning applied to document
recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[13] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust
features with denoising autoencoders [C] //Proc of the 25 International Conference on
th
Machine Learning. New York: ACM Press, 2008:1096-1103.
[14] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning
uful reprentations in a deep network with a local denoising criterion [J]. Journal of
Machine Learning Rearch, 2010, 11:3371-3408.
[15] YU Dong, DENG Li. Deep convex net: a scalable architecture for speech pattern
classification [C] //Proc of the 12 Annual Conference of International Speech
th
Communication A动员大会
ssociation. 2011: 2285-2288.
[16] POON H, DOMINGOS P. 必成大器
Sum-product networks: a new deep architecture [C] //Proc of
IEEE International Conference on Computer Vision Workshops. 2011:689-690.
[17] BENGIO Y, LECUN Y. Scaling learning algorithms towards AI [M] //BOTTOU L,
CHAPELLE O, DeCOSTE D,我问你答
et al. Large-Scale Kernel Machines. MA: MIT Press, 2007:
321-358.
[18] LEET S, MUMFORD D. Hierarchical Bayesian inference in the visual cortex [J]. Optical
Society of America, 2003, 20(7): 1434-1448.