深度学习概论

更新时间:2023-06-17 09:02:44 阅读: 评论:0

深度学习概论
深度学习
⼀、深度学习出现的原因、时间及研究现状
机器学习是⼈⼯智能的⼀个分⽀,⽽在很多时候⼏乎成为⼈⼯智能的代名词。简单来说,机器学习就是通过算法使得机器能从⼤量历史数据中学习规律,从⽽对新的样本做智能识别或对未来做预测。从20世纪80年代末期以来,机器学习的发展⼤致经历了两次浪潮:浅层学习(shallow learning)和深度学习(deep learning)。
1.1深度学习兴起的渊源及时间
深度学习起源于对神经⽹络的研究,20世纪60年代,受神经科学对⼈脑结构研究的启发,为了让机器也具有类似⼈⼀样的智能,⼈⼯神经⽹络被提出⽤于模拟⼈脑处理数据的流程。最著名的学习算法称为感知机。但随后⼈们发现,两层结构的感知机模型不包含隐层单元,输⼊是⼈⼯预先选择好的特征,输出是预测的分类结果,因此只能⽤于学习固定特征的线性函数,⽽⽆法处理⾮线性分类问题。Minsky等指出了感知机的这⼀局限,由于当时其他⼈⼯智能研究学派的抵触等原因,使得对神经⽹络的研究遭受到巨⼤的打击,陷⼊低⾕。直到20世纪80年代中期,反向传播算法(back propogation,BP)的提出,提供了⼀条如何学习含有多隐层结构的神经⽹络模型的途径,让神经⽹络研究得以复苏。
由于增加了隐层单元,多层神经⽹络⽐感知机具有更灵活且更丰富的表达⼒,可以⽤于建⽴更复杂的数学模型,但同时也增加了模型学习的难度,特别是当包含的隐层数量增加的时候,使⽤BP算法训练⽹络模型时,常常会陷⼊局部最⼩值,⽽在计算每层节点梯度时,在⽹络低层⽅向会出现梯度衰竭的现象。因此,训练含有许多隐层的深度神经⽹络⼀直存在困难,导致神经⽹络模型的深度受到限制,制约了其性能。
2006年之前,⼤多数机器学习仍然在探索浅层结构(Shallow- structured)架构,这种架构上包含了⼀层典型的⾮线性特征变换的单层,⽽缺乏⾃适应⾮线性特征的多层结构。如常规的隐马尔科夫模型(HMM),线性或⾮线性动态系统,条件随机域(CRFs),最⼤熵(Max-Entropy)模型,⽀持向量机(SVM),逻辑回归,内核回归和具有单层隐含层的多层感知器(MLP)神经⽹络。这些浅层学习模型有⼀个常见属性,就是由仅有的单层组成的简单架构负责转换原始输⼊信号或输⼊特征为特定问题特征空间时,其过程不可观察。以⽀持向量机为例,它是⼀种浅层线性独⽴模型,当使⽤内核技巧时具有⼀层特征转换层,否则具有零层特征转换层。浅层架构在许多简单或受限问题中,早已被证明卓有成效,但是由于它们的有限建模与表现能⼒,导致在处理涉及⾃然信号如⼈的讲话,⾃然的声⾳和语⾔,⾃然的图像和视觉场景等更为复杂的现实应⽤时,产⽣了困难。
在实际应⽤中,例如对象分类问题(对象可是⽂档、图像、⾳频等),⼈们不得不⾯对的⼀个是问题是如何⽤数据来表⽰这个对象,当然这⾥的数据并⾮初始的像素或者⽂字,也就是这些数据是⽐初始
数据具有更为⾼层的含义,这⾥的数据往往指的是对象的特征。例如⼈们常常将⽂档、⽹页等数据⽤词的集合来表⽰,根据⽂档的词集合表⽰到⼀个词组短语的向量空间(vector space model, VSM模型)中,然后才能根据不同的学习⽅法设计出适⽤的分类器来对⽬标对象进⾏分类。因此,选取什么特征或者⽤什么特征来表⽰某⼀对象对于解决⼀个实际问题⾮常的重要。然⽽,⼈为地选取特征的时间代价是⾮常昂贵,另外劳动成本也⾼,⽽所谓的启发式的算法得到的结果往往不稳定,结果好坏经常是依靠经验和运⽓。于是,⼈们考虑到⾃动学习来完成特征抽取这⼀任务。深度学习(Deep Learning)[1]的产⽣就是缘于此任务,它⼜被称为⽆监督的特征学习(Unsupervid Feature Learning),从这个名称就可以知道这是⼀个没有⼈为参与的特征选取⽅法。
深度结构学习,或者通常更多⼈称之为深度学习(Deep Learning),从 2006 年开始作为⼀个新兴的领域出现在机器学习研究当中。深度学习(DeepLearning)的概念是2006年左右由GeoffreyHinton等⼈在《Science》上发表的⼀篇⽂章《Reducing the dimensionality of data with neural networks》提出来的,开启了深度学习在学术界和⼯业界的浪潮。这篇⽂章有两个主要观点:1)多隐层的⼈⼯神经⽹络具有优异的特征学习能⼒,学习得到的特征对数据有更本质的刻画,从⽽有利于可视化或分类;2)深度神经⽹络在训练上的难度,可以通过“逐层初始化”(layer-wi pre-training)来有效克服,在这篇⽂章中,逐层初始化是通过⽆监督学习实现的。2006年的另外3篇论⽂[2-4]改变了训练深度架构失败的状况,由Hinton的⾰命性的在深度置信⽹(Deep Belief Networks,DBNs)上的⼯作所引领。
1.2国内外研究现状
尽管专家们研究了很多年深层神经⽹络算法分析,但进展并不⼗分顺利。研究者对于通常意义下的隐含层是⼆层或三层的实验结果有了⽐较好的进展,但是对于训练更深层隐含层的神经⽹络却得到了⽐较差的结果。
吉祥腾达在⽆监督预训练出现之前,训练深度神经⽹络通常⾮常困难,⽽其中⼀个特例是卷积神经⽹络。卷积神经⽹络受视觉系统的结构启发⽽产⽣。第⼀个卷积神经⽹络计算模型是Fukushima[5]于1980年在神经认知机中提出的,基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应⽤于前⼀层神经⽹络的不同位置,得到⼀种平移不变神经⽹络结构形式。后来,LeCun等⼈[6,7]在该思想的基础上,分别在1989年和1998年⽤误差梯度设计并训练卷积神经⽹络,在⼀些模式识别任务上得到优越的性能。⾄今,基于卷积神经⽹络的模式识别系统是最好的实现系统之⼀,尤其在⼿写体字符识别任务上表现出⾮凡的性能。
1986年,Hinton,Sejnowsky, Rumelhart等⼈在Hopfield⽹络中加⼊随机机制,提出了玻尔兹曼机[8],这种模型与真实空间相对应,⽅便理解,但由于模型学习过程容易发散,因此算法往往并不收敛。同年,Hinton和Smolensk等⼈⼜提出了受限制玻尔兹曼机(Restricted Boltzmann Machine, RBM),这种模型仅有可见节点与隐藏节点的连接,相同节点彼此独⽴,因此,算法⽐较⾼效[9]。
2000年,Hinton提出了对⽐散度(Contrastive Divergence, CD)的学习算法[10],它的优点就在于,该算法使⽤了⼀个近似概率分布的差异度量对⽐散度[11]。对⽐散度在进⾏学习时⼗分⾼效,⽐如,马尔可夫随机领域(MarkovRandom Fields, MRF)、RBM模型等[12]。
2006 年,Hinton 提出了深度置信⽹络(Deep Belief Nets,DBN)模型及其⽆监督学习算法,即基于层叠的 RBM 深度信念⽹络的学习算法[2]。这种算法的过程就是,⼀个深度学习⽹络模型可以看成是由若⼲个 RBM 堆叠在⼀起,⽽训练学习的过程,就是由低层到⾼层,⽆监督地逐步训练这些 RBM,其中,每⼀个 RBM 都可以通过 CD 算法来进⾏快速训练。所以,整个深度学习⽹络的训练过程就转化为对多个 RBM 的训练学习的问题,⽽直接绕过了从整体上进⾏训练的⾼度复杂性。这种通过 RBM 算法⽽训练⽣成的⽹络在它的顶层是⽆⽅向连接的,然后在它下边的所有低层的⽅向全是向下的。在进⾏了分层的 RBM 算法之后,通过神经⽹络的学习算法再对⽹络进⾏参数的微调,从⽽使整个深度学习⽹络收敛到⼀个局部最优点上。这两种⽅法的结合,本质上即是,先通过逐层地通过 RBM 法使⽹络模型获得⼀个较优的初始值,再进⾏进⼀步地传统训练,这样做的优点就是,既解决了⽹络整体的时间复杂度低的问题,⼜避免了传统⽅法易陷⼊局部最优解的问题,同时,获得了不错的初始参数值和最终的效果较好的参数值[12]。
2008 年,Tieleman 提出了随机极⼤似然(Stochastic Maximum Likelihood, SML)算法,即连续对⽐散度(Persistent Contrastive Divergence, PCD)算法[13],这个算法⾮常重要,因为它不仅修正了 C
D 算法极⼤似然度的缺点,⽽且保证了极⼤似然数的学习,基于 PCD 的 RBM 算法⽐原来的 CD算法更加⾼效。
2009 年,Tieleman 提出了增加⼀组额外的参数来学习 PCD 的算法,即马尔可夫链蒙特卡罗(Markov chain MonteCarlo, MCMC)采样,为以后的基于 RBM 的改进算法开辟了框架基础[14]。
2009 年到 2010 年,专家们提出了很多基于回⽕的马尔可夫链蒙特卡罗采样(Tempered MCMC)算法,包括模拟回⽕(Simulated Tempering)算法,回⽕转移(Tempered Transition)算法,并⾏回⽕(ParallelTempering)算法等,另外还有,模式跳转的 MCMC ⽅法[15]。不过这些算法的实质,都是基于回⽕的马尔可夫链蒙特卡罗采样算法的改进的RBM 算法,都是基于Tieleman 在 2009 年的论⽂[16]。
深度学习在实际应⽤过程中也得到了⼴泛的关注。孙志军等⼈[17]提出⼀种基于多层⾃动编码器的特征提取算法,该算法的深度学习⽹络模型的训练分为⽆监督训练以及基于边际Fisher准则的监督式精雕训练过程。针对如何将深度学习应⽤到⽹络⼊侵检测中以提⾼⼊侵检测准确率的问题,李春林等⼈[18]结合⽹络数据的特点给出⼀种深度学习⽹络的设计⽅法,并在此基础上提出⼀种基于深度学习的⼊侵检测⽅法。针对建⽴射线⽆损检测智能化信息处理平台的需要,余永维等⼈[19]提出⼀种基于深度学习⽹络的智能识别⽅法。王宪保等⼈[20]根据样本特征建⽴深度置信⽹络,同时训练获取⽹络的
初始权值,并提出⼀种基于深度学习的太阳能电池⽚表⾯缺陷检测⽅法。Kim等⼈[21]运⽤⽀持向量机和类概率输出⽹络,提出⼀种新的深层结构模型为解决模式分类问题提供更好的泛化能⼒。实验表明,随着层数的增加,所提出的深层结构与理想的贝叶斯分类器更加接近。Shang等⼈[22]基于深层学习技术构建软传感器,并将其应⽤于⼯业领域,以评估重柴油95%点下调原油蒸馏装置。基于深层玻尔兹曼机,Leng等⼈[23]提出⼀种新颖的三维模型识别机制,这种机制可分为两部分:⼀是基于深层玻尔兹曼机特征检测,⼆是基于半监督学习的分类⽅法。
[1] Hinton G E and Salakhutdinov R R. Reducingthe dimensionality of data with neural networks [J]. Science, 2006, 28, 313:504-507.
[2] Hinton G E, Osindero S, Teh Y. A fastlearning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7):1527-1554.
[3] Bengio Y, Lamblin P, Popovici D andLarochelle H. , in J. Platt etal. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006),pp. 153-160, MIT Press, 2007.
[4] Marc’AurelioRanzato, Christopher Poultney, Sumit Chopra and Yann LeCun. , in J. Platt etal. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MITPress, 2007
[5] Fukushima K. Neocognitron: alf-organizing neural network model for a mechanism of pattern recognitionunaffected by shift in position [J]. Biological Cybernetics, 1980, 36(4):193-202.
[6] LeCun Y, Bottou L, Bengio Y, Haffner P.Gradient-bad learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[7] LeCun Y, Bor B, Denker J S, Henderson D,Howard R E, Hubbard W, Jackel L D. Backpropagation
applied to handwritten zipcode recognition [J]. Neural Computation, 1989, 1(4): 541-551.
[8] Ackley H, Hinton E, Sejnowski J. ALearning Algorithm for Boltzmann Machines [J]. Cognitive Science, 1985:147–169.
[9] Smolensk P. Information Processing inDynamical Systems: Foundations of Harmony Theory [J]. Parallel DistributedProcessing, 1986(1): 194–281.
[10] Hinton G E. Training Products of Expertsby Minimizing Contrastive Divergence [J]. Neural Computation, 2000(14):1771–1800.
[11] Carreira M A, Hinton G E. On ContrastiveDivergence Learning [J]. Journal of Machine Learning Rearch, 2006.
八字详解[12] Sutskever I, Tieleman T. On theConvergence Properties of Contrastive Divergence[J]. Journal of MachineLearning Rearch Proceedings Track, 2010(9):789–795.
[13] Desjardins G, Carville A, Bengio Y, etal. Tempered Markov Chain Monte Carlo for Training of Restricted BoltzmannMachine[C]. Sardinia, Italy: Proceedings of Aistats, 2010:145–152.
[14] Salakhutdinov R. Learning in MarkovRandom Fields Using Tempered Transitions [C]// Advances in Neural InformationProcessing Systems, 2010.
[15] Andrieu C, Defreitas N, Doucette A, etal. An Introduction to MCMC for Machine Learning [J]. Machine Learning, 2003,50(1):5–43.
[16] Tieleman T. Training Restricted BoltzmannMachines Using Approximations to the Likelihood
地中海装修风格
Gradient[C]//Proceedings of the25th international conference on Machine Learning. New York, NY, USA: ACM,ICML, 2008:1064–1071.
全国初中数学竞赛[17]孙志军,薛磊,许阳明。基于深度学习的编辑Fisher分析特征提取算法[J]。电⼦与信息学报,2013,35(4): 805-811。
[18]李春林,黄⽉江,王宏,⽜长喜。⼀种基于深度学习的⽹络⼊侵检测⽅法[J]。信息安全与通信保密,2014,10:68-71。.
[19]余永维,殷国富,殷鹰,杜柳青。基于深度学习⽹络的射线图像缺陷识别⽅法[J]。仪器仪表学报,2014,35(9): 2012-2019。
[20] 王宪保,李 洁,姚明海,何⽂秀,钱沄涛。基于深度学习的太阳能电池⽚表⾯缺陷检测⽅法[J]。模式识别与⼈⼯智能,2014,27(6): 517-523。
[21] Sangwook Kim, Zhibin Yu, Rhee Man Kil,Minho Lee. Deep learning of support vector machines with class probability outputnetworks [J]. Neural Networks, In press, 2014.
[22] Chao Shang, Fan Yang, Dexian Huanga,Wenxiang Lyu. Data-driven soft nsor development bad on deep learning technique[J]. Journal of Process Control, 2014, 24: 223-233.
[23] Biao Leng, Xiangyang Zhang, Ming Yao,Zhang Xiong. A 3D model recognition mechanism bad on deep Boltzmann machines[J]. Neurocomputing, 2015, 151: 593-602.
⼆、深度学习的基本内容、理论基础及其代表性模型
2.1 深度学习的基本内容
深度学习是机器学习技术的其中之⼀,该领域主要是探讨包含多层结点的⼈⼯神经⽹络的建模和学习问题。为实现模式识别和⽆监督特征学习,深度学习在分层架构中的信息处理阶段建⽴多层结构。深度学习处于神经⽹络、图形化建模、优化、模式识别和信号处理多个研究领域的交集。两个重要的原因使得深度学习在当今研究应⽤中如此受到欢迎:⼀是为计算硬件显著降低了成本,⼆是⼤幅增加的芯⽚处理能⼒。
鳄鱼的英语怎么说
为了说明深度学习的主要研究内容和主要的研究⽅法,这⾥给出深度学习的⽐较常见的四种定义:
春天是美好的(1)深度学习是⼀类利⽤多层⾮线性信息处理⽅法来进⾏⽆监督或者有监督的特征提取或者变换,从⽽实现模式分析和分类的机器学习技术。
(2)深度学习是⼀个为了对数据间的复杂关系进⾏建模⽽学习多级表⽰的机器学习⼦门类。由于⾼级特征和概念是根据低级特征定义的,因⽽特征的层次结构被称为深度架构。这类模型中的多数基于表⽰的⽆监督学习。
(3)深度学习是指这样⼀个机器学习的⼦领域,即学习多级表⽰(这种多级表⽰对应特征或因⼦或者概
念的层级结构),其中⾼级概念是由低级概念所定义的,同⼀级别中的概念有助于定义⾼级概念。观察量可以⽤很多⽅式来表⽰(如图像可以⽤像素的向量表⽰),但是有些表⽰能够使得从样例中对感兴趣的任务进⾏学习时更加简单(例如图像是否是⼈脸图像),该领域的研究试图定义如何更好地创造表⽰以及如何学习这些表⽰。
(4)深度学习是机器学习研究的新领域,是为了使机器学习更加靠近它最初的⽬标——⼈⼯智能⽽发展起来的。深度学习主要是关于学习多级表⽰和抽象,这些表⽰和抽象应该有助于使得诸如图像、声⾳和⽂本之类的数据更加有意义。
深度学习采⽤的训练过程是:
(1)⾃下上升的⽆监督学习。采⽤⽆标签数据分层训练各层参数,这是⼀个⽆监督训练的过程(也是⼀个特征学习的过程),是和传统神经⽹络区别最⼤的部分。
(2)⾃顶向下的监督学习。在预训练后,采⽤有标签的数据来对⽹络进⾏区分性训练,此时误差⾃顶向下传输。预训练类似传统神经⽹络的随机初始化,但由于深度学习的第⼀步不是随机初始化⽽是通过学习⽆标签数据得到的,因此这个初值⽐较接近全局最优,所以深度学习效果好很⼤程度上归功于第⼀步的特征学习过程。
随着 Hinton 在 DBN 上的研究不断的深⼊,使得他最终通过构建深度神经⽹络实现了系统学习效率的显著提升。深度学习算法因为使⽤了多层神经⽹络,因此它具备更强的表达能⼒,可以对复杂的客观事物进⾏描述。针对深度学习算法的这⼀特点,Hinton 设计了⼀种算法“greedy layer-wiunsupervid learning algorithm”,通过这种算法来有效的对深度模型进⾏训练。
这种算法本质上是⼀种贪婪算法,它的基本原理是,⾸先构造⼀个拥有多层的⼈⼯神经⽹络,在这个多层模型中,所处在模型的层次越⾼则说明这⼀层对可见层输⼊样本的表⽰就越抽象,相反如果处于模型的较低层,那么它仅仅能够表⽰输⼊样本的低维特征。因此整体说来,这个算法的总体训练的过程就是⾸先对输⼊样本进⾏简单的表⽰,然后随着所在深度模型层次的不断提升,开始对输⼊样本进⾏越来越抽象的表⽰,最终得到对样本的本质表⽰的过程。
2.2 深度学习的理论基础
假设⼀个系统,它是⼀个层的结构,是系统的输⼊,是系统输出,形象地表⽰为:=>=>=>=> =>,如果输出等于输⼊,物理意义也就是表明在经过系统变化之后,输⼊I的信息量没有任何损失,和原始的输⼊保持了不变,这表明了输⼊经过每⼀层Si均没有丢失任何信息,即在任何⼀层Si,它都是输⼊也就是原始信息的另外⼀种表⽰。简单说,深度学习的精髓也就是,在⼀个n层的神经⽹络中,任何⼀层的输⼊和输出是“相等”的。学习过程中,我们希望它是不需要⼈为⼲预的,它能够⾃动地学习对象
的特征。在给定⼀组原始的输⼊(可以是⼀堆图像或者⽂本、⼀段语⾳等等),经过⼀个包含n层的系统S时,我们通过调整系统中参数,使得输出与输⼊相等,即输出仍然是输⼊,这样,我们就获取了输⼊ (原始数据)的⼀系列的层次特征,记为。
另外,前⾯是假设输出严格地等于输⼊,即这个地⽅“相等”有两个含义在⾥⾯:第⼀个是说不是在绝对形式上的相等,⽽是在抽象意义上的相等;另外⼀点指的是限制的约束的程度,⽐如说是不会造成歧义的完全“相等”还是有适当宽松条件
中通快递工作时间的“相等"。⽽绝对意义上的“相等”这个限制太严格,我们可以略微地放松这个限制,例如我们只要使得输⼊与输出的差别尽可能地⼩即可,这个放松会形成另外⼀类不同的深度学习的⽅法。上述就是深度学习的基本思想,⽽上述中的两个思想也对应了深度学习中的两个经典的⽅法Auto Encoder和Spar Coding,还有⼀个很常⽤的⽅法就是受限玻尔兹曼机(Restrict Boltzmann Machine , RBM)。
2.3 五种典型的深度学习代表性模型
典型的深度学习模型有卷积神经⽹络 (convolutional neuralnetwork, CNN) 模型、受限玻尔兹曼机(restricted Boltzmann machine,RBM)、深度置信⽹络 (deep belief network, DBN) 模型、栈式⾃动编码器(stacked auto-encoder, SAE)以及深度玻尔兹曼机(deep Boltzman machine, DBM)。
模型⼀:卷积神经⽹络 (convolutional neural network, CNN) 模型
LeCun的卷积神经⽹络由卷积层和⼦抽样层两种类型的神经⽹络层组成。每⼀层有⼀个拓扑图结构,即在接收域内,每个神经元与输⼊图像中某个位置对应的固定⼆维位置编码信息关联。在每层的各个位置分布着许多不同的神经元,每个神经元有⼀组输⼊权值,这些权值与前⼀层神经⽹络矩形块中的神经元关联;同⼀组权值和不同输⼊矩形块与不同位置的神经元关联。卷积神经⽹络是多层的感知器神经⽹络,每层由多个⼆维平⾯块组成,每个平⾯块由多个独⽴神经元组成为了使⽹络对平移旋转⽐例缩放以及其他形式的变换具有不变性,对⽹络的结构进⾏⼀些约束限制:
(1)特征提取。每⼀个神经元从上⼀层的局部接收域得到输⼊,迫使其提取局部特征;
(2)特征映射。⽹络的每⼀个计算层由多个特征映射组成,每个特征映射都以⼆维平⾯的形式存在,平⾯中的神经元在约束下共享相同的权值集;
(3)⼦抽样。该计算层跟随在卷积层后,实现局部平均和⼦抽样,使特征映射的输出对平移等变换的敏感度下降。
鹳雀楼简介卷积神经⽹络本质上实现⼀种输⼊到输出的映射关系,能够学习⼤量输⼊与输出之间的映射关系,不需要任何输⼊和输出之间的精确数学表达式,只要⽤已知的模式对卷积神经⽹络加以训练,就可以使⽹络具有输⼊输出之间的映射能⼒。卷积神经⽹络执⾏的是有监督训练,在开始训练前,⽤⼀些不同的⼩随机数对⽹络的所有权值进⾏初始化。
卷积神经⽹络的训练分为两个阶段:
(a)向前传播阶段。从样本集中抽取⼀个样本(X,YP),将X输⼊给⽹络,信息从输⼊层经过逐级变换传送到输出层,计算相应的实际输出:
(b)向后传播阶段,也称为误差传播阶段。计算实际输出与理想输出的差异:
并按最⼩化误差的⽅法调整权值矩阵。
卷积神经⽹络的特征检测层通过训练数据来进⾏学习,避免显式的特征提取,⽽是隐式地从训练数据中学习特征,⽽且同⼀特征映射⾯上的神经元权值相同,⽹络可以并⾏学习,这也是卷积神经⽹络相对于其他神经⽹络的⼀个优势。权值共享降低了⽹络的复杂性,特别是多维向量的图像可以直接输⼊⽹络这⼀特点避免了特征提取和分类过程中数据重建的复杂度。
卷积神经⽹络的成功依赖于两个假设:(a)每个神经元有⾮常少的输⼊,这有助于将梯度在尽可能多的层中进⾏传播;(b)分层局部连接结构是⾮常强的先验结构,特别适合计算机视觉任务,如果整个⽹络的参数处于合适的区域,基于梯度的优化算法能得到很好的学习效果卷积神经⽹络的⽹络结构更接近实际的⽣物神经⽹络,在语⾳识别和图像处理⽅⾯具有独特的优越性,尤其是在视觉图像处理领域进⾏的实验,得到了很好的结果。
模型⼆:受限玻尔兹曼机(restricted Boltzmann machine, RBM)
受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)从本质上可以看作—个⼆部图,也可看作⼀个马尔可夫随机场(Markov Random Field,MRF)。主要由可视层(v)和隐含层(h)所组成,h结点均为⼆值单元,V可以是⼆值单元也可以不是。同⼀层的单元之间没有连接,也就是说v层单元之间彼此独⽴,h层单元之间同样独⽴。v层单元和h层单元则是通过权值W全连接。
通常RBM模型的能量定义为
其中v为可视层单元,h为隐含层单元,W为可视层与隐含层之间的连接权值,b为隐含层的偏差,c为可视层的偏差,为系统参数。于是,再给定输⼊数据v下模型的概率为:

本文发布于:2023-06-17 09:02:44,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/974370.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   深度   神经   特征   训练   模型   算法
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图