残差网络研究综述

更新时间:2023-05-05 11:18:04 阅读: 评论:0

  收稿日期:2018 12 26;修回日期:2019 03 07  基金项目:国家自然科学基金资助项目(61806074)
  作者简介:郭癑秀(1994 ),女(回族),重庆人,硕士研究生,主要研究方向为深度学习;杨伟(1983 ),男(通信作者),河南信阳人,副教授,博士,主要研究方向为机器学习、深度学习(yang0sun@gmail.com);刘琦(1996 ),男,河南信阳人,硕士研究生,主要研究方向为深度学习;王玉(1993 ),女,河南信阳人,硕士,主要研究方向为深度学习.
残差网络研究综述
郭癑秀,杨 伟 ,刘 琦,王 玉
(河南大学计算机与信息工程学院,河南开封475004)
摘 要:概述了残差网络的研究背景及意义,对残差单元和残差网络的框架进行了综述,并从残差单元、网络框
架和混合改进三方面阐述了残差网络的模型改进。最后总结了残差网络在一些领域的成功应用和未来可能的发展趋势。
关键词:残差网络;深度学习;神经网络;捷径连接;梯度消失;梯度爆炸中图分类号:TP183   文献标志码:A   文章编号:1001 3695(2020)05 002 1292 06doi:10.19734/j.issn.1001 3695.2018.12.0922
Surveyofresidualnetwork
GuoYuexiu,YangWei
,LiuQi,WangYu
(SchoolofComputer&InformationEngineering,HenanUniversity,KaifengHenan475004,China)
Abstract:Firstly,thispapersummarizedtheresearchbackgroundandsignificanceoftheresidualnetwork.Thenitsumma
rizedtheresidualunitandtheframeworkoftheresidualnetwork.Itintroducedtheimprovedmodelofresidualnetworkfrom
threeaspects
:residualunit,networkframeworkandhybridimprovement.Finally,itsummarizedthesuccessfulapplicationsofresidualnetworkinsomefieldsandpossiblefuturedevelopmenttrends.Keywords:residualnetwork;deeplearning;neuralnetwork;shortcutconnection;vanishinggradient;explodinggradient
  深度神经网络是由多个非线性处理层堆叠而成的机器学
习模型。自从A
lexNet[1]
在2012年以显著优势赢得ILSVRC比赛以来,深度神经网络已经成功地应用于图像识别、目标检测、
语音识别、机器翻译、自动汽车驾驶、目标追踪和生物信息学等多个领域,越来越多的研究人员开始
认识到网络深度的重要性[2]。VGGNet[3]通过将网络深度增加到19层,获得了7.3%
的top5误差率;GoogleNet[4]则采用了22层的网络深度;此外,越来越深的卷积神经网络[3~10]在ImageNet或其他基准数据集
上取得了更好的性能。更深层的网络导致更好的结果,多层特
征可以通过网络深度来丰富其表达。
但是随着网络层数的增加,梯度消失或梯度爆炸[
11~13]
问题却出现了,这将导致深度神经网络在训练时难以收敛。然
而,随着归一化初始化[13~16]和中间归一化层[17]
等的提出,这一问题在一定程度上得到了解决。特别地,针对极深神经网络难以训练的问题,瑞士教授Schmidhuber提出了Highway网[18,19]。该网络修改了每一层的激活函
数,使前面一层的信息有一定比例可以不经过矩阵乘法和非线性变换直接传输到下一层,仿佛一条信息高速公路,因此得名Highway网。High way网允许信息畅通无阻地流入更深层,在训练阶段,调整快
捷连接参数以控制这些高速公路上允许的信息量。H
ighway网的优点是使用随机梯度下降算法可以训练几百乃至上千层
深的网络;然而H
ighway网却有两个明显的缺点:训练速度慢并且不能通过增加网络深度来显著地提升其性能。
当深度网络的收敛问题解决后,研究人员又发现了网络退
化问题。2
0层以上的深度网络,随着网络层数的增加,分类性能却越来越差,其中5
0层网络的测试误差率是20层网络的一倍。针对该问题,He等人[20]
在Highway网的基础上提出了残
差网络,它采用捷径连接取代Highway网中的网关单元,可以
保留全部的原始信息并且减少了网络参数。残差网络的最大优点是不仅能够加速超深神经网络的训练,而且可以大幅提升深度网络的准确率。此外,残差网络在很大程度上避免了随着网络层数的增加而产生的梯度消失或梯度爆炸问题,这让训练极深的网络成为可能。残差网络是深度学习领域中的一个里程碑式突破,由于残差网络的良好性能,其在深度学习领域获得了广泛关注,目前已经提出了多个改进变体。
1 残差网络
1 1 残差单元
残差网络的基本构建块是残差单元,残差单元由卷积
Conv层、批处理归一化BN层和非线性激活函数ReLU层堆叠而成。图1给出了一个残差单元的示意图。令第l个残差单元的输入为xl
,则其输出可形式化为执行如下的数学计算。xl+1=f(xl+F(xl
,Wl))(1)
其中:F(xl,Wl)是残差函数;Wl是该残差函数对应的权重参数;f(·)是非线性激活函数ReLU。xl和F(xl,Wl)的维度必须相同。如果不相同,例如当改变了输入/输出的通道,可以通过捷径连接执行一个线性映射Ws来匹配两者的维度。
xl+1=f(Wsxl+F(xl
,Wl))(2)
残差函数F的形式是灵活可变的,除了堆叠两层卷积层
外,还可以堆叠三层卷积层。1 2 残差网络的框架
残差网络的标准框架如图2所示。给定输入数据,首先残差网络将输入数据依次送入卷积层Conv、非线性激活函数层
第37卷第5期2020年5月 计算机应用研究
ApplicationResearchofComputersVol.37No.5
May2020

本文发布于:2023-05-05 11:18:04,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/857538.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:resident词根
标签:网络   残差   深度   研究   梯度   学习   训练   信息
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图