收稿日期:2021-03-01
基金项目:安徽省教育厅自然科学研究重点项目(项目编号:K J 2018A 0690)
;安徽省教育厅自然科学研究重点项目(项目编号:K J 2018A 0686);安徽省质量工程项目(项目编号:2020j y x m 0264)作者简介:杨建华(1979-)
,男,安徽无为人,讲师㊂研究方向:计算机视觉㊂单张图像超分辨率重建技术研究及在开放大学招生中的应用
杨建华
(安徽开放大学,合肥 230022
)摘要:为了解决常规放大会造成图像失真,不易辨识的问题,引入了基于深度学习单张图像超分辨率重建技术,
研究了四种经典图像超分模型的网络结构,并将其应用于开放大学招生中,分别用其实现对单张低分辨率招生图像的超分㊂通过实验分析比较,结果表明,E D S R 模型可以解决图片放大失真的问题,满足了招生工作的需求㊂
关键词:开放大学;图像超分辨率;深度学习;卷积神经网络
中图分类号:T P 391 文献标识码:A 文章编号:1008-6021(2021)02-0086-07
一㊁
引言2020年初,
为应对新冠肺炎疫情,国家开放大学招生管理系统增设学员线上㊁线下报名功能㊂学员可以自己上传个人人脸㊁身份证㊁毕业证书等照片,也可以通过身份证读卡器获取学员人脸照片㊂但学员上传的照片经常存在分辨率过低㊁关键部分不清晰,给工作人员的辨识带来困难;身份证读卡器获取的身份证中人脸图像的大小为:宽102像素㊁高126像素,在后期用此图像与学员本人进行人脸识别匹配时,会因图像的分辨率过低导致人脸识别效果不佳㊂通常情况下,当人们遇到低分辨率的小图像时,一般是采用一些图像处理软件对其放大,但这样会造成图像失真,如图像边缘出现锯齿状,图像模糊㊂为此,本文引入基于深度学习的单张图像超分辨率(S i n g l e I m a g
e S u p
e r -R e s o l u t i o n ,S I S R )重建技术,来解决上述问题㊂图像超分辨率(I m a g eS u p e r -R e s o l u t i o n ,S R )重建技术,是指利用一张或多张低分辨率(L o w R e s o l u -
t i o n ,S R )
图像,通过软件处理,生成一张具有较高分辨率(H i g
hR e s o l u t i o n ,H R )图像的技术[1
]㊂在安保监控㊁卫星图像遥感㊁显微成像㊁数字高清㊁视频复原
和医学影像等领域都有非常重要的实用价值㊂与通过升级硬件设备的成像精度来提高图像分辨率相比,S R 技术具有成本低㊁
速度快的明显优势㊂二㊁深度学习的单张图像超分辨率重建技术
(一)图像超分辨率重建技术
该技术首次由H a r r i s [2]与G o o d m a n [3]
于20世
纪60年代提出,采取的方法是在单帧图像上进行线性插值或样条函数插值,虽然能提高单幅图像的分辨
tornadoes
率,但图像中的很多高频细节易丢失㊂这一时期图像超分辨率重建技术主要停留在理论研究阶段,没有具
体实现方法㊂直到1984年,由R Y T s a i 与T S H u a n g [4
]利用多帧低分辨率图像通过傅里叶变换,
得到单张高分辨率图像,这是科研人员第一次利用软件技术将图像超分重建思想变成现实,标志着图像超分辨率重建进入了实践发展时期㊂
2006年,随着H i n t o n 等人[5]
提出了神经网络中
的深度学习概念,其核心卷积神经网络
(C o n v o l u t i o n a lN e u r a lN e t w o r k ,C N N )
在计算机视觉领域取得极快发展,一系列以卷经神经网络为基础
的网络模型不断被提出,如:A l e x t N e t [6]㊁
6
8
G o o g l e N e t[7]㊁V G G N e t[8]㊁R e s N e t[9]等,网络的学习能力也由弱变强,在图像分类㊁检测方面取得了越来越优秀的成绩㊂很自然地,人们想到可以用训练深度卷积神经网络来学习低分辨率图像与高分辨率图像之间的映射关系㊂2014年,香港中文大学的D o n g[10]等人最先提出基于C N N的图像超分模型(S u p e r-R e s o l u t i o nC o n v o l u t i o n a lN e u r a lN e t w o r k s, S R C N N),该网络模型由特征提取层㊁非线性映射层㊁重建层三层构成,取得了优于传统方法的效果,奠定了基于深度学习的图像超分辨重建技术在图像超分研究领域的主流地位㊂
(二)深度学习的单张图像超分辨率重建技术研究现状逃出洛杉矶
单张图像超分辨率重建技术早期主要研究方法有三类,基于插值的方法㊁基于模型重建的方法㊁基于机器学习的方法㊂当前以基于深度学习的单张图像超分辨率重建技术为主流研究方向,按使用的网络类型可细分为基于标准的卷积神经网络结构S R模型㊁基于残差的网络结构S R模型㊁基于生成对抗(G e n e r a t i v eA d v e r s a r i a lN e t w o r k s,G A N)[11]的网络结构S R模型㊂
以标准卷积神经网络(C N N)为基础的模型主要有S R C N N网络㊁快速超分辨率卷积神经网络(F a s t
S u p e r-R e s o l u t i o n C o n v o l u t i o n a l N e u r a l N e t w o r k s, F S R C N N[12])㊁高效的亚像素卷积神经网络(E f f i c i e n t S u b-P i x e l C o n v o l u t i o n a l N e u r a l N e t w o r k, E S P C N[13])三种网络模型㊂
以残差神经网络(R e s N e t)为基础的模型主要有深度超分辨率卷积神经网络㊁用于图像超分辨率的深度递归卷积网络㊁拉普拉斯金字塔超分辨率网络(L a p l a c i a n P y r a m i d S u p e r-R e s o l u t i o n N e t w o r k s, L a p S R N[14])㊁增强深度超分辨率重建网络(E n h a n c e d D e e p S u p e r-R e s o l u t i o n N e t w o r k, E D S R[15])㊁级联残差超分辨率网络㊁残差信道注意网络等网络模型㊂
以生成对抗网络(G A N)为基础的模型主要有超分辨率生成对抗网络模型㊁具有特征识别的单图像超分辨率网络模型㊁双G A N网络模型㊂
(三)四种主流图像超分模型的研究
在上述诸多网络模型中,比较经典与主流的模型有F S R C N N㊁E S P C N㊁L a p S R N㊁E D S R四种㊂如在开源的计算机视觉库O p e n C V(O p e nS o u r c eC o m p u t e r V i s i o nL i b r a r y)中,也提供了这四种训练好的模型调用接口,用于实现基于深度学习的图像超分,能对图像进行2~4倍的超分㊂
1.F S R C N N模型
F S R C N N模型是2016年由香港中文大学的汤晓鸥团队提出,它是对原S R C N N模型的改进㊂S R C N N模型是深度学习在图像超分辨重建上的首次应用,其网络结构如图1所示,网络使用T i m o f t e 数据集(包含91幅图像)和I m a g e N e t大数据集进行训练,主要过程为
:
图1S R C N N模型的网络结构
S t e p1:对数据集进行预处理,如对原始训练(T r a i)数据集中的91张图像进行分割,按步长14,大小21*21进行裁剪,作为标签(L a b e l)数据;对T r a i n 数据集进行下采样(缩小)后再进行上采样(放大)到原始大小,再按步长14,大小33*33进行裁剪,作为训练集数据,这样得到2万多组样本数据与标签数据㊂
S t e p2:构建三层的卷积神经网络,三层卷积核大小分别分9*9㊁1*1㊁5*5,前两层卷积后使用R e l u 作激活函数,输出特征个数分别为64和32,用均方差作为损失函数(l o s s)进行训练,公式如下:
L(θ)=1nðn i=1 F(Y i,θ)-X i 2(1) S t e p3:训练结束保存现场参数,测试时选用整张图像,卷积操作时填充模式选择 S AM E ,图像尺寸保持不变㊂
F S R C N N模型主要通过增加网络深度与减小卷积核对S R C N N模型进行了运算加速,图2为其与S R C N N模型的结构对比图,能直观地反映两者之间的差异,主要表现在:
(1)F S R C N N直接采用低分辨的图像作为输入,而S R C N N需要先对低分辨率的图像进行双三次插值,对放大后的图像进行切块,将图像块作为输入;
78
英语电子词典哪个好(2)F S R C N N 在网络的最后采用反卷积操作实
现图像放大,运算更高效;(3)F S R C N N 中用收缩㊁映射和扩展操作来替代非线性映射;
(4)F S R C N N 选择更小尺寸的卷积核和更深的网络结构,减少运算参数的同时提升了网络的学习能力㊂
F S R C N N 的损失函数不变,仍采用公式(1),但激活函数选用了团队定义的P R e l u 函数,避免了网络反向传播时,可能会由R e l u 函数引起梯度为零的情况,P R e l u 公式为:
f (x i )=m a x (x i ,0)+a i *m i n (0,x i )
(2
)2.E S P C N 模型
E S P C N 模型是由推特(T w i t t e r )的S h i 等人在
笔记本维修培训2016年提出,
其主要贡献在于提出了一种直接在低分辨率图像上进行特征提取再转换成高分辨率图像的有效卷积方法㊂其网络结构如图3所示,网络的输入仍是原低分辨率图像,隐藏层通过l 个卷积操作得
到r 2个与原图像大小一样的特征图,亚像素卷积层
将图像上每个像素的r 2
个通道按一定规则重新排列组合成一个r *r 大小的子图块,于是大小为r 2个W ˑH 的特征图像被重新排列组合成一个r W ˑr H
尺寸的高分辨率图像㊂通过使用亚像素卷积操作,图像从L R 到H R 放大的过程中,低S R 图像与H R 图像之间的映射关系隐式地包含在前面的隐藏卷积层中,可以通过一系列的学习得到,最后才对图像大小进行转换,由于前面的卷积运算都是在低分辨率图像上进行的,参与运算的数据量小,从而效率更高㊂
图2 F S R C N N 与S R C N N
网络结构对比
图3 E S P C N 模型的网络结构
3.L a p
S R N 模型L a p
S R N 模型是由美国加州大学默赛德分校的L a i 等人在2017年提出,
该模型能逐步重建不同尺度的高分辨率图像,特别是在8倍超分时也取得了良好的重建效果㊂其网络模型结构如图4所示,从图中可以观察到模型由特征提取与图像重建两个分支构成,图像特征提取与图像重建同步进行㊂首先,输入的L R 图像经过一系列卷积操作进行特征提取,学习的是残差部分信息,再经过解卷积操作进行2倍的放大,并与重建分支中经过2倍插值放大的原始图像相
加,得到2倍的H R 重建图像㊂重复上述过程,得到
放大4倍的H R 重建图像㊂以此类推,理论上可以得
到放大2n 倍的H R 重建图像㊂
L a p
S R N 模型与前文提到的S R C N N ㊁F S R C N N ㊁E S P C N 模型相比,
除了网络结构不同外,另一个不同在于它采用了一种有别于公式(1)
的8
8
can t stop love图4 L a p
S R N 模型的网络结构C h a r b o n n i e r 损失函数,
大写一怎么写其公式表达如下:l (y ︿
,y ;θ)=1N ðN i =1ðL
s =1
ρ(y ︿(i )s -y (i )
s )=1N ðN i =1ðL
s =1
ρ((y ︿(i )s -x (i )s )-r (i )
s )(3
)其中y ︿
表示重建图像,y 表示原始的L R 图像,θ为网络参数,N 表示训练时b a t c h s i z e 的大小,s 为超分
倍数,L 表示一共有多少级,x 为经插值后放大的
L R 图像,r 为残差,ρ(
x )=x 2+ε2
(ε=10-3)为C h a r b o n n i e r 函数的惩罚函数㊂采用C h a r b o n n i e r 作
为损失函数,能取得比较好的视觉效果㊂
4.E D S R 模型
E D S R 模型是由韩国首尔大学的S N U C V L a b
研究团队在2017年提出,
其网络结构如图5所示,可以看作是对S R R e s N e t [1
6]的改进,去掉网络结构中的一些多余的运算㊂一是去掉残差块内的批规范化处理(b a t c hn o r m a l i z a t i o n ,B N )
操作,二是去掉残差块外的R e l u 操作㊂在文献[15]中作者提到,原始残差网络的提出是为了解决计算机视觉方面的高级
(H i g
h -l e v e l )问题,如图像分类㊁图像检测㊁图像的识别等㊂而图像超分属于低层(L o w -l e v e l )问题,所以将R e s N e t 结构直接应用到图像超分问题上没有达到最优效果㊂而B N 层的计算量和一个卷积层几乎持平,移除B N 层后训练时可以节约大概40%的内存与时间㊂
不会说话怎么办
此外,E D S R 用L 1范数样式的损失函数来优化网络模型㊂在训练时先训练低倍数的上采样模型,再用训练结果参数来初始化高倍数的上采样模型
,这样能减少高倍数上采样模型的训练时间,同时训练效果
图5 E D S R 模型的网络结构
会更好,如训练缩放因子为3倍㊁4倍的E D S R 时,可用预训练过的ˑ2的网络来初始化模型参数㊂这个
策略加速了训练并且提升了最后的性能㊂对于ˑ4,
使用预训练ˑ2的模型训练会收敛更快㊂三、单张图像超分辨率重建技术在开放大学招生
中的应用
(一)招生图像超分时的软硬件环境
硬件配制为:i n t e l i 5及以上处理器,内存8G 以上的台式机,身份证读卡器,实验时所用的读卡器为精伦品牌I D R 210型号㊂软件开发环境为:W i n 7操作系统,编程语言为p y
t h o n 3.6,工具为A n a c o n d a 集成开发平台,用到的软件包有O p e n C V ㊁O p
启蒙老师英语
e n c C V -c o n t r i b ㊁N u m p y
㊂(二)训练模型数据获取
对上述4种图像超分网络模型,可以通过训练集进行训练,得到收敛后的网络参数模型㊂在实际图像超分应用时,也可以使用相应网络模型团队训练好的模型㊂如在招生图像超分时选择了4倍超分模型,训
练模型文件从C S D N 网站[1
7]
下载,对应的训练模型属性如表1所示㊂
(三)p y
t h o n 调用训练模型O p e n c C V -c o n t r i b 库中的d n n _s u p
e r r e s 模块提供了上述训练模型的调用接口,调用过程的p y t h o n 主要代码如表2所示㊂
(四)招生图像超分结果
取开放大学招生过程中通过读卡器获取的身份证上人脸图像,作为超分的L R 图像,大小为102ˑ
126像素,分别使用三次线性插值(b i c u b i c )㊁F S R C N N ㊁E S P C N ㊁L a p S R N ㊁E D S R F 进行4倍超分,超分结果如图6所示,直观上可以看出,普通的图像
9
8变暖的地球
放大,通常采用b i c u b i c 方法得到的图像边缘呈锯齿状,效果较差㊂而采用图像超分技术,能得到较好效果,如L a p
S R N ㊁E D S R 超分结果,可用于入学后的基于人脸识别技术的考生身份证验证[18]
场景,进行图
像增强,提高人脸识别精度㊂
表1 F S R C N N ㊁E S P C N ㊁L a p
S R N ㊁E D S R 模型4倍超分训练模型属性文件名大小优点缺点F S R C N N _x 4.p b 41K B 快速,小巧
不够准确E S P C N _x 4.p
b 98K B 体积小,速度快,仍然表现良好视觉上表现较差
L a p S R N _x 4.p b 2650K B 可以进行多尺度超分辨率,可以支持2x ,4x ,8x 超分辨率
它比E S P C N 和F S R C N N 慢,
杭州西溪印象城
并且精度比E D S R 差E D S R _x 4.p
b 37670K B 精度高
模型文件大且运行速度慢
表2 p y
t h o n 调用训练模型过程函数调用方法
主要功能
s r=d n n _s u p e r r e s .D n n S u p e r R e s I m p
l _c r e a t e ()创建超分模型对象
s r .r e a d M o d e l ("m o d e l s /*_x 4.p b ")读取模型,参数为模型文件路径
s r .s e t M o d e l (a l g o r i t h m ,s c a l e );设定算法和放大倍数
n e w _i m g =s r .u p s a m p l e (i m g
)
放大图像图6 身份证人脸图像4倍超分结果
(
五)图像超分性能评价主要对比b i c u b i c ,F S R C N N ㊁E S P C N ㊁L a p
S R N ㊁E D S R 方法,
进行4倍超分图像超分时的三项指标:所用时间㊁峰值信噪比(P e a k S i g
n a lt o N o i s e R a t i o ,P S N R )值㊁结构相似性(S t r u c t u r a l S i m i l a r i t y
,S S I M )值㊂P S N R 是一种基于像素点误差的图像客观评价指标,应用广泛㊂它计算无失真图像与超分后图像对应像素点间的误差值,值越大表示超分后的图像失真越小,其公式为:
P N S R =10㊃l g
(m a x X 2
M S E
)=20㊃l g
(m a x X M S E
)(4)其中M S E 为两幅大小为WˑH 的R G B 三通道图像
9