doi:
10.3969/j.issn.1003-3106.2023.01.028
引用格式:周小力,史方,赖松雨,等.基于增强型超分辨率生成对抗网络的文物图像色彩重建[J].无线电工程,2023,53(1):220-229.[ZHOUXiaoli,SHIFang,LAISongyu,etal.ColorReconstructionofCulturalRelicsImageBasedonEnhancedSuper
ResolutionGenerativeAdversarialNetwork[J].RadioEngineering,2023,53(1):220-229.]
基于增强型超分辨率生成对抗网络的文物图像色彩重建
周小力,史 方,赖松雨,骆忠强
(四川轻化工大学自动化与信息工程学院,四川宜宾644000)
摘 要:针对书画文物的褪色和画面暗旧等问题,提出了一种基于增强型超分辨率生成对抗网络的文物图像色彩重建
(ColorReconstructionofCulturalRelicImagesBasedonEnhancedSuper ResolutionGenerativeAdversarialNetwork,CR ESRGAN)模型。该模型针对缺少成对图像的数据集问题,在双3次下采样的基础上提出了利用颜色迁移算法来生成逼真的暗旧、褪色的文物图像。同时改进了ESRGAN网络,在其生成网络中引入自注意力机制,以增强重建图像的纹理细节。在常用图像质量评价指标峰值信噪比(PeakSignaltoNoiseRatio,PSNR)/结构相似性(StructuralSililarityIndex,SSIM)的基础上引入颜色评价指标CIEDE2000,以更加全面、客观地评价重建图像的质量。与现有几种超分辨率算法以及其文物图像色彩修复方法相比,视觉效果和图像质量有较高的提升。
关键词:
书画文物图像;超分辨率重建;色彩修复;生成对抗网络;自注意力机制中图分类号:TP391.4文献标志码:A开放科学(资源服务)标识码(OSID):文章编号:1003-3106(2023)01-0220-10
ColorReconstructionofCulturalRelicsImageBasedonEnhanced
Super ResolutionGenerativeAdversarialNetwork
ZHOUXiaoli,SHIFang,LAISongyu,
LUOZhongqiang
(SchoolofAutomationandInformationEngineering,SichuanUniversityofLightChemicalTechnology,Yibin644000,China)Abstract:Fortheproblemsoffadingofpaintingandcalligraphyculturalrelicsanddarkoldpictures,aColorReconstructionof
CulturalRelicsImagesBasedonEnhancedSuper Reso
lutionGenerativeAdversarialNetwork(
CR ESRGAN)modelfisproposed.Tosolvetheproblemofdatasetslackingpairedimages,acolortransferalgorithmisusedbythemodeltogeneraterealisticdark,fadedandfadedculturalrelicimagesonthebasisofbicubicdownsampling.TheESRGANnetworkisimproved,andself attentionmechanismisintroducedintoitsgenerativenetworktoenhancethetexturedetailsofthereconstructedimages.Basedonthecommonlyusedimage
qualityevaluationindexPeakSignaltoNoiseRatio(
tanya
PSNR)/StructuralSimilarityIndex(SSIM),thecolorevaluationindexCIEDE2000isintroducedtoevaluatethequalityofthereconstructedimagemorecom
prehensivelyandobjectively.Comparedwithseveralexistingsuper resolutionalgorithmsanditsculturalrelicimagecolorrestorationmethod,thevisualeffectandimagequalityhavebeenimprovedbytheproposedmethod.
Keywords:culturalrelicsandpaintingimages;super resolutionreconstruction;colorrestoration;generativeadversarialnetwork;
self attentionmechanism
收稿日期:2022-10-21基金项目:国家自然科学基金(61801319);四川省科技计划资助项目(2020JDJQ0061,2021YFG0099);中国高校产学研创新基金项目(2020HYA0400)
FoundationItem:NationalNaturalScienceFoundationofChina(61801319)
;
ProjectFundedbyScienceandTechnologyProgramofSichuanProvince(2020JDJQ0061,2021YFG0099);ProjectofUniversityIndustry University ResearchInnovationFoundationofChina(2020HYA0400)
0
引言
古代书画作品有着很高的文化、社会、艺术和人文价值,但是由于时间的流逝、环境的变化以及创作纸张、绢布和颜料等因素的影响,许多从古代流传至今的书画作品出现了不同程度的损坏和褪色。目前,我国书画文物的保护修复主要依赖于传统的书画装裱技
术[1
]。对于褪色和色彩被破坏的书画文物主要采取用毛笔等工具手动填色和修复的方式。这个过程对修复人员的专业要求极高,且在人工修复的过程中可能会对文物造成二次破坏,导致最终的修复结果不能令人满意。虽然一些基于现代科技的文物色彩修复技术被
提出,例如基于可见光谱[2-3
]的文物色彩修复,
但其在修复色彩的同时会造成一些图像的局部细节丢失。因
工程与应用
此,利用数字图像修复技术对书画文物暗旧、褪色等问题进行研究具有重要的意义[4
]。在颜色修复方面,
Reinhard等[5
]
第一次提出使用数字图像处理技术对图像进行颜色矫正,但其只对颜色单一的图像有良好的效果,对于颜色复杂的图像会产生较多的误差。胡国飞等[6
]在此基础上提出了一种基于统计学的自适应图像颜色迁移技术,在还原色彩的同时能够保留局部纹理信息。2005年,张引等[7
]提出了利用无监督学习聚类自动采集样本的颜色还原方法,但该方法对图像纹理特征和亮度特征存
在较大的差异时效果不理想。Gatys等[8
]利用卷积神经网络(ConvolutionalNeuralNetwork,CNN)的特征表示来约束纹理以及色彩信息的合成,但是对一些含有噪声的
图像来说并不能达到理想的效果。2019年由Hashisho等[9
]提出的利用具有U Net架构的去噪自动编码器开
发的水下去噪自动编码器(UnderwaterDenoisingAu toencoder,UDAE)模型实现了对水下图像的颜色恢复。随后,
Xu等[10
]提出了一个基于参考的端到端的学习框架来实现对旧照片的恢复和着色,参考图像中的颜色先验来指导过程。
上述方法在针对自然图像以及特定场景图像的颜色修复中取得了较好的效果,但是并不适用于书画文物图像这样结构复杂、色彩丰富的图像。因此本文旨在研究一种适用于书画文物图像的色彩重建方法。为了在重建文物图像色彩的同时能保证图像的结构及纹理细节不受破坏,本文提出将图像超分辨
率重建技术引入到书画文物图像色彩重建工作中。图像超分辨率(Super Resolution,SR)是一种重要的图像处理技术,旨在从低分辨率(Low
Resolution,LR)
图像中恢复丰富的细节。近年来,许多基于CNN的SR方法被提出。Dong等[11-12
]首先提
出了一个简单的图像超分辨率神经网络,并在后续提出了改进网络,提升了训练速度。同一年,Shi等[13
]提出了亚像素卷积层,可以在LR空间中实现特征提取。Kim等[14-15
]引入了残差学习,并使用高学习率来优化其网络。Lim等[16
]提出了增强型深度超分辨率(EnhancedDeepSuper Resolution,EDSR)网络,改
进了残差网络内部结构,去掉了BN(Batch
四级常考词组
Norm)层,减少了内存使用量。2018年,
Zhang等[17
]提出了深度残差通道注意网络(ResidualChannelAttentionNetworks,RCAN)。Ledig等利用生成对抗网络(Gen erativeAdversarialNetwork,GAN)[18
]在超分辨率领域做了创新,提出了超分辨率生成对抗网络(Super Res
榆耳olutionGenerativeAdversarialNetwork,SRGAN)
[19
]。随后,
Wang等[20
]提出了增强型超分辨率生成对抗网络(EnhancedSuper ResolutionGenerativeAdversarialNetworks,ESRGAN),改进了SR GAN的残差网络结构、感知损失函数以及判别器的标准,在自然纹理上获得了更好的视觉效果。
本文基于ESRGAN模型,
结合自注意力机制以及颜色迁移算法,提出一种基于增强型超分辨率生成对抗网络的文物图像色彩重建(Color
RecenstructionofCulturalRelicImagesBasedonEn hancedSuper ResolutionGenerativeAdversarialNet work,CR ESRGAN
),实现书画文物图像的色彩恢复以及改善画面暗旧的问题。
1
基于增强型生成对抗网络的文物图像色彩重建模型
CR ESRGAN
整体框架如图1
所示。
图1
CR ESRGAN
整体网络框架
Fig.1 OverallnetworkframeworkofCR ESRGAN
工程与应用
该模型针对色彩受损(如暗旧、褪色等)的书画文物图像,在ESRGAN的基础上,提出了运用超分辨率重建的方法生成色彩,得到修复的高分辨率书画文物图像的模型。整体分为训练和测试2个阶段。在训练阶段,利用退化模型处理书画文物数据集中的颜色未受损的高分辨率图像IHR
,生成特征逼近真实暗旧、褪色的低分辨率书画文物图像ILR
的图像IHR
^,形成LR HR图像对进行训练。IHR
^经过超分辨率重建后生成SR图像IHR^。判别网络通过最小化损失函数的值来优化训练过程。在训练阶段,将数据集中的原始低分辨率图像ILR
输入到训练好的模型中进行测试,然后与真实的高分辨率图像IHR
进行对比,比
较主观效果以及计算峰值信噪比(PeakSignalto
NoiseRatio,PSNR),结构相似性(StruccturalSimilarityIndex,SSIM)和CIEDE2000来定性分析重建图像的质量。1.1 退化模型
用于图像超分辨率重建的低分辨率图像通常通过对HR图像下采样得到,而应用于书画文物图像的场景时,如何模拟文物图像的色彩退化是提升重建效果的关键。因此引入了颜色迁移来模拟真实的文物图像色彩退化过程,再对图像进行4倍的双三次下采样,得到最终的低分辨率图像IHR
^。CR ESR GAN的退化模型如图2所示。
图2
CR ESRGAN
退化模型
Fig.2 CR ESRGANdegradationmodel
颜色迁移算法是由Reinhard等在2001年首次提出的一种实现彩色图像之间整体颜色变换
的算法,具体实现步骤如下:①将源图像和目标图像由RGB空间转换到lαβ空间。②根据lαβ空间各颜色分量不相关的特点,提出了一组颜色迁移公式: l槇dst
=σIdstσlsrc
(ldst
-μldst
)+μlsnc
,(1)α槇dst
=σαdstσ
αsrc
αdst
-μαdst
()+μαsrc
,(2)β槇dst
=σ
βdstσ
βsrc
βdst
-μβdst
()+μβsvc蓝田裤带面
,(3)式中,ldst
,αdst
,βdst
分别表示目标图像像素的l,α,β分量;l槇dst
,
α槇dst
bushel,β槇dst
分别表示颜色迁移后结果图像像素的l,α,β分量;μldst
,μαdst
,μβdst
与σIdst
,σadst
,σβdst
表示目标图像
l,α,β分量的均值与标准差;μlsnc
,μαsrc
,
μβsvc
与σlsrc
,σasrc
,σβsrc
表示源图像l,α,β分量的均值与标准差。③将经过迁移合成后的结果图像从lαβ空间转换到RGB空间。
在本文中,选取色彩未受损以及画面整体较完整的文物图像作为源图像,截取色彩受损(如发黄、
暗旧等)文物图像纯色(尽量不包含绘画和书法)部分作为目标图像进行颜色迁移计算,从而使未受损图像的颜色逼近受损文物图像的颜色。部分颜色迁移效果如图3
所示。图3 部分颜色迁移效果
Fig.3 Partofthecolormigrationeffectdiagram
工程与应用
1.2 基于自注意力的生成网络
书画文物图像有极高的艺术价值,每一副书法和绘画作品都包含着丰富的历史信息,承载着一代人的文化底蕴。所以,在书画文物图像色彩超分辨重建任务中,对细节和纹理的恢复有极高的要求。为了实现这一点,本文在ESRGAN生成网络结构的基础上融合了自注意力机制[21],设计自注意力机制残差模块。它能够利用图像的全局特征进行图像超分辨率重建,使重建后的图像拥有更丰富的纹理细节。生成器网络结构如图4所示。自注意力机制残差模块如图5所示。
图4 基于自注意力机制的生成器网络结构
Fig.4 Generativenetworkstructurebasedonself attentionmechanism
图5 自注意力机制残差模块
Fig.5 Residualmoduleofself attentionmechanism
生成器网络共包含3个模块:初始特征提取模块、自注意力机制残差模块以及重建模块。
自注意力层原理如图6所示。其中,自注意力机制残差模块在ESRGAN中的残差密集块(Resid ual in ResidualDenseBlock,RRDB)的基础上引入了自注意力机制,由图6可以看出,将RRDB最后一层卷积层中提取的特征图x∈瓗C×N转换为2个空间特征f,g用于计算注意力,其中,C表示通道数目,N表示隐藏层中的特征数目,f(x)=Wfx,g(x)=Wgx。对f(x)输出矩阵进行转置再与g(x)输出矩阵相乘,用Softmax进行归一化后获得注意力图βji。
图6 自注意力层原理
Fig.6 Schematicdiagramoftheself attentionlayer
sij=f(xi)Tg(xj),βj,i=exp
(sij)
∑N
i=1
exp(sij)
,(4)
式中,βji表示在合成第j各区域时对第i个位置的关注度。
自注意力层的输出为o=(o1,o2,…,oj,…,oN)∈瓗C×N,其中,oj=v(∑Ni=1βj,ih(xi)),h(xi)=Whxi,v(xi)=Wvxi。
W
h,Wv
是学习到的权重矩阵,通过1×1的卷积
工程与应用
实现。接着将注意力层的输出与比例参数相乘,并将其添加回输入特征图,最终的输出为:
yi
=γoi
+xi
,
(5)式中,γ是一个可以学习的标量,
被初始化为0。引入可学习的γ可以使网络首先依赖于局部信息,进而为非局部信息提供更多的权重。1.3 判别网络
本文的判别器网络结构如图7所示,采用ESR
GAN的判别网络。由6个卷积块(无济于事的意思是什么
Conv)组成,然后是2个线性层。每个卷积块都有2个卷积层块,
其中第1个卷积层k=3,s=1即卷积核大小为3,步长为1。第2个卷积层k=4,
s=2。每一个卷积块上n的数量都是不同的,即通道数目,具体数值如图7所
示。ESRGAN的判别器与SRGAN中的标准判别器
D不同,采用相对判别器DRa
来优化网络。判别网络将生成器G生成的重建图像IHR
^和原始高分辨率图像IHR
作为输入,判别器DRa
预测真实图像IHR
比重
建图像IHR
^更真实的概率,
其优化过程可以表示为:{
DRaIHR,IHR^()=σCIHR()- CIHR^()[]()→1DRaIHR^,
IHR()=σCIHR^()- CIHR
()[]()→0,(6)
式中,σ表示Sigmod函数;
C表示未转换的鉴别器输出;
DRa
IHR
,IHR^()表示IHR
相较IHR
^更接近“1”,即“真”的概率;DRa
IHR
^,
IHR
()表示IHR
^较IHR
更接近与“0”,即“假”
的概率。
图7 判别器网络结构示意
Fig.7 Schematicdiagramofthediscriminantnetworkstructure
由此,判别网络的损失函数表示为:
LRaD
=- IHR
lgDRaIHR,IHR^()()[]- IHR^lg1-DRaIHR^,IHR
()()[]。(7)相应地,生成网络的对抗损失函数可以表示为:LRaG
=- IHR
lg1-DRaIHR,
IHR^()()[]- IHR
^lgDRaIHR^,
IHR
()()[]。
(8)
改进后的判别网络能够指导生成网络恢复更详
细的纹理细节。1.4 损失函数
boot是什么意思
损失函数用于衡量网络重建图像与原始图像的差异,
CR ESRGAN网络通过迭代训练降低重建图像IHR^与原始图像IHR
之间的差异,通过最小化损失函数以获得最优解。为了进一步提高书画文物图像重建结果的视觉质量,本文使用基于视觉机制的损
失函数,包含3个部分:
感知损失、内容损失和对抗损失。CR ESRGAN网络的损失函数为:
LG
=λLRa
G
+ηL1+L
percep
,(9)式中,L1
为评估重建图像与真实高分辨率图像之间的1范式距离的内容损失;λ和η为平衡不同损失项的系数;感知损失Lpercep
是由Wang等在ESRGAN模型中提出的,利用VGG[22
]激活层之前的特征计算感知损失,克服了激活后的特征更稀疏的缺点,同时使重建后的图像亮度更接近原始高分辨率图像:
Lpercep=VGG195-4IHR()-VGG195-
4IHR
^()1
,(10)
式中,
i could be the oneVGG195_4
表示19层VGG网络在第5个最大池化层之前的第4个卷积获得的特征。
2
实验与结果分析
2.1
实验数据集
为了更具针对性地训练模型,本文用到的书画文物图像数据集全部来自各大博物馆官方网站馆藏
的书画文物数字图像。数据集总共5260张,
包含了山水、花草、动物、人物、书法和宫室等主题,其中书画材料包含了纸本和绢本等。由于每张图片均来自各大博物馆网站,因此数据集的分辨率并不一致,但平均每张分辨率在2K左右。本文按照60%作为训练集、20%作为验证集、20%作为测试集的方式将它们随机划分。2.2 实验环境
本文实验所用到的硬件设备为Intel
premi
Xeon
工程与应用徭役