594E-mail:***********
Website:
Tel: ************中国图象图形学报JOURNAL OF IMAGE A N D GRAPHICS ©中国图象图形学报版权所有
中图法分类号:TP391 文献标识码:A 文章编号:1006-8961(2021)03-0594-11
论文引用格式:Shi C J,Tu D J and Liu J Y. 2021. Re-GAN: residual generative adversarial network algorithm. Journal of Image and Graphics,26(03): 0594-0604(史彩娟,涂冬景,刘靖祎.2021. Re-GAN:残差生成式对抗网络算法.中国图象图形学报,26(03) :0594-0604) [DOI: 10. 11834/ jig. 200069]
Re-GAN:残差生成式对抗网络算法
史彩娟,涂冬景,刘靖祎
华北理工大学人工智能学院,唐山063210
摘要:目的生成式对抗网络(generative adversarial network, GAN)是一种无监督生成模型,通过生成模型和判别 模型的博弈学习生成图像。GAN的生成模型是逐级直接生成图像,下级网络无法得知上级网络学习的特征,以至 于生成的图像多样性不够丰富。另外,随着网络层数的增加,参数变多,反向传播变得困难,出现训练不稳定和梯度消失等问题.3针对上述问题,基于残差网络(residual network,ResNet)和组标准化(group normalization.GN),提出 了一■种残差生成式对抗网络(residual generative adversarial networks, Re-GAN) t方法Re-GAN在生成模型中构建深度残差网络模块,通过跳连接的方式融合上级网络学习的特征.增强生成图像的多样性和质量,改善反向传播过程,增强生成式对抗网络的训练稳定性,缓解梯度消失。随后采用组标准化(G N)来适应不同批次的学习,使训练 过程更加稳定。结果在Cifar10、CelehA和LSUN数据集上对算法的性能进行测试。Re-GAN的lS(in C eptkm score)均值在批次为64 时,比DCGAN(deep convolutional GAN)和WGAN(Wasrstein-GAN)分别提高了5% 和 30%,在批次为4时,比丨)CGAN和WGAN分别提高了 0. 2%和丨3%,表明无论批次大小,Re-GAN生成图像具有很好的多样性。Re-GAN的FID(Frtchet inception distance)在批次为64时比DCGAN和WGAN分别降低了18%和 11%,在批次为4时比DCGAN和WGAN分别降低了4%和10%,表明Re-GAN生成图像的质量更好。同时,Re-GAN缓解了训练过程中出现的训练不稳定和梯度消失等问题。结论实验结果表明,在图像生成方面,Re-GAN的生成图像质童高、多样性强;在网络训练方面,Re-GAN在不同批次下的训练具有更好的兼容性,使训练 过程更加稳定,梯度消失得到缓解。
关键词:图像生成;深度学习;卷积神经网络;生成式对抗网络;残差网络;组标准化
Re-GAN :residual generative adversarial network algorithm
Shi C a i j u a n,T u D o n g j i n g,Liu Jingyi
College of Artificial Intelligence, North China University of Science and Technology, Tangshan 063210, China
A bstract:Objective A generative adversarial network (GAN) is a currently popular unsupervid generation model that
generates images via game learning of the generative and discriminative models. The generative model us Gaussian noi to generate probability distribution, and the discriminative model distinguishes between the generated and real probability distributions. In the ideal state, the discriminative model cannot distinguish between the two data distributions. However, achieving Nash equilibrium between the generative and discriminative models is difficult. Simultaneously, some problems, such as unstable training, gradient disappearance, and poor image quality, occur. Therefore, many studies have been conducted to address the problems, and the studies can be
divided into two directions. One direction involves lecting the 收稿日期:2020-03 -13 ;修回日期:2020-06-08;预印本日期:2020-06-15
基金项目:国家自然科学基金项目(61502143);华北理工大学杰出青年基金项目UQ2〇m5);河北省研究生示范课项目(KCJSX2019097) Supported by:National Natural Science Foundation of China (61502143)
第26卷/第3期/2021年3月史彩娟,涂冬景,刘靖祎/Re-GAN:残差生成式对抗网络算法
appropriate loss function, and the other direction involves changing the structure of GAN, e. g. , from a fully connected neural network to a convolutional neural network (CNN) . A typical work involves deep convolutional GANs ( DCGANs), which adopts CNN and batch normalization ( BN) . Although DCGAN shave achieved good performance, some problems persist in the training process. Increasing the number of network layers leads to more errors, particularly gradient disappearance when the number of neural network layers is extremely high. In addition, BN leads to poor stability in the training process, particularly with small batch samples. In general, as the number of layers increas, the number of parameters increas and backpropagation becomes difficult as the number of layers increas, resulting in some problems, such as unstable training and gradient disa
ppearance. In addition, the generative model directly generates images step by step, and a lower level network cannot determine the features learned by a higher level network, and thus, the diversity of the generated images is not sufficiently rich. To address the a fore mentioned problems, a residual GAN ( Re-GAN) is propod bad on
a residual network ( ResNet) and group normalization ( GN). Method ResNet has been recently propod to solve the
problem of network degradation caud by too many layers of a deep neural network and has been applied to image classification due to its good performance. In contrast with BN, GN divides channels into groups and calculates the normalized mean and variance within each group. Calculation is stable and independent of batch size. Therefore, we apply ResNet and GN to GAN to propo Re-GAN. First, a residual module ResNet is introduced into the generative model of GAN by adding the input and the mapping to the output of the layer to prevent gradient disappearance and enhance training stability. Moreover, the residual module ResNet optimizes feature transmission between neural network layers and enhances the diversity and quality of the generated image. Second, Re-GAN adopts the standardized GN to adapt to different batch learning. GN can reduce the difficulty of standardization caud by the lack of training samples and stabilize the training proce
ss of the network. Moreover, when the number of samples is sufficient, GN can make the calculated results match well with the sample distribution and exhibit good compatibility. Result To verify the effectiveness of the propod algorithm Re-GAN, we compare it with DCGAN and Wasrstein-GAN (WGAN) with different batches of samples on three datats namely, CifarlO, CcelebA, and LSUN bedroom. Two evaluation criteria, i. e. , inception score (IS) and Frechet inception distance (FID) , are adopted in our experiments. As a common evaluation criterion for GAN, IS us the inception network trained on ImageNet to calculate the information of the generated images. IS focus on the evaluation of the quality but not the diversity of the generated images. When IS is larger, the quality of the generated images is better. FID is more robust to noi and more suitable for describing the diversity of the generated images. It is computed via a t of generated images and a t of ground images. When FID is smaller, the diversity of the generated images is better. We can obtain the following experimental results. 1 ) When the batch number is 64, the IS of the propod algorithm Re-GAN is 5% higher than that of DCGAN and 30% higher than that of WGAN. When the batch is 4, the IS of Re-GAN is 0. 2% higher than that of DCGAN and 13% higher than that of WGAN. The results show that the images generated by Re-GAN exhibit good diversity regardless of batch size. 2) When the batch number is 64, the FID of Re-GAN is 18% lower than that of DCGAN and 11% lower than that of WGAN. When the batch number is 4, the FID of Re-GAN is 4% lower than that of
DCGAN and 10% lower than that of WGAN. The results indicate that the propod algorithm Re-GAN can generate images with higher quality. 3) Training instability and gradient disappearance are alleviated during the training process. Conclusion The performance of the propod Re-GAN is tested using two evaluation criteria, i. e. , IS and FID, on three datats. Extensive experiments are conducted, and the experimental results indicate the following findings. In the aspect of image generation, Re-GAN generates high-quality images with rich diversity. In the aspect of network training, Re-GAN guarantees that training exhibits better compatibility regardless of whether the batch is large or small, and then it makes the training process more stable and alleviates gradient disappearance. In addition, compared with DCGAN and WGAN, the propod Re-GAN exhibits better performance, which can be attributed to the ResNet and GN adopted in Re-GAN.
Key words:image generation;deep learning;convolutional neural network ( CNN) ;generative adversarial network (GAN) ;residual network (ResNet) ;group normalization (GN)
中国图象图形学报
journal of image and graphics Vol. 26. No. 3, Mar. 2021
0引言
构建生成式模型需要相应数据的先验知识和大 量参数,先验知识的准确程度直接影响着模型的好 坏,而大量参数导致计算量庞大。为了解决这些问 题,G o o d f e l l o w等人(2〇U)提出了生成式对抗网络 (generative adversarial n e t w o r k s,G A N)。作为一种概率生成模型,g a n能够反映数据内在的概率分布 规律并生成全新数据,包括但不限于图像、音乐、语 音和文本等(曹仰杰等,2018)。随着对G A N的广 泛研究,G A N逐步应用到视频预测和生成(Mathieu 等,2015)、图像修复(Y e h等,20丨7)、图像翻译(Isola等,20丨7)和语义分割(Z h u等,2〇16)等领域。
G A N主要由生成模型(generative m o d e l,G)和判别模型(discriminative m o d e l,D)组成。生成模型 利用高斯噪声生成概率分布,判别模型区分生成概 率分布与真实概率分布之间的差异。因此,G A N的问题变成一个博弈问题,生成模型尽可能生成类似 真实分布的数据以迷惑判别模型,判别模型则尽可 能分辨两个数据分布的不同,理想状态是判别器无 法分辨两个数据分布的差异。然而生成模型和判别 模型之间并非很容易就能达到纳什平衡,同时也存 在训练不稳定、梯度消失等问题。解决该问题有两 种思路,一是选择合适的损失函数;二是改变G A N 的架构,如使用全连接神经网络、拉普拉斯金字塔、卷积神经网络、自注意力机制、多层神经网络等提高 G A N的生成和特征提取能力。
卷积神经网络具有很好的抽象能力,R d f o r d等 人(2015)将其应用到G A N架构中,提出深度卷积 生成式对抗网络(d e e p convolutional generative adversarial n e t w o r k s,D C G A N), 对传统 G A N 进行 改进。主要表现为:1)在生成模型和判别模型中使用卷积 网络,允许生成器学习自己的空间
降采样;2)消除 卷积特征顶部的全连接层;3 )使用批标准化(batch normalization,B N)将每层的输人都标准化为期望值 为〇、方差为1的数据。尽管D C G A N具有良好的特 征提取能力,但是在训练中存在误差增大和梯度消 失等问题,使用的B N模型也存在性能稳定性差或 无法使用等问题。
为了解决深度神经网络层数过多产生的网络退 化问题,H e等人(2016 )提出了残差网络(residual n e t w o r k,R e s N e t),在图像识别中表现出很好的性能,并由此得到广泛研究和应用。Q i u等人(2017)提出 了一种深度3维残差神经网络并用于视频理解任 务;L i m等人(2017)提出一种用于单一超分辨率图 像的增强型深度残差网络;Silver等人(2017)将残 差网络用于 A l p h a G o。Nitanda和Suzuki(2018)以及 H u a n g等人(2018)则对R e s N e t进行了理论分析,从 推进解释角度研究了 R e s N e t的泛化能力。
在深度学习中,数据标准化处理是一个非常重 要的过程,可以防止数据过拟合,加快训练速度等。Ioffe和S Ze g e d y(2015 )提出的批标准化(B N)处理得 到了广泛应用,但B N要求有足够大的批次样本,小 批次样本会导致估算不准确、模型误差增加等。为克服批次大小的影响,B a等人(2016)提出了沿通道 维度计算的层标准化(layer normalization,L N),U l yanov等人 (2016) 提出 了针对每个样本的实例标准 化(instance normalization,I N),但是准确性都较差。W u 和 H e(2020)提出了组标准化(group normalization,G N),将通道分成组 ,在组 内计算标准化均值和 方差,该计算独立于批次大小,并且精度稳定。
本文基于残差网络和组标准化提出了一种新的 生成式对抗网络——残差生成式对抗网络(resi^al generative adversarial n e t w o r k s,R e-G A N)〇首先,在 生成模型的反卷积层中增加残差模块,在层的输出 处添加输人和映射,防止梯度消失,增加训练的稳定 性。同时,残差模块使浅层反卷积神经网络的特征 可以完整地传递到下一层,增强了生成图像的多样 性和质量;其次,采用组标准化,不仅可以完成大批次 样本训练的标准化处理,而且适合小批次样本训练,使所提网络模型兼容性更好,训练过程更稳定。最 后,将本文所提算法在CifarlO.C e l e b A和I^U N数据 集上进行实验,实验结果表明了所提算法的有效性。
1生成式对抗网络
G A N是一种强大的生成模型,具有两个深度神 经网络,即生成模型(generative m o d e l,C)和判别模 型(discriminative m o d e l,Z)),G A N 的目标函数可以表示为
m i n m a x K(/),G)= 〜尸—[l o g/)(:〇] +
g
U〇g(i -D(CU)))] ⑴
第26卷/第3期/2021年3月史彩娟,涂冬景,刘靖祎/R e-G A N:残差生成式对抗网络算法
式中,表示真实数据的概率分布,匕表示根据噪
声生成数据的概率分布,£代表期望值。
生成式对抗网络中的生成模型和判别模型是相
互对抗的,在图像生成领域,生成模型的目标是尽量
生成逼真图像,判别模型用来判断目标是否为真实
图像。G A N的传统架构如图1所示,假设输人一个
根据高斯分布随机产生的噪声,在G A N学习
数据*的分布/\18时,生成模型C U;化)将噪声变 量转化为一个数据判别模型将任何输入转化为一个(〇, 1)之间的标量,用来表示输人是 真实分布的概率。
G A N基于概率的训练过程如图2所示,其中,点 线、虚线和实线分别表示真实样本分布、生成图像分 布以及判别模型,箭头表示映射% = C(Z)如何将非均 匀分布匕作用在转换后的样本上。具体过程如下:
1)考虑一个接近收敛的对抗模型对,生成的分 布A与真实分布h a la相似,且D是一个部分准确的
图1GAN的传统架构
Fig. 1Traditional framework of GAN
分类器;
2)在算法循环中,训练£»来判别数据中的样本,收敛到f U),且
Z T (幻
PdatA X)+ P e(X)
(2)
3)在G的一次更新后,D的梯度引导C〇)流向更可能分类为真实数据的区域。即£>(*)= 1/2;
4)达到平衡。
(d)达到平衡
图2 GAN基于概率的训练示意图
Fig. 2 Probability-bad training diagram of GAN( (a) initial distribution; ( b) training D; ( c) training G; ( d) equilibration)
为了提高G A N训练的稳定性,对G A N的架构 进行多种改进。R a d f o r d等人(2015)将卷积神经网 络应用到G A N架构中,提出深度卷积生成式对抗网络(d e e p convolutional generative adversarial n e t w o r k,D C G A N)。Mirza 和 Osindero(2014 )提出了 条件生 成式对抗网络(conditional generative adversarial netw o r k,C G A N),将条件变量 y作为附加信息约束生成 过程。C h e n等人(2016)提出 I n f o G A N(interpretable reprentation learning b y information maximizing g e n-erative adversarial n e t w o r k),从噪声矢量中拆分出结 构化的隐变量作为条件变量,控制生成图像的结果。
D o n a h u e等人(2016)提出的双向生成式对抗网络(bidirectional G A N,B i G A N )和 D u m o u l i n等人(2016)提出的对抗性学习推理(adversarially learned inference,A L I)将单向G A N变为双向G A N,既能进行有效推断又保证了生成图像的质量。基于变分自 动编码器(variational autoencoder,VA
E )(Rezende 等,2014)的生成模型可以用于无监督学习等任务,L arn等人(2016)将V A E和G A N
并入一个无监督 生成模型中,将编码器和解码器看做一个生成模型。
C h e等人(2016)将V A E的重构误差作为遗失模式 的正则项,提高了 G A N的稳定性和生成图像质量。W an g等人(2016)通过对G A N进行堆叠、平行或相 互反馈来调整生成模型和判别模型的组合方式,提 出G A N的自组合和级联组合形式。L i u和Tuzel (2016)提出的对生成对抗网络(coupled generative adversarial networks,CoGAN )包含一■对GAN 〇Zhu 等人(2017 )提出的循环一致性对抗网络(cycle-consistent adversarial networks , CycleGAN)包含两个判别 模型 A和 Z)v。Arjovsky 等人(2017)提出的
Wasr-
中国图象图形学报
journal of image and graphics Vol. 26. No. 3, Mar. 2021
stein生成对抗网络(Wasrstein-G A N,W G A N)弓丨入
最优化中的W a s s e r s t e i n度量距离来度量两个分布
的距离,解决模式崩溃问题,确保生成样本的多
样性。
以上方法从不同角度对G A N进行了改进,性能
得到了一定的提升,但是仍然存在训练不稳定、梯度
消失等问题。如D C G A N在训练过程中增加网络层
数会导致更大误差,当层数很深时会出现梯度消失
的状况;W G A N在寻找判别模型£>的过程中需要依
赖1-Lipschitz约束等。另夕卜,D C G A N和W G A N采
用的批标准化B N模型在重构测试样本时性能较
差,而在训练过程中稳定性较差,特别是在小批次样
本训练中根本无法使用。
2残差生成式对抗网络
本文提出的残差生成式对抗网络(residual g e nerative adversarial networks,R e-G A N)具有两方面的 优势。一方面将残差模块R e s N e t引入G A N的生成 模型,在隐藏层每一层的输出处添加输人和映射,缓 解了梯度消失问题,增强了训练稳定性,优化了神经 网络层之间的特征传递,改善了反向传播过程,提高 了生成图像的质量和多样性;另一方面采用组标准 化(G N)将输人图像按通道分组,在组内计算标准 化均值和方差,用于解决训练样本不足的问题,减少 计算误差,使网络训练过程保持稳定。在样本足够 时,G N的计算结果可以很好地符合样本分布,表明 R c-G A N具有很好的兼容性。
2.1生成模型架构
本文所提残差生成式对抗网络R e-G A N是在 G A N的生成模型中加人残差模块,其生成模型的结 构如图3所示。
R e-G A N的生成模型包含5个神经网络层,将 随机生成的高斯噪声输人生成模型,噪声经过5个 神经网络层的反卷积后,输出生成图像。生成模型 中的每个残差反卷积层(R e s-T r a n s p o s e C o n v)
都包含 反卷积层(transpo convolution,T r a n s p o s e C o n v)、组 标准化、残差块和激活函数。反卷积层通过设置多 个4 x 4的反卷积核来改变输人维度,T r a n s p o s e C-〇n v l将输入的噪声张量维度从100扩大为512,接 下来 T r a n s p o s e C o n v2、T r a n s p o s e C o n v3 和 T r a n s p o s e C-onv4每层将维度减少一半,到最后一层T r a n s p o s e C-
图3 Re-GAN生成模型架构
Fig. 3 Generative model architecture of Re-GAN
〇nv5输出的维度为3,对应R G B图像的3个通道。R e s-T r a n s p o s e C o n v层中的标准化处理为组标准化,每层都有很多卷积核,这些卷积核学习到的特征并 不完全是独立的,某些特征具有相同分布。由于使 用有界函数更有助于模型迅速在训练分布中覆盖颜 色空间,所以除最后•层输出时使用t a n h作为激活 函数,其余4个R e s-T r a n s p o s e C o n v层均使用K e L U 作为激活函数。为了使输出到下一层的特征可以保 留输人时的信息并防止梯度退化,将每个R e s-T r a n s p o s e C o n v层的输人“跳连接”到激活函数后的 输出,通过通道连接构建残差模块。由于此时两个 张量的维度数不同,输入的张量需要经过多个4 x 4 的反卷积核,使“跳连接”维度与输出张量维度相同 后才能将两者连接起来,再经过激活函数后输出到 下一层。
使用组标准化是为了兼容不同批次的标准化处 理,组标准化在批次较小时具有更好表现。另外,设
计了一个生成模型R f-G A N2与R e-G A N进行对比,二者的区别主要是R e-G A N2在跳连接前加入了组 标准化来规范跳连接,如图4所示。R e-G A N和R e-G A N2的判别模型相同。
2.2判别模型架构
R e-G A N的判别模型如图5所示。首先,输人 3通道的R G B图像,经过5个卷积层抽取图像特 征。每个卷积层使用不同数量的4 x 4卷积核获得 不同的维度张量,不添加池化层,
使得卷积层能够获