第40卷第1期声学技术Vol.40, No.1
引用格式:曹中辉, 黄志华, 葛文萍, 等. 注意力机制对生成对抗网络语音增强迁移学习模型的影响[J]. 声学技术, 2021, 40(1): 77-81. [CAO Zhong-hui, HUANG Zhihua, GE Wenping, et al. Influence of attention mechanism on generative adversarial network speech enhancement transfer learning model[J]. Technical Acoustics, 2021, 40(1): 77-81.] DOI: 10.16300/jki.1000-3630.2021.01.012
注意力机制对生成对抗网络语音增强迁移
学习模型的影响
曹中辉,黄志华,葛文萍,黄浩
(新疆大学信息科学与工程学院,信号检测与处理新疆维吾尔自治区重点实验室,新疆乌鲁木齐830001)
摘要:基于深度学习的语音增强模型对训练集外语言语音和噪声进行降噪时,性能明显下降。为了解决这一问题,提出一种引入注意力机制的生成对抗网络(Generative Adversarial Network, GAN)语音增强迁移学习模型。在生成对抗语音增强模型的判别模型中引入注意力机制,以高资源场景下的大量语音数据训练得到的语音增强模型为基础增强模型,结合低资源场景下的少量语音训练数据,对基础增强模型进行权重迁移,提升低资源场景下语音增强模型的增强效果。实验结果表明,采用注意力机制的生成对抗
语音增强迁移学习模型,对低资源场景下的带噪语音和集外噪声可以进行有效的降噪。
关键词:生成对抗网络(GAN);语音增强;迁移学习;跨语言语音增强;注意力机制
中图分类号:H107 文献标志码:A 文章编号:1000-3630(2021)-01-0077-05
Influence of attention mechanism on generative adversarial network speech enhancement transfer learning model
CAO Zhonghui, HUANG Zhihua, GE Wenping, HUANG Hao
(College of Information Science and Engineering, Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region,
Xinjaing University, Urumqi 830001, Xinjiang, China)
Abstract: The deep learning bad speech enhancement model encounters the problem of enhancement performance degradation when de-noising the unen languages and noi in training ts. In order to solve this problem, a genera-tive adversarial network (GAN) speech enhancement transfer learning model with attention mechanism (called ATGAN speech enhancement model) is pro
pod in this paper. The attention mechanism is introduced into the dis-criminator of GAN speech enhancement model. Bad on the well-trained model obtained with high-resource materi-als and combining a small amount of speech training data in low-resource condition, the weight transfer of the basic enhancement model trained with low-resource data is carried out to improve the enhancement effect in low-resource condition. Experiments show that the u of ATGAN speech enhancement model can effectively enhance the de-noising effect of low-resource noisy speech.
Key words: generative adversarial network (GAN); speech enhancement; transfer learning; cross-language speech en-hancement; attention mechanism
0 引言
足癣怎么治才能断根语音增强[1]是从带噪信号中恢复出原始信号的一种信号处理技术。谱减法、维纳滤波等基于统计模型的方法是语音增强领域中广泛使用的经典方法[2-4],但是传统语音增强方法对于非平稳噪声的增强效果有限。近些年来,深度学习技术在语音增强收稿日期: 2019-12-06; 修回日期: 2020-02-03
基金项目: 新疆维吾尔自治区自然科学基金项目资助(2017D01C044) 作者简介:曹中辉(1996-), 男, 新疆库尔勒人, 硕士研究生, 研究方向为语音信号处理。
通信作者: 黄志华,E-mail:***************领域取得显著进步,基于降噪自编码器,深度神经网络(Deep Neural Network, DNN)、卷积神经网络(Convolutional Neural Network, CNN)、长短时记忆网络(Long Short-Term Memory, LSTM)的语音增强方法先后被提出[5-8],这些基于深度神经网络的增强模型能有效抑制非平稳噪声。2014 年,Goodfellow 等[9]提出生成对抗网络(Generative Ad-versarial Network, GAN)。2017年,Santiago等[10]将GAN应用在语音增强上,提出一种端到端的GAN语音增强框架(Speech Enhancement GAN, SEGAN),在客观和主观测评指标上均优于传统维纳滤波方法。Daniel等[11]提出条件GAN (Conditional
78 声学技术2021年
GAN, cGAN)结构进行语音增强,测评结果在主观
语音质量评估(Perceptual Evaluation of Speech
Quality, PESQ)指标上优于基于最小均方误差的短
时幅度谱增强方法(Short-time Spectral Amplitude
Minimum Mean Square Error, STSA-MMSE)和基于
DNN的理想比值掩模(Ideal Ratio Mask, IRM)增强
算法。2018年,Li等[12]将GAN应用在语音去混响
上,与权重预测误差(Weighted Prediction Error,
WPE)系统和基于DNN的去混响方法相比,PESQ 和语音混响调制能量比(Speech to Reverberation Modulation Energy Ratio, SRMR)值更高。现有增强方法虽然取得有效的增强效果,但均采用单一语言数据对增强模型进行训练,并未探讨单一语言增强模型对新语言语音的增强效果。2014年,Xu等[13]对基于DNN语音增强框架进行模型迁移实现了跨语言语音增强,对于低资源新语言语音的增强效果优于低资源单语言语音训练出的模型。2017年,Santiago等[14]用SEGAN迁移学习模型对新语言带噪语音进行去噪,采用英语单语言增强模型对网络进行参数初始化,低资源语音采用韩语和加泰罗尼亚语,以迁移学习的方式训练SEGAN,对低资源带噪语音的去噪效果与直接用低资源语音数据训练的SEGAN相比,在评测指标分段信噪比(Segmental Signal Noi Ratio, SSNR)上提升了10 dB,PESQ值提升了将近1。
研究表明,在卷积神经网络中引入注意力机制可进一步提升网络的分类准确性[15-16]。本文提出一种在生成对抗网络中引入注意力机制的迁移学习模型(Attention Transfer Learning Generative adver-sarial Network, ATGAN),有效提高了低资源语言场景下少量语音的去噪效果。
1 GAN语音增强
GAN是一种基于生成对抗思想训练的神经网络模型,由生成模型(Generator) G和判别模型(Discriminator) D两部分组成。GAN的结构图如图1所示。
G将随机噪声生成尽可能符合真实数据分布的数据,D负责区分输入数据是G生成的数据还是真实数据。对于给定的真实数据x,D为其打上标签1;对于给定的生成数据G(n),D为其打上标签0。在对抗训练过程中,传给D的生成数据G(n),则尽可能让D为其打上标签1。D将判决结果误差传递给G模型,直到D对于给定数据预测为真的概率逼近0.5,达到纳什均衡。这一过程可表示为[10]
图1 生成对抗网络(GAN)的结构图
Fig.1 GAN structure diagram
[]
{}
data
~()2
~()2
找笔画
min max(,)E[log()]
E log1()
n
D G x p x
n p n
f G D D x
D G n
=+
−(1)其中:n表示噪声,x为真实数据。为了更好地控制生成数据的质量,常在G和D中加入条件y,此时目标函数为
[]
{}
data
2
,~
~(),~()2
data
min max(,)E[log(,)]
(,)
E log1(,),
n
D G x y p
n p n y p y
f G D D x y
x y
D G n y y
=+
−(2) GAN语音增强模型中的G即为语音增强部分,可由CNN或者LSTM网络构成。干净语音为x,n为带噪语音,达到均衡后的G输出即为增强后的语音。
2引入注意力机制的生成对抗网络语音增强迁移学习模型
迁移学习是将模型在某一领域学到的知识迁移到相近或者不同领域的技术。迁移学习使模型能够在已有知识的基础上快速有效解决新目标域的问题,其在机器学习和数据挖掘领域具有重要研究价值[17]。本文提出一种在GAN网络中引入注意力机制的GAN语音增强迁移学习模型(ATGAN),进一步提高GAN语音增强迁移学习模型对低资源带噪语音的去噪效果。ATGAN语音增强模型注意力机制示意图如图2所示。
给定输入特征图F,通过通道注意力模块,得到通道注意力权重C(F),然后与输入特征图相乘,
图2 ATGAN语音增强模型注意力机制示意图
Fig.2 Attention mechanism in ATGAN speech
enhancement model
第1期 曹中辉等:注意力机制对生成对抗网络语音增强迁移学习模型的影响 79
结果1F 送入空间注意力模块,得到空间注意力权重1()S F ,与中间输入1F 相乘,得到修正后的特征图2F ,数学描述为
1(),F C F F =⊗ (3)
211()F S F F =⊗
(4)
式(3)、(4)中的⊗表示点乘。C 表示通道注意力模块映射函数,S 表示空间和注意力模块映射函数。
生成模型G 由22层包含跳跃连接的对称U 型卷积和反卷积层构成[18]。网络结构如图3所示。
图3 ATGAN 语音增强模型生成模型G 的结构 Fig.3 Structure of generator G in ATGAN speech enhancement model
音频数据经过预处理,送入G 的维度为16 384×1,卷积操作为一维卷积,激活函数为Prelu ,卷积核宽为31,步长为2。卷积部分结束输出维度为8×1 024,然后从相应维度的标准正态分布中采样,与卷积结果拼接,送入与卷积部分对称的反卷积网络。
D 的结构如图4所示,由编码和注意力模块组成,编码部分为9层下采样卷积层,由一维反卷积和正则化层构成,激活函数为Lrelu ,卷积核大小为31,步长为2。下采样结束得到8×1 024维度的编码结果,送入注意力模块,经过最大池化和平均池化以及sigmoid 函数操作,得到经通道注意力权重修正后的特征图,然后结果经过最大池化和平均池化处理后进行拼接,再送入一维卷积,卷积核大小为7,个数为1,得到经空间注意力权重修正的特征图,最后得到更为准确的分类结果,流程图如图5所示。
图4 ATGAN 语音增强模型判别模型D 的结构 Fig.4 Structure of discriminator D in ATGAN speech enhancement model
图5 注意力模块结构流程图
睡得香Fig.5 Structure flowchart of attention module
参考文献[19],损失函数(loss)设计如下: data 2~(),~()2min ()1
E log (((,),)1) 2
n G n p n y p y f G D G n y y =
− (5) data data 2,~(,)2
~(),~()1
min ()E ((,)1)2
1 E (((,),)2
n D x y p x y n p n y p y f D D x y D G n y y =−+
(6)
生成对抗网络引入注意力机制后,通过高资源(文中的资源是指训练模型数据资源的丰富程度,高资源指训练数据充足的场景,低资源是指训练数据非常少的场景,直接采用低资源场景下的训练模型无法达到较好的增强效果)语音数据训练得到网络权重参数更为合理的预训练模型,然后采用低资源场景下的少量语音数据,对预训练模型进行权重迁移,得到引入注意力机制的GAN 语音增强迁移学习模型。
3 实验与讨论
3.1 数据集准备与网络参数设置
为了评估和分析本文提出的ATGAN 语音增强模型对低资源语音的去噪效果,采用英语数据训练的模型迁移到对维吾尔语进行增强的ATGAN 上。英语数据集采用Voice Bank 语料库[20],训练集由28位说话人组成,包括14位男性、14位女性;为了获得带噪语音数据集,从Demand 数据集中选择kitchen ,field ,washing ,station ,river ,park ,hallway ,meeting ,restaurant ,traffic ,metro 11种噪声[21],分别以0、5、10、15 dB 的信噪比与干净语音合成,得到带噪语音训练集,共11 572条。维吾尔语数据集采用THUYG-20[22],带噪语音训练集
的合成方法
80 声学技术2021年及噪声条件与英语带噪语音一致,共300条维吾尔
语带噪语音;测试集从Demand数据集中选择bus,
cafeteria,square,living,office 5种噪声类型(不在
训练集内),以2.5、7.5、12.5、17.5 dB的信噪比与
干净语音合成得到。
ATGAN网络参数设置如下:学习率为0.000 2,
批大小为100,迭代期数(epoch)大小为340。优化
算法采用RMSprop算法[23]。
为了评估ATGAN语音增强模型的去噪效果,
我们采用对数谱距离(Log Spectral Distance, LSD),
PESQ、短时客观可懂度(Short-Time Objective In-
telligibility, STOI) 3种客观评价指标,LSD越小,
表明增强效果越好,PESQ和STOI越大,表明增强
效果越好。
3.2 ATGAN语音增强模型去噪效果
为了评估ATGAN语音增强模型的去噪性能,
基线模型采用迁移学习SEGAN(TSEGAN)作为对
比实验算法,实验结果如表1~3所示。从表中可
看出,ATGAN语音增强模型增强效果均优于
TSEGAN模型,ATGAN可进一步提升对低资源带
噪语音的增强效果,语音的客观质量、感知效果和
可懂度均有提高。分析认为,在迁移学习生成对抗
福建大专排名网络中引入注意力机制,经语音数据训练得到的预
训练模型的权重参数更为合理,然后进行权重迁
移,注意力机制有助于生成模型重点关注和捕获噪
表1ATGAN和TSEGAN的LSD指标比较
Table 1 LSD comparison between ATGAN and TSEGAN
模型
不同信噪比时LSD指标
2.5 dB7.5 dB12.5 dB17.5 dB
noisy 1.585 2 1.328 6 1.063 40.824 8 TSEGAN 1.259 0 1.136 4 1.004 80.890 7 ATGAN 1.178 3 1.026 40.904 80.797 2
表2ATGAN和TSEGAN的PESQ指标比较
Table 2 PESQ comparison between ATGAN and TSEGAN
模型
不同信噪比时PESQ指标
睡美人山2.5 dB 7.5 dB 12.5 dB 17.5 dB
noisy 1.686 4 2.120 8 2.525 1 2.906 2 TSEGAN 1.926 4 2.430 9 2.835 7 3.124 3 ATGAN 2.079 8 2.532 4 2.922 2 3.254 8
表3ATGAN和TSEGAN的STOI指标比较
Table 3 STOI comparison between ATGAN and TSEGAN
模型
不同信噪比时STOI指标/%
2.5 dB 7.5 dB 12.5 dB 17.5 dB
noisy 72.02 81.51 88.91 94.26 TSEGAN 78.01 85.60 91.68 95.32 ATGAN 78.54 86.34 91.72 95.36 声与纯净语音之间的关系,降低语种因素对重建干净语音的影响。
3.3 ATGAN语音增强模型的噪声迁移鲁棒性能
分析
为了验证ATGAN语音增强模型的增强性能对不同类型、不同信噪比噪声的迁移鲁棒性,分析了五种噪声在四种信噪比下的增强效果,结果如图6所示,图中实线表示ATGAN语音增强模型的去噪结果,图注中用(at)表示,虚线表示直接采用SEGAN模型训练的得到的去噪结果,图注中用()表示。从图6中的LSD和PESQ指标可看出,对于bus,office,square噪声,模型的增强结果最优,而cafe噪声的迁移效果最差。通过频谱分析,发现bus噪声的能量主要分布在0~1 000 Hz频率段,而cafe噪声不仅在0~1 000 Hz的频率段内能量较高,在1 000~2 000 Hz内也具有较高的能量,而且分布更为均匀,这可能是两种噪声迁移去噪效果有差别的原因之一。从测试曲线图中还可看出,信噪比越低,模型的提升效果越明显。
(a) LSD指标
(b) PESQ指标
图6 ATGAN语音增强模型对不同噪声的去噪效果
Fig.6 Denoising effects of ATGAN speech enhancement model on different nois
第1期曹中辉等:注意力机制对生成对抗网络语音增强迁移学习模型的影响81
4 结论
本文提出一种引入注意力机制的GAN语音增强迁移学习模型,利用已有语言语音训练的增强模型,再结合极少量的新语言语音资源对模型进行训练,可以对新语言低信噪比语音进行有效增强,提高增强后语音的质量。同时,训练GAN语音增强模型的时间和所需数据量均大大减少。实验结果表明,ATGAN语音增强模型相对于SEGAN迁移学习模型,去噪后语音的感知质量和可懂度都有进一步提升。本文也讨论了ATGAN在不同信噪比下对不同噪声的迁移增强性能,结果表明,ATGAN对集外噪声有更好的去噪效果。本文结论可为建立低资源新语言场景下的语音增强模型提供参考。在今后的工作中,将进一步研究采用生成对抗网络不同层进行权重迁移对语音增强效果的影响。
参考文献
[1]LOIZOU P C. Speech enhancement[M]. Boca Raton: CRC Press,
2013.
[2]LIM J S, OPPENHEIM A V. All-pole modeling of degraded
speech[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1978, 26(3): 197-210.
[3]BOLL S F. Suppression of acoustic noi in speech using spectral
subtraction[J]. IEEE Transactions on Acoustics, Speech, and Sig-nal Processing, 1979, 27(2): 113-120.
gb18030[4]EPHRAIM Y. Statistical-model-bad speech enhancement sys-
tems[J]. Proceedings of the IEEE, 1992, 80(10): 1526-1555.
[5]LU X G, TSAO Y, MATSUDA S, et al. Speech enhancement bad
on deep denoising Autoencoder[C]//Conference of the Interna-tional Speech Communication Association, 2013: 436-440.
[6]XU Y, DU J, DAI L R, et al. A regression approach to speech
enhancement bad on deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1): 7-19.
[7]KOUNOVSKY T, MALEK J. Single channel speech en-hancement
using convolutional neural network[C]//2017 IEEE International Workshop of Electronics, Control, Me
asurement, Signals and their Application to Mechatronics (ECMSM). Donostia-San Sebastian, Spain. IEEE, 2017: 1-5.
[8]WENINGER F, ERDOGAN H, W ATANABE S, et al. Speech
enhancement with LSTM recurrent neural networks and its appli-cation to noi-robust ASR[C]//Latent Variable Analysis and Signal Separation, 2015.
[9]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al.
Generative adversarial nets[C]//NIPS'14: Proceedings of the 27th
International Conference on Neural Information Processing Sys-tems-Volume 2.2014: 2672-2680.
[10]PASCUAL S, BONAFONTE A, SERRÀ J. SEGAN: speech en-
hancement generative adversarial network[C]//Conference of the International Speech Communication Association 2017. ISCA: ISCA, 2017: 3642-3646.
[11]MICHELSANTI D, TAN Z H. Conditional generative adver-sarial
networks for speech enhancement and noi-robust speaker verifi-cation[C]//Interspeech 2017. ISCA: ISCA, 2017: 2008-2012. [12]LI C X, W ANG T Q, XU S, et al. Single-channel speech
dere-verberation via generative adversarial training[C]//Conference of the International Speech Communication Association 2018.
ISCA: ISCA, 2018: 1309-1313.
[13]XU Y, DU J, DAI L R, et al. Cross-language transfer learning for
deep neural network bad speech enhancement[C]//The 9th In-ternational Symposium on Chine Spoken Language Pro-cessing.
Singapore, Singapore. IEEE, 2014: 336-340.
[14]PASCUAL S, PARK M, SERRÀ J, et al. Language and noi
transfer in speech enhancement generative adversarial net-work[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada.
IEEE, 2018: 5019-5023.
[15]HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation net-
works[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. Salt Lake City, UT, USA. IEEE, 2017: 2011-2023. [16]WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block
attention module[C]//European Conference on Computer Vi-sion(ECCV), 2018: 3-19.
[17]PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Trans-
地塞米松片用法用量actions on Knowledge and Data Engineering, 2010, 22(10): 1345- 1359.
[18]RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional
networks for biomedical image gmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015, 2015.
[19]MAO X D, LI Q, XIE H R, et al. Least squares generative
杭州大学生创业ad-versarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 2813-2821. [20]VEAUX C, YAMAGISHI J, KING S. The voice bank corpus:
Design, collection and data analysis of a large regional accent speech databa[C]//2013 International Conference Oriental CO-COSDA held jointly with 2013 Conference on Asian Spoken Lan-guage Rearch and Evaluation (O-COCOSDA/CASLRE). Gur-gaon, India. IEEE, 2013: 1-4.
[21]THIEMANN J, ITO N, VINCENT E. The Diver Environments
Multi-channel Acoustic Noi Databa (DEMAND): a databa of multichannel environmental noi recordings[C]//Montreal, Canada. ASA, 2013.
[22]艾斯卡尔·肉孜, 殷实, 张之勇, 等. THUYG-20: 免费的维吾尔语
语音数据库[J]. 清华大学学报(自然科学版), 2017, 57(2): 182-187.
Aisikaer Rouzi, YIN Shi, ZHANG Zhiyong, et al. THUYG-20: a free Uyghur speech databa[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(2): 182-187.
[23]TIELEMAN T, HINTON G. Lecture 6.5-RMSprop: divide the
gradient by a running average of its recent magnitude[Z].
COURSERA: Neural Networks for Machine Learning, 2012.