第8卷第2期Vol.8No.2 2019年3月网络新媒体技术Mar.2019
•前沿与综述•
基于深度学习的语音增强简述**
沙特取消波音订单
本文于2018-12-30收到。
*国家自然科学基金(编号:61671381)0张晓雷
(西北工业大学智能声学与临境通信研究中心西安710072西北工业大学航海学院西安710072)
devon摘要:语音增强是一种将语音从干扰声中增强出来的技术。它是语音信号处理的核心研究内容之一。近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。本文将简要回顾基于深度学习的语音增强技术。首先回顾语音增强中所采用的深度学习算法和优化目标,在此基础上,将进一步回顾具有代表性的单声道深度语音增强技术、基于固定麦克风阵列的多声道深度语音增强技术、以及基于自组织阵列的多声道深度语音增强技术。
关键词:深度学习,深度神经网络,语音增强,麦克风阵列
A Brief Review to Deep Learning Bad Speech Enhancement
ZHANG Xiaolei
(Center for Intelligent Acoustics and Immersive Communication,Northwestern Polytechnical University,Xi'an,710072,China, School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an,710072,China)
Abstract:Speech enhancement aims to parate target speech from its noi components.It is one of the core problems of speech signal processing.Recently,deep learning has been applied successfully to speech enhancement,which significantly promoted the development of speech enhancement techniques.This paper will review the deep-learning-bad speech enhancement techniques,including machine learning algorithms,optimization targets.Then,this paper will review single channel speech enhancement techniques, multichannel speech enhancement techniques bad on conventional microphone arrays,as well as multichannel speech enhancement techniques bad on ad-hoc microphone arrays.
Keywords:Deep learning,Deep neural networks,Speech enhancement,Microphone arrays
o引言
语音增强旨在将目标语音从背景干扰中分离出来。它是信号处理中的核心任务之一,具有广泛的应用,例如助听、通信、鲁棒语音识别和说话人识别。人类听觉系统具有将一种声源从多种声源的混合中提取出来的卓越能力。在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。所以,语音增强也被称为“鸡尾酒会问题”。语音增强已经在信号处理领域中得到了广泛的研究。根据麦克风的数量,语音增强方法可以分为单声道增强和基于麦克风阵列的多声道增强。单声道增强的传统方法是噪声估计丄和计算听觉场景分析(computational auditory scene analysis,CASA)[2]。噪声估计技术分析语音和噪声的整体数据,随后将纯净语音从含噪语音中估计出来"3;为了估计背景噪声,通常假设背景噪声是平稳的。CASA基于听觉场景分析的感知原理,通过交替进行基音估计和
2网络新媒体技术2019年
基于基音的分组实现语音增强⑸。
具有两个及以上麦克风的阵列实现语音增强的原理与单声道语音增强不同。例如,波束形成或空间滤波通过适当的阵列配置来增强从特定方向到达的信号、衰减来自其他方向的干扰'6'9)o最简单的波束形成方法是延迟-相加方法,它将来自目标方向的多个麦克风信号在相位上相加,使用相位差来减弱其他方向的信号。噪声衰减量取决于阵列的间隔、大小和配置—
—
通常麦克风数量越多、阵列尺寸越大,则噪声衰减的量越大。当目标和干扰源位于同一位置或彼此接近时,则不能应用空间滤波。此外,因为混响会破坏声源方位信息,所以在混响条件下波束成形的效用大大降低。
近几年来,语音增强被构造为一种有监督机器学习问题,其中CASA中的时间-频率(time frequency, T-F)掩模概念启发了有监督语音增强的学习目标的提出。该增强方法将T-F掩模应用到混合声源的时频表示上以增强目标声源"一⑷。T-F掩模的一个主要目标是理想二值掩模(ideal binary mask,IBM)问。IBM的任意T-F掩模单元是一个二值信号,它表示在含噪语音的时频谱中,目标声源在该T-F掩模单元是否占据主导。测听研究表明,IBM能同时大大提升听力正常的听者和听力受损的听者在含噪环境下的语音可懂度"-仍。如果将IBM作为计算目标,语音增强就构造成了有监督学习的基本形式——二值分类。在这种情况下,IBM在训练阶段被用作期望信号或目标函数。在测试阶段,学习机器的目标是估计IBM。自IBM首次被提出作为训练目标以来,多个更加有效的训练目标相继被提出,详见第1.2节。
自从语音增强被当作有监督分类问题以来,数据驱动的方法在语音处理领域得到了广泛的研究。在过去十年中,有监督语音增强通过使用大量的训练数据和充足的计算资源显著地改善了增强性能[,8J9]O近几年来,基于深度学习的有监督语音增强促进了语音增强的快速发展。本文将首先在第1节回顾基于深度学习的单声道语音增强算法;然后,在第2节回顾基于深度学习的固定阵列多声道语音增强算法;最后,在第3节介绍基于深度学习的自组织阵列多声道语音增强算法;第4节总结全文。
1基于深度学习的单声道语音增强
—深度神经网络和训练目标,然后回顾本节首先介绍基于深度学习的语音增强模型的两个重要方面—
基于深度学习的单声道语音增强的代表性算法。
1.1深度神经网络
深度神经网络(deep neural network,DNN)中最流行的模型是包含有输入层、隐藏层、输出层,且相邻层之间是全连接的前馈多层感知机(feedforward multilayer perceptron,MLP)O MLP使用经典的反向传播算法进行训练如。该算法通过梯度下降法优化网络权重,以最小化预测误差。预测误差是预测输岀与期望输出在某个损失函数度量下的偏差,其中预测输出是MLP网络的输出,期望输出是有监督学习的数据标注。当MLP用于分类问题时,常用的损失函数是交叉爛:
厶」og(p,
2014高考理综*)
八i=I c=1
其中,i表示输出层的第i个神经元,表示输出层的第i个神经元属于第C类的预测概率,/V和C分别表示输出层的神经元的数量和类的数量,厶”是一个二值表示式,当神经元i的期望类是c时,取l,c=1,否则取,=0o当MLP用于回归问题时,常用的损失函数是均方误差(mean square error,MSE):
railwaystation
其中元和y,分别表示第i个神经元的预测输出和期望输出。
MI.P的表示能力随着层数的增加而增加叭,尽管在理论上,具有两个隐藏层的MLP可以逼近任何函数221o但是反向传播算法存在梯度消失问题,即由输出层向输入层反向传播的误差信号计算得到的梯度将随着层数的降低而逐渐变小或消失,导致较低层的连接权重没有得到充分训练。近年来,研究人员针对该问题做了大量的改进工作,包括分层预训练、修正线性单元、残差网络等。
2期张晓雷:基于深度学习的语音增强简述3
除了 标准的 MLP ,卷积神经网络(convolutional neural networks , CNN ) 23,24 循环神经网络(recurrent neural networks , RNN)、以及生成对抗网络(generative adversarial networks , GAN )也
都在语音增强领域得到 广泛应用。CNN 通过权值共享、下采样(subsampling)、池化等新颖的设计有效降低模型参数数量和利用了 数据的结构信息。RNN 的独有结构是将当前时刻的隐藏单元输出作为下个时刻的隐藏单元的输入,非常适 合处理语音这一类具有时间序列特征的信号。一种流形的RNN 是长短期记忆(long short - term memory, LSTM)模型:”,它引入了具有门的记忆单元有效避免了梯度消失或梯度爆炸问题。GAN 包括一个生成模 型和一个鉴别模型e ,其中生成模型对有标记的真实数据建模.用于产生与有标记数据相似的“假数据”, 而鉴别模型用于区分真实数据和假数据;当真实数据与假数据无法区分时,网络训练完成。GAN 用于语音 增强的核心思路是用鉴别模型替代生成模型的损失函数。
1.2训练目标
定义一个合适的训练目标对基于深度学习的语音增强至关重要。训练目标主要有两种:掩模和频谱映 射。掩模将纯净语音和背景噪声的相对时频关系作为训练目标;频谱映射使用纯净语音的频域表示作为训 练目标。
基于深度学习的语音增强中第一个训练目标是理想二进制掩模(IBM):”"°:,定义如式(1)所示。
的=[1,HSNRg >LC
(1)
10, otherwi 其中t 和/分别指时间和频率。如果T-F 掩模单元中的信噪比超过局部标准(local criterion , LC),则令这 个T-F 掩模单元的值为1,否则为0。
理想比例掩模(ideal ratio mask. IRM )可以看作IBM 向连续空间的扩展[31_341,定义如式(2)所示。
IRM =(--------単“-f (2)
其中,S(S 和N(t,/y 分别指T-F 掩模单元中语音的能量和噪声的能量,0是可调参数.通常设为0.5。 IRM 假设S(t,fT 和Ng ,是不相关的。这一假设对加性噪声成立,但对卷积干扰不成立,例如房间含有 混响的情况。例外的是,延迟混响可以认为是不相关干扰。
复数理想比例掩模(complex ideal ratio mask , cIRM )是复数域内的理想掩模。它可以通过式(3)从含噪 语音中完美地重建纯净语音⑴)。
S = cIRM * Y (3)
其中,S 和『分别表示纯净语音和含噪语音的短时傅里叶变换(Short Term Fourier Transform , STFT) , '指复数乘积。cIRM 定义如式(4)所示。
cIRM =汽*单+ ,匕-兮 忙+ y; 忙+廿(4)
其中,y,和岭分别表示含噪语音的实部和虚部,s,和s,分别表示纯净语音的实部和虚部,i 表示虚数单位的 定义。cIRM 的实部和虚部可以在实数域中分别进行估计。因为在复数域中计算的掩模值无上下界,所以应 当使用某种形式的压缩来限制掩模值的范围,例如双曲正切函数或Sigmoid 函数。
频谱映射主要包括目标幅度谱(target magnitude spectrum, TMS) I S ( t ,/) I 136"W 和Ganimatone 频率目标 功率谱(Gammatone Frequency Target Power Spectrum, GF - TPS ) 14 o 在这种情况下,深度学习旨在构建从含 噪语音的时频图到纯净语音的时频图的映射。
上述目标中除了 cIRM 能够对复频域特征的实部和虚部同时估计以外,其他目标都只能估计纯净语音的幅度谱,因此在实际使用时,需要结合含噪相位以重构时域信号
1.3基于深度学习的单声道语音增强
2012年,Wang 和Wang 在两篇会议论文[40,41 ]中首次提出了基于深度学习的语音增强,该算法更详 尽的描述详见文献[42]。具体地,他们将基于受限玻尔兹曼机预训练的深度神经网络DNN 用于子带分类
4网络新媒体技术2019年
估计IBM。在文献[42]中,输入信号通过Gammatone滤波器组来获得子带信号,并从每个时频单元
杜威十进制中提取声学特征。这些特征构成了子带DNN的输入,用于学习更多的鉴别特征。DNN最顶层的隐层的输岀特征与原始声学特征并联在一起作为线性支持向量机(support vector machine,SVM)的输入特征,用以估计子带IBM。
Lu等提出使用预训练的降噪编码器预训练DNN学习从含噪语音的梅尔谱到纯净语音的梅尔谱的频谱映射3」。Xu等人提出使用受限玻尔兹曼机预训练的DNN学习从含噪语音的对数功率谱(log power spectrum,LPS)到纯净语音的对数功率谱的频谱映射九":。文献[43,44]将基于长短时记忆模型LSTM的递归神经网络用于语音增强。文献[45]使用RNN估计相位敏感掩模(pha-nsitive mask,PSM)。文献[46,47]研究了音素层面的语音增强。文献[48]使用多目标学习提高增强的性能。文献[49]使用深度集成学习估计IRM。文献[50-52]使用CNN估计幅度谱。除了基于掩模和映射的方法之外,最近也提出了基于端到端的深度学习语音增强⑴」,它的潜在好处在于避免了在重建增强后的语音时使用含噪语音的相位谱。此外,基于GAN的生成器是一个可以执行增强或者去噪的完全卷积网络。文献[54]的实验表明,基于GAN的增强算法与基于DNN的增强算法效果类似。liuxi
2基于深度学习的固定阵列多声道语音增强算法
麦克风阵列记录了包括声源的空间指向性等多声道信息。该信息可以帮助确定声源的位置。传统基于空间信息的语音增强,例如波束形成、独立成分分析,需要进行精确的声源定位,而这在实际中有时难以做到。基于深度学习的固定阵列多声道算法有助于解决上述问题。
2.1基于空间特征提取的多声道增强
将阵列提供的空间信息作为DNN的输入特征是基于深度学习的单声道语音增强向多声道语音增强的直接扩展。这种利用空间信息的方式为结合基于深度学习的单声道语音增强和空间声学特征提供了框架。
2014年,Jiang等人[55]首次提出将DNN用于双声道语音增强的研究。该方法从双耳麦克风抽取时频域的空间特征耳间时间差(interaural time differences,ITD)和耳间水平差(interaural level differences,ILD)特征和单声道特征Gammatone频率倒谱系数送入子带DNN估计IBM。我们称声学环境中的声源和传感器的相对位置为空间布局。因为双耳麦克风有无限种空间布局,而一个训练集无法列举出所有的布局,所以空间布局的泛化能力是有监督学习的重点。文献[55]实验结果发现,DNN在不匹配的测试声源空间布局中的泛化性能良好。
Araki等人[56]随后提出基于DNN的频谱映射。该方法的输入特征除了单声道特征以外,还包含了空间特征ILD和耳间相位差(interaural pha difference,IPD),以及从位置信息中计算得到的掩模信息。Yu等[57]将空间特征IPDJLD和双声道短时傅里叶变换的时频单元对作为DAE的输入。
近期,Zhang和Wang[58]使用波束形成器(Beamformer)抽取频域特征,从多个声道信号的短时傅里叶变换中抽取空间特征作为DNN的输入用于1RM的估计。该方法使用了更加复杂的空间和频谱特征。
实验结果表示,在抽取频谱特征之前使用波束形成器是一种有效的方法。
虽然上述算法只包括两个麦克风,我们可以将这些方法直接扩展到包含了多个麦克风的阵列。以文献[57]为例,因为传统的波束形成器可以配置任意数量的麦克风,所以使用了多个麦克风的时频谱特征的提取不需要改变;尽管时频特征的空间维度因麦克风数量的增加而扩大,但通过声道的协方差矩阵分析以后抽取的空间特征是与麦克风的数量无关的。
2.2基于时频掩码的波束形成
波束形成旨在增强以给定角度为中心的到达角区域内的信号,同时抑制不在区域内的信号。波束形成器需要知道目标方向。传统波束形成器通过估计目标源的到达方向(direction-of-arrival,DOA)计算导向矢量。在CHiME-3的鲁棒语音识别竞赛中,两个独立的研究组同时提出了基于深度学习的波束形成,这两
2期张晓雷:基于深度学习的语音增强简述5
个工作发表于2016年的国际声学、语音与信号处理会议(international conference on acoustics,speech and sig-nal processing,ICASSP)[59-60,o它们使用单声道深度学习方法进行噪声估计,为计算导向矢量提供了基础,巧妙地绕过了传统波束形成器需要经DOA估计完成的任务:①声
源定位;②目标声源的选择。下面以最小方差无失真响应(minimum variance distortionless respon,MVDR)为例。
MVDR旨在最小化非目标方向上的噪声能量,同时附加…个线性约束以维持目标方向信号的能量不变。具体地,麦克风频域信号模型可以表示为式(5)模型。
y(t,C=c(/)s(t,/)+ (5)其中和分别表示STFT第t帧和第/个频带上的含噪语音信号和噪声信号的空间向量,s(t,/)表示声源的STFT标量,c(/)表示阵列的导向矢量=c(/)5(Z,/)表示麦克风阵列接收的纯净语音信号。
对于每个频率/.MVDR最小化波束形成器的平均输出能量可以得到滤波器w(/)o出于简洁考虑,我们省略以后公式中的频率。至此,MVDR的优化问题如式(6)所示。
u)opl=argmin”{w H(P nu)|'其中w满足w H c=1(6)其中,H表示共辄转置,0”表示噪声的空间协方差矩阵。因为最小化输出能量等价于最小化噪声能量,所以上述优化目标具有闭式解,如式(7)所示。
将叫”应用于含噪语音,可得估计的纯净语音如式(8)所示。
~s(t)="爲y(t)⑻由上可知,MVDR关键在于精确地估计c和⑦”。c对应于¢,的最大主成分分量,其中¢,是纯净语音的空间协方差矩阵。在语音和噪声不相关的条件下,存在・=◎、-①”。因此,与传统语音
增强方法类似,噪声估计对于基于深度学习的波束形成也至关重要。文献[59]使用LSTM估计每个声道的IBM,得到的预测掩模被用于估计语音和噪声的协方差矩阵。在文献[59,60]的基础上,诞生了多种改进的波束形成方法,例如对特征的改进、模型的改进3、对掩模的改进心)、增加后处理〔⑷等,由于篇幅所限,在此不再赘述。
3基于深度学习的自组织阵列波束形成算法绝命毒师结局
已有的基于深度学习的波束形成算法假设信号的获取来自于传统麦克风阵列,例如线形阵列、圆形阵列等固定阵列。这种阵列因固定于具体设备而受声源与设备之间的距离影响比较大。因声音在空气中传播衰减速度快,所以当阵列过远时接收的信号信噪比会显著降低。
customer2018年,Zhang和F a n[65]提出了基于深度学习和自组织阵列的波束形成,即深度自组织波束形成。因为自组织阵列的麦克风随机地分布于房间中,所以其中某些麦克风会依大概率接近于声源,从而减轻了阵列与声源之间的距离对性能的影响。文献[65]中修改了信号模型,如式(9)所示。
y p(t,/)=pOy(i,/)=pQx(t,f)+pQ>n(t,f)(9)其中,P是信道权重,O表示点乘。P是由信噪比预测模型g(•)得到的。文献[64]使用神经网络作为预测模型g(•)用以预测信噪比,具体描述详见文献[64]。g(•)有两部分输入齐和;,,如式(10)所示。excite在线翻译
_1-I
英语陪同翻译
久=万若久⑴,玄=万若s,(t),H i=1,M(10)其中,M表示麦克风的数量,/,(«)表示第i个麦克风接收的第t帧信号的原始声学特征*,&)表示该帧特征在经过单声道语音增强模型DNN后的预测输出=m,(2)Oy,(t),其中九(C表示DNN的掩模输出。给定这两部分输入,预测模型g(•)可以表示为式(H)o
P,=g([%,可]J,V i=1,M(11)