多声道声音的识别和定位方法、装置、设备及存储介质
1.本发明涉及声音识别和定位技术领域,尤其涉及一种多声道声音的识别和定位方法、装置、设备及存储介质。
背景技术:
2.芬兰的emre提出了用于声音事件定位与检测(seld)的卷积递归神经网络(crnn),其先利用卷积神经网络进行识别特征的提取,再利用递归神经网络对复合声音的事件进行识别,进而分离和识别出包含的音频事件,并使用两个全连接层进行定位和识别。然而,基于crnn的seld会生成大量的参数,因此,在使用crnn进行声音事件定位与检测需要较高的内存带宽和较大的内存缓冲区。
3.为了减少声音事件定位与检测过程中产生的参数量,德国的斯图加特大学karim guirguis在seld中采用时域卷积网络(tcn)的因果卷积。但是,基于tcn的seld存在参数间耦合性过高的缺陷,参数间较高的耦合性容易造成模型训练的反向过程中的权重优化相互影响,进而导致模型的泛化能力减弱、识别定位精度下降。
技术实现要素:
4.本发明的主要目的在于提供一种多声道声音的识别和定位方法、装置、设备及存储介质,旨在解决现有技术中基于tcn的seld存在参数间耦合性过高,进而导致模型的泛化能力减弱、识别定位精度下降的技术问题。
5.为实现上述目的,本发明提供了一种多声道声音的识别和定位方法、装置、设备及存储介质方法,所述方法包括以下步骤:
6.获取第一多声道声音的gabor特征和gcc-phat特征,其中,所述gabor特征包括所述第一多声道声音中各音频段的第一标签,所述第一标签为真实种类,所述gcc-phat特征包括所述第一多声道声音中各音频段的第二标签,所述标签信息为真实位置和真实角度;
7.将所述gabor特征输入到第一模型中,获得所述第一多声道声音中各音频段的预测种类;
8.根据所述gabor特征确定所述gcc-phat特征的掩膜,并将经过掩膜后的gcc-phat特征输入到第二模型中,获得所述第一多声道声音中各音频段的预测值,所述预测值包括预测位置和预测角度;
9.根据所述第一模型和第二模型得到目标网络模型;
10.将第二多声道声音输入到所述目标网络模型中,得到所述第二多声道声音中目标音频段的种类、位置及角度。
11.优选地,所述获取第一多声道声音的gabor特征,包括:
12.将所述第一多声道的第一基础特征输入到gabor滤波器组中的四层卷积层中,得到静态特征;
13.将所述静态特征输入到gabor滤波器组中的差分操作层中,得到动态特征;
14.基于所述静态特征和所述动态特征,确定所述第一所声道声音的gabor特征。
15.优选地,所述将所述第一多声道的第一基础特征输入到gabor滤波器组中的四层卷积层中,得到静态特征,包括:
16.将所述第一多声道的第一基础特征输入所述四层卷积层中的第一卷积层中,得到第二基础特征;
17.将所述第二基础特征输入到所述四层卷积层中的全局均值池化层中,得到第三基础特征;
18.将所述第三基础特征输入到所述四层卷积层中的高斯低通滤波层中,得到第四基础特征;
19.将所述第四基础特征输入到所述四层卷积层中的归一化层,得到静态特征。
20.优选地,所述获取第一多声道声音的gcc-phat特征,包括:
21.获取第一多声道声音中各音频段的第二标签;
22.在基于所述第二标签确定各音频段的阵列响应之后,根据所述阵列响应确定所述第一多声道声音的gcc-phat特征。
23.优选地,所述根据所述gabor特征确定所述gcc-phat特征的掩膜,包括:
24.将所述gabor特征输入resnet18网络中的sigmoid层,生成随机数;
25.将所述随机数作为所述gcc-phat特征的掩膜。
26.优选地,根据所述第一模型和第二模型得到目标网络模型,包括:
27.根据所述第一标签与预测种类的差值,得到第一误差;
28.根据所述第二标签与预测值的差值,得到第二误差;
29.基于第一误差和第二误差更新所述第一模型和第二模型,得到目标网络模型。
30.优选地,所述基于第一误差和第二误差更新所述第一模型和第二模型,得到目标网络模型,包括:
31.基于所述第一误差和所述第二误差,确定联合损失;
32.基于所述联合损失更新所述第一模型和第二模型,得到目标网络模型。
33.此外,为实现上述目的,本发明还提出一种多声道声音的识别和定位装置,所述多声道声音的识别和定位装置包括:
34.获取模块,用于获取第一多声道声音的gabor特征和gcc-phat特征;
35.所述获取模块,还用于将所述gabor特征输入到第一模型中,获得所述第一多声道声音中各音频段的预测种类;
36.所述获取模块,还用于根据所述gabor特征确定所述gcc-phat特征的掩膜,并将经过掩膜后的gcc-phat特征输入到第二模型中,获得所述第一多声道声音中各音频段的预测值;
37.所述获取模块,还用于根据所述第一模型和第二模型得到目标网络模型;
38.识别定位模块,用于将第二多声道声音输入到所述目标网络模型中,得到所述第二多声道声音中目标音频段的种类、位置及角度。
39.此外,为实现上述目的,本发明还提出一种多声道声音的识别和定位设备,所述多声道声音的识别和定位设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多声道声音的识别和定位程序,所述多声道声音的识别和定位程序配置为实现
如上文所述的多声道声音的识别和定位方法的步骤。
40.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有多声道声音的识别和定位程序,所述多声道声音的识别和定位程序被处理器执行时实现如上文所述的多声道声音的识别和定位方法的步骤。
41.本发明通过将识别提取到的gabor特征来对gcc-phat特征进行掩膜处理,即通过低维特征对高维特征进行掩码操作,再将进行掩膜处理后的gcc-phat特征用于训练网络模型,能够解决现有技术中基于tcn的seld存在参数间耦合性过高,进而有效提高模型的泛化能力以及模型的识别定位精度。
附图说明
42.图1是本发明实施例方案涉及的硬件运行环境的多声道声音的识别和定位设备的结构示意图;
43.图2为本发明多声道声音的识别和定位方法第一实施例的流程示意图;
44.图3为本发明多声道声音的识别和定位方法第二实施例的流程示意图;
45.图4为本发明多声道声音的识别和定位装置第一实施例的结构框图。
46.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
47.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
48.参照图1,图1为本发明实施例方案涉及的硬件运行环境的多声道声音的识别和定位设备结构示意图。
49.如图1所示,该多声道声音的识别和定位设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
50.本领域技术人员可以理解,图1中示出的结构并不构成对多声道声音的识别和定位设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
51.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多声道声音的识别和定位程序。
52.在图1所示的多声道声音的识别和定位设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明多声道声音的识别和定位设备中的处理器1001、存储器1005可以设置在多声道声音的识别和定位设备中,所述多声道声音的识别和定位设备通过处理器1001调用存储器1005中存储的多声道声音的识别和定位程序,并执行本发明实施例提供的多声道声音的识别和定位方法。
53.本发明实施例提供了一种多声道声音的识别和定位方法,参照图2,图2为本发明一种多声道声音的识别和定位方法第一实施例的流程示意图。
54.本实施例中,所述多声道声音的识别和定位方法包括以下步骤:
55.步骤s10:获取第一多声道声音的gabor特征和gcc-phat特征,其中,所述gabor特征包括所述第一多声道声音中各音频段的第一标签,所述第一标签为真实种类,所述gcc-phat特征包括所述第一多声道声音中各音频段的第二标签,所述标签信息为真实位置和真实角度;
56.具体地,gabor特征指的是声音事件检测(sound events detected)的sed分支的特征,gabor特征可以通过mel滤波器组获取,gcc-phat特征指的是声音事件检测(sound events detected)的doa分支的特征,获取gcc-phat特征的具体步骤如下:
57.具体地,可以通过录音采样获取采样混响的ir,先通过扬声器在麦克风周围播放固定大小的长度序列音频(即第一多声道声音),再通过麦克风阵列记录该长度序列音频的ir,记录的方向响应为记录的高度跨越为θ∈[-45,45],其中,ir(脉冲反应)是声学中用以反应事物混响特征的一种描述手段,由于声源在发出声音之后,声波在室内开始传播并在障碍物之间反射,每反射一次都要被障碍物吸收一些,这样,当声源停止发声后,声波在室内要经过多次反射和吸收,最后才消失,于是声波彼此叠加便产生了混响(室内声源停止发声后仍然存在的声延续现象叫做混响),这段时间叫做混响时间。
[0058]
具体地,通过麦克风阵列记录第一多声道声音的ir可以采用定向的阵列响应来录制,还可以采用非定向的阵列响应来录制,非定向的阵列响应可以是一阶ambisonics(foa),定向的阵列响应可以是四面麦克风阵列(mic),建模的响应表示了每个通道对从方向响应给出的到达方向(doa)入射的源的方向响应和俯仰角θ,其中,入射的源的方向响应即为该入射的源的真实位置,入射的源的方向即为该入射的源的真实角度。
[0059]
其中,一阶ambisonics(foa)是通过球型eigenmike麦克风阵列通过无回声测量的编码滤波器转换为32通道信号获得的(假设编码格式在频率独立的情况下编码的),具体为:
[0060]
h1(φ,θ,f)=1
[0061]
h2(φ,θ,f)=sin(φ)*cos(θ)
[0062]
h3(φ,θ,f)=sin(θ)
[0063]
h4(φ,θ,f)=cos(φ)*cos(θ)
[0064]
其中,四面麦克风阵列(mic)需要限定四个麦克风在球坐标下的位置(φ,θ,f),具体限定为:
[0065]
m1:(45
°
,35
°
,4.2cm)
[0066]
m2:(-45
°
,-35
°
,4.2cm)
[0067]
m3:(135
°
,-35
°
,4.2cm)
[0068]
m4:(-135
°
,35
°
,4.2cm)
[0069]
定向阵列响应解析展开式为:
[0070]
[0071]
式中,m表示通道数,(φm,θm)表示麦克风的方向响应和俯仰角位置,ω=2πf是角频率,r=0.042m是阵列半径,c=343m/s是声速,cos(γm)是麦克风与目标之间的余弦夹角,pn是n次非规范化勒让德多项式。h'
n(2)
是关于第二类球汉克尔函数的导数。
[0072]
进而根据阵列响应解析式来获取gcc-phat特征,具体计算公式为:
[0073]
xi=fft(hm(φ,θ,ω))
[0074][0075][0076]
式中,τ表示声源到第i'个麦克风的时间差,ωk=2πk/k是角频率,xi表示的是第i个信号的短时傅里叶变换后的频率谱,x
i'
表示的是第i'个信号的短时傅里叶变换后的频率谱,()
*
表示其共轭,r
ii'
(τ,t)是表示双耳通道的广义互相关函数,即是实现的gcc-phat特征,cos∠xi表示第i个信号的俯仰角或方向响应,cos∠x
i'
示第i'个信号的俯仰角或方向响应,k表示为fft的点数。
[0077]
步骤s20:根据所述gabor特征确定所述gcc-phat特征的掩膜,并将经过掩膜后的gcc-phat特征输入到第一模型中,获得所述第一多声道声音中各音频段的预测值,所述预测值包括预测位置和预测角度;
[0078]
具体地,所述根据所述gabor特征确定所述gcc-phat特征的掩膜的具体步骤为:将所述gabor特征输入resnet18网络中的sigmoid层,生成随机数;将所述随机数作为所述gcc-phat特征的掩膜,主要是将生成的随机数以内积的方式施加在gcc-phat上,具体公式为:
[0079][0080]
式中,r
ii'
(τ,t)表示gcc-phat特征,η
ii'
(t,k)表示根据gabor特征生成的随机掩膜卷积核(随机数)。
[0081]
具体地,将经过掩膜后的gcc-phat特征输入到第一模型中,得到会得到第一多声道声音中各音频段的预测位置(即预测方向响应)和预测角度(即预测俯仰角),第一模型为resnet18网络。
[0082]
步骤s30:将所述gabor特征输入到第二模型中,获得所述第一多声道声音中各音频段的预测种类;
[0083]
具体地,第二模型为tcn网络。
[0084]
步骤s40:根据所述第一模型和第二模型得到目标网络模型;
[0085]
具体地,根据所述第一标签与预测种类的差值,得到第一误差;根据所述第二标签与预测值的差值,得到第二误差;基于第一误差和第二误差更新所述第一模型和第二模型,得到目标网络模型。
[0086]
具体地,在计算第一误差时可以使用二元交叉熵损失函数来计算各音频段的误差,具体计算公式如下:
[0087][0088]
式中,n表示音频种类的数量,yi表示真实种类,表示预测种类,m表示真实种类中的向量长度。
[0089]
具体地,在计算第二误差时,可以采用均方误差来计算,第二误差即doa损失可以分为俯仰角损失和方向响应损失,具体计算公式如下:
[0090][0091]
式中,n表示通道数,f
azi
(x)表示预测俯仰角,y
azi
表示真实俯仰角,f
ele
(x)表示预测方向响应,y
ele
表示真实方向响应,
[0092]
具体地,基于所述第一误差和所述第二误差,确定联合损失;基于所述联合损失更新所述第一模型和第二模型,得到目标网络模型。
[0093]
具体地,联合损失的具体计算公式如下:
[0094]
loss=α
·
loss
sed
+(1-α)
·
loss
doa
[0095]
式中,loss
sed
表示sed损失,loss
doa
表示doa损失,α=0.02。
[0096]
具体地,通过联合损失来监督第一模型和第二模型的训练,得到训练好的模型(即目标网络模型)。
[0097]
s50:将第二多声道声音输入到所述目标网络模型中,得到所述第二多声道声音中目标音频段的种类、位置及角度。
[0098]
具体地,第二多声道声音可以是一段长音频,将长音频分成不同帧,不同帧代表不同声音事件,目标音频段就是其中一个声音事件,目标音频段的位置可以理解该声音事件处于长音频中的开始和终止时间,目标音频段的位置指的是该声音事件的方向响应,目标音频段的角度指的是该声音事件的俯仰角。
[0099]
本实施例通过对获取的gabor特征进行进一步的高维特征提取,使网络可以学习到需要掩膜测试的位置,进而增强gcc-phat特征的鲁棒性和泛化能力,从gcc-phat特征提取的实际特征还可以反过来作用于获取的gabor特征上,相互作用,既可防止共享权重导致共同损失增大的情况,又可以充分利用网络中各个通道特征,进而提高网络的识别和定位精度。
[0100]
参考图3,图3为本发明一种多声道声音的识别和定位方法第二实施例的流程示意图。
[0101]
基于上述第一实施例,本实施例多声道声音的识别和定位方法,所述获取第一多声道声音的gabor特征,包括:
[0102]
步骤s101:将所述第一多声道的第一基础特征输入到gabor滤波器组中的四层卷积层中,得到静态特征;
[0103]
具体地,将所述第一多声道的第一基础特征输入所述四层卷积层中的第一卷积层中,得到第二基础特征;将所述第二基础特征输入到所述四层卷积层中的全局均值池化层中,得到第三基础特征;将所述第三基础特征输入到所述四层卷积层中的高斯低通滤波层中,得到第四基础特征;将所述第四基础特征输入到所述四层卷积层中的归一化层,得到静态特征。
[0104]
具体地,将第一基础特征输入到第一卷积层中时,会被学习到的特征约束到一定范围内,得到第二基础特征,再将第二基础特征输入到全局均值池化层中,得到希尔伯特包络(即第三基础特征),将第三基础特征输入到高斯低通滤波层中对第三基础特征进行降噪处理,进而得到第四基础特征,将第四基础特征输入到归一化层中使用多倍率多通道归一化的方式获得最终的静态特征。
[0105]
步骤s102:将所述静态特征输入到gabor滤波器组中的差分操作层中,得到动态特征;
[0106]
具体地,先将静态特征输入到差分操作层中进行一阶差分操作,再进行二阶差分操作,动态特征通过静态特征的一阶差分和静态特征的二阶差分联合获取。
[0107]
步骤s103:基于所述静态特征和所述动态特征,确定所述第一所声道声音的gabor特征。
[0108]
具体地,将静态特征和动态特征结合,即可得到gabor特征。
[0109]
本实施例通过抛弃原有通过mel滤波器组提取静态特征的方法,采用约束化四层卷积层来对静态特征进行提取,能够实现有约束的定位和识别,既能有效减少共享权重导致的定位精度降低,还能保留定位特征对识别特征的相关性的依赖,进一步提高模型的泛化能力以及模型的识别定位精度。
[0110]
参照图4,图4为本发明多声道声音的识别和定位装置第一实施例的结构框图。
[0111]
如图4所示,本发明实施例提出的多声道声音的识别和定位装置包括:
[0112]
获取模块100,用于获取第一多声道声音的gabor特征和gcc-phat特征;
[0113]
所述获取模块100,还用于根据所述gabor特征确定所述gcc-phat特征的掩膜,并将经过掩膜后的gcc-phat特征输入到第一模型中,获得所述第一多声道声音中各音频段的预测值;
[0114]
所述获取模块100,还用于将所述gabor特征输入到第二模型中,获得所述第一多声道声音中各音频段的预测种类;
[0115]
所述获取模块100,还用于根据所述第一模型和第二模型得到目标网络模型;
[0116]
识别定位模块200,用于将第二多声道声音输入到所述目标网络模型中,得到所述第二多声道声音中目标音频段的种类、位置及角度。
[0117]
在一实施例中,所述获取模块100,还用于:
[0118]
将所述第一多声道的第一基础特征输入到gabor滤波器组中的四层卷积层中,得到静态特征;
[0119]
将所述静态特征输入到gabor滤波器组中的差分操作层中,得到动态特征;
[0120]
基于所述静态特征和所述动态特征,确定所述第一所声道声音的gabor特征。
[0121]
在一实施例中,所述获取模块100,还用于:
[0122]
将所述第一多声道的第一基础特征输入所述四层卷积层中的第一卷积层中,得到
第二基础特征;
[0123]
将所述第二基础特征输入到所述四层卷积层中的全局均值池化层中,得到第三基础特征;
[0124]
将所述第三基础特征输入到所述四层卷积层中的高斯低通滤波层中,得到第四基础特征;
[0125]
将所述第四基础特征输入到所述四层卷积层中的归一化层,得到静态特征。
[0126]
在一实施例中,所述获取模块100,还用于:
[0127]
获取第一多声道声音中各音频段的第二标签;
[0128]
在基于所述第二标签确定各音频段的阵列响应之后,根据所述阵列响应确定所述第一多声道声音的gcc-phat特征。
[0129]
在一实施例中,所述获取模块100,还用于:
[0130]
将所述gabor特征输入resnet18网络中的sigmoid层,生成随机数;
[0131]
将所述随机数作为所述gcc-phat特征的掩膜。
[0132]
在一实施例中,所述获取模块100,还用于:
[0133]
根据所述第一标签与预测种类的差值,得到第一误差;
[0134]
根据所述第二标签与预测值的差值,得到第二误差;
[0135]
基于第一误差和第二误差更新所述第一模型和第二模型,得到目标网络模型。
[0136]
在一实施例中,所述获取模块100,还用于:
[0137]
基于所述第一误差和所述第二误差,确定联合损失;
[0138]
基于所述联合损失更新所述第一模型和第二模型,得到目标网络模型。
[0139]
此外,本发明实施例还提出一种多声道声音的识别和定位设备,所述多声道声音的识别和定位设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多声道声音的识别和定位程序,所述多声道声音的识别和定位程序配置为实现如上文所述的多声道声音的识别和定位方法的步骤。
[0140]
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有避开交通拥堵程序,所述多声道声音的识别和定位程序被处理器执行时实现如上文所述的多声道声音的识别和定位方法的步骤。
[0141]
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
[0142]
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
[0143]
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的避开交通拥堵方法,此处不再赘述。
[0144]
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0145]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0146]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0147]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种多声道声音的识别和定位方法,其特征在于,所述多声道声音的识别和定位方法包括:获取第一多声道声音的gabor特征和gcc-phat特征,其中,所述gabor特征包括所述第一多声道声音中各音频段的第一标签,所述第一标签为真实种类,所述gcc-phat特征包括所述第一多声道声音中各音频段的第二标签,所述第二标签为真实位置和真实角度;将所述gabor特征输入到第一模型中,获得所述第一多声道声音中各音频段的预测种类;根据所述gabor特征确定所述gcc-phat特征的掩膜,并将经过掩膜后的gcc-phat特征输入到第二模型中,获得所述第一多声道声音中各音频段的预测值,所述预测值包括预测位置和预测角度;根据所述第一模型和第二模型得到目标网络模型;将第二多声道声音输入到所述目标网络模型中,得到所述第二多声道声音中目标音频段的种类、位置及角度。2.如权利要求1所述的多声道声音的识别和定位方法,其特征在于,所述获取第一多声道声音的gabor特征,包括:将所述第一多声道的第一基础特征输入到gabor滤波器组中的四层卷积层中,得到静态特征;将所述静态特征输入到gabor滤波器组中的差分操作层中,得到动态特征;基于所述静态特征和所述动态特征,确定所述第一所声道声音的gabor特征。3.如权利要求2所述的多声道声音的识别和定位方法,其特征在于,所述将所述第一多声道的第一基础特征输入到gabor滤波器组中的四层卷积层中,得到静态特征,包括:将所述第一多声道的第一基础特征输入所述四层卷积层中的第一卷积层中,得到第二基础特征;将所述第二基础特征输入到所述四层卷积层中的全局均值池化层中,得到第三基础特征;将所述第三基础特征输入到所述四层卷积层中的高斯低通滤波层中,得到第四基础特征;将所述第四基础特征输入到所述四层卷积层中的归一化层,得到静态特征。4.如权利要求1所述的多声道声音的识别和定位方法,其特征在于,所述获取第一多声道声音的gcc-phat特征,包括:获取第一多声道声音中各音频段的第二标签;在基于所述第二标签确定各音频段的阵列响应之后,根据所述阵列响应确定所述第一多声道声音的gcc-phat特征。5.如权利要求1至4中任一项所述的多声道声音的识别和定位方法,其特征在于,所述根据所述gabor特征确定所述gcc-phat特征的掩膜,包括:将所述gabor特征输入resnet18网络中的sigmoid层,生成随机数;将所述随机数作为所述gcc-phat特征的掩膜。6.如权利要求1至4中任一项所述的多声道声音的识别和定位方法,其特征在于,根据所述第一模型和第二模型得到目标网络模型,包括:
根据所述第一标签与预测种类的差值,得到第一误差;根据所述第二标签与预测值的差值,得到第二误差;基于第一误差和第二误差更新所述第一模型和第二模型,得到目标网络模型。7.如权利要求6所述的多声道声音的识别和定位方法,其特征在于,所述基于第一误差和第二误差更新所述第一模型和第二模型,得到目标网络模型,包括:基于所述第一误差和所述第二误差,确定联合损失;基于所述联合损失更新所述第一模型和第二模型,得到目标网络模型。8.一种多声道声音的识别和定位装置,其特征在于,所述多声道声音的识别和定位装置包括:获取模块,用于获取第一多声道声音的gabor特征和gcc-phat特征;所述获取模块,还用于将所述gabor特征输入到第一模型中,获得所述第一多声道声音中各音频段的预测种类;所述获取模块,还用于根据所述gabor特征确定所述gcc-phat特征的掩膜,并将经过掩膜后的gcc-phat特征输入到第二模型中,获得所述第一多声道声音中各音频段的预测值;所述获取模块,还用于根据所述第一模型和第二模型得到目标网络模型;识别定位模块,用于将第二多声道声音输入到所述目标网络模型中,得到所述第二多声道声音中目标音频段的种类、位置及角度。9.一种多声道声音的识别和定位设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多声道声音的识别和定位程序,所述多声道声音的识别和定位程序配置为实现如权利要求1至7中任一项所述的多声道声音的识别和定位方法的步骤。10.一种存储介质,其特征在于,所述存储介质上存储有多声道声音的识别和定位程序,所述多声道声音的识别和定位程序被处理器执行时实现如权利要求1至7任一项所述的多声道声音的识别和定位方法的步骤。
技术总结
本发明属于声音识别和定位技术领域,公开了一种多声道声音的识别和定位方法、装置、设备及存储介质。该方法包括:获取多声道声音的Gabor特征和GCC-PHAT特征,根据所述Gabor特征来确定所述GCC-PHAT特征的掩膜,并将经过掩膜后的GCC-PHAT特征输入到第一模型中以及将所述Gabor特征输入到第二模型中,根据所述第一模型和第二模型得到目标网络模型;将第二多声道声音输入到所述目标网络模型中,得到所述第二多声道声音中目标音频段的种类、位置及角度。通过上述方式,能够解决TC的SELD存在参数间耦合性过高的缺陷,进而有效提高模型的泛化能力以及模型的识别定位精度。能力以及模型的识别定位精度。能力以及模型的识别定位精度。