本文作者:kaifamei

噪音识别的方法、装置、电子设备及介质与流程

更新时间:2025-03-26 15:41:03 0条评论

噪音识别的方法、装置、电子设备及介质与流程



1.本技术中涉及数据处理技术,尤其是一种噪音识别的方法、装置、电子设备及介质。


背景技术:



2.随着科技的发展,产品高质量化在整个国家的生产中的比重越来越多。无论是生产产品还是生活产品,随着产品的使用增加,产品必然会出现损耗,因此精准的故障诊断系统直接决定了产品的质量的优劣。
3.进一步的,相关技术中对许多产品的运行声音判断是对其故障诊断的一个重要方法。目前相关技术中通常存在利用软阈值化进行去噪的方法。其中,软阈值化(soft threshlding)作为一种经典的方法,尤其在信号降噪领域是非常实用的,软阈值天然的非线性的属性是很适合用作深度神经网络的计算和传导过程中的。因此深度残差收缩网络(residual shrinkage network),也已经证明了其在信号降噪领域的实用性。
4.然而,相关技术中的深度残差收缩网络仅具备一个斜率的软阈值参数,这也导致会出现其去噪效果不明显的现象。


技术实现要素:



5.本技术实施例提供一种噪音识别的方法、装置、电子设备及介质,本技术实施例用于解决相关技术中存在的深度残差收缩网络仅具备一个斜率的软阈值参数所导致的,去噪效果不明显的问题。
6.其中,根据本技术实施例的一个方面,提供的一种噪音识别的方法,包括:
7.获取待识别语音数据;
8.将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,其中所述目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,所述第一斜率与所述第二斜率不相同;
9.根据所述噪音识别结果,确定所述待识别语音数据中的噪音数据
10.可选地,在基于本技术上述方法的另一个实施例中,在所述获取待识别语音数据之前,还包括:
11.获取第一输入特征,并对所述第一输入特征执行至少两次的卷积化操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,得到第一输出结果;
12.对所述第一输出结果执行绝对值算法,以及执行全局平均池化操作,得到第二输出结果;
13.基于所述第二输出结果,得到所述第一斜率以及所述第二斜率。
14.可选地,在基于本技术上述方法的另一个实施例中,所述基于所述第二输出结果征,得到所述第一斜率以及所述第二斜率,包括:
15.对所述第二输出结果执行卷积化操作,以及执行批正则归一化操作,以及执行全
连接操作,以及执行线性整流函数化操作,得到第三输出结果;
16.对所述第三输出结果进行sigmoid函数化,得到目标软阈值函数。
17.可选地,在基于本技术上述方法的另一个实施例中,在所述得到第一输出结果之后,还包括:
18.对所述第一输出结果执行第一次数的绝对值算法,以及执行全局平均池化操作,得到第四输出结果;
19.对所述第四输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到所述第一斜率值。
20.可选地,在基于本技术上述方法的另一个实施例中,在所述得到所述第一斜率值之后,还包括:
21.对所述第一输出结果执行第二次数的绝对值算法,以及执行全局平均池化操作,得到第五输出结果;
22.对所述第五输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到所述第二斜率值。
23.可选地,在基于本技术上述方法的另一个实施例中,在所述得到所述第二斜率值之后,还包括:
24.根据所述第一斜率值、所述第二斜率值以及所述目标软阈值函数,生成具有所述第一斜率的软阈值函数,以及具有所述第二斜率的软阈值函数;
25.根据所述第一斜率的软阈值函数,以及具有所述第二斜率的软阈值函数,构造所述目标软阈值残差网络。
26.可选地,在基于本技术上述方法的另一个实施例中,所述将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,包括:
27.获取所述待识别语音数据,并对所述待识别语音数据进行卷积操作,提取所述待识别语音数据中的语义信息,得到第一维度的输出结果;
28.利用所述第一斜率的软阈值函数,以及所述第二斜率的软阈值函数,去除所述第一维度的输出结果的噪音冗余;
29.对去除噪音冗余的第一维度的输出结果执行批正则归一化操作,以及执行全局平均池化操作,以及执行线性整流函数化操作,得到第二维度的输出结果;
30.基于所述第二维度的输出结,得到所述噪音识别结果。
31.可选地,在基于本技术上述方法的另一个实施例中,所述基于所述第二维度的输出结,得到所述噪音识别结果,包括:
32.执行转换操作,将所述第二维度的输出结果转换为n维向量;
33.对所述n维向量执行全连接操作以及执行softmax函数化操作,得到所述噪音识别结果。
34.根据本技术实施例的另一个方面,提供的一种噪音识别的装置,包括:
35.获取模块,被设置为获取待识别语音数据;
36.生成模块,被设置为将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,其中所述目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,所述第一斜率与所述第二斜率不相同;
37.确定模块,被设置为根据所述噪音识别结果,确定所述待识别语音数据中的噪音数据。
38.根据本技术实施例的又一个方面,提供的一种电子设备,包括:
39.存储器,用于存储可执行指令;以及
40.显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述噪音识别的方法的操作。
41.根据本技术实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述噪音识别的方法的操作。
42.本技术中,在获取待识别语音数据之后,将待识别语音数据输入至具有第一斜率的软阈值函数以及第二斜率的软阈值函数的目标软阈值残差网络,得到噪音识别结果,并根据噪音识别结果,确定待识别语音数据中的噪音数据。通过应用本技术的技术方案,可以通过采用两种不同斜率的软阈值残差网络实现更全面的过滤语音中噪声信号的目的。从而避免相关技术中存在的仅具备单一斜率的深度残差收缩网络所出现的去噪效果不明显的问题。
43.下面通过附图和实施例,对本技术的技术方案做进一步的详细描述。
附图说明
44.构成说明书的一部分的附图描述了本技术的实施例,并且连同描述一起用于解释本技术的原理。
45.参照附图,根据下面的详细描述,可以更加清楚地理解本技术,其中:
46.图1为本技术提出的一种噪音识别的方法的示意图;
47.图2-图8为本技术提出的基于同一斜率生成的软阈值残差网络的示意图;
48.图9-图11为本技术提出的基于不同斜率生成的软阈值残差网络的示意图;
49.图12为本技术噪音识别的装置的结构示意图;
50.图13为本技术噪音识别的电子设备结构示意图。
具体实施方式
51.现在将参照附图来详细描述本技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。
52.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
53.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本技术及其应用或使用的任何限制。
54.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
55.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
56.另外,本技术各个实施例之间的技术方案可以相互结合,但是必须是以本领域普
通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本技术要求的保护范围之内。
57.需要说明的是,本技术实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
58.一种方式中,本技术还提出一种噪音识别的方法、装置、目标终端及介质。
59.图1示意性地示出了根据本技术实施方式的一种噪音识别的方法的流程示意图。如图1所示,该方法包括:
60.s101,获取待识别语音数据。
61.进一步的,相关技术中,在深度残差网络(resnet)中,线性整流函数(rectified linear unit,relu)是一种常见通用有效的非线性激活函数,它的数学表达为
[0062][0063]
其中,该x和y都是实数,分别代表输入和输出;它的导数为
[0064][0065]
同样的,上述的x和y也均都是实数,分别代表输入和输出。进一步的,relu的函数形状和其导数形状如图2所示。与之相对应的深度残差收缩网络(residual shrinkage network),它的激活函数为软阈值化(soft threshlding)函数,数学表达为
[0066][0067]
上述表达式中,τ即为阈值,x和y都是实数,分别代表输入和输出,该函数的形状如图3所示。它的导数为
[0068][0069]
其中,该τ为阈值,导数的形状如图4所示。进一步的,由于软阈值化函数就是一种在阈值范围内的数值是0,阈值以外和relu类似,保持斜率为1。从而实现压制阈值范围内的噪音干扰,可以消除容易特征。
[0070]
进一步的,软阈值化(soft threshlding),即软阈值化函数,是将输入数据朝着零的方向进行收缩的一种函数。
[0071]
进一步而言,对于同一斜率的注意力深度残差收缩网络设计来说,整个网络的设计就是一个基于注意力机制的同一斜率的软阈值化模块(attention same slope unit)不断堆叠而成,简写为assu,如图5-图6所示。为具备同一斜率的深度残差收缩网络,其生成架
构如下所示:
[0072]
步骤一,本技术可以首先获取输入的特征为cxwx1。其中需要说明的是,在该特征中,c对应于输出的channel,w指的是特征的宽度,1指的是特征的高度,因为在噪声信号中的特征高度为1。由于根据不同的深度学习开发框架,通道channel所排列的位置不一定相同,有些框架可能是wx1xc,一种方式中,本技术可以将通道channel放在第一个维度。并将这个输入单独保存起来,用作最后的残差相加。
[0073]
步骤二,本技术可以对cxwx1的特征进行cbn操作,这里的cbn是指卷积(con)+批正则归一化操作bn(batch normalization)+relu的操作的简写。
[0074]
步骤三,对上面的输出再进行一次cbn操作,以抽取更高级的语义信息。
[0075]
步骤四,可以对步骤二的输出进行阈值自动推导的注意力机制。这部分先用绝对值+全局平均池化(gap)得到输出。
[0076]
步骤五,本技术可以对步骤3得到的输出再进行全连接(fc)+批正则归一化操作bn(batch normalization)+relu+全连接(fc)的操作,然后再进行sigmoid函数来得到阈值τ的输出。
[0077]
步骤六,对步骤三的输出进行同一斜率自动推导的注意力机制。需要说明的是,该部分先用绝对值+全局平均池化(gap)得到输出。
[0078]
步骤七,本技术可以对步骤六的输出再进行全连接(fc)+批正则归一化操作bn(batch normalization)+relu+全连接(fc)的操作,从而直接得到斜率值α的输出。
[0079]
步骤八,本技术可以根据步骤五和步骤七分别得到的阈值τ和斜率值α,构造同一斜率的软阈值化函数。再将带有同一斜率的软阈值化函数得到输出和原始输入也就是步骤一中的保存输入相加结合在一起,相加后的结果作为输出。从而实现一个完整的同一斜率的软阈值化模块(assu)的设计描述完成。
[0080]
另外,本技术可以将网络自动推导出来的斜率α带入到软阈值化函数中以替换原来斜率为1的软阈值化函数,这个新的函数的表达为
[0081][0082]
其中,该τ为阈值,x和y都是实数,分别代表输入和输出,α为斜率,该函数的形状如图7所示。与之对应的导数的数学表达为
[0083][0084]
在这里τ为阈值,x和y都是实数,分别代表输入和输出,α为斜率,该函数的形状如图8所示。
[0085]
更进一步的,本技术在得到固定斜率的软阈值函数之后,还可以据此生成对应的注意力深度残差收缩网络,具体步骤如下:
[0086]
步骤一,输入为原始的还有噪声的信号,维度为cxwx1。首先经过一次卷积操作提
取一次语义信息,维度仍然是cxwx1。
[0087]
步骤二,再经过若干个上面提到的同一斜率的软阈值化模块(assu),用来去除噪音冗余。
[0088]
步骤三,在经过一个+批正则归一化操作bn(batch normalization)+relu+全局平均池化(gap)的操作,把输出变成nx1x1的维度,在这里n为超参,是channel维度。
[0089]
步骤四,然后经过reshape操作将nx1x1的特征变为长度为n的向量。并对n维的向量进行全连接(fc)操作,然后再进行softmax操作,直接输出噪声识别结果。
[0090]
进一步的,针对同一斜率的深度残差收缩网络来说,其经过训练以后,该网络可以在有噪声的环境下对故障诊断进行精确的输出。由于该网络设计能根据不同的噪音信号自动推导出同一的斜率,所以精度也更高。
[0091]
然而,由于与残差网络(resnet)相结合的深度残差收缩网络(residual shrinkage network)的斜率固定为1,因此其无法保证网络能有效地响应外部噪音的变化。为了提高整个网络的噪音抗干扰性和检测精度。
[0092]
针对上述问题,本技术即可以采用了一种不同斜率的网络构造来让网络自动地推导出多个斜率的数值,从而保证网络可以动态实时地计算出当前噪音下的斜率取值,这样就有效地压制了噪声的干扰。
[0093]
s102,将待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,其中目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,第一斜率与第二斜率不相同。
[0094]
进一步的,随着科技的发展,机械化和产品化在整个国家的生产中的比重也越来越多,无论是面向工业的产品还是面向生活的产品。高质量的产品就必然依托于高质量的生产工艺,必然推动机械生产工艺的提高不断提高,而无论是生产工具还是生活产品,随着产品的使用增加,产品必然会出现损耗,因此精准的故障诊断系统直接决定了产品的质量的优劣。
[0095]
举例来说,在很多机械制造或是一些人们日常生活的产品中,旋转轴承占据了相当多的比例,无论是在制造还是在日常的家电损耗中,轴承的磨损也是最普遍的现象。对轴承旋转声音的判断是故障诊断的一个重要方法,然后通常轴承的旋转无论在生产中还是生活中都会夹杂着大量的噪音和冗余的信号,因此直接通过声音来判断故障的损坏程度是带来很大的误差。
[0096]
目前通用的传统方法采用统计学习方法来对声音信号噪声进行分析,但是传统的方法通常带有很多参数需要人为设定,设定本身就是很复杂的决策,通常要经过大量的统计实验来得出,但是身处的环境的不同将决定着不同的参数,比如机器本身的内外部差别,轴承本身的材质,甚至是周围的温度和湿度都可能会影响到这些超参的设定,因此这些人为设定的参数将很难统一适配。软阈值化(soft threshlding)作为一种经典的方法,尤其在信号降噪领域是非常实用的,但是正如前面所陈述的,软阈值化函数中的阈值就是一个超参,如何设定合理的数值就是一个很棘手的问题。
[0097]
近几年物联网、大数据和移动设备的普及,特别是深度学习爆发式的发展,使得以深度学习为基础的智能检测识别技术实现成为可能。不像传统的方法,深度学习的方法可以自动地学习扰动的信号的参数特征,自动推导出正确的合适的参数,因此有极高的实用
和使用价值。而且软阈值天然的非线性的属性是很适合用作深度神经网络的计算和传导过程中的。深度残差网络(resnet)作为一种经典的深度学习网络已经被成功应用到很多领域当中。深度残差网络与非线性的软阈值化函数相结合的网络,即深度残差收缩网络(residual shrinkage network),也已经证明了其在信号降噪领域的实用性。深度残差收缩网络采用了注意力机制(类似于squeeze-and-excitation network)自动设置阈值,避免了人工设置阈值的麻烦。
[0098]
因此,由于上述提到的固定的斜率无法根据噪音信号的强弱来进行调整。因此本技术实施例中可以根据预先训练的到的,具有第一斜率的软阈值函数以及第二斜率的软阈值函数的目标软阈值残差网络来对待识别语音数据进行识别,从而得到对应的噪音识别结果。可以理解的,采用两种斜率的软阈值函数的目标软阈值残差网络,可以动态地由网络来计算出斜率的梯度,这样可以极大地提升整个网络模型对外部噪音信号的响应,从而实现提升故障诊断的准确性和精准率的目的。
[0099]
s103,根据噪音识别结果,确定待识别语音数据中的噪音数据。
[0100]
本技术中,在获取待识别语音数据之后,将待识别语音数据输入至具有第一斜率的软阈值函数以及第二斜率的软阈值函数的目标软阈值残差网络,得到噪音识别结果,并根据噪音识别结果,确定待识别语音数据中的噪音数据。通过应用本技术的技术方案,可以通过采用两种不同斜率的软阈值残差网络实现更全面的过滤语音中噪声信号的目的。从而避免相关技术中存在的仅具备单一斜率的深度残差收缩网络所出现的去噪效果不明显的问题。
[0101]
可选的,在本技术一种可能的实施方式中,在s101(在获取待识别语音数据)之前,还包括:
[0102]
获取第一输入特征,并对第一输入特征执行至少两次的卷积化操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,得到第一输出结果;
[0103]
对第一输出结果执行绝对值算法,以及执行全局平均池化操作,得到第二输出结果;
[0104]
基于第二输出结果,得到第一斜率以及第二斜率。
[0105]
其中,第一输入特征可以为cxwx1。其中,该c指的是输出的channel,w指的是特征的宽度,1对应于特征的高度,因为在噪声信号中的特征高度为1。
[0106]
进一步的,本技术还可以对cxwx1的特征进行cbn操作,其中该cbn是指卷积操作(con)+批正则归一化操作bn(batch normalization)+relu的执行线性整流函数化操作,从而得到对应的第一输出结果。
[0107]
可选的,本技术还可以对第一输出结果重新进行一次上述的卷积操作(con)+批正则归一化操作bn(batch normalization)+relu的执行线性整流函数化操作,从而实现抽取更高级语义信息的目的。
[0108]
下一步的,在得到第一输出结果之后,可以对该输出进行阈值自动推导的注意力机制。具体可以通过对其进行执行绝对值算法,以及执行全局平均池化操作,从而得到对应的第二输出结果。
[0109]
可选的,在本技术一种可能的实施方式中,基于第二输出结果征,得到第一斜率以及第二斜率,包括:
[0110]
对第二输出结果执行卷积化操作,以及执行批正则归一化操作,以及执行全连接操作,以及执行线性整流函数化操作,得到第三输出结果;
[0111]
对第三输出结果进行sigmoid函数化,得到目标软阈值函数。
[0112]
进一步的,本技术在得到对应的第二输出结果之后,可以对该输出结果再进行全连接(fc)+批正则归一化操作bn(batch normalization)+relu的执行线性整流函数化操作+全连接(fc)的操作,从而得到对应的第三输出结果。以使后续对该第三输出结果再进行sigmoid函数化操作来得到目标软阈值函数τ的输出。
[0113]
可选的,在本技术一种可能的实施方式中,在得到第一输出结果之后,还包括:
[0114]
对第一输出结果执行第一次数的绝对值算法,以及执行全局平均池化操作,得到第四输出结果;
[0115]
对第四输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到第一斜率值。
[0116]
进一步的,本技术得到目标软阈值函数τ之后,还可以对第一输出结果进行同一斜率自动推导的注意力机制。具体来说,该部分可以通过执行绝对值算法+全局平均池化(gap)操作得到第四输出结果。并对该第四输出结果执行全连接(fc)操作+批正则归一化操作bn(batch normalization)+relu的执行线性整流函数化操作+全连接(fc)的操作,直接得到斜率值α(即第一斜率值)的输出结果。
[0117]
可选的,在本技术一种可能的实施方式中,在得到第一斜率值之后,还包括:
[0118]
对第一输出结果执行第二次数的绝对值算法,以及执行全局平均池化操作,得到第五输出结果;
[0119]
对第五输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到第二斜率值。
[0120]
同样的,本技术还可以再次对第一输出结果进行同一斜率自动推导的注意力机制。具体来说,该部分可以通过执行绝对值算法+全局平均池化(gap)操作得到第三输出结果。并对该第三输出结果执行全连接(fc)操作+批正则归一化操作bn(batch normalization)+relu的执行线性整流函数化操作+全连接(fc)的操作,直接得到斜率值b(即第二斜率值)的输出结果。
[0121]
可选的,在本技术一种可能的实施方式中,在得到第二斜率值之后,还包括:
[0122]
根据第一斜率值、第二斜率值以及目标软阈值函数,生成具有第一斜率的软阈值函数,以及具有第二斜率的软阈值函数;
[0123]
根据第一斜率的软阈值函数,以及具有第二斜率的软阈值函数,构造目标软阈值残差网络。
[0124]
进一步的,本技术在得到第一斜率值α、第二斜率值b以及目标软阈值函数τ之后,即可以将三者构造出第一斜率的软阈值函数以及第二斜率的软阈值函数。并在后续将两个不同斜率的软阈值化函数得到的输出结果相加结合在一起,相加后的结果作为该目标软阈值残差网络的输出结果(即噪音识别结果)。例如如图9所示,其为一个完整的不同斜率的软阈值化模块(adsu)的设计描述完成。即将网络自动推导出来的斜率α和b分别带入到软阈值化函数中以替换原来斜率为1的软阈值化函数,这个新的函数的表达为
[0125][0126]
同样的,该τ为阈值,x和y都是实数,分别代表输入和输出,α和b为斜率,该函数的形状如图10所示。与之对应的导数的数学表达为
[0127][0128]
同样的,该τ为阈值,x和y都是实数,分别代表输入和输出,α和b为斜率,该函数的形状如图11所示。
[0129]
可选的,在本技术一种可能的实施方式中,将待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,包括:
[0130]
获取待识别语音数据,并对待识别语音数据进行卷积操作,提取待识别语音数据中的语义信息,得到第一维度的输出结果;
[0131]
利用第一斜率的软阈值函数,以及第二斜率的软阈值函数,去除第一维度的输出结果的噪音冗余;
[0132]
对去除噪音冗余的第一维度的输出结果执行批正则归一化操作,以及执行全局平均池化操作,以及执行线性整流函数化操作,得到第二维度的输出结果;
[0133]
基于第二维度的输出结,得到噪音识别结果。
[0134]
可选的,在本技术一种可能的实施方式中,基于第二维度的输出结果,得到噪音识别结果,包括:
[0135]
执行转换操作,将第二维度的输出结果转换为n维向量;
[0136]
对n维向量执行全连接操作,以及执行softmax函数化操作,得到噪音识别结果。
[0137]
进一步的,本技术可以获取待识别语音数据,并对待识别语音数据进行卷积操作,提取待识别语音数据中的语义信息,得到第一维度的输出结果。例如该输入为原始的还有噪声的信号,维度为cxwx1。首先经过一次卷积操作提取一次语义信息,维度仍然是cxwx1。再经过若干个上面提到的不同斜率的软阈值化模块(adsu),用来去除噪音冗余。
[0138]
更进一步的,本技术在可以将对去除噪音冗余的第一维度的经过批正则归一化操作bn(batch normalization)+relu+全局平均池化(gap)的操作,把输出变成nx1x1的维度,在这里n为超参,是channel维度。得到第二维度的输出结果。
[0139]
再进一步的,本技术还可以将该第二维度的输出结果经过reshape操作将nx1x1的特征变为长度为n的向量,并对n维的向量进行全连接(fc)操作,然后再进行softmax操作,直接输出最终的噪音识别结果。
[0140]
本技术中,在获取待识别语音数据之后,将待识别语音数据输入至具有第一斜率的软阈值函数以及第二斜率的软阈值函数的目标软阈值残差网络,得到噪音识别结果,并根据噪音识别结果,确定待识别语音数据中的噪音数据。通过应用本技术的技术方案,可以通过采用两种不同斜率的软阈值残差网络实现更全面的过滤语音中噪声信号的目的。从而避免相关技术中存在的仅具备单一斜率的深度残差收缩网络所出现的去噪效果不明显的
问题。
[0141]
一种方式中,可以将本技术中的噪音识别方法应用到家电设备上,举例来说,例如可以部署到智能音箱上,当智能音箱检测到当前存在用户生成的指令语音数据之后,即可以将该指令语音数据输入到部署在自身的,基于两个不同斜率的软阈值残差网络上,从而得到该指令语音数据对应的噪音识别结果,可以理解的,该噪音识别结果可以包括了背景噪声,环境噪声,白噪音等等。
[0142]
进一步的,本技术在识别指令语音数据的过程中,可以对该待识别语音数据进行卷积操作,并提取待识别语音数据中的语义信息,从而得到第一维度的输出结果。并且,还可以利用其中的第一斜率的软阈值函数,以及第二斜率的软阈值函数,来去除该第一维度的输出结果的噪音冗余。进而得到初步处理数据。
[0143]
再者,智能音箱还可以对初步处理数据中的第一维度的输出结果执行批正则归一化操作,以及执行全局平均池化操作,以及执行线性整流函数化操作,从而得到第二维度的输出结果。以使后续基于该第二维度的输出结果,得到所述噪音识别结果。
[0144]
更进一步的,智能音箱在得到语音数据对应的噪音识别结果后,即可以根据该噪音识别结果,确定指令语音数据中包含的噪音数据,并对其进行去除。从而实现得到更加精准的用户生成的指令语音。
[0145]
在本技术的另外一种实施方式中,如图6所示,本技术还提供一种噪音识别的装置。其中,该装置包括获取取模块201,生成模块202,确定模块203,其中,
[0146]
获取模块201,被设置为获取待识别语音数据;
[0147]
生成模块202,被设置为将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,其中所述目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,所述第一斜率与所述第二斜率不相同;
[0148]
确定模块203,被设置为根据所述噪音识别结果,确定所述待识别语音数据中的噪音数据。
[0149]
本技术中,在获取待识别语音数据之后,将待识别语音数据输入至具有第一斜率的软阈值函数以及第二斜率的软阈值函数的目标软阈值残差网络,得到噪音识别结果,并根据噪音识别结果,确定待识别语音数据中的噪音数据。通过应用本技术的技术方案,可以通过采用两种不同斜率的软阈值残差网络实现更全面的过滤语音中噪声信号的目的。从而避免相关技术中存在的仅具备单一斜率的深度残差收缩网络所出现的去噪效果不明显的问题。
[0150]
在本技术的另一种实施方式中,获取模块201,还包括:
[0151]
获取模块201,被配置为获取第一输入特征,并对所述第一输入特征执行至少两次的卷积化操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,得到第一输出结果;
[0152]
获取模块201,被配置为对所述第一输出结果执行绝对值算法,以及执行全局平均池化操作,得到第二输出结果;
[0153]
获取模块201,被配置为基于所述第二输出结果,得到所述第一斜率以及所述第二斜率。
[0154]
在本技术的另一种实施方式中,获取模块201,还包括:
[0155]
获取模块201,被配置为对所述第二输出结果执行卷积化操作,以及执行批正则归一化操作,以及执行全连接操作,以及执行线性整流函数化操作,得到第三输出结果;
[0156]
获取模块201,被配置为对所述第三输出结果进行sigmoid函数化,得到目标软阈值函数。
[0157]
在本技术的另一种实施方式中,获取模块201,还包括:
[0158]
获取模块201,被配置为对所述第一输出结果执行第一次数的绝对值算法,以及执行全局平均池化操作,得到第三输出结果;
[0159]
获取模块201,被配置为对所述第三输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到所述第一斜率值。
[0160]
在本技术的另一种实施方式中,获取模块201,还包括:
[0161]
获取模块201,被配置为对所述第一输出结果执行第二次数的绝对值算法,以及执行全局平均池化操作,得到第三输出结果;
[0162]
获取模块201,被配置为对所述第三输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到所述第二斜率值。
[0163]
在本技术的另一种实施方式中,获取模块201,还包括:
[0164]
获取模块201,被配置为根据所述第一斜率值、所述第二斜率值以及所述目标软阈值函数,生成具有所述第一斜率的软阈值函数,以及具有所述第二斜率的软阈值函数;
[0165]
获取模块201,被配置为根据所述第一斜率的软阈值函数,以及具有所述第二斜率的软阈值函数,构造所述目标软阈值残差网络。
[0166]
在本技术的另一种实施方式中,获取模块201,还包括:
[0167]
获取模块201,被配置为获取所述待识别语音数据,并对所述待识别语音数据进行卷积操作,提取所述待识别语音数据中的语义信息,得到第一维度的输出结果;
[0168]
获取模块201,被配置为利用所述第一斜率的软阈值函数,以及所述第二斜率的软阈值函数,去除所述第一维度的输出结果的噪音冗余;
[0169]
获取模块201,被配置为对去除噪音冗余的第一维度的输出结果执行批正则归一化操作,以及执行全局平均池化操作,以及执行线性整流函数化操作,得到第二维度的输出结果;
[0170]
获取模块201,被配置为基于所述第二维度的输出结果,得到所述噪音识别结果。
[0171]
在本技术的另一种实施方式中,获取模块201,还包括:
[0172]
获取模块201,被配置为执行转换操作,将所述第二维度的输出结果转换为n维向量;
[0173]
获取模块201,被配置为对所述n维向量执行全连接操作以及执行softmax函数化操作,得到所述噪音识别结果。
[0174]
图13是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0175]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备处理器执行以完成上述网络监控的方法,该方法包括:获取待识别语音数据;将所述待识别语音数据输入至目标软阈值残差网络,得到
噪音识别结果,其中所述目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,所述第一斜率与所述第二斜率不相同;根据所述噪音识别结果,确定所述待识别语音数据中的噪音数据。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0176]
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行,以完成上述网络监控的方法,该方法包括:获取待识别语音数据;将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,其中所述目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,所述第一斜率与所述第二斜率不相同;根据所述噪音识别结果,确定所述待识别语音数据中的噪音数据。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。
[0177]
图13为计算机设备30的示例图。本领域技术人员可以理解,示意图13仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
[0178]
所称处理器302可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,处理器302是计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
[0179]
存储器301可用于存储计算机可读指令303,处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现计算机设备30的各种功能。存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据等。此外,存储器301可以包括硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)或其他非易失性/易失性存储器件。
[0180]
计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
[0181]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或
者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
[0182]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

技术特征:


1.一种噪音识别的方法,其特征在于,包括:获取待识别语音数据;将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,其中所述目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,所述第一斜率与所述第二斜率不相同;根据所述噪音识别结果,确定所述待识别语音数据中的噪音数据。2.如权利要求1所述的方法,其特征在于,在所述获取待识别语音数据之前,还包括:获取第一输入特征,并对所述第一输入特征执行至少两次的卷积化操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,得到第一输出结果;对所述第一输出结果执行绝对值算法,以及执行全局平均池化操作,得到第二输出结果;基于所述第二输出结果,得到所述第一斜率以及所述第二斜率。3.如权利要求2所述的方法,其特征在于,所述基于所述第二输出结果,得到所述第一斜率以及所述第二斜率,包括:对所述第二输出结果执行卷积化操作,以及执行批正则归一化操作,以及执行全连接操作,以及执行线性整流函数化操作,得到第三输出结果;对所述第三输出结果进行sigmoid函数化,得到目标软阈值函数。4.如权利要求3所述的方法,其特征在于,在所述得到第一输出结果之后,还包括:对所述第一输出结果执行第一次数的绝对值算法,以及执行全局平均池化操作,得到第四输出结果;对所述第四输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到所述第一斜率值。5.如权利要求4所述的方法,其特征在于,在所述得到所述第一斜率值之后,还包括:对所述第一输出结果执行第二次数的绝对值算法,以及执行全局平均池化操作,得到第五输出结果;对所述第五输出结果执行全连接操作,以及执行批正则归一化操作,以及执行线性整流函数化操作,以及执行全连接操作,得到所述第二斜率值。6.如权利要求5所述的方法,其特征在于,在所述得到所述第二斜率值之后,还包括:根据所述第一斜率值、所述第二斜率值以及所述目标软阈值函数,生成具有所述第一斜率的软阈值函数,以及具有所述第二斜率的软阈值函数;根据所述第一斜率的软阈值函数,以及具有所述第二斜率的软阈值函数,构造所述目标软阈值残差网络。7.如权利要求1所述的方法,其特征在于,所述将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,包括:获取所述待识别语音数据,并对所述待识别语音数据进行卷积操作,提取所述待识别语音数据中的语义信息,得到第一维度的输出结果;利用所述第一斜率的软阈值函数,以及所述第二斜率的软阈值函数,去除所述第一维度的输出结果的噪音冗余;对去除噪音冗余的第一维度的输出结果执行批正则归一化操作,以及执行全局平均池
化操作,以及执行线性整流函数化操作,得到第二维度的输出结果;基于所述第二维度的输出结果,得到所述噪音识别结果。8.如权利要求7所述的方法,其特征在于,所述基于所述第二维度的输出结果,得到所述噪音识别结果,包括:执行转换操作,将所述第二维度的输出结果转换为n维向量;对所述n维向量执行全连接操作以及执行softmax函数化操作,得到所述噪音识别结果。9.一种噪音识别的装置,其特征在于,包括:获取模块,被设置为获取待识别语音数据;生成模块,被设置为将所述待识别语音数据输入至目标软阈值残差网络,得到噪音识别结果,其中所述目标软阈值残差网络具有第一斜率的软阈值函数以及第二斜率的软阈值函数,所述第一斜率与所述第二斜率不相同;确定模块,被设置为根据所述噪音识别结果,确定所述待识别语音数据中的噪音数据。10.一种家电设备,其特征在于,包括:存储器,用于存储可执行指令;以及,处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-8中任一所述噪音识别的方法的操作。11.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-8中任一所述噪音识别的方法的操作。

技术总结


本申请公开了一种噪音识别的方法、装置、电子设备及介质。其中,本申请中,在获取待识别语音数据之后,将待识别语音数据输入至具有第一斜率的软阈值函数以及第二斜率的软阈值函数的目标软阈值残差网络,得到噪音识别结果,并根据噪音识别结果,确定待识别语音数据中的噪音数据。通过应用本申请的技术方案,可以通过采用两种不同斜率的软阈值残差网络实现更全面的过滤语音中噪声信号的目的。从而避免相关技术中存在的仅具备单一斜率的深度残差收缩网络所出现的去噪效果不明显的问题。缩网络所出现的去噪效果不明显的问题。缩网络所出现的去噪效果不明显的问题。


技术研发人员:

陈磊 陈蔚 全永兵

受保护的技术使用者:

佛山市顺德区美的洗涤电器制造有限公司

技术研发日:

2021.06.21

技术公布日:

2023/1/5


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-75016-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-24 15:04:31

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论