本文作者:kaifamei

语音识别方法和装置与流程

更新时间:2025-03-10 12:15:34 0条评论

语音识别方法和装置与流程



1.本技术涉及语音识别技术领域,尤其涉及一种语音识别方法和装置。


背景技术:



2.随着人工智能的迅速发展,语音识别技术在各个领域都有了较为广泛的应用。
3.在实际应用中,在日常生活与工作过程中,经常基于语音识别技术确定出语音信号所属的用户身份或者语音信号是否属于特定的用户等。如,在一个企业中,可能需要结合说话人的语音信号识别出说话人为公司的哪个员工等。然而,由于语音信号中通用会存在一些噪声信号等多种影响因素,目前基于常规的分类模型很难准确对语音信号进行分类识别,也就无法准确确定出语音信号所属的用户。


技术实现要素:



4.本技术提供了一种语音识别方法和装置,能够更为准确的确定出语音信号所归属的用户,提升语音信号的分类识别结果的准确度。
5.一方面,本技术提供了一种语音识别方法,包括:
6.获得待识别的语音信号;
7.提取所述语音信号的声纹特征;
8.基于所述语音信号的声纹特征,利用语音识别模型确定所述语音信号的分类识别结果,所述语音识别模型为基于至少一个用户各自的至少一个声纹特征样本训练得到的,其中,所述语音识别模型包括小波径向基神经网络模型和分类层,所述小波径向基神经网络模型包括:墨西哥帽小波函数以及径向基函数神经网络,所述分类识别结果表征所述语音信号属于所述至少一个用户中各个用户的概率;
9.基于所述分类识别结果,确定所述语音信号所归属的目标用户,所述目标用户属于所述至少一个用户。
10.在一种可能的实现方式中,所述提取所述语音信号的声纹特征,包括:
11.提取所述语音信号的梅尔频率倒谱系数特征,将提取出的所述梅尔频率倒谱系数特征确定为所述语音信号的声纹特征。
12.在又一种可能的实现方式中,在提取出所述语音信号的声纹特征之后,还包括:
13.利用主成分分析法对提取出的所述声纹特征进行降维,得到降维后的声纹特征。
14.在又一种可能的实现方式中,所述基于所述语音信号的声纹特征,利用语音识别模型确定所述语音信号的分类识别结果,包括:
15.基于所述语音识别模型中的墨西哥帽小波函数对所述语音信号的声纹特征进行小波变换;
16.将小波变换后的声纹特征输入到所述语音识别模型的径向基神经网络,得到所述径向基神经网络输出的声纹分类特征,所述声纹分类特征用于表征所述语音信号所归属的用户的类别特征;
17.将所述声纹分类特征输入到所述语音识别模型的分类层,得到所述语音信号属于所述至少一个用户中各用户的概率。
18.在又一种可能的实现方式中,所述语音识别模型通过如下方式训练得到:
19.获得标注有用户标签的多个语音信号样本,其中,所述多个语音信号样本归属于至少一个用户,所述语音信号样本的用户标签表征所述语音信号样本所归属的用户;
20.针对每个语音信号样本,提取所述语音信号样本的梅尔频率倒谱系数特征,得到所述语音信号样本的样本声纹特征;
21.采用主成分分析法对所述语音信号样本的样本声纹特征进行降维,得到降维后的样本声纹特征;
22.基于所述语音信号样本对应的用户标签以及降维后的样本声纹特征,训练所述语音识别模型,直至满足训练要求。
23.在又一种可能的实现方式中,所述分类层为归一化函数层;或者为,全连接层和归一化函数层。
24.又一方面,本技术提供了一种语音识别装置,包括:
25.信号获得单元,用于获得待识别的语音信号;
26.特征提取单元,用于提取所述语音信号的声纹特征;
27.语音识别单元,用于基于所述语音信号的声纹特征,利用语音识别模型确定所述语音信号的分类识别结果,所述语音识别模型为基于至少一个用户各自的至少一个声纹特征样本训练得到的,其中,所述语音识别模型包括小波径向基神经网络模型和分类层,所述小波径向基神经网络模型包括:墨西哥帽小波函数以及径向基函数神经网络,所述分类识别结果表征所述语音信号属于所述至少一个用户中各个用户的概率;
28.用户确定单元,用于基于所述分类识别结果,确定所述语音信号所归属的目标用户,所述目标用户属于所述至少一个用户。
29.在又一种可能的实现方式中,所述特征提取单元,包括:
30.特征提取子单元,用于提取所述语音信号的梅尔频率倒谱系数特征,将提取出的所述梅尔频率倒谱系数特征确定为所述语音信号的声纹特征。
31.在又一种可能的实现方式中,还包括:
32.特征降维单元,用于在特征提取单元或者特征提取子单元提取出所述语音信号的声纹特征之后,利用主成分分析法对提取出的所述声纹特征进行降维,得到降维后的声纹特征。
33.在又一种可能的实现方式中,所述语音识别单元,包括:
34.小波变换单元,用于基于所述语音识别模型中的墨西哥帽小波函数对所述语音信号的声纹特征进行小波变换;
35.分类特征确定单元,用于将小波变换后的声纹特征输入到所述语音识别模型的径向基神经网络,得到所述径向基神经网络输出的声纹分类特征,所述声纹分类特征用于表征所述语音信号所归属的用户的类别特征;
36.用户概率确定单元,用于将所述声纹分类特征输入到所述语音识别模型的分类层,得到所述语音信号属于所述至少一个用户中各用户的概率。
37.由以上可知,在本技术实施例中,在获得待识别的语音信号之后,基于该语音信号
的声纹特征并利用训练处的语音识别模型来确定出该语音信号实际归属的目标用户。由于该语音识别模型的语音识别主体模型为小波径向基神经网络模型,而本技术中小波径向基神经网络模型中是在径向基神经网络的基础上加入了墨西哥帽小波函数,由于墨西哥帽小波函数具备请打的多分辨能力和泛化能力,基于本技术的小波径向基神经网络模型能够更为准确的识别出语音信号的声纹特征所归属的用户类别,从而可以更为准确识别出语音信号所归属的用户,提高了识别准确度。
附图说明
38.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
39.图1示出了本技术实施例提供的语音识别方法的一种流程示意图;
40.图2示出了本技术实施例提供的语音识别方法的又一种流程示意图;
41.图3示出了本技术中提取语音信号的声纹特征的一种流程示意图;
42.图4示出了本技术实施例提供的训练语音识别模型的一种流程示意图;
43.图5示出了本技术实施例提供的语音识别装置的一种组成结构示意图。
具体实施方式
44.本技术实施例的方案可以适用于任意需要语音识别以及声纹识别的场景中,由于适用于识别输入的语音信号属于特定的用户集中哪个用户。例如,金融机构或者企事业单位内,通过对语音信号进行语音识别分类,确定语音信号属于单位内的哪个用户。还可以适用于识别语音信号是否属于特定的用户等声纹识别场景,对此不加限制。
45.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
46.如图1所示,其示出了本技术实施例提供的语音识别方法的一种流程示意图,本实施例的方法可以应用于计算机设备,该计算机设备可以为服务器或者是终端设备,对此不加限制。
47.本实施例的方法可以包括:
48.s101,获得待识别的语音信号。
49.如,通过语音采集单元或者的语音信号,或者是,获得其他设备传输的带识别的语音信号。
50.当然,获得待识别的语音信号的方式可以有多种可能,对此不加限制。
51.s102,提取该语音信号的声纹特征。
52.其中,提取声纹特征的方式可以有多种可能的实现方式,本技术实施例对此不加限制。
53.在一种可能的实现方式中,本技术可以提取该语音信号的梅尔频率倒谱系数
(mel-frequency ceptralcoefficients,mfcc)特征,将提取出的该语音信号的梅尔频率倒谱系数特征确定为该语音信号的声纹特征。
54.可以理解的是,mfcc的原理是基于人耳的听觉特征,将线性频谱映射到基于听觉感知的梅尔非线性频谱中,使得人耳对频率的感知在梅尔频域内呈线性关系。将语音信号的mfcc特征作为声纹特征具有较好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时,mfcc特征仍然具有较好的区分特征。
55.s103,基于语音信号的声纹特征,利用语音识别模型确定语音信号的分类识别结果。
56.其中,语音识别模型为基于至少一个用户各自的至少一份声纹特征样本训练得到的。
57.在本技术中,该语音识别模型包括小波径向基神经网络模型和分类层。
58.其中,小波径向基神经网络模型包括:墨西哥帽小波函数以及径向基函数神经网络(也称为径向基函数网络)。在此基础上,经过墨西哥小波函数后的声纹特征会作为径向基函数神经网络的输入。
59.可以理解的是,墨西哥帽小波(mexican hat)函数具有较强的抗信噪比能力,能够使得数据特征更加清晰。基于此,本专利在径向基神经网络的基础上添加墨西哥帽小波函数,构造出小波径向基神经网络模型,可以使得该小波径向基神经网络模型具有较强的泛化能力,也就能够提高该模型识别语音信号归属的用户的分类结果的准确度更高。
60.可以理解的是,通过小波径向基神经网络模型可以输出一个向量,该向量为用于表征该语音信号所归属的用户的类别特征。在此基础上,为了能够最终确定该语音信号属于哪个用户,需要将小波径向基神经网络模型输出的向量输入到该分类层,以得到分类层输出的分类识别结果。
61.其中,该分类识别结果表征语音信号属于至少一个用户中各个用户的概率。
62.在本技术中,该分类层可以为归一化函数softmax层,或者是,全连接层佳softmax层。
63.可以理解的是,在实际应用根据需要身份识别的一个或者多个用户,在训练语音识别模型时,需要利用这一个或者多个用户各自的声纹特征来进行训练,以使得训练处的语音识别模型能够识别出语音信号分别属于一个或者多个用户各自的概率。
64.例如,语音识别中需要识别语音信号来源于属于公司内100个员工的那个员工,那么在训练语音识别模型时,就需要利用这100个用户各自对应的至少一份声纹特征样本训练该语音识别模型。在此基础上,获得待识别的语音信号后,利用该语音识别模型可以确定该语音信号分别属于这100个员工中各个员工的概率,实现声纹分类。
65.s104,基于分类识别结果,确定语音信号所归属的目标用户。
66.其中,目标用户属于至少一个用户。
67.如,可以将对应的概率最大的用户确定为该语音信号所归属的目标用户。
68.可以理解的是,考虑到有些语音信号可能不属于训练语音识别模型的声纹特征样本所归属的该至少一个用户,本技术还可以设定将识别出的对应概率超过设定值且最大的用户确定为目标用户。如果语音信号属于每个用户的概率均不超过设定值,则可以确定该语音信号不是这至少一个用户中的任意一个用户。
69.由以上可知,在本技术实施例中,在获得待识别的语音信号之后,基于该语音信号的声纹特征并利用训练处的语音识别模型来确定出该语音信号实际归属的目标用户。由于该语音识别模型的语音识别主体模型为小波径向基神经网络模型,而本技术中小波径向基神经网络模型中是在径向基神经网络的基础上加入了墨西哥帽小波函数,由于墨西哥帽小波函数具备请打的多分辨能力和泛化能力,基于本技术的小波径向基神经网络模型能够更为准确的识别出语音信号的声纹特征所归属的用户类别,从而可以更为准确识别出语音信号所归属的用户,提高了识别准确度。
70.可以理解的是,从语音信号提取出的声纹特征的维度都比较高,而且很可能会包含一些噪声数据,基于此,本技术在提取语音信号的声纹特征之后,还可以利用主成分分析(pca)法对提取出的所述声纹特征进行降维,得到降维后的声纹特征。
71.为了便于理解本技术的方案,下面结合一种实现进行说明。如图2所示,其示出了本技术实施例提供的语音识别方法的又一种流程示意图,本实施例可以包括:
72.s201,获得待识别的语音信号。
73.s202,提取该语音信号的梅尔频率倒谱系数特征,将提取出的该梅尔频率倒谱系数特征确定为该语音信号的声纹特征。
74.为了便于理解,以提取语音信号的mfcc特征的一种方式进行说明,如,参见图3所示的流程,语音信号的mfcc特征的提取过程可以包括:
75.s31,对语音信号进行预加重处理。
76.预加重处理其实是将语音信号通过一个高通滤波器。
77.s32,对预加重后的语音信号进行分帧。
78.将每个语音信号的采样信号分成大小固定的n段,这里每一段都被称为一帧语音信号。
79.如,通常语音识别所采用语音信号的采样频率为8khz或16khz。为了便于理解,以采样频率为8khz进行说明,若帧长度为256个采样点,则分帧出的每帧语音帧信号对应的时间长度是256/8000
×
1000=32ms。
80.以语音信号分帧后的各帧语音信号可以表示为s(n),其中,n=1,2,...,n表示分帧后的信号,n为分帧后得到的帧的数量。
81.s33,对分帧后的语音信号加窗。
82.具体的,将分帧后的语音信号乘上汉明窗w(n),得到分帧加窗后的语音信号s

(n),如公式一所示:
83.s

(n)=s(n)w(n)
ꢀꢀꢀꢀ
(公式一);
84.其中,汉明窗的函数可以采用目前任意的汉明窗的函数,对此不加限制。
85.s34,对分帧加窗后的各帧语音信号进行快速傅里叶变换得到各帧语音信号的频谱。
86.频谱s(k)通过如下公式二得到:
[0087][0088]
s35,使用梅尔刻度滤波器组对频谱过滤。
[0089]
具体的,对于上一步得到的频谱,分别跟每一个梅尔刻度滤波器进行频率相乘累加,得到的值就是该帧语音信号在该梅尔刻度滤波器对应频段的能量值。如,如果滤波器的个数为22,那么此时应该得到22个能量值。
[0090]
s36,计算每个梅尔刻度滤波器组输出的对数能量。
[0091]
该步骤的每个梅尔刻度滤波器m对应的对数能量s(m)的计算公式可以参见如下公式三:
[0092][0093]
其中,m为梅尔滤波器的个数,hm(k)表示第m个梅尔滤波器组的函数,其具体公式表达形式不加限制。
[0094]
s37,将各组对数能量经离散余弦变换,得到mfcc特征。
[0095]
s38,对提取的mfcc特征进行方差归一化。
[0096]
该步骤的作用是消除干扰的信道效应。
[0097]
当然,以上仅仅是提取mfcc特征的一种简单介绍,在实际应用中,具体提取方式还可以有所不同,对此不加限制。
[0098]
s203,利用主成分分析法对提取出的该声纹特征进行降维,得到降维后的声纹特征。
[0099]
可以理解的是,由于提取的mfcc特征是属于高维特征,其本身包含大量的零值,十分稀疏,因此,该模块使用了主成分分析方法(pca)对提取到的特征进行降维,不仅可以对高维特征进行降维,还可以去除数据中的噪声,为语音识别模型提供了高质量的数据。
[0100]
s204,基于该语音识别模型中的墨西哥帽小波函数对降维后的声纹特征进行小波变换。
[0101]
当然,本实施例是以将采用主成分分析法对声纹特征进行降维后,再进行语音识别为例说明,如果不执行对声纹特征的降维,那么直接利用墨西哥帽小波函数对声纹特征进行小波变换也同样适用于本实施例。
[0102]
s205,将小波变换后的声纹特征输入到语音识别模型的径向基神经网络,得到该径向基神经网络输出的声纹分类特征。
[0103]
其中,该声纹分类特征用于表征该语音信号所归属的用户的类别特征。
[0104]
可以理解的是,墨西哥帽小波函数具有较强的抗信噪比能力,采用墨西哥帽小波函数对声纹特征进行小波变换后,再利用径向基神经网络中的径向基函数进行运算处理,使得得到的声纹分类特征能够具有更好的分类特性。
[0105]
s206,将该声纹分类特征输入到该语音识别模型的分类层,得到该语音信号属于该至少一个用户中各用户的概率。
[0106]
s207,基于识别出各用户的概率,确定该语音信号所归属的目标用户。
[0107]
其中,该目标用户属于训练语音识别模型的多分语音信号样本所归属的至少一个用户。
[0108]
可以理解的是,本技术利用标注有用户标签的多个语音信号样本训练语音识别模
型的过程可以采用有监督的训练方式进行训练,具体训练过程可以有多种可能,对此不加限制。
[0109]
为了便于理解,下面以语音识别模型的一种训练流程为例进行简单说明。如图4所示,其示出了本技术实施例中语音识别模型的一种流程示意图,本实施例的流程可以包括:
[0110]
s401,获得标注有用户标签的多个语音信号样本。
[0111]
其中,多个语音信号样本归属于至少一个用户。如,语音识别的应用场景为需要利用语音识别模型识别对语音信号进行身份分类,那么需要获得涉及到身份识别的多个用户各自的一个或者多个语音信号样本;如果语音识别场景为仅仅是单个用户的语音识别,那么可以仅仅针对这个用户,获取该用户的多个语音信号样本,以训练出用于识别语音信号是否属于该用户的语音信号的语音识别模型。
[0112]
语音信号样本的用户标签表征语音信号样本所归属的用户。
[0113]
s402,针对每个语音信号样本,提取该语音信号样本的梅尔频率倒谱系数特征,得到该语音信号样本的样本声纹特征。
[0114]
提取语音信号样本的mfcc特征可以参见前面提取语音信号的mfcc的相关介绍,对此不再赘述。
[0115]
s403,采用主成分分析法对该语音信号样本的样本声纹特征进行降维,得到降维后的样本声纹特征。
[0116]
通过主成分分析法对语音信号样本的样本声纹特征进行降维,有利于降低后续模型的训练时间。
[0117]
s404,基于各语音信号样本对应的用户标签以及各语音信号样本对应的降维后的样本声纹特征,训练语音识别模型,直至满足训练要求。
[0118]
如,结合语音识别模型预测出的语音信号样本所归属的用户与语音信号标注的用户标签所表征的用户,可以确定语音识别模型的预测准确度,如果该预测准确度超过设定阈值,可以确定满足训练要求。
[0119]
当然,还可以设定训练的迭代次数,如果训练迭代次数超过设定次数,则确定满足训练要求。
[0120]
可以理解的是,在训练语音识别模型的过程中,每完成一轮训练,如果确定出尚未到达训练要求,则会调整语音识别模型中各个模型内的相关参数的参数值,然后继续进行训练,直至满足训练要求为止。
[0121]
其中,在步骤s404中,针对每个语音信号样本,均需要将该语音信号样本对应的降维后的声纹特征输入到该语音识别模型,以得到该语音信号样本的分类识别结果。在此基础上,根据该语音信号样本的分类识别结果和该语音信号样本标注的用户标签,确定该语音识别模型的预测准确度,如,结合损失函数,计算损失函数值。
[0122]
可以理解的是,对于语音信号样本而言,将语音信号样本输入到语音识别模型得到分类识别结果的过程,如前面基于语音识别模型得到语音识别的分类识别结果的过程相似。
[0123]
如,针对每个语音信号,可以将语音识别模型中的墨西哥帽小波函数对语音信号样本的声纹特征进行小波变换;然后,将小波变换后的声纹特征输入到所述语音识别模型的径向基神经网络,得到径向基神经网络输出的声纹分类特征,语音信号样本对应的声纹
分类特征用于表征该语音信号样本所归属的用户的类别特征。在此基础上,将语音信号样本的声纹分类特征输入到该语音识别模型的分类层,得到该语音信号样本属于至少一个用户中各用户的概率。
[0124]
在一种可选方式中,对于多个语音信号样本而言,在对语音信号样本对应的降维后的声纹特征进行小波变换之前,还可以先对各个语音信号样本对应的降维后的声纹特征进行归一化。
[0125]
例如,先计算各个语音信号样本对应的声纹特征的平均值和标准值,然后,针对每个语音信号样本对应的降维后的声纹特征x_input的归一化x可以采用如下公式四得到:
[0126][0127]
其中,s_value为多个语音信号样本对应的降维后的声纹特征的标准值;m_value多个语音信号样本对应的降维后的声纹特征的平均值。
[0128]
在以上基础上,可以利用墨西哥帽小波函数对归一化后的声纹特征x进行小波变换,得到小波后的声纹特征ψ(x),如公式五所示:
[0129][0130]
其中,a为预先设定的固定值,也可以是一模型训练过程中的变量参数,经过训练可以确定该变量参数的取值,在训练完成a的取值为训练得到的固定值。
[0131]
将小波变换后的声纹特征输入到如下公式六所示的径向基函数,可以得到该表征语音信号样本对应的声纹分类特征该声纹分类特征为一特征向量。
[0132][0133]
其中,u
t
为中心点,σ
t
为径基宽度,这两个参数的取值均可以通过训练确定。
[0134]
对应本技术的一种语音识别方法,本技术还提供了一种语音识别装置。
[0135]
如图5所示,其示出了本技术一种语音识别装置的一种组成结构示意图,本实施例的装置可以包括:
[0136]
信号获得单元501,用于获得待识别的语音信号;
[0137]
特征提取单元502,用于提取所述语音信号的声纹特征;
[0138]
语音识别单元503,用于基于所述语音信号的声纹特征,利用语音识别模型确定所述语音信号的分类识别结果,所述语音识别模型为基于至少一个用户各自的至少一个声纹特征样本训练得到的,其中,所述语音识别模型包括小波径向基神经网络模型和分类层,所述小波径向基神经网络模型包括:墨西哥帽小波函数以及径向基函数神经网络,所述分类识别结果表征所述语音信号属于所述至少一个用户中各个用户的概率;
[0139]
用户确定单元504,用于基于所述分类识别结果,确定所述语音信号所归属的目标用户,所述目标用户属于所述至少一个用户。
[0140]
在一种可能的实现方式中,所述特征提取单元,包括:
[0141]
特征提取子单元,用于提取所述语音信号的梅尔频率倒谱系数特征,将提取出的所述梅尔频率倒谱系数特征确定为所述语音信号的声纹特征。
[0142]
在又一种可能的实现方式中,还包括:
[0143]
特征降维单元,用于在特征提取单元或者特征提取子单元提取出所述语音信号的声纹特征之后,利用主成分分析法对提取出的所述声纹特征进行降维,得到降维后的声纹特征。
[0144]
在又一种可能的实现方式中,所述语音识别单元,包括:
[0145]
小波变换单元,用于基于所述语音识别模型中的墨西哥帽小波函数对所述语音信号的声纹特征进行小波变换;
[0146]
分类特征确定单元,用于将小波变换后的声纹特征输入到所述语音识别模型的径向基神经网络,得到所述径向基神经网络输出的声纹分类特征,所述声纹分类特征用于表征所述语音信号所归属的用户的类别特征;
[0147]
用户概率确定单元,用于将所述声纹分类特征输入到所述语音识别模型的分类层,得到所述语音信号属于所述至少一个用户中各用户的概率。
[0148]
在又一种可能的实现方式中,本技术还可以包括模型训练单元,用于通过如下方式训练该语音识别模型:
[0149]
获得标注有用户标签的多个语音信号样本,其中,所述多个语音信号样本归属于至少一个用户,所述语音信号样本的用户标签表征所述语音信号样本所归属的用户;
[0150]
针对每个语音信号样本,提取所述语音信号样本的梅尔频率倒谱系数特征,得到所述语音信号样本的样本声纹特征;
[0151]
采用主成分分析法对所述语音信号样本的样本声纹特征进行降维,得到降维后的样本声纹特征;
[0152]
基于所述语音信号样本对应的用户标签以及降维后的样本声纹特征,训练所述语音识别模型,直至满足训练要求。
[0153]
在一种可能的实现方式中,所述分类层为归一化函数层;或者为,全连接层和归一化函数层。
[0154]
需要说明的是,本技术提供的语音识别方法和装置可用于人工智能领域或者金融领域。上述仅为示例,并不对本发明提供的语音识别方法和装置的应用领域进行限定。
[0155]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本技术。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0156]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0157]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这
些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0158]
以上仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:


1.一种语音识别方法,其特征在于,包括:获得待识别的语音信号;提取所述语音信号的声纹特征;基于所述语音信号的声纹特征,利用语音识别模型确定所述语音信号的分类识别结果,所述语音识别模型为基于至少一个用户各自的至少一个声纹特征样本训练得到的,其中,所述语音识别模型包括小波径向基神经网络模型和分类层,所述小波径向基神经网络模型包括:墨西哥帽小波函数以及径向基函数神经网络,所述分类识别结果表征所述语音信号属于所述至少一个用户中各个用户的概率;基于所述分类识别结果,确定所述语音信号所归属的目标用户,所述目标用户属于所述至少一个用户。2.根据权利要求1所述的方法,其特征在于,所述提取所述语音信号的声纹特征,包括:提取所述语音信号的梅尔频率倒谱系数特征,将提取出的所述梅尔频率倒谱系数特征确定为所述语音信号的声纹特征。3.根据权利要求1或2所述的方法,其特征在于,在提取出所述语音信号的声纹特征之后,还包括:利用主成分分析法对提取出的所述声纹特征进行降维,得到降维后的声纹特征。4.根据权利要求1所述的方法,其特征在于,所述基于所述语音信号的声纹特征,利用语音识别模型确定所述语音信号的分类识别结果,包括:基于所述语音识别模型中的墨西哥帽小波函数对所述语音信号的声纹特征进行小波变换;将小波变换后的声纹特征输入到所述语音识别模型的径向基神经网络,得到所述径向基神经网络输出的声纹分类特征,所述声纹分类特征用于表征所述语音信号所归属的用户的类别特征;将所述声纹分类特征输入到所述语音识别模型的分类层,得到所述语音信号属于所述至少一个用户中各用户的概率。5.根据权利要求1所述的方法,其特征在于,所述语音识别模型通过如下方式训练得到:获得标注有用户标签的多个语音信号样本,其中,所述多个语音信号样本归属于至少一个用户,所述语音信号样本的用户标签表征所述语音信号样本所归属的用户;针对每个语音信号样本,提取所述语音信号样本的梅尔频率倒谱系数特征,得到所述语音信号样本的样本声纹特征;采用主成分分析法对所述语音信号样本的样本声纹特征进行降维,得到降维后的样本声纹特征;基于所述语音信号样本对应的用户标签以及降维后的样本声纹特征,训练所述语音识别模型,直至满足训练要求。6.根据权利要求1所述的方法,其特征在于,所述分类层为归一化函数层;或者为,全连接层和归一化函数层。7.一种语音识别装置,其特征在于,包括:信号获得单元,用于获得待识别的语音信号;
特征提取单元,用于提取所述语音信号的声纹特征;语音识别单元,用于基于所述语音信号的声纹特征,利用语音识别模型确定所述语音信号的分类识别结果,所述语音识别模型为基于至少一个用户各自的至少一个声纹特征样本训练得到的,其中,所述语音识别模型包括小波径向基神经网络模型和分类层,所述小波径向基神经网络模型包括:墨西哥帽小波函数以及径向基函数神经网络,所述分类识别结果表征所述语音信号属于所述至少一个用户中各个用户的概率;用户确定单元,用于基于所述分类识别结果,确定所述语音信号所归属的目标用户,所述目标用户属于所述至少一个用户。8.根据权利要求7所述的装置,其特征在于,所述特征提取单元,包括:特征提取子单元,用于提取所述语音信号的梅尔频率倒谱系数特征,将提取出的所述梅尔频率倒谱系数特征确定为所述语音信号的声纹特征。9.根据权利要求7或8所述的装置,其特征在于,还包括:特征降维单元,用于在特征提取单元或者特征提取子单元提取出所述语音信号的声纹特征之后,利用主成分分析法对提取出的所述声纹特征进行降维,得到降维后的声纹特征。10.根据权利要求7所述的装置,其特征在于,所述语音识别单元,包括:小波变换单元,用于基于所述语音识别模型中的墨西哥帽小波函数对所述语音信号的声纹特征进行小波变换;分类特征确定单元,用于将小波变换后的声纹特征输入到所述语音识别模型的径向基神经网络,得到所述径向基神经网络输出的声纹分类特征,所述声纹分类特征用于表征所述语音信号所归属的用户的类别特征;用户概率确定单元,用于将所述声纹分类特征输入到所述语音识别模型的分类层,得到所述语音信号属于所述至少一个用户中各用户的概率。

技术总结


本申请公开了一种语音识别方法和装置,可应用于人工智能领域或者金融领域,该方法包括:获得待识别的语音信号;提取语音信号的声纹特征;基于语音信号的声纹特征,利用语音识别模型确定语音信号的分类识别结果,语音识别模型为基于至少一个用户各自的至少一个声纹特征样本训练得到的,其中,语音识别模型包括小波径向基神经网络模型和分类层,小波径向基神经网络模型包括:墨西哥帽小波函数以及径向基函数神经网络;基于分类识别结果,确定语音信号所归属的目标用户,目标用户属于至少一个用户。本申请的方案能够更为准确的确定出语音信号所归属的用户,提升语音信号的分类识别结果的准确度。果的准确度。果的准确度。


技术研发人员:

张全龙 程梦琴 李文兵 昂娟

受保护的技术使用者:

中国银行股份有限公司

技术研发日:

2022.06.14

技术公布日:

2022/9/13


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-27243-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-09 18:33:49

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论