本文作者:kaifamei

语音仿真信号获取、语音识别方法、装置、设备及介质与流程

更新时间:2025-01-13 17:45:23 0条评论

语音仿真信号获取、语音识别方法、装置、设备及介质与流程



1.本发明涉及信号仿真技术领域,尤其涉及一种语音仿真信号获取、语音识别方法、装置、设备及介质。


背景技术:



2.目前,在进行语音识别时,通常是基于样本语音信号训练得到语音识别模型,然后基于该语音识别模型进行语音识别。
3.然而,在实际的语音识别任务中,场景复杂多变,且当前人们的隐私意识日益增强,从而导致较难获取真实场景中的样本语音信号。


技术实现要素:



4.本发明提供一种语音仿真信号获取、语音识别方法、装置、设备及介质,用以解决现有技术中语音识别训练任务所用的样本语音信号难以获取的缺陷。
5.本发明提供一种语音仿真信号获取方法,包括:
6.确定人声信号以及噪声信号;
7.基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;
8.基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;
9.对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。
10.根据本发明提供的一种语音仿真信号获取方法,所述噪声信号包括点噪声源信号以及散射噪声信号;
11.所述基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号,包括:
12.基于点噪声源与所述声音采集设备之间的相对位置信息,确定所述噪声信号的房间冲激响应;
13.将所述点噪声源信号与所述噪声信号的房间冲激响应进行卷积,得到所述噪声混响信号中的点噪混响信号;
14.基于所述散射噪声信号的散射噪声场,以及所述声音采集设备的位置,确定所述噪声混响信号中的散射混响信号。
15.根据本发明提供的一种语音仿真信号获取方法,所述基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号,包括:
16.基于人声声源与所述声音采集设备之间的相对位置信息,确定所述人声信号的房间冲激响应;
17.将所述人声信号与所述人声信号的房间冲激响应进行卷积,得到所述人声混响信号。
18.根据本发明提供的一种语音仿真信号获取方法,所述房间冲激响应基于如下步骤确定:
19.基于对应信号的声源位置以及所述声音采集设备的位置,确定对应信号的声学反射路径;
20.基于对应信号的传播介质,以及对应信号的声学反射路径,确定对应信号的房间冲激响应。
21.根据本发明提供的一种语音仿真信号获取方法,所述对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号,包括:
22.基于所述人声混响信号与所述噪声混响信号之间的功率比,对所述人声混响信号和所述噪声混响信号进行叠加,得到所述语音仿真信号。
23.根据本发明提供的一种语音仿真信号获取方法,所述功率比包括信噪比,以及信干比和/或信回比;
24.所述基于所述人声混响信号与所述噪声混响信号之间的功率比,对所述人声混响信号和所述噪声混响信号进行叠加,得到所述语音仿真信号,包括:
25.基于所述信噪比,对所述散射混响信号和所述人声混响信号进行叠加,得到初始仿真信号;
26.基于所述信干比和/或所述信回比,对所述点噪混响信号和所述初始语音仿真信号进行叠加,得到所述语音仿真信号。
27.本发明还提供一种语音识别方法,包括:
28.获取待识别语音信号;
29.将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;
30.所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于如上所述的语音仿真信号获取方法确定。
31.本发明还提供一种语音仿真信号获取装置,包括:
32.信号确定单元,用于确定人声信号以及噪声信号;
33.第一混响单元,用于基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;
34.第二混响单元,用于基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;
35.信号仿真单元,用于对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。
36.本发明还提供一种语音识别装置,包括:
37.信号获取单元,用于获取待识别语音信号;
38.语音识别单元,用于将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;
39.所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于如上所述的语音仿真信号获取方法确定。
40.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音仿真信号获取方法,和/或,所述处理器执行所述程序时实现如上述任一种所述语音识别方法。
41.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音仿真信号获取方法,和/或,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
42.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音仿真信号获取方法,和/或,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
43.本发明提供的语音仿真信号获取、语音识别方法、装置、设备及介质,基于人声声源与声音采集设备之间的相对位置信息,对人声信号进行混响,模拟得到人声混响信号,以及基于噪声声源与声音采集设备之间的相对位置信息,对噪声信号进行混响,模拟得到噪声混响信号,从而能够在对人声混响信号和噪声混响信号进行叠加后,准确得到语音仿真信号,且人声信号和噪声信号是易于获取的信号,从而可以避免传统方法中样本语音信号难以获取的问题。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1是本发明提供的语音仿真信号获取方法的流程示意图;
46.图2是本发明提供的语音仿真信号获取方法中步骤130的实施方式的流程示意图;
47.图3是本发明提供的语音仿真信号获取方法中步骤120的实施方式的流程示意图;
48.图4是本发明提供的房间冲激响应确定方法的流程示意图;
49.图5是本发明提供的语音仿真信号获取方法中步骤140的实施方式的流程示意图;
50.图6是本发明提供的又一语音仿真信号获取方法的流程示意图;
51.图7是本发明提供的语音识别方法的流程示意图;
52.图8是本发明提供的语音仿真信号获取装置的结构示意图;
53.图9是本发明提供的语音识别装置的结构示意图;
54.图10是本发明提供的电子设备的结构示意图。
具体实施方式
55.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
56.目前,在进行语音识别时,通常是基于样本语音信号训练得到语音识别模型,然后基于该语音识别模型进行语音识别,然而在实际的语音识别任务中,场景复杂多变,且当前人们的隐私意识日益增强,从而导致较难获取真实场景中的样本语音信号。
57.对此,传统方法中也有通过专人录制不同场景下的样本语音信号,但样本语音信号的录制时间较长,成本较高。此外,语音识别场景较多且复杂,通过录制得到的样本语音信号无法覆盖所有场景,进而影响语音识别模型的训练效果。例如,在进行车载语音识别时,其对应的外部场景包括高架、市区、闹市、高速、建筑工地等,内部场景包括车窗开、车窗关、车窗半开、音乐、副驾以及后排干扰等。各个场景中的噪声也各不相同,例如人声干扰、胎噪、喇叭声、雨刮器声音、车外人声、车外车噪等等。除此之外,真实用户涵盖各个年龄段,有儿童、少年、青年和老年用户,每个年龄段用户中都有不同性别、不同语速、不同口音的差异。由此可见,车载语音识别的场景复杂多样,通过录制得到的样本语音信号无法覆盖车载语音识别的所有场景。
58.对此,本发明提供一种语音仿真信号获取方法。图1是本发明提供的语音仿真信号获取方法的流程示意图,如图1所示,该方法可以应用于车载场景下的语音仿真信号获取,也可以应用于智能家居场景下的语音仿真信号获取,还可以应用于其它场景下的语音仿真信号获取,为了便于解释说明,以下实施例以车载场景下的语音仿真信号获取为例进行说明,该方法包括如下步骤:
59.步骤110、确定人声信号以及噪声信号。
60.此处,人声信号是指人声声源所在位置发出的语音信号,人声声源所在位置可以包括驾驶座位置、副驾驶座位置、后排座位置等。如司机说“打开车载音乐”,此时的人声信号为驾驶座位置发出的语音信号。噪声信号指噪声声源所在位置发出的语音信号,噪声信号可以包括人声干扰信号,如副驾驶、后排等位置的人声干扰信号,也可以包括环境噪声信号,如车辆在行驶过程中伴随的风声、轮胎声、雨刮器声等噪声信号,还可以包括其它噪声信号,如车载音乐声、车载导航声等噪声信号。
61.可选地,人声信号可以从语音库中获取,语音库中可以存储有预先录制的不同位置的人声信号、不同年龄的人声信号、不同性别的人声信号等,从而可以避免传统方法中用户因保护隐私而较难获取相应信号的问题。噪声信号可以从噪声库中获取,噪声库中可以存储有预先录制的不同的人声干扰信号、环境噪声信号等各种信号,从而可以收集多种复杂场景下的噪声信号,避免传统方法中通过人工采集导致所采集的信号无法全面覆盖所有场景的问题。
62.步骤120、基于人声声源与声音采集设备之间的相对位置信息,对人声信号进行混响,得到人声混响信号。
63.具体地,声音采集设备可以为麦克风,也可以为麦克风阵列,本发明实施例对此不作具体限定。人声混响信号指人声信号从人声声源传播至声音采集设备时的信号。
64.人声信号是人声声源所在位置发出的信号,声音采集设备与人声声源之间存在一定的距离,从而人声信号在传播至声音采集设备的过程中,可能会被车窗、车顶等障碍物反射,也就是声音采集设备所采集到的信号并不是人声声源所在位置发出的原始的人声信号,而是被障碍物反射后的信号。
65.对此,本发明实施例基于人声声源与声音采集设备之间的相对位置信息,可以确定人声信号由人声声源传播至声音采集设备的声学反射路径,进而根据该声学反射路径对人声信号进行混响,得到声音采集设备采集的人声混响信号。
66.步骤130、基于噪声声源与声音采集设备之间的相对位置信息,对噪声信号进行混
响,得到噪声混响信号。
67.具体地,噪声混响信号指噪声信号从噪声声源传播至声音采集设备时的信号。噪声信号是噪声声源所在位置发出的信号,声音采集设备与噪声声源之间存在一定的距离,从而噪声信号在传播至声音采集设备的过程中,可能会被车窗、车顶等障碍物反射,也就是声音采集设备所采集到的信号并不是噪声声源所在位置发出的原始的噪声信号,而是被障碍物反射后的信号。
68.对此,本发明实施例基于噪声声源与声音采集设备之间的相对位置信息,可以确定噪声信号由人声声源传播至声音采集设备的声学反射路径,进而根据该声学反射路径对噪声信号进行混响,得到声音采集设备采集的噪声混响信号。
69.步骤140、对人声混响信号和噪声混响信号进行叠加,得到语音仿真信号。
70.具体地,在车载场景下,声音采集设备接收到的信号中不仅包含有人声信号,还包含有噪声信号。因此,为了精确模拟得到车载场景下声音采集设备采集得到的语音信号,本发明实施例对人声混响信号和噪声混响信号进行叠加,得到语音仿真信号。可选地,在对人声混响信号和噪声混响信号进行叠加时,可以基于两者的功率比进行叠加,得到语音仿真信号。
71.本发明实施例提供的语音仿真信号获取方法,基于人声声源与声音采集设备之间的相对位置信息,对人声信号进行混响,模拟得到人声混响信号,以及基于噪声声源与声音采集设备之间的相对位置信息,对噪声信号进行混响,模拟得到噪声混响信号,从而能够在对人声混响信号和噪声混响信号进行叠加后,准确得到语音仿真信号,且人声信号和噪声信号是易于获取的信号,从而可以避免传统方法中样本语音信号难以获取的问题。
72.基于上述实施例,噪声信号包括点噪声源信号以及散射噪声信号,点噪声源信号指确定噪声声源方向的噪声信号,如后排座的人声干扰信号。散射噪声信号指噪声声源方向未知的噪声信号,如风噪。
73.图2是本发明提供的语音仿真信号获取方法中步骤130的实施方式的流程示意图,如图2所示,步骤130包括:
74.步骤131、基于点噪声源与声音采集设备之间的相对位置信息,确定噪声信号的房间冲激响应;
75.步骤132、将点噪声源信号与噪声信号的房间冲激响应进行卷积,得到噪声混响信号中的点噪混响信号;
76.步骤133、基于散射噪声信号的散射噪声场,以及声音采集设备的位置,确定噪声混响信号中的散射混响信号。
77.具体地,房间冲激响应是指房间内声音采集设备在单位脉冲激励下引起的响应,即可以理解为声源到声音采集设备的传递函数。点噪混响信号指点噪声源信号从点噪声源传播至声音采集设备时的信号。
78.点噪声源与声音采集设备之间的相对位置信息用于表征点噪声源与声音采集设备之间的声学反射路径信息。当点噪信号在空间内传播时,会碰到车身或者其他物体被反射,进而形成相应的声学反射路径,根据该声学反射路径可以确定噪声信号的房间冲激响应,进而将点噪声源信号与噪声信号的房间冲激响应进行卷积,得到噪声混响信号中的点噪混响信号。
79.散射噪声信号的噪声声源方向是未知的,且散射噪声场类似于球面噪声场,基于声音采集设备的位置,对散射噪声场进行球面噪声叠加,得到散射混响信号。其中,散射混响信号指散射噪声信号传播至声音采集设备时的信号。
80.作为一种可选实施例,点噪声源信号可以包括人声干扰信号和/或音频干扰信号,人声干扰信号可以为驾驶座、副驾驶座、驾驶座后排以及副驾驶座后排位置处发出的干扰信号,音频干扰信号可以为车机播放的音乐干扰信号、导航干扰信号等。
81.本发明实施例可以采用实际测量的方法计算噪声信号的房间冲激响应,也可以采用其它方法(如波动方程的方法、镜像的方法、统计的方法等)计算噪声信号的房间冲激响应。在车载场景下,通常可以通过计算出驾驶座、副驾驶座、驾驶座后排以及副驾驶座后排四个位置的房间冲激响应后,即可模拟声音采集设备接收到的各个位置发出的人声干扰信号和/或音频干扰信号。
82.需要说明的是,在车载场景下,散射噪声信号是指汽车行驶过程中环境中的一些噪声,例如风噪、胎噪等,该类噪声信号是汽车行驶过程中必然会产生的噪声信号。然而,点噪声源信号主要包括人声干扰信号和/或音频干扰信号,该类噪声信号在汽车行驶过程中不是必然会产生的,也就是在车载场景下点噪声源信号可能存在,也可能不存在。相应地,噪声混响信号中的散射混响信号在汽车行驶过程中是必然存在的信号,而噪声混响信号中的点噪混响信号则不是必然存在的信号。
83.图3是本发明提供的语音仿真信号获取方法中步骤120的实施方式的流程示意图,如图3所示,步骤120包括:
84.步骤121、基于人声声源与声音采集设备之间的相对位置信息,确定人声信号的房间冲激响应;
85.步骤122、将人声信号与人声信号的房间冲激响应进行卷积,得到人声混响信号。
86.具体地,人声声源与声音采集设备之间的相对位置信息用于表征人声声源与声音采集设备之间的声学反射路径信息。当人声信号在空间内传播时,会碰到车身或者其他物体被反射,进而形成相应的声学反射路径,根据该声学反射路径可以确定人声信号的房间冲激响应,进而将人声信号与人声信号的房间冲激响应进行卷积,得到人声混响信号。
87.由此可见,本发明实施例基于人声声源与声音采集设备之间的相对位置信息,能够准确确定人声信号的房间冲激响应,并将人声信号与人声信号的房间冲激响应进行卷积,从而能够准确模拟得到人声混响信号。
88.基于上述任一实施例,图4是本发明提供的房间冲激响应确定方法的流程示意图,如图4所示,房间冲激响应的确定步骤包括:
89.步骤410、基于对应信号的声源位置以及声音采集设备的位置,确定对应信号的声学反射路径;
90.步骤420、基于对应信号的传播介质,以及对应信号的声学反射路径,确定对应信号的房间冲激响应。
91.具体地,声学反射路径用于表征对应信号在空间传播至声音采集设备过程中被障碍物进行反射的路径信息。此外,对应信号在空间传播过程中,也会被空间的传播介质吸收部分能力,从而导致信号衰减。
92.对此,本发明实施例先基于对应信号的声源位置以及声音采集设备的位置,确定
对应信号的声学反射路径,以获取对应信号被障碍物进行反射的路径信息,同时结合对应信号的传播介质,即考虑对应信号在传播过程中被传播介质吸收的问题,从而能够准确获取对应信号的房间冲激响应,进而能够基于该房间冲激响应进行卷积,准确得到响应的语音仿真信号。此处,对应信号可以为散射噪声信号,也可以为人声信号。
93.基于上述任一实施例,步骤140包括:
94.基于人声混响信号与噪声混响信号之间的功率比,对人声混响信号和噪声混响信号进行叠加,得到语音仿真信号。
95.具体地,功率比用于表征人声混响信号与噪声混响信号之间的功率比值。基于人声混响信号与噪声混响信号之间的功率比,对人声混响信号和噪声混响信号进行叠加,从而能够使得得到的语音仿真信号中不仅包含有人声信号信息,还包含有噪声信号信息,也就是语音仿真信号能够高精度模拟真实场景下声音采集设备所接收到的信号。
96.可以理解的是,由于车载场景复杂多样,在不同场景下人声混响信号与噪声混响信号之间的功率比可能不同,可以基于不同的功率比对人声混响信号和噪声混响信号进行叠加,从而能够获取大量不同的语音仿真信号,进而能够将该语音仿真信号作为语音识别模型的训练样本,避免传统方法中难以获取样本语音信号的问题。
97.基于上述任一实施例,功率比包括信噪比,以及信干比和/或信回比;信噪比用于表征人声混响信号与散射混响信号之间的功率比值,信干比用于表征人声混响信号与点噪混响信号中的人声干扰混响信号之间的功率比值,信回比用于表征人声混响信号与点噪混响信号中的音频干扰混响信号之间的功率比值;其中,人声干扰混响信号是点噪声源信号中的人声干扰信号经空间传播至声音采集设备的信号,音频干扰混响信号是点噪声源信号中的音频干扰信号经空间传播至声音采集设备的信号。其中,信噪比的取值范围可以为5db~15db,信干比的取值范围可以为10db~15db,信回比的取值范围可以为10db~15db。
98.图5是本发明提供的语音仿真信号获取方法中步骤140的实施方式的流程示意图,如图5所示,步骤140中基于人声混响信号与噪声混响信号之间的功率比,对人声混响信号和噪声混响信号进行叠加,得到语音仿真信号,包括:
99.步骤141、基于信噪比,对散射混响信号和人声混响信号进行叠加,得到初始仿真信号;
100.步骤142、基于信干比和/或信回比,对点噪混响信号和初始语音仿真信号进行叠加,得到语音仿真信号。
101.具体地,信噪比用于表征人声混响信号与散射混响信号之间的功率比值。基于信噪比,对人声混响信号和散射混响信号进行叠加,从而能够使得得到的初始仿真信号中不仅包含有人声信号信息,还包含有散射噪声信号信息。
102.点噪混响信号中包括人声干扰混响信号和/或音频干扰混响信号。在点噪混响信号中包括人声干扰混响信号的情况下,基于信干比对人声混响信号和人声干扰混响信号进行叠加,从而可以使得语音仿真信号中包含有人声干扰信号信息。在点噪混响信号中包括音频干扰混响信号的情况下,基于信回比对人声混响信号和音频干扰混响信号进行叠加,从而可以使得语音仿真信号中包含有音频干扰信号信息。在点噪混响信号中包括人声干扰信号和音频干扰混响信号的情况下,基于信干比对人声混响信号和人声干扰混响信号进行叠加,以及基于信回比对人声混响信号和音频干扰混响信号进行叠加,从而可以使得语音
仿真信号中包含有人声干扰信号信息和音频干扰信号信息。
103.基于上述任一实施例,图6是本发明提供的又一语音仿真信号获取方法的流程示意图,如图6所示,该方法包括:
104.首先,从语音库中获取人声信号,以及从噪声库中获取噪声信号。其中,语音库中存储有预先录制的不同的人声信号,噪声库中存储有预先录制的不同的噪声信号,噪声信号包括点噪声源信号以及散射噪声信号,点噪声源信号包括人声干扰信号和音频干扰信号。
105.接着,基于人声声源与声音采集设备之间的相对位置信息,确定人声信号的房间冲激响应,并将人声信号与人声信号的房间冲激响应进行卷积,得到人声混响信号。同时,基于点噪声源与声音采集设备之间的相对位置信息,确定噪声信号的房间冲激响应,并将点噪声源信号与噪声信号的房间冲激响应进行卷积,得到噪声混响信号中的点噪混响信号;此外基于散射噪声信号的散射噪声场,以及声音采集设备的位置,进行球面噪声叠加,确定噪声混响信号中的散射混响信号。
106.在获取人声混响信号、点噪混响信号以及散射混响信号后,基于信噪比对散射混响信号和所述人声混响信号进行叠加,得到初始仿真信号,并基于信干比和/或信回比,对点噪混响信号和初始语音仿真信号进行叠加,得到语音仿真信号。
107.基于上述任一实施例,图7是本发明提供的语音识别方法的流程示意图,如图7所示,该方法包括:
108.步骤710、获取待识别语音信号;
109.步骤720、将待识别语音信号输入至语音识别模型,得到语音识别模型输出的语音识别结果;
110.语音识别模型基于语音仿真信号及语音仿真信号的语音识别标签训练得到,语音仿真信号基于如上任一实施例所述的语音仿真信号获取方法确定。
111.具体地,待识别语音信号即需要进行语音识别的信号,基于语音识别模型,对待识别语音信号进行语音识别,得到语音识别结果。其中,语音识别模型基于语音仿真信号以及语音仿真信号的识别标签训练得到,且由于该语音仿真信号是基于如上任一实施例所述的语音仿真信号获取方法确定的,不仅能够准确模拟不同场景下的语音信号,而且该信号是仿真获取得到的,从而可以避免传统方法中样本语音信号难以获取的问题。
112.在此基础上,语音识别模型可以基于足量的语音仿真信号进行训练,进而在训练完成后用于对待识别语音信号进行语音识别,准确得到语音识别结果。
113.下面对本发明提供的语音仿真信号获取装置进行描述,下文描述的语音仿真信号获取装置与上文描述的语音仿真信号获取方法可相互对应参照。
114.基于上述任一实施例,图8是本发明提供的语音仿真信号获取装置的结构示意图,如图8所示,该装置包括:
115.信号确定单元810,用于确定人声信号以及噪声信号;
116.第一混响单元820,用于基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;
117.第二混响单元830,用于基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;
118.信号仿真单元840,用于对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。
119.基于上述任一实施例,所述噪声信号包括点噪声源信号以及散射噪声信号;
120.所述第二混响单元830,包括:
121.噪声冲激确定单元,用于基于点噪声源与所述声音采集设备之间的相对位置信息,确定所述噪声信号的房间冲激响应;
122.点噪混响确定单元,用于将所述点噪声源信号与所述噪声信号的房间冲激响应进行卷积,得到所述噪声混响信号中的点噪混响信号;
123.散射混响确定单元,用于基于所述散射噪声信号的散射噪声场,以及所述声音采集设备的位置,确定所述噪声混响信号中的散射混响信号。
124.基于上述任一实施例,所述第一混响单元820,包括:
125.人声冲激确定单元,用于基于人声声源与所述声音采集设备之间的相对位置信息,确定所述人声信号的房间冲激响应;
126.人声混响确定单元,用于将所述人声信号与所述人声信号的房间冲激响应进行卷积,得到所述人声混响信号。
127.基于上述任一实施例,所述装置还包括:
128.反射路径确定单元,用于基于对应信号的声源位置以及所述声音采集设备的位置,确定对应信号的声学反射路径;
129.房间冲激确定单元,用于基于对应信号的传播介质,以及对应信号的声学反射路径,确定对应信号的房间冲激响应。
130.基于上述任一实施例,所述信号仿真单元840,用于:
131.基于所述人声混响信号与所述噪声混响信号之间的功率比,对所述人声混响信号和所述噪声混响信号进行叠加,得到所述语音仿真信号。
132.基于上述任一实施例,所述功率比包括信噪比,以及信干比和/或信回比;
133.所述信号仿真单元840,包括:
134.第一叠加单元,用于基于所述信噪比,对所述散射混响信号和所述人声混响信号进行叠加,得到初始仿真信号;
135.第二叠加单元,用于基于所述信干比和/或所述信回比,对所述点噪混响信号和所述初始语音仿真信号进行叠加,得到所述语音仿真信号。
136.基于上述任一实施例,图9是本发明提供的语音识别装置的结构示意图,如图9所示,该装置包括:
137.信号获取单元910,用于获取待识别语音信号;
138.语音识别单元920,用于将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;
139.所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于如上任一实施例所述的语音仿真信号获取方法确定。
140.图10是本发明提供的电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、存储器(memory)1020、通信接口(communications interface)1030和通信总线1040,其中,处理器1010,存储器1020,通信接口1030通过通信总线1040完
成相互间的通信。处理器1010可以调用存储器1020中的逻辑指令,以执行语音仿真信号获取方法,该方法包括:确定人声信号以及噪声信号;基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。
141.和/或,以执行语音识别方法,该方法包括:获取待识别语音信号;
142.将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于如上所述的语音仿真信号获取方法确定。
143.此外,上述的存储器1020中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
144.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音仿真信号获取方法,该方法包括:确定人声信号以及噪声信号;基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。
145.和/或,以执行语音识别方法,该方法包括:获取待识别语音信号;
146.将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于如上所述的语音仿真信号获取方法确定。
147.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音仿真信号获取方法,该方法包括:确定人声信号以及噪声信号;基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。
148.和/或,以执行语音识别方法,该方法包括:获取待识别语音信号;
149.将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于如上所述的语音仿真信号获取方法确定。
150.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可
以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
151.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
152.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种语音仿真信号获取方法,其特征在于,包括:确定人声信号以及噪声信号;基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。2.根据权利要求1所述的语音仿真信号获取方法,其特征在于,所述噪声信号包括点噪声源信号以及散射噪声信号;所述基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号,包括:基于点噪声源与所述声音采集设备之间的相对位置信息,确定所述噪声信号的房间冲激响应;将所述点噪声源信号与所述噪声信号的房间冲激响应进行卷积,得到所述噪声混响信号中的点噪混响信号;基于所述散射噪声信号的散射噪声场,以及所述声音采集设备的位置,确定所述噪声混响信号中的散射混响信号。3.根据权利要求1所述的语音仿真信号获取方法,其特征在于,所述基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号,包括:基于人声声源与所述声音采集设备之间的相对位置信息,确定所述人声信号的房间冲激响应;将所述人声信号与所述人声信号的房间冲激响应进行卷积,得到所述人声混响信号。4.根据权利要求2或3所述的语音仿真信号获取方法,其特征在于,所述房间冲激响应基于如下步骤确定:基于对应信号的声源位置以及所述声音采集设备的位置,确定对应信号的声学反射路径;基于对应信号的传播介质,以及对应信号的声学反射路径,确定对应信号的房间冲激响应。5.根据权利要求2所述的语音仿真信号获取方法,其特征在于,所述对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号,包括:基于所述人声混响信号与所述噪声混响信号之间的功率比,对所述人声混响信号和所述噪声混响信号进行叠加,得到所述语音仿真信号。6.根据权利要求5所述的语音仿真信号获取方法,其特征在于,所述功率比包括信噪比,以及信干比和/或信回比;所述基于所述人声混响信号与所述噪声混响信号之间的功率比,对所述人声混响信号和所述噪声混响信号进行叠加,得到所述语音仿真信号,包括:基于所述信噪比,对所述散射混响信号和所述人声混响信号进行叠加,得到初始仿真信号;基于所述信干比和/或所述信回比,对所述点噪混响信号和所述初始语音仿真信号进
行叠加,得到所述语音仿真信号。7.一种语音识别方法,其特征在于,包括:获取待识别语音信号;将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于权利要求1至6任一项所述的语音仿真信号获取方法确定。8.一种语音仿真信号获取装置,其特征在于,包括:信号确定单元,用于确定人声信号以及噪声信号;第一混响单元,用于基于人声声源与声音采集设备之间的相对位置信息,对所述人声信号进行混响,得到人声混响信号;第二混响单元,用于基于噪声声源与声音采集设备之间的相对位置信息,对所述噪声信号进行混响,得到噪声混响信号;信号仿真单元,用于对所述人声混响信号和所述噪声混响信号进行叠加,得到语音仿真信号。9.一种语音识别装置,其特征在于,包括:信号获取单元,用于获取待识别语音信号;语音识别单元,用于将所述待识别语音信号输入至语音识别模型,得到所述语音识别模型输出的语音识别结果;所述语音识别模型基于语音仿真信号及所述语音仿真信号的语音识别标签训练得到,所述语音仿真信号基于权利要求1至6任一项所述的语音仿真信号获取方法确定。10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述语音仿真信号获取方法,和/或,所述处理器执行所述程序时实现如权利要求7所述语音识别方法。11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音仿真信号获取方法,和/或,所述计算机程序被处理器执行时实现如权利要求7所述语音识别方法。

技术总结


本发明提供一种语音仿真信号获取、语音识别方法、装置、设备及介质,所述方法包括:确定人声信号以及噪声信号;基于人声声源与声音采集设备之间的相对位置信息,对人声信号进行混响,得到人声混响信号;基于噪声声源与声音采集设备之间的相对位置信息,对噪声信号进行混响,得到噪声混响信号;对人声混响信号和噪声混响信号进行叠加,得到语音仿真信号。本发明提供的语音仿真信号获取、语音识别方法、装置、设备及介质,能够在对人声混响信号和噪声混响信号进行叠加后,准确得到语音仿真信号,且人声信号和噪声信号是易于获取的信号,从而可以避免传统方法中样本语音信号难以获取的问题。避免传统方法中样本语音信号难以获取的问题。避免传统方法中样本语音信号难以获取的问题。


技术研发人员:

孙俊

受保护的技术使用者:

科大讯飞股份有限公司

技术研发日:

2022.07.05

技术公布日:

2022/11/15


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-35837-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-13 03:54:49

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论