一种合成语音的方法、训练合成语音模型的方法及装置与流程
1.本技术涉及合成语音的领域,具体而言,涉及一种合成语音的方法、训练合成语音模型的方法及装置。
背景技术:
2.随着人工智能技术的大力发展,语音自动合成已经广泛应用。基于深度神经网络的技术的语音合成技术已经可以取得很好的成效,自动语音合成技术也已经在各个领域广泛应用,大大的推动了智能化的发展。
3.然而,随着语音合成应用的不断深入,越来越多的场景下需要更特定的语音合成技术,例如,特定音以及特定风格。针对某种特定音的语音合成模型需要从头开始训练,这种语音生成方法不仅效率更低,而且对资源的要求比较大。
4.因此,如何提高合成语音的效率,成为亟需解决的技术问题。
技术实现要素:
5.本技术实施例的目的在于提供一种合成语音的方法,通过本技术的实施例的技术方案可以达到提高合成语音的效率效果。
6.第一方面,本技术实施例提供了一种合成语音的方法,该方法包括,利获取待模拟对象的情绪信息,其中,情绪信息包括语速信息、音量信息和音调信息中的至少一种;将待模拟对象的身份标识、待合成文本和情绪信息输入预先训练好的合成语音模型中,得到待合成文本对应的合成语音,其中合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,预设语音样本的时长小于标准语音样本的时长。
7.在上述过程中,利用标准的语音训练出基础模型,使基础模型可以实现合成语音的功能,在基础模型的基础上,利用含有待模拟对象发音的预设语音去训练基础模型,得到的合成语音模型可以学会待模拟对象的发音,在使用该合成语音模型时,通过该合成语音模型合成的语音并通过情绪信息控制语音的语速、音量和音调,从而生成有情绪的待模拟对象的合成语音,通过该方法可以达到提高合成语音效率的效果。
8.一种实施例中,获取待模拟对象的情绪信息,包括:
9.获取用户输入的情绪信息;
10.或者
11.对待合成文本进行处理,确定情绪信息。
12.在上述过程中,通过用户输入的情绪信息和根据对待合成文本进行处理得到的情绪信息都可以控制合成语音模型生成的语音的情绪,进而达到更好的模拟待模拟对象的特发音。
13.一种实施例中,对待合成文本进行处理,确定情绪信息,包括:
14.识别待合成文本中的待匹配关键词;
15.将待匹配关键词和关键词库中的关键词进行匹配,得到匹配结果;
16.在匹配结果中显示关键词库中存在待匹配关键词的情况下,确定关键词对应的情绪信息,其中,情绪信息还包括关键词信息。
17.在上述过程中,根据待合成文本中与情绪有关的关键词和每一关键词库中的关键词对应的情绪,可以准确的确定出该合成文本对应的情绪信息。
18.第二方面,本技术实施例提供了一种合成语音的方法,该方法包括,通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型;通过使用待模拟对象的预设语音样本对基础模型进行训练,得到合成语音模型,其中,标准语音样本的时长大于预设语音样本的时长。
19.在上述过程中,利用标准的语音训练出基础模型,使基础模型可以实现合成语音的功能,在基础模型的基础上,利用含有待模拟对象发音的预设语音去训练基础模型,得到的合成语音模型可以学会待模拟对象的发音,因此,只需不同待模拟对象的一段语音对基础模型的训练,可以使模型学会不同待模拟对象的发音,通过该方法可以达到提高训练合成语音模型效率的效果。
20.一种实施例中,在通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型之前,方法还包括:
21.对一个或多个用户的标准语音按照预设时长进行切分,得到标准语音样本。
22.在上述过程中,通过预设时长的标准语音样本训练得到的基础模型更能准确的合成语音。
23.一种实施例中,在通过使用待模拟对象的预设语音样本对基础模型进行训练,得到合成语音模型之前,方法还包括:
24.对待模拟对象的预设语音按照第二预设时长进行切分,得到预设语音样本。
25.在上述过程中,过预设时长的预设语音样本训练得到的合成语音模型更能准确的合成待模拟对象的语音。
26.第三方面,本技术实施例提供了一种合成语音的装置,包括:
27.获取模块,用于获取待模拟对象的情绪信息,其中,情绪信息包括语速信息、音量信息和音调信息中的至少一种;
28.合成模块,用于将待模拟对象的身份标识、待合成文本和情绪信息输入预先训练好的合成语音模型中,得到待合成文本对应的合成语音,其中合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,预设语音样本的时长小于标准语音样本的时长。
29.可选的,获取模块具体用于:
30.获取用户输入的情绪信息;
31.或者
32.对待合成文本进行处理,确定情绪信息。
33.可选的,获取模块具体用于:
34.识别待合成文本中的待匹配关键词;
35.将待匹配关键词和关键词库中的关键词进行匹配,得到匹配结果;
36.在匹配结果中显示关键词库中存在待匹配关键词的情况下,确定关键词对应的情绪信息,其中,情绪信息还包括关键词信息。
37.第四方面,本技术提供一种合成语音模型的装置,包括:
38.第一训练模块,用于通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型;
39.第二训练模块,用于通过使用待模拟对象的预设语音样本对基础模型进行训练,得到合成语音模型,其中,标准语音样本的时长大于预设语音样本的时长。
40.可选的,所述装置还包括:
41.第一切分模块,用于所述第一训练模块在通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型之前,对一个或多个用户的标准语音按照预设时长进行切分,得到标准语音样本。
42.可选的,所述装置还包括:
43.第二切分模块,用于所述第二训练模块在通过使用待模拟对象的预设语音样本对基础模型进行训练,得到合成语音模型之前,对待模拟对象的预设语音按照第二预设时长进行切分,得到预设语音样本。
44.第五方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面或第二方面提供的所述方法中的步骤。
45.第六方面,本技术实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面或第二方面提供的所述方法中的步骤。
46.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
47.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
48.图1为本技术实施例提供的一种训练合成语音模型的方法的流程图;
49.图2为本技术实施例提供的一种训练合成语音模型详细实施的方法的流程图;
50.图3为本技术实施例提供的一种训练有待模拟对象情绪的语音合成模型的方法的流程图;
51.图4为本技术实施例提供的一种合成语音的方法的流程图;
52.图5为本技术实施例提供的一种训练合成语音模型的装置的示意框图;
53.图6为本技术实施例提供的一种合成语音的装置的示意框图;
54.图7为本技术实施例提供的一种训练合成语音模型的装置结构示意图;
55.图8为本技术实施例提供的一种合成语音的装置的结构示意图。
具体实施方式
56.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
57.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
58.首先对本技术实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
59.合成语音:称文语转换,text to speech,tts)技术解决的主要问题是将文本信息通过一定的软、硬件转换后合成自然流畅的语音用,方言外语转换成普通话。
60.迁移学习:一种机器学习方法,就是把为任务a开发的模型作为初始点,重新使用在为任务b开发模型的过程中。
61.线性整流函数:全名rectified linear unit,修正线性单元
62.gelu:(gaussian error linear units)就是我们常说的高斯误差线性单元,它是一种高性能的神经网络激活函数。
63.本技术应用迁移学习训练合成语音模型,通过模拟不同待模拟对象的情绪,达到具有待模拟对象情绪的语音合成的效果。
64.但是在目前的合成语音中,随着语音合成应用的不断深入,越来越多的场景下需要更特定的语音合成技术,例如,特定音以及特定风格。针对某种特定音的语音合成模型需要从头开始训练,这种语音生成方法不仅效率更低,而且对资源的要求比较大。
65.为此本技术通过利获取待模拟对象的情绪信息,其中,情绪信息包括语速信息、音量信息和音调信息中的至少一种;将待模拟对象的身份标识、待合成文本和情绪信息输入预先训练好的合成语音模型中,得到待合成文本对应的合成语音,其中合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,预设语音样本的时长小于标准语音样本的时长。通过该方法可以达到提高合成语音效率的效果。
66.本技术实施例中,执行主体可以为合成语音系统中的合成语音设备,实际应用中,合成语音设备可以为终端设备和服务器设备等电子设备,在此不做限制。
67.下面结合图1对本技术实施例的合成语音的方法进行详细描述。
68.请参看图1,图1为本技术实施例提供的一种训练合成语音模型的方法的流程图,如图1所示的训练合成语音模型的方法包括:
69.步骤110:通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型。
70.其中,标准语音可以为发音标准的语音,例如,普通话标准,也可以为清楚的语音,例如,声音清楚,无杂质。初始模型可以为现有的语音合成模型。基础模型为可以合成清楚语音的模型,目的在于让模型可以有准确的发音,能实现合成基本的语音的功能。本技术训练模型时采用fastspeech2(语音快速合成模型)架构,对模型进行训练德奥基础模型和合成语音模型,并将其中的relu(线性整流函数)换为gelu(高斯误差线性函数),在训练模型和使用模型时,使合成语音模型生成语音的速度更快。
71.一种实施例中,在通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型之前,还包括:
72.对一个或多个用户的标准语音按照预设时长进行切分,得到标准语音样本。
73.在上述过程中,通过预设时长的标准语音样本训练得到的基础模型更能准确的合成语音。
74.其中,标准语音样本可以是按照用户设定的预设时长将标准语音进行切分之后得到的,例如,将标准语音切分成3-10秒的单句语音得到标准语音样本,也可以通过系统直接给出预设时长的标准语音。标准语音可以是一个用户录制的标准语音,也可以是多个用户录制的标准语音,本技术不做过多限制。
75.步骤120:通过使用待模拟对象的预设语音样本对基础模型进行训练,得到合成语音模型。
76.其中,标准语音样本的时长大于预设语音样本的时长。预设语音样本是按照预设时长将待模拟对象的预设语音进行切分之后得到的,例如,将预设语音切分成3-10秒的单句语音得到标准语音样本。标准语音为待模拟对象录制的语音,其具有待模拟对象的发音特。
77.一种实施例中,在通过使用待模拟对象的预设语音样本对基础模型进行训练,得到合成语音模型之前,还包括:
78.对待模拟对象的预设语音按照第二预设时长进行切分,得到预设语音样本。
79.在上述过程中,过预设时长的预设语音样本训练得到的合成语音模型更能准确的合成待模拟对象的语音。
80.其中,第二预设时长可以等于第一预设时长,也可以大于或等于第一预设时长。
81.在执行图1各个步骤时,利用标准的语音训练出基础模型,使基础模型可以实现合成语音的功能,在基础模型的基础上,利用含有待模拟对象发音的预设语音去训练基础模型,得到的合成语音模型可以学会待模拟对象的发音,因此,只需不同待模拟对象的一段语音对基础模型的训练,可以使模型学会不同待模拟对象的发音,通过该方法可以达到提高训练合成语音模型效率的效果。
82.请参看图2,图2为本技术实施例提供的一种训练合成语音模型详细实施的方法的流程图,如图2所示的训练合成语音模型详细实施的方法包括:
83.步骤210:获取标准语音样本。
84.具体的,获取一个或多个用户的标准语音样本。
85.步骤220:嵌入性别、身份标识和标准语音样本。
86.具体的,嵌入用户的多个身份标识、性别和对应的标准语音样本,其中嵌入的身份标识可为冗余的身份标识,用于基础模型中用户身份的占位,在训练合成语音模型时可以嵌入待模拟对象的身份标识。
87.步骤230:训练基础模型。
88.具体的,训练初始模型,得到基础模型,利用多个用户的身份标识、性别和对应的标准语音样本对初始的模型进行训练,得到基础模型。
89.步骤240:获取预设语音样本。
90.具体的,获取待模拟的对象的预设语音样本。
91.步骤250:嵌入身份标识和预设语音样本。
92.具体的,嵌入待模拟对象的身份标识和待模拟对象的一段预设语音。
93.步骤260:训练合成语音模型。
94.具体的,训练基础模型,得到合成语音模型,利用待模拟对象的预设语音样本对基础模型进行训练得到合成语音模型。
95.步骤270:训练有待模拟对象情绪的语音合成模型。
96.具体的,训练合成语音模型,得到有待模拟对象情绪的语音合成模型,利用待模拟对象的情绪信息对合成语音模型进行训练,得到有待模拟对象情绪的语音合成模型,具体的,请参考图3具体的步骤陈述引入情绪信息之后训练合成语音模型,得到有待模拟对象情绪的语音合成模型的方法。
97.其中,标准语音样本的总时长很长,一般需可以为8-10小时,可根据具体需求设置,可以在保证模型训练准确的同时,确保标准语音数据量足够的情况下,消耗最少的资源。预设语音样本的时长很短,一般可以为10分钟左右,可根据具体需求设置。一般在对基础模型进行训练时,保证对基础模型的学习率大于预设的学习率,例如,75%。这样可以保证基础在合成语音时能保证语音合成准确的同时,也具有待模拟对象特有情绪的语音。
98.请参看图3,图3为本技术实施例提供的一种训练有待模拟对象情绪的语音合成模型的方法的流程图,如图3所示的有待模拟对象情绪的语音合成模型的方法包括:
99.步骤310:获取待模拟对象的待合成文本。
100.步骤320:获取待模拟对象的情绪信息。
101.具体的,向语音合成模型输入情绪信息或者根据所述待合成文本确定情绪信息,具体获取情绪信息的方法请参考图4中的步骤。
102.步骤330:生成情绪文本。
103.具体的,根据情绪信息中不同情绪相关的控制信息,例如,拼音和韵律等相关控制信息,输入待合成文本,得到情绪文本。
104.步骤340:生成有待模拟对象情绪的语音合成模型。
105.具体的,将情绪文本和情绪信息中的语速、语速和语量等相关信息对合成语音模型进行训练,得到有待模拟对象情绪的语音合成模型。
106.请参看图4,图4为本技术实施例提供的一种合成语音的方法的流程图,如图4所示的合成语音的方法包括:
107.步骤410:获取待模拟对象的情绪信息。
108.其中,情绪信息包括语速信息、音量信息和音调信息中的至少一种。情绪信息包含大量的情绪银子。
109.一种实施例中,获取待模拟对象的情绪信息,包括:
110.获取用户输入的情绪信息;
111.或者
112.对待合成文本进行处理,确定情绪信息。
113.在上述过程中,通过用户输入的情绪信息和根据对待合成文本进行处理得到的情绪信息都可以控制合成语音模型生成的语音的情绪,进而达到更好的模拟待模拟对象的特发音。
114.其中,用户可以输入一个情绪等级,例如,开心等级中的一级开心、二级开心和三级开心等,同理,其它情绪也有着同样的情绪等级,其它情绪例如,难过、恶心、喜欢、惊讶、
害怕和无情绪等,每一个等级都对应着多个情绪等级。也可以根据用户想合成语音对应的情绪文本,判断待模拟对象想表达的情绪,具体判断方法请参照下文。
115.一种实施例中,对待合成文本进行处理,确定情绪信息,包括:
116.识别待合成文本中的待匹配关键词;
117.将待匹配关键词和关键词库中的关键词进行匹配,得到匹配结果;
118.在匹配结果中显示关键词库中存在待匹配关键词的情况下,确定关键词对应的情绪信息。
119.在上述过程中,根据待合成文本中与情绪有关的关键词和每一关键词库中的关键词对应的情绪,可以准确的确定出该合成文本对应的情绪信息。
120.其中,情绪信息还包括关键词信息。关键词信息中对应着不同的情绪等级,每个情绪等级又对应不同的语速、音调和音量。在对情绪进行确定时,需要查询情绪字典中的关键词对应的情绪,确定出该合成文本对应的情绪信息。情绪字典如下:
121.{
122.‘
happy’:[1+0.1a,1+0.1b,1-0.05a]
[0123]
‘
anger’:[1+0.1a,1+0.1b,1-0.05a]
[0124]
‘
disgust’:[1,1-0.1b,1-0.05a]
[0125]
‘
fear:[1-0.1a,1-0.2b,1-0.1a]
[0126]
‘
like’:[1+0.1a,1+0.1b,1-0.05a]
[0127]
‘
sadness’:[1-0.15a,1-0.15b,1+0.05a]
[0128]
‘
surprise’:[1+0.1a,1+0.1b,1-0.05a]
[0129]
‘
none’:[1,1,1]
[0130]
}
[0131]
关键词库如下:
[0132]
{
[0133]
‘
happy’:[开心,美妙...]
[0134]
‘
anger’:[废物...]
[0135]
‘
disgust’:[恶心...]
[0136]
‘
fear:[害怕...]
[0137]
‘
like’:[喜欢...]
[0138]
‘
sadness’:[伤心...]
[0139]
‘
surprise’:[惊讶...]
[0140]
‘
none’:[无情绪...]
[0141]
}
[0142]
其中,关键词库中的关键词可根据需求自行添加。具体的通过关键词库和情绪字典对情绪信息的获取的具体例如如下:
[0143]
当待合成文本中出现“开心”时,对应的关键词库为
‘
happy’,具体判断语速、音调的方法如下公式:
[0144]
‘
happy’:[1+0.1a,1+0.1b,1-0.05a]
[0145]
happy情绪的语句整体语速为:(1+0.1a)倍基础语速,其中a为情绪等级,一般分3
各等级,一级开心:0.5,二级开心:1,三级开心:1.5。
[0146]
happy情绪的语句整体音调为:(1+0.1b)倍基础音调,其中b为情绪等级,一般分3各等级,一级开心:0.5,二级开心:1,三级开心:1.5。
[0147]
happy情绪的关键词语速为:(1-0.05a)倍基础语速,其中a为情绪等级,一般分3各等级,一级开心:0.5,二级开心:1,三级开心:1.5。
[0148]
当文本中出现开心的次数在一定阈值范围内时,可以确定用户的开心等级,例如,用户的开心等级为一级开心,则整体语速为1.5倍速,整体音调为1.05倍基础音调,关键词语速为0.975倍基础语速。通过上述数据可以确定情绪因素,进而控制合成语音的情绪,生成带有待模拟对象情绪的语音。
[0149]
步骤420:将待模拟对象的身份标识、待合成文本和情绪信息输入预先训练好的合成语音模型中,得到待合成文本对应的合成语音。
[0150]
其中,合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,预设语音样本的时长小于标准语音样本的时长。身份标识可以是手机号、身份证号、代码、姓名和昵称等,通过模型可以合成具有待模拟对象发音特的语音,再通过模型控制语音合成时的语速、音量和音调等,最终可以生成有待模拟对象情绪特的语音。
[0151]
在执行图4各个步骤时,利用标准的语音训练出基础模型,使基础模型可以实现合成语音的功能,在基础模型的基础上,利用含有待模拟对象发音的预设语音去训练基础模型,得到的合成语音模型可以学会待模拟对象的发音,在使用该合成语音模型时,通过该合成语音模型合成的语音并通过情绪信息控制语音的语速、音量和音调,从而生成有情绪的待模拟对象的合成语音,通过该方法可以达到提高合成语音效率的效果。
[0152]
前文通过图1-图4描述了合成语音和训练合成语音模型的方法,下面结合图5-图8描述合成语音和训练合成语音模型的装置。
[0153]
请参照图5,为本技术实施例中提供的一种训练合成语音模型的装置500的示意框图,该装置500可以是电子设备上的模块、程序段或代码。该装置500与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置500具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
[0154]
具体的所述装置500包括:
[0155]
获取模块510,用于获取待模拟对象的情绪信息,其中,情绪信息包括语速信息、音量信息和音调信息中的至少一种;
[0156]
合成模块520,用于将待模拟对象的身份标识、待合成文本和情绪信息输入预先训练好的合成语音模型中,得到待合成文本对应的合成语音,其中合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,预设语音样本的时长小于标准语音样本的时长。
[0157]
可选的,获取模块具体用于:
[0158]
获取用户输入的情绪信息;
[0159]
或者
[0160]
对待合成文本进行处理,确定情绪信息。
integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本技术实施例并不局限于此。
[0179]
请参照图8为本技术实施例中提供的一种合成语音的装置800结构示意图,该装置可以包括处理器810和存储器820。可选的,该装置还可以包括:通信接口830和通信总线840。该装置与上述图4方法实施例对应,能够执行图4方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
[0180]
具体的,存储器820,用于存储计算机可读指令。
[0181]
处理器810,用于处理存储器存储的可读指令,能够执行图4方法实施例中的各个步骤。
[0182]
通信接口830,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本技术实施例并不限于此。
[0183]
通信总线840,用于实现上述组件直接的连接通信。
[0184]
其中,本技术实施例中设备的通信接口830用于与其他节点设备进行信令或数据的通信。存储器820可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器820可选的还可以是至少一个位于远离前述处理器的存储装置。存储器820中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器810执行时,电子设备执行上述图4所示方法过程。处理器810可以用于装置600上,并且用于执行本技术中的功能。示例性地,上述的处理器810可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本技术实施例并不局限于此。
[0185]
本技术实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1或图4所示方法实施例中电子设备所执行的方法过程。
[0186]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
[0187]
综上所述,本技术实施例提供一种合成语音的方法、训练合成语音模型的方法及装置,该方法通过利获取待模拟对象的情绪信息,其中,情绪信息包括语速信息、音量信息和音调信息中的至少一种;将待模拟对象的身份标识、待合成文本和情绪信息输入预先训练好的合成语音模型中,得到待合成文本对应的合成语音,其中合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,预设语音样本的时长小于标准语音样本的时长。通过该方法可以达到提高合成语音效率的效果。
[0188]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执
行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0189]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0190]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、保存硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0191]
以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0192]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
[0193]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
技术特征:
1.一种合成语音的方法,其特征在于,包括:获取待模拟对象的情绪信息,其中,所述情绪信息包括语速信息、音量信息和音调信息中的至少一种;将所述待模拟对象的身份标识、待合成文本和所述情绪信息输入预先训练好的合成语音模型中,得到所述待合成文本对应的合成语音,其中所述合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,所述基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,所述预设语音样本的时长小于所述标准语音样本的时长。2.根据权利要求1所述的方法,其特征在于,所述获取待模拟对象的情绪信息,包括:获取用户输入的情绪信息;或者对所述待合成文本进行处理,确定所述情绪信息。3.根据权利要求2所述的方法,其特征在于,所述对所述待合成文本进行处理,确定所述情绪信息,包括:识别所述待合成文本中的待匹配关键词;将所述待匹配关键词和关键词库中的关键词进行匹配,得到匹配结果;在所述匹配结果中显示所述关键词库中存在所述待匹配关键词的情况下,确定所述关键词对应的所述情绪信息,其中,所述情绪信息还包括关键词信息。4.一种训练合成语音模型的方法,其特征在于,包括:通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型;通过使用待模拟对象的预设语音样本对基础模型进行训练,得到所述合成语音模型,其中,所述标准语音样本的时长大于所述预设语音样本的时长。5.根据权利要求4所述的方法,其特征在于,在所述通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型之前,所述方法还包括:对所述一个或多个用户的标准语音按照预设时长进行切分,得到所述标准语音样本。6.根据权利要求4或5所述的方法,其特征在于,在所述通过使用待模拟对象的预设语音样本对基础模型进行训练,得到所述合成语音模型之前,所述方法还包括:对所述待模拟对象的预设语音按照第二预设时长进行切分,得到所述预设语音样本。7.一种合成语音的装置,其特征在于,包括:获取模块,用于获取待模拟对象的情绪信息,其中,所述情绪信息包括语速信息、音量信息和音调信息中的至少一种;合成模块,用于将所述待模拟对象的身份标识、待合成文本和所述情绪信息输入预先训练好的合成语音模型中,得到所述待合成文本对应的合成语音,其中所述合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,所述基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,所述预设语音样本的时长小于所述标准语音样本的时长。8.一种训练合成语音模型的装置,其特征在于,包括:第一训练模块,用于通过使用一个或多个用户的标准语音样本对初始模型进行训练,得到基础模型;
第二训练模块,用于通过使用待模拟对象的预设语音样本对基础模型进行训练,得到所述合成语音模型,其中,所述标准语音样本的时长大于所述预设语音样本的时长。9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-3或4-6中任一项所述方法中的步骤。10.一种计算机可读存储介质,其特征在于,包括:计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-3或4-6中任一项所述的方法。
技术总结
本申请提供一种合成语音的方法、训练合成语音模型的方法及装置,该方法包括,利获取待模拟对象的情绪信息,其中,情绪信息包括语速信息、音量信息和音调信息中的至少一种;将待模拟对象的身份标识、待合成文本和情绪信息输入预先训练好的合成语音模型中,得到待合成文本对应的合成语音,其中合成语音模型是通过使用待模拟对象的预设语音样本对基础模型进行训练得到的,基础模型是通过使用一个或多个用户的标准语音样本对初始模型进行训练得到的,预设语音样本的时长小于标准语音样本的时长。通过该方法可以达到提高合成语音效率的效果。通过该方法可以达到提高合成语音效率的效果。通过该方法可以达到提高合成语音效率的效果。