一种舞蹈生成方法、装置、设备及存储介质与流程
1.本技术实施例涉及人工智能领域,尤其涉及一种舞蹈生成方法、装置、设备及存储介质。
背景技术:
2.近年来,计算机视觉(computer vision,cv)技术在越来越多的领域得到广泛应用。作为计算机视觉领域的一个重要研究方向,由音乐驱动的舞蹈生成具有丰富的应用前景。比如,在虚拟直播、虚拟客服、虚拟游戏等场景中,可将生成的人体舞蹈应用到受控对象上,使得受控对象可以随音乐而舞动。
3.现有技术中,可将音频信号与3d人体关键点序列建立联系,从而得到音频对应的舞蹈动作,即,在不同音乐节拍下,控制受控对象的各个人体关键点到达预设位置,以使受控对象产生舞动的动作效果。然而,这种方式下生成的舞蹈动作是由音频信号直接映射得来的,导致舞蹈动作不够自然和协调,可能会违背人体的行为逻辑。因此,亟待提出一种解决方案。
技术实现要素:
4.本技术实施例提供一种舞蹈生成方法、装置、设备及存储介质,用以为音频中的每个子片段匹配与该音频子片段更加契合的舞蹈动作,使得整个音频对应的舞蹈动作更加自然和协调。
5.本技术实施例提供一种舞蹈生成方法,包括:获取待合成舞蹈的目标音频的特征值信息;所述特征值信息包括:所述目标音频中的多个音频子片段各自对应的音频特征值;利用音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;利用舞姿生成模型,将所述舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到所述目标音频对应的舞蹈动作序列;其中,所述音频-舞姿匹配模型预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系;所述舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈的舞姿编码和舞蹈动作信息的转换关系。
6.进一步可选地,获取目标音频的特征值信息,包括:利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值;其中,所述音频特征值提取模型,预先通过舞蹈训练集中的音乐数据,学习音乐数据与音频特征值的关系。
7.进一步可选地,利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值,包括:在所述音频特征值提取模型中,对所述目标音频进行分帧处理,得到多个音频子片段;根据相邻音频子片段之间的音频变化趋势和每个音频子片段内的音频变化趋势,计算得到所述多个音频子片段对应的音频特征值。
8.进一步可选地,所述舞姿编码库,包括:多个舞姿类型各自的至少一个舞姿编码;
利用所述音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列,包括:针对所述多个音频子片段中的任一音频子片段,利用所述音频-舞姿匹配模型,确定所述音频子片段对应的音频特征值所属的目标音频类型;根据预设的音频类型与舞姿类型的对应关系,确定所述目标音频类型对应的舞姿类型,作为所述音频子片段对应的目标舞姿类型;从所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码;根据所述多个音频子片段的排列顺序,对所述多个音频子片段各自的目标舞姿编码进行排序,得到所述舞姿编码序列。
9.进一步可选地,从所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码,包括:分别确定所述音频子片段与所述目标舞姿类型的至少一个舞姿编码的匹配度;以及,从所述目标舞姿类型的至少一个舞姿编码中,选择匹配度最高的舞姿编码作为所述音频子片段的目标舞姿编码,或者,随机从所述目标舞姿类型的至少一个舞姿编码中选取任一舞姿编码,作为所述音频子片段的目标舞姿编码;或者,确定所述目标舞姿类型的至少一个舞姿编码各自的舞蹈风格;从所述目标舞姿类型的至少一个舞姿编码中选取与用户偏好的舞蹈风格匹配度最高的舞姿编码,作为所述音频子片段的目标舞姿编码。
10.进一步可选地,所述舞蹈动作序列包括:所述多个音频子片段各自对应的关键点信息;任一音频子片段的关键点信息包括:受控对象上的多个三维人体关键点各自的目标位置和目标方向。
11.进一步可选地,得到所述目标音频对应的舞蹈动作序列之后,还包括:将所述舞蹈动作序列发送至所述受控对象,以使所述受控对象上的多个三维人体关键点沿着所述目标方向移动至所述目标位置。
12.本技术实施例还提供一种舞蹈生成装置,包括:获取模块,用于:获取待合成舞蹈的目标音频的特征值信息;所述特征值信息包括:所述目标音频中的多个音频子片段各自对应的音频特征值;匹配模块,用于:利用音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;转换模块,用于:利用舞姿生成模型,将所述舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到所述目标音频对应的舞蹈动作序列;其中,所述音频-舞姿匹配模型预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系;所述舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈的舞姿编码和舞蹈动作信息的转换关系。
13.本技术实施例还提供一种电子设备,包括:存储器、处理器以及通信组件;其中,所述存储器用于:存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令,以用于:执行所述舞蹈生成方法中的步骤。
14.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器实现所述舞蹈生成方法中的步骤。
15.在本技术实施例,可获取待合成舞蹈的目标音频的特征值信息;利用音频-舞姿匹配模型,从预设的舞姿编码库中为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;并利用舞姿生成模型,将舞姿编码序列中的舞姿编码转
换为对应的舞蹈动作信息,得到目标音频对应的舞蹈动作序列。其中,音频-舞姿匹配模型预先通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系。通过这种方式,可利用音频-舞姿匹配模型为音频中的每个子片段匹配与该音频子片段更加契合的舞蹈动作,使得整个音频对应的舞蹈动作更加自然和协调。
附图说明
16.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
17.图1为本技术一示例性实施例提供的一种舞蹈生成方法的流程示意图;
18.图2为本技术一示例性实施例提供的一种舞蹈生成装置的结构示意图;
19.图3为本技术一示例性实施例提供的电子设备的结构示意图。
具体实施方式
20.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.现有技术中,可将音频信号与3d人体关键点序列建立联系,从而得到音频对应的舞蹈动作,即,在不同音乐节拍下,控制受控对象的各个人体关键点到达预设位置,以使受控对象产生舞动的动作效果。然而,这种方式下生成的舞蹈动作是由音频信号直接映射得来的,导致舞蹈动作不够自然和协调,可能会违背人体的行为逻辑。因此,亟待提出一种解决方案。
22.针对上述技术问题,在本技术一些实施例中,提供了一种解决方案。以下将结合附图,详细说明本技术各实施例提供的技术方案。
23.图1为本技术一示例性实施例提供的一种舞蹈生成方法的流程示意图,如图1所示,该方法包括:
24.步骤11、获取待合成舞蹈的目标音频的特征值信息;特征值信息包括:目标音频中的多个音频子片段各自对应的音频特征值。
25.步骤12、利用音频-舞姿匹配模型,从预设的舞姿编码库中,为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;音频-舞姿匹配模型预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系。
26.步骤13、利用舞姿生成模型,将舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到目标音频对应的舞蹈动作序列;舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈的舞姿编码和舞蹈动作信息的转换关系。
27.本实施例可由电子设备执行。电子设备可包括计算机、平板电脑或手机等等。
28.需要说明的是,音频可视为特征值信息的载体,换言之,音频可具有各自的特征值。每个音频可具有声波的频率信息和幅度变化信息等等,这些频率信息和幅度变化信息均可被视为特征值信息。
29.在本实施例中,电子设备可获取目标音频的特征值信息。其中,目标音频指的是待合成舞蹈的音频。其中,特征值信息可用于表示音频的特征。其中,特征值信息可包括:目标音频中的多个音频子片段各自对应的音频特征值。比如,电子设备获取的音频的特征值信息包括:音频子片段p1的音频特征值u1、音频子片段p2的音频特征值u2、音频子片段p3的音频特征值u3和音频子片段p4的音频特征值u4。
30.获取到特征值信息后,电子设备可利用音频-舞姿匹配模型,从预设的舞姿编码库中,为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列。
31.其中,舞姿编码库中存储有多个舞姿类型,每个舞姿类型可对应有一个或多个舞姿编码。比如,舞姿编码库中可存储有舞姿类型f1的舞姿编码h1-h15共15个舞姿编码,舞姿类型f2的舞姿编码h16-h19共4个舞姿编码,舞姿类型f3的舞姿编码h20-h50共31个舞姿编码。
32.其中,音频-舞姿匹配模型已预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系。其中,深度学习算法是一种基于对数据进行表征学习的机器学习的算法,该算法可通过学习样本数据的内在规律和表示层次,以使建立的模型具有分析学习能力且能够对数据进行分析处理。
33.换言之,音频-舞姿匹配模型已通过模型训练而学习到了音乐的音频特征值和舞蹈的舞姿编码的匹配关系,进而可根据学习到的该匹配关系为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码。
34.结合前述例子进行举例说明,电子设备可利用音频-舞姿匹配模型从预设的舞姿编码库中,为音频子片段p1的音频特征值u1匹配符合预设条件的舞姿编码h16;为音频子片段p2的音频特征值u2匹配符合预设条件的舞姿编码h40;为音频子片段p3的音频特征值u3匹配符合预设条件的舞姿编码h26;为音频子片段p4的音频特征值u4匹配符合预设条件的舞姿编码h49。
35.基于上述匹配舞姿编码的步骤,电子设备可得到目标音频的多个音频子片段各自对应的舞姿编码,进而,电子设备可按照这些音频子片段的排列顺序,将这些舞姿编码进行组合得到舞姿编码序列。结合前述例子进行举例说明,音频子片段p1-p4的排列顺序为p1-p2-p3-p4,可基于这些音频子片段得到舞姿编码序列:h16-h40-h26-h49。
36.电子设备得到舞姿编码序列后,可利用舞姿生成模型,将该舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到目标音频对应的舞蹈动作序列。其中,舞蹈动作信息可用于表示每一个音频子片段对应的舞蹈动作。
37.其中,舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈中的舞姿编码和舞蹈动作信息的转换关系,进而,舞姿生成模型可根据该转换关系,将舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息。换言之,舞姿生成模型通过模型训练而具备将舞姿编码转换为舞蹈动作信息的能力。
38.结合前述例子进行举例说明,电子设备可将舞姿编码序列h16-h40-h26-h49中的舞姿编码h16、h40、h26和h49,分别转换为对应的舞蹈动作信息d16、d40、d26和d49,并基于这些音频子片段各自的舞蹈动作信息得到目标音频对应的舞蹈动作序列d16-d40-d26-d49。
39.在本实施例中,可获取待合成舞蹈的目标音频的特征值信息;利用音频-舞姿匹配模型,从预设的舞姿编码库中为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;并利用舞姿生成模型,将舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到目标音频对应的舞蹈动作序列。其中,音频-舞姿匹配模型预先通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系。通过这种方式,可利用音频-舞姿匹配模型为音频中的每个子片段匹配与该音频子片段更加契合的舞蹈动作,使得整个音频对应的舞蹈动作更加自然和协调。
40.在一些可选的实施例中,电子设备可利用音频特征值提取模型,确定目标音频中的多个音频子片段各自对应的音频特征值,以获取目标音频的特征值信息。
41.其中,音频特征值提取模型,已预先通过舞蹈训练集中的音乐数据,学习音乐数据与音频特征值的关系。换言之,音频特征值提取模型通过模型训练而具备了确定音频特征值的能力。
42.以下将对“利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值”这一过程进行进一步说明。
43.在音频特征值提取模型中,可对目标音频进行分帧处理,得到多个音频子片段。例如,可以每30ms作为一个音频子片段,当然,具体选择多少ms作为一帧音频子片段的长度,本技术不作限定,可以按照实际需要选择,比如,20ms,25ms,40ms等。
44.进行分帧处理后,音频特征值提取模型可根据相邻音频子片段之间的音频变化趋势和每个音频子片段内的音频变化趋势,计算得到多个音频子片段对应的音频特征值。
45.在该步骤中,音频特征值提取模型可先对每一个音频子片段进行快速傅立叶变换(fast fourier transform,简称为fft)变换,从而将音频子片段转换至频域。进而,可利用mfcc(mel-frequency cepstral coefficients,梅尔频率倒谱系数)特征参数提取算法获得预定维数的特征向量(例如12维)。经过mfcc特征计算之后,每一个音频子片段可被转换为一个预定维数的向量。进一步的,针对任一音频子片段,可根据该音频子片段的前后两个音频子片段的向量值以及该音频子片段内相邻向量值,将该音频子片段转换为一个二进制序列。
46.之后,可直接以得到的二进制序列作为音频特征值,也可以二进制序列所对应的十进制作为音频特征值,举例而言,如果某一个音频子片段的二进制序列为00000000101,那么可以以00000000101作为最终的音频特征值,也可以5作为最终的音频特征值。
47.通过这种方式,有效地将每个相邻子片段之间、子片段内之间的关系加入了音频特征值的计算,从而可更准确地确定多个音频子片段对应的音频特征值。
48.在一些可选的实施例中,前述实施例中的步骤12“利用音频-舞姿匹配模型,从预设的舞姿编码库中,为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列”,可基于以下步骤121-步骤124实现:
49.步骤121、针对多个音频子片段中的任一音频子片段,利用音频-舞姿匹配模型,确定音频子片段对应的音频特征值所属的目标音频类型。其中,目标音频类型指的是多个音频子片段中的任一音频子片段所属的音频类型。
50.其中,电子设备可存储有多个音频类型且这些音频类型具有各自的特征值条件。其中,音频类型可为流行、朋克或摇滚等等,也可为舒缓、激烈或急促等等,本实施例不做限
制。针对多个音频子片段中的任一音频子片段,电子设备可利用音频-舞姿匹配模型,依次将存储的多个音频类型各自的特征值条件与该音频子片段的音频特征值进行对比,并同时判断该音频子片段是否符合特征值条件。若判定为符合某个特征值条件,则将该特征值条件对应的音频类型作为该音频子片段对应的音频特征值所属的目标音频类型。
51.步骤122、根据预设的音频类型与舞姿类型的对应关系,确定目标音频类型对应的舞姿类型,作为音频子片段对应的目标舞姿类型。
52.其中,音频类型与舞姿类型的对应关系可由音频-舞姿匹配模型在其训练过程中建立,也可由开发人员进行自定义修改,比如新增或删除。举例说明,音频类型与舞姿类型的对应关系可为音频类型m10-舞姿类型f15,m21舞姿类型f65等等。
53.已知音频类型与舞姿类型的对应关系,和,子片段对应的音频特征值所属的目标音频类型,可得到目标音频类型对应的舞姿类型,进而,可将该舞姿类型作为音频子片段对应的目标舞姿类型。其中,目标舞姿类型指的是多个音频子片段中的任一音频子片段对应的舞姿类型。
54.通过上述步骤122得到音频子片段对应的目标舞姿类型后,可基于执行以下步骤123以进一步从目标舞姿类型中获取音频子片段的目标舞姿编码:
55.步骤123、从目标舞姿类型的至少一个舞姿编码中,选取与音频子片段匹配的舞姿编码,作为音频子片段的目标舞姿编码。需要说明的是,目标舞姿类型下可包括一个或多个舞姿编码。若目标舞姿类型下只有一个舞姿编码,则可直接将该舞姿编码作为音频子片段的目标舞姿编码。若目标舞姿类型下有多个舞姿编码,则需要进行相应地匹配。
56.可选地,可利用音频-舞姿匹配模型,分别确定音频子片段与目标舞姿类型的至少一个舞姿编码的匹配度。其中,电子设备可预设有多个舞姿编码各自的舞姿详情信息,比如舞姿的节奏和动作幅度等等。进而,可利用音频-舞姿匹配模型,基于多个舞姿编码各自的舞姿详情信息,确定目标舞姿类型的至少一个舞姿编码和音频子片段的匹配度。进而,可利用音频-舞姿匹配模型从目标舞姿类型的至少一个舞姿编码中,选择匹配度最高的舞姿编码作为音频子片段的目标舞姿编码。
57.可选地,可利用音频-舞姿匹配模型随机从目标舞姿类型的至少一个舞姿编码中选取任一舞姿编码作为音频子片段的目标舞姿编码。
58.可选地,可基于预设的多个舞姿编码各自的舞姿详情信息,确定目标舞姿类型的至少一个舞姿编码各自的舞蹈风格。之后,可确定目标舞姿类型的至少一个舞姿编码与用户偏好的舞蹈风格的匹配度,并从中选取匹配度最高的舞姿编码,作为音频子片段的目标舞姿编码。其中,用户偏好的舞蹈风格可由用户进行自定义设置。
59.通过上述步骤123中的多元化地舞姿编码选取方式,可较为准确地获取到与每个音频子片段最为契合的舞姿编码。
60.进而,可继续执行下述步骤124以基于目标音频中的多个音频子片段各自的目标舞姿编码得到舞姿编码序列:
61.步骤124、根据多个音频子片段的排列顺序,对多个音频子片段各自的目标舞姿编码进行排序,得到舞姿编码序列。
62.通过上述步骤121-步骤124,电子设备可利用音频-舞姿匹配模型,为多个音频子片段各自对应的音频特征值匹配到与音频更加契合的舞姿编码,进而得到与音频更加契合
的舞姿编码序列。
63.在上述各个实施例的基础上,在得到目标音频对应的舞蹈动作序列之后,可基于该舞蹈动作序列生成对应的舞蹈视频文件,以使用户可通过视频播放器进行观看。或者,可将该舞蹈动作序列发送至受控对象。受控对象可包括:虚拟对象和真实对象。其中,虚拟对象可为虚拟人物,真实对象可为机器人。舞蹈动作序列可包括:多个音频子片段各自对应的关键点信息。其中,任一音频子片段的关键点信息可包括:受控对象上的多个三维人体关键点各自的目标位置和目标方向。
64.对应地,受控对象接受到该舞蹈动作序列后,可根据该舞蹈动作序列,控制受控对象上的多个三维人体关键点,沿着目标方向移动至目标位置,从而形成一种舞动的视觉效果。
65.以下,将对上述音频特征值提取模型、舞姿生成模型和音频-舞姿匹配模型的训练过程,进行进一步说明。
66.在训练音频特征值提取模型时,可将舞蹈训练集中的音乐数据输入到该模型中,得到音频特征值。之后,可将模型得到的音频特征值与实际的音频特征值进行对比,即可确定音频特征值提取模型的误差。以不断收敛该误差为目标对音频特征值提取模型的参数进行优化,即可得到训练完成的音频特征值提取模型。
67.在训练舞姿生成模型时,可将舞蹈训练集中的舞蹈数据输入到该模型中,得到舞蹈动作信息。之后,可将模型得到的舞蹈动作信息与实际的舞蹈动作进行对比,即可确定舞姿生成模型的误差。以不断收敛该误差为目标对舞姿生成模型的参数进行优化,即可得到训练完成的舞姿生成模型。
68.在训练音频-舞姿匹配模型时,可通过舞蹈训练集中的舞蹈数据和音乐数据对该模型进行训练。其中,可将某个音频子片段的音频特征值输入到该模型,该模型可输出一个与该音频特征值对应的舞姿编码。进而,可确定该舞姿编码和训练人员期望的舞姿编码之间的误差。以不断收敛该误差为目标对音频-舞姿匹配模型的参数进行优化,即可得到训练完成的音频-舞姿匹配模型。
69.需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤11至步骤13的执行主体可以为设备a;又比如,步骤11和12的执行主体可以为设备a,步骤13的执行主体可以为设备b;等等。
70.另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如11、12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
71.需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
72.图2是本技术一示例性实施例提供的一种舞蹈生成装置的结构示意图,如图2所示,该装置包括:获取模块201、匹配模块202、转换模块203。
73.其中,获取模块201用于:获取待合成舞蹈的目标音频的特征值信息;所述特征值信息包括:所述目标音频中的多个音频子片段各自对应的音频特征值;匹配模块202,用于:
利用音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;转换模块203,用于:利用舞姿生成模型,将所述舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到所述目标音频对应的舞蹈动作序列;其中,所述音频-舞姿匹配模型预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系;所述舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈的舞姿编码和舞蹈动作信息的转换关系。
74.进一步可选地,获取模块201在获取目标音频的特征值信息时,具体用于:利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值;其中,所述音频特征值提取模型,预先通过舞蹈训练集中的音乐数据,学习音乐数据与音频特征值的关系。
75.进一步可选地,获取模块201在利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值时,具体用于:在所述音频特征值提取模型中,对所述目标音频进行分帧处理,得到多个音频子片段;根据相邻音频子片段之间的音频变化趋势和每个音频子片段内的音频变化趋势,计算得到所述多个音频子片段对应的音频特征值。
76.进一步可选地,所述舞姿编码库,包括:多个舞姿类型各自的至少一个舞姿编码;匹配模块202利用所述音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列时,具体用于:针对所述多个音频子片段中的任一音频子片段,利用所述音频-舞姿匹配模型,确定所述音频子片段对应的音频特征值所属的目标音频类型;根据预设的音频类型与舞姿类型的对应关系,确定所述目标音频类型对应的舞姿类型,作为所述音频子片段对应的目标舞姿类型;从所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码;根据所述多个音频子片段的排列顺序,对所述多个音频子片段各自的目标舞姿编码进行排序,得到所述舞姿编码序列。
77.进一步可选地,匹配模块202从所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码时,具体用于:分别确定所述音频子片段与所述目标舞姿类型的至少一个舞姿编码的匹配度;以及,从所述目标舞姿类型的至少一个舞姿编码中,选择匹配度最高的舞姿编码作为所述音频子片段的目标舞姿编码,或者,随机从所述目标舞姿类型的至少一个舞姿编码中选取任一舞姿编码,作为所述音频子片段的目标舞姿编码;或者,确定所述目标舞姿类型的至少一个舞姿编码各自的舞蹈风格;从所述目标舞姿类型的至少一个舞姿编码中选取与用户偏好的舞蹈风格匹配度最高的舞姿编码,作为所述音频子片段的目标舞姿编码。
78.进一步可选地,所述舞蹈动作序列包括:所述多个音频子片段各自对应的关键点信息;任一音频子片段的关键点信息包括:受控对象上的多个三维人体关键点各自的目标位置和目标方向。
79.进一步可选地,转换模块203在得到所述目标音频对应的舞蹈动作序列之后,还用于:将所述舞蹈动作序列发送至所述受控对象,以使所述受控对象上的多个三维人体关键点沿着所述目标方向移动至所述目标位置。
80.在本实施例中,可获取待合成舞蹈的目标音频的特征值信息;利用音频-舞姿匹配模型,从预设的舞姿编码库中为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;并利用舞姿生成模型,将舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到目标音频对应的舞蹈动作序列。其中,音频-舞姿匹配模型预先通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系。通过这种方式,可利用音频-舞姿匹配模型为音频中的每个子片段匹配与该音频子片段更加契合的舞蹈动作,使得整个音频对应的舞蹈动作更加自然和协调。
81.图3是本技术一示例性实施例提供的电子设备的结构示意图,如图3所示,该电子设备包括:存储器301以及处理器302。
82.存储器301,用于存储计算机程序,并可被配置为存储其它各种数据以支持在终端设备上的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
83.其中,存储器301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
84.处理器302,与存储器301耦合,用于执行存储器301中的计算机程序,以用于:获取待合成舞蹈的目标音频的特征值信息;所述特征值信息包括:所述目标音频中的多个音频子片段各自对应的音频特征值;利用音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;利用舞姿生成模型,将所述舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到所述目标音频对应的舞蹈动作序列;其中,所述音频-舞姿匹配模型预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系;所述舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈的舞姿编码和舞蹈动作信息的转换关系。
85.进一步可选地,处理器302在获取目标音频的特征值信息时,具体用于:利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值;其中,所述音频特征值提取模型,预先通过舞蹈训练集中的音乐数据,学习音乐数据与音频特征值的关系。
86.进一步可选地,处理器302利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值时,具体用于:在所述音频特征值提取模型中,对所述目标音频进行分帧处理,得到多个音频子片段;根据相邻音频子片段之间的音频变化趋势和每个音频子片段内的音频变化趋势,计算得到所述多个音频子片段对应的音频特征值。
87.进一步可选地,所述舞姿编码库,包括:多个舞姿类型各自的至少一个舞姿编码;处理器302利用所述音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列时,具体用于:针对所述多个音频子片段中的任一音频子片段,利用所述音频-舞姿匹配模型,确定所述音频子片段对应的音频特征值所属的目标音频类型;根据预设的音频类型与舞姿类型的对应关系,确定所述目标音频类型对应的舞姿类型,作为所述音频子片段对应的目标舞姿类型;从
所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码;根据所述多个音频子片段的排列顺序,对所述多个音频子片段各自的目标舞姿编码进行排序,得到所述舞姿编码序列。
88.进一步可选地,处理器302从所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码时,具体用于:分别确定所述音频子片段与所述目标舞姿类型的至少一个舞姿编码的匹配度;以及,从所述目标舞姿类型的至少一个舞姿编码中,选择匹配度最高的舞姿编码作为所述音频子片段的目标舞姿编码,或者,随机从所述目标舞姿类型的至少一个舞姿编码中选取任一舞姿编码,作为所述音频子片段的目标舞姿编码;或者,确定所述目标舞姿类型的至少一个舞姿编码各自的舞蹈风格;从所述目标舞姿类型的至少一个舞姿编码中选取与用户偏好的舞蹈风格匹配度最高的舞姿编码,作为所述音频子片段的目标舞姿编码。
89.进一步可选地,所述舞蹈动作序列包括:所述多个音频子片段各自对应的关键点信息;任一音频子片段的关键点信息包括:受控对象上的多个三维人体关键点各自的目标位置和目标方向。
90.进一步可选地,处理器302得到所述目标音频对应的舞蹈动作序列之后,还用于:将所述舞蹈动作序列发送至所述受控对象,以使所述受控对象上的多个三维人体关键点沿着所述目标方向移动至所述目标位置。
91.上述图3中的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
92.进一步,如图3所示,该电子设备还包括:通信组件303和电源组件304等其它组件。图3中仅示意性给出部分组件,并不意味着电子设备只包括图3所示组件。
93.上述图3中的通信组件303被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g或5g,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件可基于近场通信(nfc)技术、射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术和其他技术来实现。
94.其中,电源组件304,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
95.在本实施例中,可获取待合成舞蹈的目标音频的特征值信息;利用音频-舞姿匹配模型,从预设的舞姿编码库中为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;并利用舞姿生成模型,将舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到目标音频对应的舞蹈动作序列。其中,音频-舞姿匹配模型预先通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系。通过这种方式,可利用音频-舞姿匹配模型为音频中的每个子片段匹配与该音频子片段更加契合的舞蹈动作,使得整个音频对应的舞蹈动作更加自然和协调。
96.相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器实现舞蹈生成方法中的步骤。
97.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
98.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
99.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
100.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
101.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
102.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
103.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
104.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
105.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种舞蹈生成方法,其特征在于,包括:获取待合成舞蹈的目标音频的特征值信息;所述特征值信息包括:所述目标音频中的多个音频子片段各自对应的音频特征值;利用音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;利用舞姿生成模型,将所述舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到所述目标音频对应的舞蹈动作序列;其中,所述音频-舞姿匹配模型预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系;所述舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈的舞姿编码和舞蹈动作信息的转换关系。2.根据权利要求1所述的方法,其特征在于,获取目标音频的特征值信息,包括:利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值;其中,所述音频特征值提取模型,预先通过舞蹈训练集中的音乐数据,学习音乐数据与音频特征值的关系。3.根据权利要求2所述的方法,其特征在于,利用音频特征值提取模型,确定所述目标音频中的多个音频子片段各自对应的音频特征值,包括:在所述音频特征值提取模型中,对所述目标音频进行分帧处理,得到多个音频子片段;根据相邻音频子片段之间的音频变化趋势和每个音频子片段内的音频变化趋势,计算得到所述多个音频子片段对应的音频特征值。4.根据权利要求1所述的方法,其特征在于,所述舞姿编码库,包括:多个舞姿类型各自的至少一个舞姿编码;利用所述音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列,包括:针对所述多个音频子片段中的任一音频子片段,利用所述音频-舞姿匹配模型,确定所述音频子片段对应的音频特征值所属的目标音频类型;根据预设的音频类型与舞姿类型的对应关系,确定所述目标音频类型对应的舞姿类型,作为所述音频子片段对应的目标舞姿类型;从所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码;根据所述多个音频子片段的排列顺序,对所述多个音频子片段各自的目标舞姿编码进行排序,得到所述舞姿编码序列。5.根据权利要求4所述的方法,其特征在于,从所述目标舞姿类型的至少一个舞姿编码中,选取与所述音频子片段匹配的舞姿编码,作为所述音频子片段的目标舞姿编码,包括:分别确定所述音频子片段与所述目标舞姿类型的至少一个舞姿编码的匹配度;以及,从所述目标舞姿类型的至少一个舞姿编码中,选择匹配度最高的舞姿编码作为所述音频子片段的目标舞姿编码,或者,随机从所述目标舞姿类型的至少一个舞姿编码中选取任一舞姿编码,作为所述音频子
片段的目标舞姿编码;或者,确定所述目标舞姿类型的至少一个舞姿编码各自的舞蹈风格;从所述目标舞姿类型的至少一个舞姿编码中选取与用户偏好的舞蹈风格匹配度最高的舞姿编码,作为所述音频子片段的目标舞姿编码。6.根据权利要求1-5任一项所述的方法,其特征在于,所述舞蹈动作序列包括:所述多个音频子片段各自对应的关键点信息;任一音频子片段的关键点信息包括:受控对象上的多个三维人体关键点各自的目标位置和目标方向。7.根据权利要求6所述的方法,其特征在于,得到所述目标音频对应的舞蹈动作序列之后,还包括:将所述舞蹈动作序列发送至所述受控对象,以使所述受控对象上的多个三维人体关键点沿着所述目标方向移动至所述目标位置。8.一种舞蹈生成装置,其特征在于,包括:获取模块,用于:获取待合成舞蹈的目标音频的特征值信息;所述特征值信息包括:所述目标音频中的多个音频子片段各自对应的音频特征值;匹配模块,用于:利用音频-舞姿匹配模型,从预设的舞姿编码库中,为所述多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;转换模块,用于:利用舞姿生成模型,将所述舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到所述目标音频对应的舞蹈动作序列;其中,所述音频-舞姿匹配模型预先采用深度学习算法,通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系;所述舞姿生成模型预先采用深度学习算法,通过舞蹈训练集中的舞蹈数据,学习舞蹈的舞姿编码和舞蹈动作信息的转换关系。9.一种电子设备,其特征在于,包括:存储器、处理器以及通信组件;其中,所述存储器用于:存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令,以用于:执行权利要求1-7任一项所述的方法中的步骤。10.一种存储有计算机程序的计算机可读存储介质,其特征在于,当计算机程序被处理器执行时,致使处理器实现权利要求1-7任一项所述方法中的步骤。
技术总结
本申请实施例提供一种舞蹈生成方法、装置、设备及存储介质。在该方法中,可获取待合成舞蹈的目标音频的特征值信息;利用音频-舞姿匹配模型,从预设的舞姿编码库中为多个音频子片段各自对应的音频特征值匹配符合预设条件的舞姿编码,得到舞姿编码序列;并利用舞姿生成模型,将舞姿编码序列中的舞姿编码转换为对应的舞蹈动作信息,得到目标音频对应的舞蹈动作序列。其中,音频-舞姿匹配模型预先通过舞蹈训练集中的音乐数据和舞蹈数据,学习音乐的音频特征值和舞蹈的舞姿编码的匹配关系。通过这种方式,可利用音频-舞姿匹配模型为音频中的每个子片段匹配与该音频子片段更加契合的舞蹈动作,使得整个音频对应的舞蹈动作更加自然和协调。和协调。和协调。