本文作者:kaifamei

肖像生成方法和装置与流程

更新时间:2025-04-04 22:51:55 0条评论

肖像生成方法和装置与流程



1.本发明涉及计算机视觉领域,具体而言,本发明涉及一种肖像生成方法和装置。


背景技术:



2.随着虚拟现实技术的不断发展,音频驱动的虚拟肖像也开始应用在各个领域,如虚拟现实游戏、虚拟形象网络直播、视频会议等,如何在虚拟现实社交过程中使虚拟肖像在语音交互过程中具有更加生动的表情,仍是目前的技术难点。


技术实现要素:



3.有鉴于此,本发明实施例提供了一种肖像生成方法和装置,以实现通过音频驱动的方式控制人脸图像的嘴部特征点和面部特征点的分布,从而提高肖像的真实感。
4.第一方面,提供一种肖像生成方法,所述方法包括:
5.对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;
6.将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;
7.将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;
8.基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。
9.第二方面,提供一种肖像生成装置,所述装置包括:
10.提取模块,用于对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;
11.嘴部模块,用于将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;
12.面部模块,用于将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;
13.肖像生成模块,用于基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。
14.第三方面,提供一种电子设备,所述设备包括:
15.存储器,用于存储一条或多条计算机程序指令;
16.处理器,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中的方法。
17.第四方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中的方法。
18.本发明实施例的肖像生成方法和装置通过对获取的目标音频合理量化或参数化后得到音频特征信息,考虑到音频特征信息对肖像各部分的影响不同,将音频特征信息分别输入到嘴部特征点预测模型和面部特征点预测模型,确定对应的嘴部特征点序列和面部特征点;然后将嘴部特征点序列和面部特征点序列进行融合,得到完整的目标特征点序列;
最后,基于目标特征点序列和从目标视频中提取的目标人脸图像序列,确定目标肖像序列。本发明实施例通过对与音频内容发声高度相关的嘴部特征点和与音频内容的情绪或感情高度相关的面部特征点分开处理,可使目标音频与生成的目标肖像关联更加紧密,目标肖像的各部分更加精准,更加生动自然。
附图说明
19.通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
20.图1为本发明实施例的肖像生成方法的流程图;
21.图2为本发明实施例的音频特征提取方法的流程图;
22.图3为本发明实施例的嘴部特征点分布的示意图;
23.图4为本发明实施例的特征点预测模型的训练流程图;
24.图5为本发明实施例的目标特征点序列的示意图;
25.图6为本发明实施例的基于目标特征点序列和目标人脸图像确定目标肖像的示意图;
26.图7为本发明实施例的判别器网络结构体的示意图;
27.图8是本发明实施例的肖像生成装置的示意图;
28.图9为本发明实施例的电子设备的示意图。
具体实施方式
29.以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
30.此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
31.除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
32.在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
33.图1为本发明实施例的肖像生成方法的流程图,如图1所示,所述方法包括以下步骤:
34.在步骤s110中,对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列。
35.其中,目标音频为含人声的音频文件,目标视频为包含人物正面图像的视频文件。获取目标音频后,需要对目标音频合理量化或参数化,以便作为步骤s120中的嘴部特征点预测模型和步骤s130中的面部特征点预测模型的输入信息。
36.音频特征信息可以包括基频(pitch)、能量(energy)、语速(speech rate)、共振峰
频率(formant)、单个音节的持续时间(duration)、音节之间的停顿时间(pause)、梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc)、线性预测倒谱系数(linear predictive cepstral coefficient,lpcc)、线性预测分析(linear prediction coefficients,lpc)、基于滤波器组的fbank特征(filter bank)、感知线性预测系数(perceptual linear predictive,plp)等,以及它们的各种变化形式,比如最大值、最小值、均值、范围、变化率等,这些参数主要体现人体的声门和声道的特征,与人的生理构造有密切的关系。根据使用的量化或参数化的方法不同,音频特征信息不同。其中,mfcc可以模拟人耳将音频非线性映射的过程,成功提取音频中韵律和语义的活动,本实施例以mfcc为例描述提取音频特征信息的过程。
37.图2为本发明实施例的音频特征提取方法的流程图,如图2所示,该方法包括:
38.在步骤s111中,对获取的目标音频进行信号预处理,包括预加重,分帧,加窗。将目标音频的数字音频信号通过高通滤波器,得到高频信息,然后对目标音频进行采样,将预设数量个采样点集合成一个观测单位,即一帧。通常语音识别所采用语音信号的采样频率为8khz或16khz,以16khz来说,若帧长度为256个采样点,则对应的时间长度是21.33ms。将每一帧乘以汉明窗,以增加帧左端和右端的连续性。
39.在步骤s112中,对分帧加窗后的各帧信号进行快速傅里叶变换(fast fourier transform,fft),得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。
40.在步骤s113中,由于人耳对不同频率的敏感程度不同,且成非线性关系,因此我们将频谱按人耳敏感程度分为多个梅尔滤波器组,将功率谱输入该梅尔滤波器组,计算每个滤波器组输出的对数能量。
41.在步骤s114中,将上述对数能量带入离散余弦变换得到mfcc系数,滤波器组得到的系数是相关性很高的,因此我们用离散余弦变换去相关并且降维。
42.在步骤s115中,从mfcc系数中提取动态差分参数,mfcc参数只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。
43.以窗长为21.33ms(256)、帧移为10ms的汉明窗为例,计算过程如下:
44.针对目标音频用滤波器h(z)=1-0.9375z-1
作高频预加重,然后对其进行分帧,用窗长为21.33ms(256)、帧移为10ms的汉明窗函数对每帧进行加窗处理,减少吉布斯效应,使原语音信号变为短时信号s(n);
45.用长度为256的fft将加窗后的语音信号由时域信号变为频域信号,并计算出信号的功率谱p(f),将p(f)在频率轴上的频率谱转化为梅尔mel坐标上的p(m),其中,m表示mel坐标频率;
46.通过一个具有24个滤波器的滤波器组,得到频率在0-4000hz之间的能量信号,计算通过各频率的能量并取对数得到mj,对mj进行下式的离散余弦变换(dct)就得到了mfcc系数。
[0047][0048]
其中,ci表示第i阶参数,n表示阶数,mj表示各频率的能量的对数。
[0049]
为了进一步提高mel倒谱特征参数的抗噪性能和改善识别性能,可以将mfcc和其
一阶差分参数、二阶差分参数结合起来组成一组特征矢量进行训练。设定mfcc的阶数为12,那么一阶差分的计算公式为:
[0050]
δc(i)=(c
2-c1,c
3-c2,

,c
n-c
n-1
)i=1,2,

,n-1
[0051]
其中,ci表示第i阶参数,n表示阶数。δc(i)表示一阶差分。
[0052]
通过上述方法即可实现从目标音频中提取音频特征信息中的mfcc。除mfcc外,还可计算目标音频从开始到结束的持续时间,确定语音持续时间;利用倒谱法逐帧计算出基音频率,考虑到可能产生检测错误,因此对结果进行中值滤波和线性平滑处理,确定基音频率,进一步的,可选取平均基音频率、最大基音频率、基音频率的平均变化率等参数用于情感识别;使用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率,可以选取共振峰频率的平均值、共振峰频率的平均变化率、共振峰峰值点回归直线的平均斜率以及共振峰的平均值等作为音频特征参数。音频特征参数还有许多,其他音频特征参数的提取方法在此不一一列举。
[0053]
进一步的,获取目标视频后,需要从目标视频中提取多张关键帧图像,并对多张关键帧图像进行人脸识别,确定多张待测人脸图像,其中,关键帧图像是指待测人脸所处的那一帧图像。将出现频率超过预设第一阈值的待测人脸图像确定为目标人脸图像,第一阈值可以为80%、85%、90%等,将多张目标人脸图像按照时间顺序排列,得到目标人脸图像序列。
[0054]
在步骤s120中,将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列。
[0055]
其中,嘴部特征点是以点来描述嘴部特征,比如嘴部中心点、嘴部轮廓点等。图3为本发明实施例的嘴部特征点分布的示意图。如图3所示,由于人说话时不同语句的发声不同,嘴的形状也不相同,因此,可通过目标音频的内容确定嘴部发声时的形状特征。
[0056]
将输入的音频特征信息转化为输出的嘴部特征点序列是由嘴部特征点预测模型实现的,它是通过使用音频特征信息样本数据和嘴部特征点样本数据训练得到的。图4为本发明实施例的特征点预测模型的训练流程图。如图4所示,可通过以下步骤对嘴部特征点预测模型进行训练:
[0057]
在步骤s401中,获取训练样本数据,即将音频特征信息样本和视频样本作为嘴部特征点预测模型的训练数据,将嘴部特征点对应的二维坐标作为训练数据的标签。
[0058]
在步骤s402中,将样本数据输入嘴部特征点预测模型,即将视频样本中的每一帧图像按照时序特征输入到嘴部特征点预测模型中进行训练,嘴部特征点预测模型将提取音频特征样信息样本的特征进行有监督的学习,使得音频特征信息与嘴部特征点进行联系。在经过多次卷积池化操作后,经过全连接层后将数据传递至长短时记忆网络中进行时序性处理,最后将时序处理后的数据传递至全连接层中。
[0059]
在步骤s403中,优化模型权重和/或参数。
[0060]
在步骤s404中,判断权重和/或参数是否达到预设阈值,若达到则转步骤s405,若为达到,则转步骤s401。
[0061]
在步骤s405中,得到收敛后的嘴部特征点预测模型。
[0062]
通过上述训练方法即可获得符合预设标准的嘴部特征点预测模型。
[0063]
在步骤s130中,将所述音频特征信息输入面部特征点预测模型,确定对应的面部
特征点序列。
[0064]
通常情况下,面部特征点是指人脸面部的关键区域位置,包括眉毛、眼睛、鼻子、嘴巴和脸部轮廓等。由于本实施例中嘴部特征点通过嘴部特征点预测模型确定,因此,本发明实施例中的面部特征点可为除嘴部特征点以外的其他面部特征点,包括眉毛、眼睛、鼻子和脸部轮廓等,面部特征点的数量越多,表征的面部表情越逼真,面部细节越丰富。
[0065]
在一种可能的实施方案中,可基于所述音频特征信息,确定音频语义解析信息,然后将音频语义解析信息和目标人脸图像输入面部特征点预测模型,确定对应的面部特征点序列。音频语义解析信息是指音频信息内容对应的表现语气或感情的信息。
[0066]
具体的,人说话时的音频内容往往和人的情绪或感情息息相关,且不同的情绪或感情下,人的面部特征也不相同,例如,比如:音频信息为“今天真是倒霉的一天”,则对应的音频语义解析信息为“沮丧”,对应的人的面部特征应为眉头紧锁,眼睛微闭。
[0067]
将输入的音频语义解析信息转化为输出的面部特征点序列是由面部特征点预测模型实现的,它是由通过使用音频语义解析信息样本数据和面部特征点样本数据训练得到的。应理解,面部特征点预测模型的训练过程与上述嘴部特征点预测模型训练过程类似,在此不再赘述。
[0068]
在步骤s140中,基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。
[0069]
在一种可能的实施方案中,基于时序,将所述嘴部特征点序列和面部特征点序列进行融合确定目标特征点序列,图5为本发明实施例的目标特征点序列的示意图,如图5所示,为音频“北京你好”对应的嘴部特征点序列和面部特征点序列融合后形成的目标特征点序列。
[0070]
确定目标特征点序列后,将所述目标特征点序列和所述目标人脸图像输入到图像到图像转换网络(image-to-image translation networks),确定所述目标肖像。
[0071]
其中,上述图像到图像转换网络是一个u-net的编码器-解码器结构,该网络可分为两个部分:生成部分和判别部分。图6为本发明实施例的基于目标特征点序列和目标人脸图像确定目标肖像的示意图。如图6所示,将目标特征点输入到u-net的生成器,得到对应的面部图像,然后将该面部图像、目标人脸图像以及目标人脸图像对应的人脸特征点输入至判别器,通过判别器的输出结果来判定从生成器中获得的面部图像是否为合格的目标肖像,判别结果为1,说明从生成器中获得的面部图像是合格的目标肖像,判别结果为0,说明从生成器中获得的面部图像不是合格的目标肖像。
[0072]
图像到图像转换网络中的生成器网络结构中的编码网络由8个卷积层组成,解码网络由8个反卷积层组成。生成器使用上采样卷积层来替换普通的卷积层的过程,采用标准的4x4的卷积核,用带步长的卷积代替了池化层。生成器网络不同于传统采用编码-解码模型网络,使用u-net网络模型可在保证数据输出大小一致的情况下,增强目标特征点和目标人脸图像的一致性,同时可将面部细节更加清晰地显示出来。
[0073]
图7为本发明实施例的判别器网络结构体的示意图。本发明实施例采用马尔可夫判别器(patchgan)进行判别,该判别器不仅需要判别输入的图像是否为人脸图像,还需要对图像中的某一部分进行判定,例如判定输入图像中某区域是否为鼻子、眼睛、眉毛等,对于生成器来说,并不是对输入图像整体判定,而是将输入图像划分为小区域(patch)进行
的,具体步骤可以为:
[0074]
将输入的目标人脸图像划分为nxn个patch,针对每个patch,进行判别,通过设定n的取值范围来确定要判别的图像的位置,通过对局部图像的判别来代替对整个目标人脸图像的判别。
[0075]
如图7所示,判别器网络只由编码器组成,在判别时,针对每一个patch进行卷积操作,将目标人脸图像及其对应的人脸特征点作为判别器网络的约束条件,作为对比样本对,生成器网络输出的面部图像以及对应的目标特征点序列作为测试样本对,交给判别器网络进行判定。在具体实现时,在将三通道的面部图像输入网络时,网络会将生成器网络输出的面部图像和目标人脸图像叠加到一个六通道的数据图像结构。
[0076]
在一种可能的实施方案中,确定目标肖像后还可对目标肖像做渲染和纹理处理,将颜、光照、皮肤纹理等因素作为目标肖像的影响因子,使最终得到的目标肖像更加真实。渲染方法可以为双方向反射分布方程、双向表面散射分布函数和粗糙散射等。对目标肖像的面部皮肤纹理的细致处理可基于卷积神经网络提取的中间层特征相关性的多尺度细节分析技术,迭代地优化重建的特征相关性,使得即使输入的目标人脸图像数据分辨率较低,光照情况不理想的情况下,仍可以合成皮肤纹理清晰的目标肖像,极大地增强目标肖像的真实感,提升用户体验。
[0077]
在步骤s150中,将所述音频语义解析信息输入深度学习网络中,确定对应的目标头部姿态。
[0078]
具体的,可获取目标人脸图像中人物的头部关键点,与上述嘴部特征点预测模型或面部特征点预测模型相似,头部特征点预测模型在输入音频语义解析信息后,根据音频语义解析信息与头部特征点分布之间的映射关系,确定目标头部姿态序列。
[0079]
在步骤s160中,根据所述目标头部姿态,确定上半身姿态。
[0080]
具体的,可获取目标人脸图像中人物的上半身关键点,与上述嘴部特征点预测模型或面部特征点预测模型相似,上半身特征点预测模型在输入头部特征点后,根据头部特征点分布与上半身特征点分布之间的映射关系,确定上半身姿态序列。
[0081]
在步骤s170中,基于所述目标肖像、所述目标头部姿态和所述上半身姿态,确定半身肖像图像。
[0082]
也就是说,将目标特征点序列、目标头部姿态序列以及上半身姿态序列进行融合,得到带有面部、头部和上半身的半身肖像序列点,最后,将半身肖像序列点与从目标视频中提取的目标半身图像序列输入至图像到图像转换网络,得到半身肖像图像。
[0083]
在步骤s180中,基于所述目标肖像序列,合成目标肖像视频。
[0084]
具体的,可基于时序特征,将目标肖像序列作为视频的关键帧,合成目标肖像视频。直接将上述目标肖像序列按照时序合成的目标肖像视频往往是离散的,因此,还可对目标肖像序列按照时序合成的视频进行平滑处理,将处理后的视频确定为目标肖像视频。平滑方法可以为:低通滤波、样条内插和卡尔曼滤波。其中,低通滤波可阻碍高频部分通过,达到平滑的效果;样条内插是指在低通滤波后计算最值,发现运动区域,再用平滑窗口处理最值区域,用立方体样内插值处理余下区域;卡尔曼滤波是指用线性系统状态方程,对系统状态进行最优估计的平滑算法。可根据实际需求和/或处理器的计算能力选择上述一种或几种平滑方法对视频进行平滑处理。
[0085]
本发明实施例在对目标音频和目标视频分别进行特征提取,确定音频特征信息和目标人脸图像序列后,将音频特征信息分别输入嘴部特征点预测模型和面部特征点预测模型,得到对应的嘴部特征点和面部特征点,通过将与音频内容的发声高度相关的嘴部特征点序列和与音频内容的情绪或感情高度相关的面部特征点序列分开处理,可使音频对人脸不同区域的影响更加充分地体现在目标肖像中,使目标音频与生成的目标肖像关联更加紧密,目标肖像的各部分更加精准,更加生动自然。
[0086]
图8是本发明实施例的肖像生成装置的示意图。如图8所示,所述装置包括:
[0087]
提取模块801,用于对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;
[0088]
嘴部模块802,用于将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;
[0089]
面部模块803,用于将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;
[0090]
肖像生成模块804,用于基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。
[0091]
应理解,本实施例的肖像生成装置执行上述肖像生成方法,其具体执行过程与上述实施例类似,在此不再赘述。
[0092]
本发明实施例通过提取模块对目标音频和目标视频分别进行特征提取,确定音频特征信息和目标人脸图像序列后,基于音频内容对人脸各部分的影响不同,分别使用嘴部模块和面部模块分别对音频特征信息进行处理,得到对应的嘴部特征点和面部特征点,将与音频内容的发声高度相关的嘴部特征点序列和与音频内容的情绪或感情高度相关的面部特征点序列分别处理,可使音频对人脸不同区域的影响更加充分地体现在目标肖像中,使目标音频与生成的目标肖像关联更加紧密,使基于目标人脸图像序列、嘴部特征点序列和面部特征点序列确定的目标肖像序列中的各目标肖像更加生动自然。
[0093]
图9是本发明实施例的电子设备的示意图。在本实施例中,电子设备包括服务器、终端等。如图9所示,该电子设备:至少包括一个处理器901;以及,与至少一个处理器901通信连接的存储器902;以及,与扫描装置通信连接的通信组件903,通信组件903在处理器901的控制下接收和发送数据;其中,存储器902存储有可被至少一个处理器901执行的指令,指令被至少一个处理器901执行以实现上述方法。
[0094]
具体地,该电子设备包括:一个或多个处理器901以及存储器902,图9中以一个处理器901为例。处理器901、存储器902可以通过总线或者其他方式连接,图9中以通过总线连接为例。存储器902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器901通过运行存储在存储器902中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述信息交互方法。
[0095]
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器902可选包括相对于处理器
901远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0096]
一个或者多个模块存储在存储器902中,当被一个或者多个处理器901执行时,执行上述任意方法实施例中的基于处理器的数据处理方法。
[0097]
上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
[0098]
本发明的另一个实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
[0099]
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0100]
以上所述仅为本发明的优选实施例,并不被配置为限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种肖像生成方法,其特征在于,所述方法包括:对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。2.根据权利要求1所述的肖像生成方法,其特征在于,所述方法还包括:基于所述目标肖像序列,合成目标肖像视频。3.根据权利要求1所述的肖像生成方法,其特征在于,所述音频特征信息基于梅尔频率倒谱系数提取。4.根据权利要求1所述的肖像生成方法,其特征在于,所述对目标视频进行特征提取,确定目标人脸图像序列,包括:获取目标视频的多张关键帧图像;对所述多张关键帧图像进行人脸识别,确定多张待测人脸图像;将出现频率超过预设第一阈值的待测人脸图像确定为目标人脸图像;基于多张目标人脸图像,确定所述目标人脸图像序列。5.根据权利要求1所述的肖像生成方法,其特征在于,所述将所述音频特征信息和所述目标人脸图像输入面部特征点预测模型,确定对应的面部特征点序列,包括:基于所述音频特征信息,确定音频语义解析信息;将所述音频语义解析信息和所述目标人脸图像输入面部特征点预测模型,确定对应的面部特征点序列。6.根据权利要求1所述的肖像生成方法,其特征在于,所述基于所述目标人脸图像、所述嘴部特征点序列和面部特征点序列,确定目标肖像,包括:将所述嘴部特征点序列和面部特征点序列进行融合确定目标特征点序列;将所述目标特征点序列和所述目标人脸图像输入到图像转换网络,确定所述目标肖像。7.根据权利要求4所述的肖像生成方法,其特征在于,所述方法还包括:将所述音频语义解析信息输入深度学习网络中,确定对应的目标头部姿态;根据所述目标头部姿态,确定上半身姿态;基于所述目标肖像、所述目标头部姿态和所述上半身姿态,确定半身肖像图像。8.一种肖像生成装置,其特征在于,所述装置包括:提取模块,用于对目标音频和目标视频进行特征提取,确定音频特征信息和目标人脸图像序列;嘴部模块,用于将所述音频特征信息输入嘴部特征点预测模型,确定对应的嘴部特征点序列;面部模块,用于将所述音频特征信息输入面部特征点预测模型,确定对应的面部特征点序列;肖像生成模块,用于基于所述目标人脸图像序列、所述嘴部特征点序列和所述面部特征点序列,确定目标肖像序列。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。

技术总结


本发明实施例公开了一种肖像生成方法和装置。本发明实施例的方法对获取的目标音频合理量化或参数化后得到音频特征信息,考虑到音频特征信息对肖像各部分的影响不同,将音频特征信息分别输入到嘴部特征点预测模型和面部特征点预测模型,确定对应的嘴部特征点序列和面部特征点,然后将嘴部特征点序列和面部特征点序列进行融合,得到完整的目标特征点序列,最后,基于目标特征点序列和从目标视频中提取的目标人脸图像序列,确定目标肖像序列,本发明实施例通过对与音频内容发声高度相关的嘴部特征点和与音频内容的情绪或感情高度相关的面部特征点分开处理,可使目标音频与生成的目标肖像关联更加紧密,目标肖像的各部分更加精准,更加生动自然。更加生动自然。更加生动自然。


技术研发人员:

陈苏全 唐旻杰 梁超 王开新 琳

受保护的技术使用者:

出门问问创新科技有限公司

技术研发日:

2022.10.14

技术公布日:

2023/1/19


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-78822-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-26 04:34:34

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论