基于语义驱动的前背景区分视频描述生成系统
1.本发明属于跨媒体生成技术领域,具体涉及基于语义驱动的前背景区分视频描述生成系统。
背景技术:
2.在各种多模态信息处理任务中,视频描述自动生成(video captioning)是一项非常重要的任务,其在视频分析领域是一项基础性的研究任务。该任务为给定一段视频,计算机自动分析视频内容,生成描述视频主要内容的语句。该任务是在图像描述自动生成任务(image captioning)基础上发展而来,但视频与图像存在显著性差异,视频可被看作为多幅图像的集合,其特征多样性与内容场景复杂性都远远超出图像,因此视频描述自动生成技术难度及挑战性也远高于图像描述生成技术。该项任务涉及到人工智能的两个研究领域,即计算机视觉(compute vision,cv)和自然语言处理(natural language processing,nlp),其在两个领域搭起桥梁将两者紧密联系起来。从计算机角度出发,理解一段视频并不能和人类分析视频一样简单。目前,图像分析对于图像表示一般采取将其处理成一维向量,依照这种方式视频便为一组序列向量的集合。如何改进图像描述生成技术,将其转换为视频描述生成技术,这都是早期研究方向。此外,对于视频中的多种模态信息,如何将其合理应用以加强语句描述生成的质量,这些都区别于图像描述生成技术。
3.描述生成技术(captioning)一般采用编码-解码(encoder-decoder)框架,编码器常采用卷积神经网络cnn(convolution neural network)提取视频帧特征,解码器采用循环神经网络rnn(recurrent neural network)生成序列语句。cnn能将图像信息进行提炼,得到其高层语义表示,在图像分类、目标检测等领域具有很好效果;rnn则由于其良好的序列生成能力而在自然语言处理领域中得到广泛应用,在描述生成方向也被广泛采用。cnn结合rnn,分别对应于计算机视觉与自然语言处理,是语句描述生成模型的基本框架。
4.早期研究工作通常借鉴图像描述生成技术,将图像特征输入改为视频特征输入,然后生成描述性语句。这类方法需要将序列特征转换为单一的、与图像表示一致的特征,较为简单的处理是采用池化层对序列进行均值处理,也有进行关键帧检测,只将关键帧输入至生成模型中。此类方法都会在一定程度上造成信息损失,破坏视频内容丰富度。之后,基于时序注意力机制在每个时刻对帧序列特征进行采样加权,并赋予不同权重,在生成文本描述时单词的关注信息不同。这些方法都主要集中于视觉特征处理上,即集中于编码阶段。随着自然语言处理的发展,生成模型也在不断进步,基于cnn、transformer的解码器也逐渐应用于视频描述生成任务。
5.尽管现有工作在视频自动描述任务上取得很大进步,但对于视频本身的特性并未挖掘完全,对于视频处理依旧十分粗糙,通常整体考虑一个视频而忽略其中场景切换对视频信息编码的影响。为解决上述问题,非常有必要对视频不同场景进行区分,对视频不同场景信息进行分别编码,更加全面考虑视频时序信息,生成更为精确的语义描述。本发明就是由此激发,采用前背景区分网络对视频内部信息进行区分,随后分别进行视频编码,充分利
用视频时序信息,针对视频生成更好的描述性语句。
技术实现要素:
6.本发明所解决的问题是针对视频描述任务,现有模型在处理视频有关时序信息的利用。为解决所述问题,本发明提供基于语义驱动的前背景区分视频描述生成系统。
7.本发明提供的基于语义驱动的前背景区分视频描述生成系统,包括:视频特征提取网络、前背景区分网络、特征编码网络以及描述生成网络;所述视频特征提取网络获取视频的多种特征向量表示,并输入至前背景区分网络中;所述前背景区分网络根据语义锚点(描述句子中比较重要的组件,主语,谓语,宾语)对特征区分为前景与背景,其中前景表示视频中的高光片段,背景为其余片段,再输入至特征编码网络中;所述特征编码网络对前景和背景进行对齐,随后对前背景分别进行编码,再输入至描述生成网络;所述描述生成网络采用一个前背景门机制控制模块和一个单层gru模型作为解码器,根据视频特征输出对应的视频描述。本发明对视频序列特征进行区分,在生成描述语句时充分利用视频帧的前景和背景信息,使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义,能够提高模型对视频视觉信息的理解能力,具有广泛应用价值。
8.本发明中,所述视频特征提取网络,包含inceptionresnetv2与i3d深度卷积网络。对于视频进行帧采样,采样按照等间隔进行,一个视频最终对应于26帧,每一帧通过inceptionresnetv2网络映射为1,536维向量;并通过i3d网络,获取视频的i3d特征。最终,对于一个视频,其特征包含inceptionresnetv2特征26*1,536、及i3d特征26*1,024。
9.本发明中,所述前背景区分网络,根据语义信息对视频帧进行前景和背景划分,语义信息生成方式如下:
[0010][0011]
其中,表示grus的第t时间步的隐藏层状态;w
t-1
∈{subject,verb,object}代表在t-1步预测的独热向量(该向量有多维,其中只有一维值为1其余都为0);we表示一个可学习的词嵌入矩阵参数;vg是利用iceptionresnetv2提取的特征va和利用i3d深度卷积网络提取的特征vm拼接得到。att函数如下所示:
[0012][0013]
最后,grus的最后一层隐层输出被当作语义锚点ρs。
[0014]
为选取前景,首先需要计算v
*
和ρs之间的相关φ
*
,计算方式如下:
[0015][0016]
其中,w
*
,w
*h
,b
*
均为可学习的参数,*代表对于不同特征va,vm的不同操作;tanh表示双曲正切函数;随后利用topk函数计算前景向量z
*
,由于该操作不可导而利用gumbel-softmax策略分别计算前向传播和后向传播:
[0017][0018]
其中,g是gumbelnoise,与gumbel(0,1)独立同分布;τ为调节softmax强度的温度
参数;f(
·
)为log函数;forward表示前向传播,backward表示反向传播。s
*
是由φ
*
经过softmax函数计算得到,函数topk表达式如下:
[0019][0020]
其中,k为x中第n大的数,通常n可取8。随后,利用前景向量z
*
分别获取前景和背景特征:
[0021][0022][0023]
其中,和分别代表前景和背景;1表示值全为1的向量;diag(x)表示对角线由x填充的矩阵。
[0024]
本发明中,所述特征编码网络,即通过前背景区分网络区分出的前景和背景最终输出经过编码的前背景特征表示,其流程如下:首先,利用如下公式对齐va与vm:
[0025][0026][0027]
ffn(x)=ln(relu(xw1)w2+x),
ꢀꢀꢀ
#(10)
[0028]
mha(q,v)=ln([h1;
…
;hh]wo+q),
ꢀꢀꢀ
#(11)
[0029][0030]
其中,和表示可学习得参数;q,[
·
;
·
]表示拼接操作;ln表示层归一化操作。
[0031][0032]
其中,d表示输入特征向量的维度。然后,将和拼接起来获得对齐后的前景特征随后,应用如下公式进一步编码公式如下:
[0033][0034]
在同样计算方式下,可通过公式(8)-(14)得到背景表示
[0035]
本发明中,所述描述生成网络,采用循环神经网络作为生成器进行语句生成;采用一个前背景门机制控制模块和一个单层gru模型作为解码器;前背景门机制控制模块用于分别关注前景和背景信息,由gru进行句子解码,最终采用gru
de
的输出预测下一时刻单词;
[0036]
前背景门机制控制模块在t时刻的输入包含三部分,即前一时刻的gru
de
隐藏状态h
t-1
、经过分别编码的前背景特征和其输出为定义如下所示:
[0037][0038]
[0039][0040]
其中,是gru
de
在第t-1步的隐藏层输出;wr是可学习的参数矩阵;σ代表sigmoid函数。随后,根据前背景门机制控制模块的输出对前景和背景特征进行加权融合,得到最终的输出
[0041][0042]
其中,
⊙
代表哈达玛积;f(
·
)是线性变换操作;wf是一个可学习的参数矩阵。
[0043]
对于单层gru
de
解码器,其输入包括四部分,即t时间步前背景门控机制控制模块输出、t-1时刻gru
de
的隐藏层输出与语义锚点的注意力输出,t-1时刻所对应的词向量、及gru
de
的t-1时刻隐层输出,定义如下:
[0044][0045]
其中,we表示词向量矩阵;w
t-1
表示t-1时间步预测出的单词的独热向量。最后利用ρ
de
表示gru
de
最后一步的隐藏层输出,包含完整描述信息,在优化时拉近ρ
de
和ρs的距离。最后,利用一个双层mlp网络和tanh激活函数(双曲正切函数)进行第t步的单词概率预测。
[0046]
本发明提供基于语义驱动的前背景区分视频描述生成系统,其工作流程为:
[0047]
(一)所述视频特征提取网络,对视频进行帧采样,利用inceptionresnetv2网络提取视频的帧级序列特征向量,同时获取视频的i3d特征序列表示;
[0048]
(二)所述前背景区分网络,对视频特征序列进行区分。其中本发明所提出方法主要利用语义锚点进行区分,首先利用原始视频特征生成语义锚点,随后利用视频特征与语义锚点的相似度来进行前景和背景区分;
[0049]
(三)所述特征编码网络,利用视频特征之间相互计算相似度的方法进行信息交互和融合,将经过编码的视频前背景特征输入描述生成网络;
[0050]
(四)所述描述生成模型,包括一个前背景门机制控制模块和一个单层gru作为解码器,前背景门机制控制模块用于分别关注前景和背景信息,进行信息融合后送入gru进行句子描述解码生成。
[0051]
较之已有相关视频描述生成方法,本发明提出的方法具有两大优势,即将视频前背景进行区分,将区分后的前背景信息分别编码,充分利用视频前背景信息生成更加精确丰富的描述。第一,针对视频前背景区分体现在,本发明所提出的模型采用基于语义锚点的前背景区分网络对视频进行区分,在区分过程中按和语义锚点的相似度进行,已有方法则基本完全忽视视频中的场景区分,视整个视频为单独唯一场景。第二,针对视频前背景信息分别编码的利用体现在,本发明所提出方法采用自注意力机制对不同场景特征分别进行信息编码,在编码过程中充分考虑特征与特征之间的联系,并采用特征之间的相似度作为信息融合的权重值。第三,更为准确的单词预测体现在,本发明所提出方法在预测单词时采用门机制分别关注前景和背景信息,生成视觉综合信息预测下一时刻单词,丰富语句生成。
[0052]
综上所述,本发明针对于视频描述生成任务中视频场景信息、及单词预测提出相应算法模型,即基于语义驱动的前背景区分视频描述生成方法,使得视频中的多模态信息得以利用,描述性语句生成更为精确。本发明所提出方法可应用于针对大规模视频的描述生成,生成对应视频内容的精确描述性语句,提高可用性和用户体验。
附图说明
[0053]
图1为本发明系统图示。
[0054]
图2为本发明中的模型框架示意图。
具体实施方式
[0055]
由背景技术可知,现有视频描述生成方法针对视频内部不同场景利用不合理的情况。本发明针对所述问题进行研究,引入前背景区分网络,对视频内部的视觉信息进行区分,在区分过程中充分考虑到视频特征和语义锚点的相似度,并采用一层gru作为解码器进行最终描述语句生成,在生成过程中采用一个前背景门机制融合视频特征,使得视频描述生成更为精确。本发明所提出模型适用于所有基于编码-解码模式的视频描述生成技术,能显著提高生成语句的精度。
[0056]
下文中,结合附图对本发明的具体细节作以阐述。
[0057]
如图1所示,本发明所提出基于语义驱动的前背景区分视频描述生成系统,包括视频特征提取网络、前背景区分网络、视频编码网络、及语句描述生成网络。其工作流程为:
[0058]
流程一:所述视觉特征提取网络,针对所获取视频进行帧采样,并利用深度卷积网络获取帧的视觉特征向量表示26*1,536。所述深度卷积网络可选用图像分类任务中的深度卷积模型,本发明采用inceptionresnetv2网络。为增强视频的视觉标识,提取视频的i3d特征26*1,024。此外,为实现更好的表示能力,对特征进行维度转换,均转换为1,300维度,即inceptionresnetv2特征26*1300与i3d特征26*1300。
[0059]
在流程一中,对于视频特征提取进行两个层次的提取,一是单独帧的特征提取,另一是以帧为中心前后多帧一同编码的特征。由于前述两种特征包含细粒度物体特征,本发明并未采用额外的预训练模型提取物体特征。
[0060]
流程二:所述前背景网络对于获取的视觉特征进行区分。其具体流程如下所示:
[0061]
(一)根据原始视频特征生成语义锚点,为句子描述的主语,谓语和宾语,语义锚点为循环神经网络的最后一层隐藏层输出;
[0062][0063]
(二)利用语义锚点与视频特征的相似度进行前景和背景区分。计算特征和语义锚点的相似度分数,随后进行归一化处理,选取分数前k大者作为前景信息,其余作为背景信息。对于inceptionresnetv2特征与i3d特征,都进行相似处理。对于区分向量的具体计算,如下所示:
[0064][0065][0066][0067]
(三)、根据所述区分向量对视频特征进行区分,具体过程如下:
[0068]
[0069][0070]
在流程二中,对于视频信息进行两个层次处理,一是对inceptionresnetv2特征进行区分,另一是对于i3d特征序列区分。特征区分过程采用前背景区分网络,使得区分后的特征更适合视频语句描述生成。
[0071]
流程三:所述特征编码网络,对于视频前景背景特征分别进行编码,同时分别对前景背景信息采用自注意力机制,将相似度作为权值进行加权,得到前景特征表示26*1,300、背景特征26*1,300。其具体计算方式如下:
[0072][0073][0074][0075][0076][0077][0078]
在流程三中,利用特征编码网络将区分后的特征序列转换进行编码,以便于之后解码器更好地利用前背景信息对视频进行分析,预测下一时刻的单词概率分布。
[0079]
流程四:所述语句描述生成模型,采用一个前背景门机制控制模块和一个单层gru作为解码器。前背景编码器输入包含前一时刻的gru
de
隐藏状态经过分别编码的前背景特征和其输出为gru
de
输入包含t时间步前背景门控机制控制模块输出,t-1时刻gru
de
的隐藏层输出与语义锚点的注意力输出、t-1时刻所对应的词向量、及gru
de
t-1时刻的隐层输出。采用gru
de
隐藏层输出和mlp网络预测下一时刻单词概率分布p(s
t
),其具体操作如下:
[0080][0081][0082][0083][0084][0085][0086]
在流程四中,相较于之前视频描述生成方法,改进在于,采用分别关注前背景的语言模型,包含t时刻关注的前景中的信息,包含t-1时刻关注背景中的信息,两者加权融合的结果为更适合单词预测的视频特征表示,有助于联系更多细节信息加强当前时刻的单词预测。
[0087]
具体流程可视化如图2所示,按照步骤一至四依次进行,即可得到视频描述语句。
此外,在生成语句描述时,采用beamsearch方法来筛选最优语句,有效避免单词采样偏差。在本发明提出的方法中,将beamsize的值设为3,以平衡精度与时间代价的关系。
[0088]
本发明实例选用数据集msvd和msr-vtt,msvd包含1,970个视频,msvd包含10,000个视频。两者均采用标准的数据集划分,在msvd测试集上bleu-4、cider、meteor、及rouge值分别为57.3、100.3、36.8、及73.8。在msr-vtt上,bleu-4、cider、meteor、及rouge值分别为42.3、50.4、28.0、及60.9。
[0089]
本发明不但适用于所述模型框架,也适用所有基于编码-解码的视频描述生成方法,同时适用于不采用循环神经网络作为解码器的视频描述生成方法,具体实践为将本发明的特征区分过程加入编码阶段,将本发明的语句描述生成融入解码阶段。
[0090]
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。