2021年3月计算机工程与设计Mar.2021
第42卷第3期COMPUTER ENGINEERING AND DESIGN Vol.42No.3基于改进NeXtVLAD的视频分类
陈意,黄山
(四川大学电气工程学院,四川成都610065)
摘要:为提高长视频分类精度并减少训练时占用显存,提出基于NeXtVLAD改进的长视频分类模型。将人脸识别领域的ghost聚类中心思想迁移到视频分类,通过加入ghost聚类中心降低无关采样帧的干扰,提高模型识别准确率,针对长视频分类提出多尺度的视频帧采样方法。采用预训练模型ResNet50提取采样帧的深度特征,在训练时冻结特征提取网络参数,减少训练时的计算量。在VideoNet数据集的前100个类别上进行实验,实验结果表明,该模型与现有相关模型相比取得了更好的分类效果。
关键词:深度学习;视频分类;局部聚合描述子向量;特征融合;卷积神经网络
中图法分类号:TP391.41文献标识号:A文章编号:1000-7024(2021)03074906
doi:10.16208/j.issnl000-7024.2021.03.022
Video class讦ication bad on improved NeXtVLAD
CHEN Yi,HUANG Shan合伙创业
(College of Electrical Engineering&Sichuam University,Chengdu610065,China)
Abstract:To increa the accuracy of long video classification and reduce the occupation of video memory during training,an mproved long video classifica ion model bad on NeXQVLAD was propod6The idea of ghost clusQering cenQer inQhe field of facerecogniionwasQransfe r edQovideoclassificaion6Byadding ghost clusQeringcenQerQoreduceQheinQerferenceofirrelevanQ sampling frames&Qhe accuracy of model recogni ion was improved6A mul i-scale video frame sampling meQhod was propod for long video classification.The pre-training model ResNet50was ud to extract the depth feature of the sampling frame,and the feature was freezed to extract the network parameters during the training to reduce the calculation amount during the training. Experimental results show that the propod model has better classification effects than the existing correlation model.
Key words:deep learning;video classification;vector of locally aggregated descriptors;feature fusion;convolutional neural network
1引言
视频分类不同于静态图像的分类,视频会随着时间的变化引起行为动作变化、场景变化和光线变化。目前基于深度学习的视频分类的代表性方法大致分为4种:基于双流的卷积神经网络模型、三维卷积神经网络模型45、二维卷积与三维卷积结合的神经网络模型67*和基于局部特征融合的神经网络模型80。文献)1基于双流的思想提出TSN(temporal gment networks)模型,对视频稀疏采样的RGB图像和光流图像分别提取空间域和时间域的特征。为了对视频的时序信息建模,文献[5*提出P3D (pudo-3D)模型。P3D利用三维卷积来实现对视频时间序列的建模,但是三维卷积需要消耗大量的显存和计算量。文献将二维卷积和三维卷积相结合提出高效的ECO (e f icienQconvoluionalneQworkforonlinevideoundersQan-
ding)模型,即保证了模型的精度又降低了计算成本。以上方法都致力于时间序列的建模,文献[11*将传统的局部聚合描述子向量(vector of locally aggregated descrip
tors,VLAD)结构嵌入到卷积神经网络中得到可训练的特融NetVLAD(CNNarchitectureforweak9ysuper-vidp9acerecognition)&NetVLAD
团员小结100字行特征融合从而实现视频分类。Net V LAD编码后得到的特
征维度太高导致网络参数量太大,于是文献)0*利用ResNextf12*的思想结合NetVLAD模型提出了参数量更少的NeXtVLAD模型。相比于前3种方法,基于特征融合的神经网络模型更加适合于时长较长的视
频数据。本文主要针
收稿日期:201912-23;修订日期:2020-0311
作者简介:陈意(1996-),男,四川自贡人,硕士研究生,研究方向为数字图像处理;黄山(969-),男,四川成都人,博士,教授,研究方向为智能交通领域的图像识别处理。E-mail:
・750・计算机工程与设计2021年
对时间长度不定的几分钟到几十分钟的视频进行分类研究&对NeXtVLAD算法改进,设计岀一个精高’频分类网络。
1NeXtVLAD算法
NeXtVLAD算法是由NetVLAD算法改进而来&NetV-LAD算法利用局部子向量将
融合后得到,利用输岀。NeXtVLAD针对NetVLAD编码后特征维度太高导致分输岀层参数量庞大的缺点,将输入数据x.维后再进&维度从而大大减少参数量(
1.1局部聚合子向量
局部聚合描述子向量最初用于图像检索领域&通过统计特征描述子与中心的累计残差,将若干局部压为一大全局。务中,可以一取看作一个局部特征&那么利用局部描述子向可获得全局乙假随机N帧作为表达,利用取取每一得到F维局部’那么传统局部描述子向法N.F的局部特征进行K-Means聚类得到K个聚类中心,记为C k,则全局特征V如式(1)所示
N
V=——ak(E i),j)—C k,,)(1)
,,k)=1式中:k#{1,---K}&,#{1,•••>},E代表第。个局部特征, C k为第k个聚类中心,以E)为一个符号函数,当且仅当以(E)属于聚类中心C k时,等于1,否则为0。可见式(1)累中心残差,得到一个K.F维度全局。
1.2NeXtVLAD算法
显然式(1)中X(E)不可微从而不能进行反向传播训练且最终全局特征维度过大会导致参数量大,NeXtVLAD 将a k E函数可微化且将特征分为G组从而减少参数量-全局表达为2)
V)k=a E')a g k E')(E o—C,)(2)式中:g#{1,-G},i#{1,-N},,#{1,-2F/G},k# {1,---K}o a g(E l)和a g k(E?)分'别如式($)、式(4)所示
a g(e z)=)(W J e,+5)(3)
其中,)(.)在网络中代表一个sigmoid函数,a gk(1)则表示局部特征"对聚类中心C k贡献的权重,a g(1)表示分组G 的注意力机制。
NeXtVLAD算法简要流程如图1所示。输入e的维度为N a/.F,代表N a/张采样帧的F维特征向量-经过NeXtVLAD特征融合后得到的全局特征向量维度为2F.K/G o
图1NeXtVLAD流程
2算法的改进
2.1整体网络设计
本文基于NeXtVLAD算法进行改进提岀GNeXtVLAD
算法,实现对局部融合,设计岀一个端到端
以己及人
训练网络2所示。本文主要由$块
组成:取、特征融输。
取用经典ResNet-50)3*-该算法通过学习残差-传统卷网络或全连接
信息传递 信息丢失问题,使得 能更好学习图像的深度特征。本文为提取视频采样帧的深度特征,使用了ImageNet数据集在ResNet-50模型上进行预训练,预训练ResNet-50最后的全得[提取输岀为一个2048维-若数为N/,则特征提取模块输岀为N a/X2048维度的局部向。
融合模块首先使用一个全连接层对特征进行降维-本文降维后维度为1024-用对NeXtVLAD改进的GNeXtVLAD算法对N/X1024维的深度特征进行特
征融合-从而得到视频
第42卷第$期陈意!黄山:基于改进NeXtVLAD的视频分类・751・
图2网络整体设计
蝴蝶书签怎么折分类输出
分类输岀模块将特征融合模块的视频级特征输岀作为输入&通过对视频级特征的学习得到最终的分类输岀。分输由两个全一个注意力机制成,中的注意力机制模块由两个全一个Sigmoid函数组成。
影响是什么意思训练过程中对特征提取模块的参数进行冻结,从而减少大量参数的反向传播,使得网络训练占用小、计算&从而保证在有限源下能训练大「频
2.2视频采样策略
入门微单当处理未经裁剪的小视频数据时,这些视频镜头多变且场景信息复杂,稀疏描述信息效率不高,大效率低下且影响性能,得
成信息的描述。本文多策略,假总帧数为N t宀设置 数大数分别记作N min,。则采样帧数如式⑸所示
NI mpLe
=N m in N t%右@
<N max N total 3.2'(5)
[N mm+3——
11(N max—N min)313N a3^2|
式中:31、32分别为最小帧数和最大帧数阈值。式(5)确
数,在采样过程中,本文首先将所有为N ap段,然后在每一段中随机采样一帧,从而对视频随机采样N ap帧。
2.3GNeXtVLAD
NeXtVLAD算法虽然对NetVLAD算法进行改进后参数量减少且精度有一定提升,但NeXtVLAD有的聚类 中心一视同仁,不能很好地避免采样帧中扰。
,中一些与
的特征,而NeXtVLAD算法依然会将每一个特征聚类到一中心。
文献)4*在人脸识别领域提岀GhostVLAD算法,该算法在NetVLAD的基础上加入g.s t聚类中心来降低低质量人脸图像的权重,同时提高高质量人脸图像的聚合权重。GNeXtVLAD在NeXtVLAD的K个聚类中心上增加了H 个g.s t聚类中心,那么网络的聚类中心数为K+H,但是此H个ghost聚类中心是假实际并不使用的中心点,在计算输 局部与中心残'只取K个聚类中心,即忽略ghost聚类中心的计算,主要目就是让局部到这中心点上。经过端到端的训练,GNeXtVLAD特征聚合模块可把一些无关特征聚类到gh os t聚类中心,从而使得网络更加关注于与任务局部特征。
GNeXtVLAD的计算公式如式(6)所示
V ghh=a g$z)#g(屮)(e,)(x g—C kj)(6)式中:g#{1,•••&},i#{1,---N},k#{1,---K},j# {1r-2F/G},h#{1,-H}。#g(i)依然为式(4), #g(.,k+h)(不)如式(7)所示
(-、—e Okhibga(、
#g(+h)(i)=y K+H e w ls z+O s⑺(6%基础并网络点,计GNeXtVLAD特征聚合模块结构如图$所示。首先对比图1的NeXtVLAD结构可得,GNeXtVLAD在计算VLAD时多加入了H中心•然而在向计算这H 中心从而重。
3实验与分析
为验证本文改进算法在视频分类任务上的有效性,本研究使用VideoNet-100数作为实验数•在搭载NVIDIA2080Ti显卡的64位Ubuntu16.04系统上搭建py-toch环境进行实验,通过一系列对比实验验证了本文改进算法数有效性。
3.1实验数据集
为验证本文算法对长视频的分类效果,实验采用VideoNet数〔⑸的前100研究,简称数为VideoNet-100。VideoNet-100有$DPainting、$DPrinter、ACappe l a、accordionPerformance、acrobatics100
别。
数据集中视频是未经裁剪的视频•其中
・752・计算机工程与设计2021年
图3GNeXtVLAD结构
不定,时长分布在几秒钟与几十分钟之间,大多数视频时长为几。
VideoNet-100数据集中视频镜头数不固定,部分视频为单镜头拍摄,部由多剪辑而成,图4为数据集中acrobatics类别的部分视频帧展示,可见随机采样帧中前后两帧场景可能完全发生变化,可能人物发生变化,也可能某一内容与主题无关。本文使用Video-Net,切训练验证集,其中训练数17798、验证数4580,训练集用训练,验证集用性能。
(a)视频1
第40第60第78s第167s第330s (b)视频2
第17s第33第126s第145s (c)视频3
第Is
第24s第72第115s第307s
图4VideoNet-100数据集中acrobatics类的部分视频帧展示
3.2实验与分析
由于VideoNet-100数据集视频时长差异大,实验采用多策略与两种方法
实验中设置多组不同的右、入2、N min、N max参数和固定采样 数比实验明多尺度采样策有效性。由于网络输大小需,其中数的用零进行填充。采样帧输入大小固定在224X224,每一采样帧取可得到一个2048维向量。在特征向量送入GNeXtVLAD进行特征融合之前先加入一个全连接层和Relu激活函数对特征向维,降维后的特征向量维度设置为1024。实验中GNeXtVLAD网络设置多组K聚类中心数、gh os t聚类中心数进行对比实验,其中数G分别设置为8和16。实验采用Adam优化算法,初始学习率设置为0.001,每5个epoch将学习率降为原来的0.1倍,总共训练16个epoch。
表1对比用多策略和不采用多尺度采样策略对视频分类准确率的影响。其中模型使用NeXtVLAD,设置参数G=8,K=128。由表1数据可得,当设置最小采样帧数N min=32,最大采样帧数N max=128时正确率达到最高的0.908。当采用固定采样帧数时,最终测率随数的增加而。通比
数为128的识别率与采用多且最大数为128的识别准确率可得:采用多尺度的采样策略能在减数的情况下获得更高率。
为验证视频长短对正确率的影响,本文按照视频时长对测试集分别切各500个,其中的500个短视频的时长不超过1min,500个长视频时长均超过5min策比率对比结果见表2。表2可以看岀&当固定采样帧数较小影响率当数大率有一影响&而用多
策效果
。
第42卷第3期陈意,黄山:基于改进NeXtVLAD的视频分类•75$•
表1不同采样策略识别正确率
多尺度采样帧数$1,31) (N mn N max)率
是-(500,6000) (24,128)0.905
是-(750,7500) ($2,128)0.908
否32--0.875
否64--0.882
否#28--
0.894
表2不同采样策略对长视频和短视频精度影响多:采样帧数短视频正确率长视频正确率是-0.8930.884
否320.8820.855
否640.8890.863
否#28
0.8840.882
表3对比了多个不同的gh os t聚类中心数值对GNeXtVLAD算法的影响,实验使用本文提出的多尺度采
样策略对视频采样,设置默认参数人1、&、N mn、N mx、K、G分别为750、7500、32、128、128、8。当ghost聚类中心数为0时,此时的特征聚合模块即为NeXtVLAD。由表3可以看出,加入gh os t聚类中心的GNeXtVLAD相对于NeXtV-LAD有着明显的提升。
表3不同ghost聚类中心的分类准确率
ghost聚类中心数率
00.908
20.9#9
40.922
80.925
#60.9#6
小学课外阅读
VideoNet-100数据集不同于UCF101和HMDB51等行为动作识别数据集,VideoNet时长远高于此类数据集。由于UCF101等行为识别数据集中视频镜头单一、时长较短,在一些经典的基于深度学习的行
为识别算法中,一般对视频稀疏采样8帧或16帧即可达到不错的精度。对于Video-Net-100数据集中时长较长的视频来说,随机抽取8帧或者16帧可能对视频信息表达不完整,导致精度下降。本文对文献[1]提出的TSN模型进行复现,仅使用RGB图像在VideoNet-100数实验比(由TSN
GPU高GNeXtVLAD,实验TSN 模型中对视频采样8帧和16帧,其余参数使用该文献的默参数(表4为稀疏8#6TSN
本文提出的网络在VideoNet-100上的实验结果。由表4可以看出,在稀疏采样8帧和16帧的情况下本文算法与TSN 模型在VideoNet-100数据集上准确率相当,但是与表3中实验结果相比准确率较低,可见对于VideoNet-100数据集而言采样帧数会直接影响最终准确率。
表4TSN模型与本文模型对比
模型数率
TSN80.835
TSN
#6
0.850
本文模型80.827
本文模型
#6
0.854
表5对比了不同采样策略的GNeXtVLAD模型在训练时的占用显存大小以及TSN模型训练的占用显存大小。由于TSN模型在训练时需要对所有网络参数进行反向传播,故在batch_size大小为4,采样帧数为8时占用显存10G。由表5可得,在占用显存相当的情况下,GNeXtVLAD模型相对于TSN在训练时单批次能处理更多的采样帧,当GNeXtVLAD模型采用多尺度采样策略并设置A1=32、&=128时能在相同batch_size下减少一定的显存占用。GNeXtVLAD模型由于特征提取网络只需要前向传播而不需要计算梯度,在训练时大大减少GPU计算量和显存。
表5TSN模型与本文模型训练占用显存大小对比模型batch7size数占用显存
TSN48
#0G
上网学习
GNeXtVLAD8646G
GNeXtVLAD4
#28
6G GNeXtVLAD8
32-#28#0G
4结束语
本文主要针对不同于行为动作识别数据集的VideoNet-100数据集进行研究,对NeXtVLAD算法进行改进并提出一个多尺度的采样策略,设计出一个端到端训练的视频分类模型。VideoNet-100数据集中视频时长较长,需要采样大量帧才能更好表达视频信息,而当前主流的基于深度学习的视频分类模型在采样帧数过大时需要庞大的计算资源才能进行训练。本文模型在训练时不需要对特征提取网络进行训练从而节约大量计算资源,解决了在计算资源有限的情况下采样帧数与计算资源之间的矛盾。本文在Video-Net-100数据集上进行对比实验,验证了本文所设计模型的有效性,在VideoNet-100数据集上达
到了92.5%的准确率。本文方法在VideoNet-100数据集上采样帧最多达到了128帧,从而导致在训练和推理阶段需要花费大量时间在视频预处理上,下一步的研究工作就是探索新的特征融合网络,在少量采样帧的情况下得到良好的视频级特征进行