基于深度时空域卷积神经网络的表情识别模型

更新时间:2023-05-20 09:59:02 阅读: 评论:0

基于深度时空域卷积神经网络的表情识别模型
杨格兰;邓晓军;刘琮
【摘 要】Considering that the feature extraction is crucial phas in the process of facial recognition, and it incorporates manual intervention that hinders the development of reliable and accurate algorithms, in order to describe facial expression in a data-driven fashion, a temporal extension of convolutional neural network was developed to exploit dynamics of facial expressions and improve performance. The model was fundamental on the multiplicative interactions between convolutional outputs, instead of summing filter respons, and the respons were multiplied. The developed approach was capable of extracting features not only relevant to facial motion, but also nsitive to the appearance and texture of the face. The introduction of hierarchical structure from deep learning makes the approach learn the high-level and global features. The end to end training strategy optimizes all the parameters under the uniform objective. The results show that the approach extracts the two types of features simultaneously as natural outcome of the devel
oped architecture. The learnt fitters are similar to the receptive field area of visual cortex. The model is proved to be effective.%基于特征抽取是表情识别算法中的重要步骤,但是现有算法依赖手工设计特征且适应性差等问题,提出基于深度时空域卷积神经网络的表情识别模型,采用数据驱动策略直接从表情视频中自动抽取时空域中的动静态特征。使用新颖的卷积滤波器响应积替代权重和,使得模型能同时抽取到动态特征和静态特征。引入深度学习的多层设计,使得模型能逐层学习到更抽象、更宏观的特征。采用端对端的有监督学习策略,使得所有参数在同一目标函数下优化。研究结果表明:训练后的卷积核类似于Garbor滤波器的形态,这与视觉皮层细胞对激励的响应相似;该模型能对表情视频进行更准确分类;通过与其他几种近年出现的算法进行比较,验证该算法的优越性。
【期刊名称】《中南大学学报(自然科学版)》
【年(卷),期】2016(047)007
【总页数】9页(P2311-2319)
【关键词】程度英文情感计算;表情识别;时空域;卷积神经网络;深度学习
【作 者】杨格兰;邓晓军;刘琮
【作者单位】同济大学 电子与信息工程学院,上海,201804; 湖南城市学院 信息科学与工程学院,湖南 益阳,413000;湖南工业大学 计算机与通信学院,湖南 株洲,412007;同济大学 电子与信息工程学院,上海,201804no bullshit
【正文语种】中 文
【中图分类】TP301
感知表情有别于理性思维和逻辑推理,是第三类人类智能表情[1]。表情是人类交往的重要渠道,是计算机理解人类行为的前提,也是情感计算的基础。表情识别被广泛地应用于商业营销、人机交互、疲劳驾驶检测、远程护理和疼痛评估等领域。然而,从表情视频中自动识别人脸表情是一项极具挑战的机器视觉任务。光照、位置、化妆、饰物和遮挡等对计算机理解表情都有影响。表情识别系统的实用化需要鲁棒的算法才能实现。现有的表情识别算法大致上可以分为2步:特征抽取和分类识别。在特征抽取阶段,一般采用手工来显性地设计特征。常用的特征描述子有Garbor[2],DAISY[3]和LBP[4]等。在分类识别阶段,上
一步生成的特征向量被输入SVM、随机森林等浅层[5]分类器中,进行表情归类。这些分类器的设计原则是分辨类间变换(不同类型的表情)和类内变化(2个人的相同表情)。现有算法存在一些弊端。一是在特征抽取阶段,手工特征的通用性不足。虽然近年来出现了一些基于学习的(learning-bad)、数据驱动(data-drive)的特征抽取方法[6],但是它们的优化目标并不直接与表情分类相关,抽取的特征可能引入了与表情无关的其他信息。更为重要的是,现有算法是先独立地抽取视频中的多帧特征再进行汇总,没有考虑多帧之间的相关性,可能会丢失视频时域上的动态特征。而时域动态特征是视频识别区别于静态图像识别的关键。表情视频识别本质上是三维数据的分类。视频数据有1个重要特性,即视频数据在空域(两维)和时域(一维)上都存在着明显的统计相关性。空域相关性构成了图像的边缘、纹理等特征,时域相关性与表情的动态特征密切相关。近年来,深度卷积神经网络(deep convolutional neural networks)在静态图像的空域特征识别方面表现出较明显优势[7-8],但时域特征在视频识别中具有更重要的地位。卷积神经网络是针对静态图像识别设计的,从设计之初[9]就缺乏对时域特征的考虑,这导致深度卷积神经网络在视频识别方面的效果较差。人们对有限的研究[10-12]集中在:扩展(复制)原有卷积神经网络的第1个卷积层,使得每帧都对应1个卷积层,期望通过这些并行多个卷积层来学习到时域特征。但在实验中发现
[12],当使用这种改进卷积神经网络来识别人类动作视频时,使用单帧卷积层和使用多帧卷积层的准确率差别不大,也就是说改进后的卷积神经网络本质上还是使用空域特征来识别人体动作的,期望中的时域特征并没有学习。JI等[10-11]通过事先抽取帧与帧之间的光流特征引入时域特征,但是这种方法分隔了特征抽取和分类识别阶段,破坏了端对端的学习结构。在学习时域特征方面,近年来出现了一些符合深层和端到端神经网络架构的算法[13-14]。这些算法的共同点是:通过计算两帧之间的逐元素乘积来抽取时域特征。实际上,这种逐元素乘相当于计算两帧图像的Gabor滤波器响应的平方和。实验表明[14]:在视频识别任务中,基于能量感知模型的算法可以学习到类似于人类大脑视觉皮层V1区复杂细胞(complex cell)的响应。但是,这些基于能量感知模型的算法存在1个明显缺陷,即三维视频数据在输入网络前,必须拉成一维向量的形式。这破坏了空域和时域上的相对位置关系,可能会引起空域和时域相关信息丢失,还会造成高维数据所具有的维度灾难问题。针对以上算法不足,本文作者结合深度卷积网络和能量感知模型的优势,提出一种新的表情识别模型。新模型使用多个并行卷积层从多帧中抽取特征(类似文献[12]中的扩展卷积层),再计算这些特征的两两逐元素乘(类似能量感知模型)。这种神经元间的乘法交互(multiplicative interactions)模型可以显性地学习到时域动态特征。同时,新模型保留了卷
积神经网络在处理空域特征上的优势,即直接处理二维图像而不用事先拉成一维向量,这避免了能量感知模型的维度灾难问题。另外,还证明了新模型可以同时学习空域静态特征。因为视频静态特征与表情识别任务是强相关的,所以这是一个有用特性。称这种新模型为基于时空域深度卷积神经网络(spatiotemporal convolutional neural networks,stCNN)的表情识别模型,以强调它能同时学习时空域特征的特性。
1.1 卷积神经网络结构
卷积神经网络是前馈多层神经网络中具有代表性的一类网络,其思想来源于1962年HUBEL和WIESEL对猫脑主要视觉皮层的研究。深度卷积神经网络通过多个串行的卷积层(convolution layer)和池化层(pooling layer)间隔排列的方式逐层地学习数据特征,其网络结构见图1。其中,卷积层采用卷积操作的方式利用小于图像尺寸的卷积核来扫描整个图像并计算卷积核与图像局部位置的权重之和。当输入数据为二维结构的图像时,因为卷积操作可以直接处理二维拓扑结构,还能减少权值数量,降低网络复杂度,便于特征提取和模式分类。卷积层的输出常常被离散化和归一化,并称之为特征映射(feature maps),每个卷积都对应1个特征映射。特征映射随后被输入到池化层进行空域上子抽样(subsample),比较
直接的方法是对输入图像感兴趣点周围的邻居结点计算平均值,每次计算周围邻居结点的步进值在1到最大邻居范围之间。经过池化层处理能减小输出特征映射图的分辨率,降低卷积神经网络对输入图像中待识别对象位置变化的敏感程度,使得卷积神经网络具有一定程度的抗畸变能力。网络的更高层使用更宽泛的感受野对低分辨率特征映射进行结合和进一步抽象,以期获得更具辨识力的特征。网络的最顶层将所有得到的特征映射重新拉成一维向量并结合多分类回归分类器反向传播错误信号来调整网络参数。卷积神经网络主要用来识别位移、缩放和其他形式扭曲不变性的二维图像。网络直接输入训练数据进行学习,避免了手工设计特征。另外,卷积神经网络还可以利用现代GPU的多个流处理器架构进行并行计算,这大大加快了网络的训练速度。卷积神经网络以其独特的卷积操作、卷积核共享和子抽样结构,在二维图像处理方面有着先天优越性,其较强的容错能力、并行处理能力和自学习能力可处理复杂环境下的二维信号识别问题。
1.2 时空域卷积神经网络的结构surrender是什么意思
虽然卷积神经网络不能抽取时域上的动态特征,但其适合处理图像二维拓扑结构,并能保持像素间的相对位置关系。本文提出的时空域卷积神经网络将这些优势整合于能量感应模型,以高效地抽取视频中的时空域特征。
岗位职责说明书
时空域卷积神经网络的基本结构如图2所示。从图2可见:为了应对视频的多帧,它首先扩展了原卷积神经网络的卷积层,使得不同的帧都有相应的卷积层对其处理。这种结构保留了卷积层对二维信号处理的优势。其次,为了模拟能量感知模型的逐元素乘操作来捕捉帧之间的时域相关性,还设计了新的乘法层和加法层。
时空域卷积神经网络由4层组成。无与伦比英文>valder fields什么意思
1)输入层使用2个相邻帧X和Y作为输入,网络要能捕捉到它们之间时域上的动态特征和空域上的静态特征。
2)卷积层使用与标准卷积神经网络一样的卷积操作。但这里的卷积核被分成4组,每帧分别对应2组卷积核。将每组中的某个卷积核写作矩阵形式:Fx,和,则经过训练Fx和Fy,和之间会自动地形成正交基函数对。相应的4个特征映射可以记为:,和。若输入图像的大小为N×N,卷积核的大小为K×K,则采用有效卷积操作(valid convolution)后的特征映射大小为(N-K+1)×(N-K+1)。注意:在实际操作中,卷积一般采用多通道卷积操作(即3D卷积)来处理彩色图像的RGB三通道;还可以添加偏置参数,以便用仿射来代替线性映射,可以使用stride技术来减少参数,可以使用传统神经网络的非线性激活函数(activation function):sig
moid或者tanh。但是,为了使推导简洁,这里只用简洁的2D卷积来表达公式。
picturebox3)乘法层用来计算2个特征映射之间的逐元素乘(element-wi product)。参与运算的2个特征映射需分别处于2组特征映射中,并分别对应相邻帧X和Y。称乘法层的输出为积映射,则积映射有2组,记每组中的某个积映射为和,这里的“·”表示逐元素乘。注意:在能量感知模型中,2个相邻帧X和Y之间的变换关系也是被表达成这种逐元素乘的形式。
4)加法层用来计算2个积映射的逐元素和(element-wi sum),即
怎么样收缩毛孔这里的“+”表示逐元素求和,称加法层的输出为和映射。因为是逐元素求和,所以和映射的尺寸与上层的一致。每一个和映射都代表了某一特定空时域特征在图像空域上出现的情况。
时空域卷积神经网络有别于标准卷积神经网络之处在于:采用不同帧对应的滤波器响应的乘积操作来代替求和操作。这种乘积操作可看作是2个向量化图像的外积,即2个图像的相关系数,也可看作是能量感知模型的变形。正是这种相关分析给时空域卷积神经网络提供了相邻帧之间的变换信息。名词变复数规则
四级几分及格1.3 和映射上的节点值
根据时空域卷积神经网络的结构,输入2个连续帧时网络会在和映射的节点上给出多个响应值。考虑其中1个节点 ,此节点的感受野在X和Y上的尺寸为K×K,见图3。图中输入层小矩形框里的图像为节点能见的范围。注意:因为采用了逐元素乘与逐元素加,所以,乘法层和加法层并不改变感受野的范围。
节点sk是1个标量,可写作以下形式:
这里的i和j用来索引节点sk的感受野范围。
式(2)中的卷积操作还可以写作矩阵与向量乘的形式。这是因为二维离散循环卷积操作可用1个特殊的块循环矩阵(block circulant matrix)来实现。例如:卷积操作可以写作。其中,x是按照列顺序将矩阵X的列连接而生成,Fx为N2×N2的双块循环矩阵(doubly block circulant),Fx的每行都包含了合适的滤波器系数来实现X和Fx之间的二维卷积操作。若把Fx,,Fy和对应的双循环矩阵中的某一行表示成大小为1×N2向量和,由以上分析,式(2)可重新写作:
由式(3)可知:卷积可以看作在输入图像的一定空域范围内进行线性变换。2个滤波器的响应被先相乘再相加,使得节点sk成为1个时空域特征描述子。卷积操作一般有2个类型:循环卷积(circular convolution)和可用卷积(valid convolution),为了能将其写成矩阵向量乘的形式,这里考虑循环卷积并在Fx的周围增补0直至与x的大小相同。该结论对可用卷积也近似成立。这是因为在计算有效卷积时,卷积核需要整个位于图像的内部,而循环卷积不对此有要求,且当卷积核不能整个位于图像内部时,允许卷积核循环位移,所以,2种卷积生成的结果在图像内部区域是一致的。

本文发布于:2023-05-20 09:59:02,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/115665.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   特征   神经网络   空域   识别   表情
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图