2018年第4期 信息通信
2018scarf
(总第 184 期)
INFORMATION & COMMUNICATIONS (Sum. N o 184)
基于深度学习特征表达的车辆检测和分析
周必书
(福州大学物理与信息工程学院,福建福州35〇116)
摘要:在基于单目视觉的辅助驾驶中,对车载摄像头拍摄的视频进行车辆检测、识别、分析,可以提取出有效信息来提醒
司机或控制车辆的行驶,是机器视觉技术挑战问题。该文利用深度特征表达对车载视频进行车辆检测和分析,首先,针 对现有卷积神经网络对超清分辨率车载视频分析效果差的问题,提出随机失活池化降维方法改进设计卷积神经网络适 应高分辨率视频;其二,针对检测标识的车辆提取行驶状态信息的问题,
该文利用现有卷积神经网络的重新训练分析出 车辆的行驶方向:前向(F-direction )行驶车辆和对向(R-direction )行驶车辆。实验证明,该文的方法能够实时、有效地检 测车辆和分析状态。
关键词:卷积神经网络;车辆目标检测;车辆状态分析中图分类号:TP 391.7 文献标识码:A 文章编号:1673-1131(2018)04-0020-04
Vehicle Detection and Analysis Bad on Deep Learning Feature Reprentation
Zhou Bishu
(College of Physics and Information Engineering , Fuzhou University , Fuzhou 350116, China )
Abstract : In monocular vision-bad assisted driving,it is a challenge of m achine vision technology to detect,identify and ana - lyze the video captured by the vehicle-mounted camera and can extract effective information to remind the driver or control the vehicle . In this paper , the in-vehicle video is detected and analyzed by using depth feature reprentation . First of all , aiming at the problem that existing convolutional neural network has poor analysis effect on ultra-clear resolution in-car video , a method of random inactivation and pooled dimensionality reduction is propod to improve the design convolutio
n neural network to adapt to high-resolution video . Secondly , aiming at the problem of detecting the driving status information of the marked ve hicles , this paper analyzes the driving direction of t he vehicle by the retraining of t he existing convolutional neural network : F - direction Vehicles and R-direction vehicles . Experiments show that the method in this paper can detect and analyze vehicle status in real time and effectively .
Key words : Convolution Neural Network ; Vehicle Object Detection ; Vehicle State Analysis
〇引言
在智能交通的大背景下,智能汽车随之发展而来,智能的 程度可分为辅助驾驶、半自动驾驶、自动驾驶、智能驾驶。车 辆检测是这个系统的重要技术,现有很多方法来研究实现这 个技术,比如激光雷达、超声波、深度传感器、单目摄像头、双 目摄像头等。本文的车辆检测和分析是辅助驾驶中的一部分, 用深度学习的方法分析车载单目摄像头获取的视频,检测出 视频中出现的车辆,并且分析车辆的行驶方向。在视频帧中 出现的车辆会有尺度大小的变化,快速变化的背景,多种多样 的车辆类型,复杂的场景变化,所以,车辆检测和状态分析在
[6] 刘坤,郭雷,常威威,等.基于Contourlet 变换的区域特征自
适应图像融合算法[J ].光学学报,2008,28(4):681-686.[7]
闫利,向天烛.N SCT 域内结合边缘特征和自适应PCNN 的红外与可见光图像融合[J ].电子学报,2016,44 〇〇: 761-766.[8]
建筑英文翻译李新娥,任建岳,吕增明,等.N SCT 域内基于改进PCNN 和 区域能量的多光谱和全色图像融合方法[J ].红外与激光工
程,2013,42(11):3096-3102.[9] Deng H,Sun X,Liu M,et al.Image enhancement bad on in -
tuitionistic fiizzy ts theory [J ], let Image Processing , 2016,10(10):701-709.
[10] Tian Z X,Li Y,Gao R R.A fusion algorithm for infrared and 20
近些年的研究中是一个很有挑战的问题。当前多数车辆行车
记录仪都是配置的高清摄像头支持1080P 视频拍摄,而当前 神经网络的结构处理的分辨率有限,对这么高分辨率的视频 帧车辆检测效果不好,本文提出了高分辨率检测神经网络来 解决这一问题。在检测到车辆之后,对车辆进行分析,如路上 行驶的车辆来来往往,单一车辆在视频中的行驶方向要怎么 判别呢?正确的判别这些车辆的行驶方向,有助于及时提醒 或警示司机,有利于其他辅助功能的开发。本文提出以车头、 车身、车尾的视角方向为先验信息,训练出一个分类器,判别 出车辆的行驶状态。
在做检测时,传统的做法分为两阶段,分别为假设生成
英国标准visible images bad on adaptive dual-channel unit-linking PCNN in NSCT domain [J ]. Infrared Physics and Technol ogy ,2015,69:53-61.
[11] Li H F,Qiu H M,Yu Z T,et al.InfrEired and visible image fus
sober中文歌词
ion scheme bad on NSCT and low-level visual features [J ]. Infrared Physics and Technology ,2016,76:174 - 184.[12] Cui G M,Feng H J,Xu Z H,et al . Detail prerved fusion of
lengthy
visible and infrared images using regional saliency extrac tion and multi-scale image decomposition [J ], Optics Com munications ,2015,341 :199-209.chemistry是什么意思
基金项目:国家自然科学基金(61471124,61601126)
(HG)、假设检验(HV)[13]。传统的人工设计特征的方法有 优点也缺点,缺点很明显,局限性大,鲁棒性差,精确度不 高,检测效率低。现在流行的深度神经网络的方法很大改 善了这些缺点,2012年发表的AlexNet w使得图像目标分类 检测准确率得到大的提高,深度学习在图像领域开始广泛 使用。
在深度神经网络中,已经形成了端到端的图像检测,在 Region-CNN[5]的训练和测试中,分成使用l
ective arch算 法选取候选框和使用卷积神经网络提取特征,再用SVM进行 分类。到Fast-RCNNM运用了多任务损失,使得训练检测都可 以单步操作,训练检测时间变短,精度更高。2016年Redmon 等人提出的YOLO™采用一次特征提取,然后回归候选框和类 别的方法,大大减少了检测的时间,使得车载摄像头下实时的 车辆检测和处理变得可能。其他文章研究过用Y O L O的车 辆实时检测[8],本文也参考了 Y O L O的方法和〇1'1'180义》的方法,但是有更多的改进,检测准确率更高。在检测到其他车 辆后,一般都是想了解这些车辆的其他信息,如距离估计、行 驶状态分析、颜色、车型等,利用这些信息,在接下来的研究中 可以更好地进行车载视频下车辆的跟踪、识别,这些技术可以 用到自动驾驶系统中。所以本文通过检测到的车辆分析了其 行驶状态。车载视频车辆检测和状态分析是论文的研究点,论文的主要介绍实现车辆检测和状态分析的算法,论文的研 究流程图如图1。
图1研究流程图
1深度卷积神经网络特征表达
1.1卷积计算过程
图像是一个高维向量,对于一张m'n大小的图像X,那么 其维度就是m'n,把其展开到高维空间中去,则:
X=[x l,x£,x3,-,xi,-]T€n r01"⑴
其中Xi为3X3的像素块,以X作为自变量样本数据用卷 积神经网络来提取特征,并分类出前景和背景找到检测目标 物体在图片中的位置。输入数据X,进行卷积计算得到隐含层 H特征,隐含层H是X的另一种描述。进行卷积的计算得到 隐含层H中的神经元值为Ui,3x3卷积核参数为Wi,计算偏置为h,公式如下:
M, =+6,⑵
进过激活函数y(x),映射为隐含层神经元h i:
/(t)=max(ajr) (3)
m ax函数是对输入函数的参数取最大运算。
循环计算出所有神经元h,隐含层特征H;
H=[hl,h2,-,hi>->hNf(5)度,卷积计算后都会有一层池化层:
H1=P o o l i n g(6)
]T, 0 <Af <N(7)其中Pooling(If)为池化运算函数,一般为Max-Pooling(HD, 即取输入序列中最大的。
1.3参数更新算法
每次以计算得到的隐含层特征H1为输入,循环计算公式 ⑴一(6)得到卷积神经网络对原始图像提取出的特征I f,L表 示卷积层数。然后计算全连接层,全连接层和公式(2)是一样 的,计算得到预测值Y。
y =\yvy2,yvyA f
最后用真实标签Lab和Y比较算出损失值,损失函数为:
= (8)
^ n-i'
其中,Num表示训练数据个数,在车辆检测时,Y=[y i,y2,y3,y4]T表示目标候选框的位置和大小,c指候选框参数个数为 4,简化式(8)后,单个样本的损失函数则为:
Losa{w,X,b)=^^2(Labk -y kf(9)
A*=i
反向传播算法是对损失函数根据复合函数求导法则进行 求导,迭代更新模型参数W:
dLoss(w^X^
W1=\\^
b1=b l
dW1
dLoss^w,X,b^
1d b l
其中,W\b'表示第z层模型参数。
CIO)
foggy(11) 2改进深度特征表达的车辆目标检测
做基于图片的车辆目标检测时,以往设计的卷积神经网 络处理的图片分辨率都比较小,即公式(1)中维度相对较低, 如VGG[1W输入层是的R G B颜色图片,RCN N网络是把候选 框图从原图中截取出来再放到网络中,这时神经网络处理的 数据,而实时性好的目标检测深度神经网络结构固定,输入图
像被一次性提取特征,分辨率很大的图片被重新规定到小分 辨率,再经过网络处理,图像中目标物体就会丢失大部分信息, 提取的特征很难再准确地描述目标物体。
2.1随机失活池化降维
为了能利用现有实时性好的网络,不对网络结构做大的 调整该文提出随机失活[11]池化来降低维度。卷积神经网络主 要是卷积层和池化层的过程,3x3卷积层步长为1不会改变输 入输出特征图H的大小,但是一般的池化层是2x2xChamiel,也就是把输入特征图缩小一半输出,这样的过程就需要输入 特征图是二的整数倍。随机失活池化则可灵活降低维度。在 第1层的随机失活池化函数为:
(12)
其中,8〜Bemoulli(p)规定p=0.5,即8以0.5的概率取0或者1»
1.2池化层在第Z层的卷积计算公式是公式(2) —(3):
隐含层特征H保留了训练数据X的全部信息,在训练完 成之后,H只能够充分表达X,而且由于深度神经网络模型的 复杂性,很大可能出现过拟合的,在计算时也会加大计算复杂«f+1>=H.f+V+ i f+,)(13)心)"『)(14)
21
如图2所示随机失活的过程:
图2随机失活过程
做完特征提取之后,处理车辆检测的思想是Y0L0v2中的方法,在KITTIBOX上改进得到,用回归的方式得出检测目 标的位置Y和置信度P。置信度P定义为预测框Pr跟真实框 T r的交集除以预测框Pr跟真实框T r的并集,然后归一化的 值,计算公式为:
P P r f l T r
P r U T r
x l O O%(15)首先对图片划分网格,由于图片分辨率大,划分为60X32个 网格,每个格子产生5个预测
框,用来回归坐标和置信度P。每 个预测框有一付算权值必广,在格子的5个预测框中置信度P 最大的计算权值为1,其余为0。整个深度神经网络的损失函数为:
其中,Lab包含真实框中心点坐标、宽度、高度4个值。2.2卷积神经网络车辆状态分析
坐在车载视频中观察到的车辆有好几种状态:行驶状态、停车状态、转弯状态,行驶状态细分为对向行驶状态、前向行 驶状态;停车状态细分为减速停车状态、原地静止状态;转弯 状态分为左转弯状态、右转弯状态。在分析行驶状态的时候, 可以根据单张图片分析前向行驶和对向行驶的特点,提取特 征点进行分类,也可以根据视频图片的时间序列进行分析。停 车状态只能根据时间序列分析,单张图片无法分析。车辆在 转弯的时候法律规定是要求提前打转向灯的,但是有些情况人们忘记打转向灯,这就不能根据转向灯这一特点进行单张图 片分析,也只能根据时间序列分析。所以停车状态和转弯状态 的分析要比行驶状态的分析复杂度高,由于从简单到复杂的原 则,本论文针对车载视频检测到的车辆进行行驶状态分析,使 用的是基于TensorFlow的AlexNet框架,对行驶状态进行分类。3实验仿真和结果分析
该文所使用的训练数据库有两部分,一部分是现在流行 的公共数据集KITTI视觉标准数据集,每张数据图片都有目 标物体的标签,主要包含行人和车辆,车辆分为小轿车、卡车、面包车、其他类型的车。另一部分是行车记录仪数据集,这个 数据集是居家小轿车行车记录仪拍摄的1080P超清视频,真
实行车环境,通过FFmpeg程序将视频无失真的转成图片,然 后编写一个小程序来提取图片中车辆目标的候选框坐标,制 作成标签数据。论文在使用这两个数据集做了比较分析。实 验用的操作系统是Ubuntul4.04, G P U是GeForce GTX 1080Ti,CPU是 Intel core i7-6700K。
表1算法在KITTI数据集上的平均精确度(mAP)算法简单难度中等难度复杂难度KITTIBOX86.45%77.00%60.82%
YOLOv286.40%69.01%59.57%
本文算法-190.08%81.35%67.09%
本文算法-288.71%80.60%66^1%
表中的难度设置是K i m数据库自身设置规定的,包含 简单难度、中等难度、复杂难度。简单难度规定为:最小的候 选框高有40像素,车辆目标全部可见,被截断小于15%;中等 难度规定为:最小的候选框高有25像素,车辆目标有部分遮 挡,被截断小于30%;复杂难度规定为:最小的候选框高有25 像素,车辆目标遮挡很严重,被截断小于50%。在表2中是个 算法的处理速度。
表2算法在KITTI数据集上的处理速度
算法細f ps)计算环境KITTIBOX9.61OPU/TitanX
YOLOv230.82QPU/TitanX
本文算法-118.30QPU/TttanX
本文算法-218.30GPU/TttanX
表1和表2可以看出本文算法相对而言精确度高,在处 理速度上YOLOv2最快,但是精确度最差。在图像目标检测 领域中,主要的评价标准是P-R曲线,即使用精确度P和召回 率R做纵坐标和横坐标得到的曲线图,图3中绘制出了该文 的P-R曲线:
图3 P-R曲线
shelf是什么意思
英译中22
由图3可以看出本文提出的方法是可行的,相比YOLO和 KITTIBOX等神经网络的检测,有所改进。图中本文算法在训练 时batch-siz e的大小分别设置为5和1得出图中的算法-1和算 法-2,效果差不多。两者都要比YOLO和KITTIBOX的效果要好。
表3 AlexNet车辆状态分析精确度
正例数/总数正面视角侧面视角m AP
状态前向
行驶
493/554435/55483.7%对向
辅音音标发音
行驶
364/440336/44079.5%
由于侧面视角会加上很多的背景信息,角度的变化大,会 产生更高的复杂度,因此侧面视角的精确度通常要比正面视角 的精确度低。在表1中可以看出,符合侧面视角的精确度低于 正面视角的精确度的预期。一般车辆都有明显的汽车尾灯信 息,车尾相比于车头更容易分类正确,表1也表明前向行驶比后 向行驶有更高的精确度。不同行驶状态的车辆不同视角如图4:
对向行被切面现角
图4行驶车辆不同状态不同视角
4总结与展望
在未来的生活中,自动驾驶、辅助驾驶等技术会越来越普 遍使用,基于车载视频实时的车辆检测技术是一种既方便使 用又成本低廉的技术,本文中的车辆检测方法是在KITTIBOX 和Y0L0v2的基础上改进用于车载视频车辆检测,效果很好, 但是还没达到理想的效果,还需要更好的检测算法。在车辆 状态分析上的研究属于应用创新的研究,是基于先前关于车 型、车的颜色等属性检测的研究。车辆状态分析可以应用在很多方面,如在堵车时有个跟随前车的辅助驾驶模式。本文只研究了行驶状态的方法,未来还可以研究停车状态、转弯状态,还可以集成在一个深度神经网络上分析出所有状态,还可以研究更加有效的分析车辆状态的方法。
参考文献:
[1]SUN Zehang,G.Bebis,and R.Miller.On-road vehicle de
tection:A review[J].IEEE Transactions on Pattern Analysis &Machine Intelligence,2006,28(5):694-711.
[2]WEN Xuezhi,SHAO Ling,and FANG Wei,et al.Efficient
Feature Selection and Classification for Vehicle Detection [J].Circuits&Systems for\^deo Technology IEEE Transactions on,2015,25(3):508-517.
[3]WANG Hai,YUAN Chaochun,and CAI Yingfeng.Smart
road vehicle nsing system bad on monocular vision[J].
Optik-International Journal for Light and Electron Optics, 2015,126(4):386-390.
[4]ALEX Krizhevsky,ILYA Sutskever,and GEOFFREY E.
Hinton.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Nevada,USA,2012: 1097-1105.
[5]ROSS Girshick,JEFF Donahue,and TREVOR Darrell,et
al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C].The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Columbus,OH,USA,2014: 580-587.
[6]GIRSHICK Ross.Fast R-CNN[C].The IEEE International
Conference on Computer Vision,Santiago,Chile,2015: 1440-1448.
[7]JOSEPH Redmon,SANTOSH Diwala,and ROSS
Girshick,et al.You Only Look Once:Unified,Real-Time Object Detection[J].Computer Vision and Pattern Recognition(cs.CV),2015:779-788.
[8]王宇宁,庞智恒,袁德明.基于Y O LO算法的车辆实时检
测[J].武汉理工大学学报,2016, 38(10):41-46.
[9]MARVIN Teichmam,MICHAEL Weber,and MARIUS
Zoellner,et al.MultiNet:Real-time Joint Semantic Reasoning for Autonomous Driving[J].Computer Vision and Pattern Recognition(cs.CV),2016.
[10] KAREN Simonyan,ANDREW Zisrman.Very Deep Con
volutional Networks for Large-Scale Image Recognition[J], Computer Vision and Pattern Recognition(cs.CV),2014. [11] NITISH Srivastava,GEOFFREY Hinton,and ALEX
Krizhevsky,et al.Dropout:a simple way to prevent neural networks from overfitting[J],Journal of Machine Learning Rearch,2014, 15(l):1929-1958.
基金项目:国家自然科学基金(61471124);福建省科技重大项目(2017H6009);赛尔网络创新项目(NGII20160208, NGII20170201)。
作者简介:周必书(1990-),男(汉族),湖南省邵阳市人,硕士研究生,研究领域为计算机视觉。
23