收稿日期:2020 04 07;修回日期:2020 05 27 基金项目:国家重点研发计划资助项目(2017YFB1002605);国家自然科学基金资助项目(
61272304)作者简介:祁忠琪(1996 ),男,硕士研究生,主要研究方向为图像处理、车牌识别、人工智能(21821035@zju.edu.cn);涂凯(1993 ),男,主要研究方向为图像处理、车牌识别;吴书楷(1996 ),男,博士研究生,主要研究方向为图像处理、模式识别;张三元(1963 ),男,教授,博导,博士,主要研究方向为计算机图形学、数字媒体、人工智能.
基于深度学习的含堆叠字符的车牌识别算法
祁忠琪,涂 凯,吴书楷,张三元
(浙江大学计算机科学与技术学院,杭州310027)
摘 要:车牌识别是构建智慧城市交通系统的重要技术,当前车牌识别系统对于单行车牌已经达到了较好的识
别和应用效果,但无法满足对包含堆叠字符的车牌的识别需求。针对该问题,提出了一种基于深度学习且不依
赖于字符分割的方法以识别含堆叠字符的车牌。首先对倾斜、扭曲的车牌进行投影矫正;然后使用M
obileNet SSD算法检测定位车牌中的单排字符和堆叠字符;之后将堆叠字符送入基于CTC损失的堆叠字符识别网络,进行非字符分割的端到端识别。实验结果表明,该算法不仅对含堆叠字符的车牌具有较高的识别精度,同时对倾斜、扭曲等复杂环境下的车牌具有鲁棒性,极大提高了车牌识别系统的通用性。关键词:堆叠字符车牌;CTC损失;深度学习;倾斜车牌矫正中图分类号:TP391.41 文献标志码:A 文章编号:1001 3695(2021)05 050 1550 05doi
:10.19734/j.issn.1001 3695.2020.04.0147Recognizinglicenseplatewithstackedcharactersbasedondeeplearning
QiZhongqi,TuKai,WuShukai,ZhangSanyuan
(CollegeofComputerScience&Technology,ZhejiangUniversity,Hangzhou310027,China)
Abstract:Licenseplaterecognitionisasignifica
nttechnologytobuildasmartcitytransportationsystem.Thecurrentlicenseplaterecognitionsystemshaveachievedagoodrecognitionandapplicationeffectforsingle rowlicenseplates,nonetheless,thesecan’tsatisfytherecognitionneedforlicenseplateswhichcontainstackedcharacters.Basedonthisproblem,thispaperproposedamethodbasedondeeplearningandindependentofcharactersegmentationtoidentifythelicenseplatescontainingstackedcharacters.Firstly,themethodcorrectedthetiltedordistortedlicenseplate,andusedMobileNet SSDalgorithmtode
tectsingle rowcharactersandstackedcharactersinthelicenseplate.Then
,itsentstackedcharacterstothestackedcharacterrecognitionnetworkbasedonCTClossandconducte
dtheend to endidentificationwithoutcharactersegmentation.Resultoftheexperimentindicatesthatthisalgorithmnotonlyhashighrecognitionaccuracyforthelicenseplatewithstackedcharacters,butalsoadaptstothelicenseplateunderthecomplexenvironmentsuchastiltanddistortion,greatlyimprovesthegeneralityofthelicenseplaterecognitionsystem.Keywords:licenseplatewithstackedcharacters;CTCloss;deeplearning;tiltlicenseplatecorrection
0 引言
车牌作为车辆的重要信息载体,为车辆提供了唯一的身份
标志。车牌识别是构建智慧城市、智慧交通[1]
最为重要的技术之一,其在车辆跟踪、停车场无人看守、交通违法行为监测、高速路段自动收费等领域起着重要作用。当前的车牌识别技术对仅包含单行字符的车牌已具有了较高的识别精度,却无法支
持更加复杂和特殊的车牌,其中如图1所示的包含堆叠字符
的车牌大都不被当前的车牌识别技术所支持。
图1 含堆叠字符的车牌
Fig.1 Licenseplateswithstackedcharacters
车牌识别技术分为传统图像处理方法和基于深度学习的方
法。传统图像处理方法使用二值化、边缘检测等方法显式地分割出单个字符,再提取每个字符的浅层
视觉特征,如SIFT特征[2]、LBP特征[3]、HOG特征[4]等,最后使用模式匹配[5]或支持
向量机(
SVM)算法进行字符识别。其中对于字符分割,Tarng等人[6]
使用垂直投影法将字符像素投影至一维坐标,并将像素值的波谷处作为相邻字符的分割点;Sedighi等人[7]
使用连通域的方法查找、合并相似的区域以达到字符分割的目的。传统图像处理方法下的字符分割对存在黏连字符、照明不均的车牌不具有较好的分割效果。为了解决该问题,基于深度学习的车牌识
别算法无须依赖于字符分割,可直接通过FasterR CNN[8]
或
SSD[9]等目标检测算法同时定位并识别车牌中的字符。此外,
Liwicki等人[10]
首次将BRNN与CTC损失函数结合使用,对在
线手写字符实现了不依赖于分割的有效识别;Li等人[11]
则将BRNN算法应用于车牌字符识别,通过非分割的方式直接对车
牌字符区域进行端到端的识别;Zherzdev等人[12]
则提出第一个不使用RNN进行端到端车牌字符识别的网络结构。
为了更好地增加对倾斜、扭曲车牌的识别鲁棒性,倾斜车牌矫正是在车牌识别之前经常被采用的预处理方法。在传统
图像处理方法下,Hough直线检测[13]和水平投影旋转法[14]
是常
用的车牌倾斜矫正方法。在深度学习方法下,Jaderberg等人[15]
提出空间变换网络(STN)来获取投影变换矩阵的参数以对倾
斜、扭曲图像进行矫正;Silva等人[16]
通过全局像素特征学习车牌区域的投影变换矩阵的参数,达到了较好的车牌矫正效果。
第38卷第5期2021年5月 计算机应用研究
ApplicationResearchofComputersVol 38No 5
May2021
为支持对含堆叠字符车牌的识别,本文提出了一种基于深度
学习的车牌识别算法。该算法先对车牌进行矫正,将矫正后的车牌图像作为后续车牌识别的基准图像;同时,该算法从通用性的角度考虑了车牌识别应用中可能出现的含堆叠字符的特殊车牌,以不依赖于字符分割的方式直接对堆叠字符进行端到端识别。1 相关工作
自AlexNet[17]
获得2012年ImageNet竞赛冠军,深度学习下的卷积神经网络(CNN)便成为提取图像特征的有效工具。
大量实验和应用证明,
CNN提取的深度特征要比传统图像处理中用手工方式提取的浅层特征更有助于视觉任务处理。CNN通过提取图像的深层特征大幅提高了图像或字符的识别
精度。同时,
CTC允许特征提取网络在序列化数据的任一位置点进行预测,无须事先将标签和数据进行对齐。CTC的这个性质使得它在不分割字符的情况下可以对字符序列直接进行端
到端的识别。R CNN[18]
是第一个将卷积神经网络应用于目标
检测的算法,大幅提高了基于H
OG[3]等手工特征的目标检测效果。以SSD[9]
为代表的one stage检测算法抛弃了以R CNN为代表的two stage检测算法中区域建议的步骤,直接从原图回归目标位置并进行分类,在保持精度不损失的情况下大幅提高了目标检测的速度。SSD采用的全卷积操作大大减少了训练参数,同时融合多个卷积层的特征图对不同尺度的目标均起到较好的检测效果。MobileNet SSD抛弃了原SSD中使用
VGG16[19]
作为特征提取网络,而使用基于深度可分离卷积的
MobileNet[20]
进行特征提取,不仅进一步减少了训练参数,同时增强了网络特征提取能力,也提高了最终的目标检测效果。散文精选摘抄
关键点检测是深度学习在计算机视觉的又一重要应用。
Zhang等人[21]
使用人脸面部特征的相关属性进行辅助共同检测人脸关键点,这些属性包括性别、是否戴眼镜、是否微笑等。
受人脸关键点检测技术的启发,董欣[22]
采用形状回归的方法对车牌四个角点的坐标进行回归,达到车牌精准定位目的。
2 本文方法框架
本文提出基于深度学习的含堆叠字符的车牌识别方法,包
括车牌倾斜矫正、MobileNet SSD字符检测、堆叠字符端到端识
别、堆叠字符分割重识别、非极大值抑制(
NMS)等步骤。其中车牌倾斜矫正和堆叠字符端到端识别为本文方法的核心。
本文方法框架如图2所示,首先通过车牌矫正网络获取车牌的四个角点,再计算投影变换矩阵并对倾斜车牌进行矫正,然后通过MobileNet SSD算法检测矫正后车牌中的单排字符和竖排堆叠字符,将竖排堆叠字符送入堆叠字符端到端识别网络,通过不依赖字符分割的方式对堆叠字符进行端到端识别;之后根据堆叠字符识别长度,使用堆叠字符分割重识别矫正堆叠字符的端到端识别结果;最后对所有字符检测框进行非极大值抑制删除重叠字符框,
晒早餐的幽默说说得到最终的车牌识别结果。
图2 本文方法框架
Fig.2 Frameworkofproposedalgorithm
本文创新点在于从通用性角度考虑车牌识别技术中会遇
到的特殊类型车牌,设计了两个卷积神经网络:a)车牌矫正网
络,该网络直接预测车牌的四个关键角点,之后在计算投影变换矩阵后将倾斜、扭曲的车牌拉正;b)堆叠字符端到端识别网络,该网络以CTC损失函数作为优化目标进行训练,竖排的堆叠字符可不依赖分割送入该网络,通过端到端的方式直接得到识别结果。
3 车牌倾斜矫正
3 1 投影变换
投影变换将原图中的像素坐标投影变换到另一个坐标空
间,变换公式为
[x′,y′,w′]=[u,v,w]a11a12a13a21a22a23
a31a32
a
33(1)
其中:[u,v]是原始二维图像某个像素点的坐标,其在投影变
换后图像内的坐标为[
x,y]:x=x′w′=
a11u+a21v+a31
wa13u+a23v+a33wy=y′w′=
a12u+a22v+a32wa13u+a23v+a33
w(2)
其中:w在二维平面的投影变换中取w=1;a33为整体缩放比
例,取a33=
1。若投影后的车牌图像大小为H×W,则车牌矫正网络得到的四个角点坐标按照左上、右上、右下、左下的顺序依
次对应于新坐标空间的四个点[
0,0]、[0,W]、[W,H]、[0,H],则根据四组对应坐标可以得到四组形如式(2)的共8组等
式方程,求解该方程组即可得到投影矩阵中除a33
以外剩下的所有参数a11~a33,即可求得投影变换矩阵。3 2 车牌矫正网络
车牌矫正网络的输入车牌图像大小为40×80×3(高×宽×通道)。各层设计细节和总体连接框架如图3所示。其中conv、avg_pool、FC分别表示卷积、平均池化和全连接操作;S、K、N分别表示卷积或池化操作的步长、核大小、卷积核数量/全连接节点数;add表示对两个同样大小的输入特征图做逐元素相加;Reshape表示将输入的二维特征图展开为一维向量形式;norm表示对灰度化处理和像素值的归一化操作,具体转换公式为
gray=
R×0.299+G×0.578+B×0.114
255
.0(3)
其中:R、G、B表示当前像素在红、绿、蓝通道的像素值;gray为
0~1内的归一化灰度值。为了减少梯度消失问题,在每个卷
积和全连接操作后分别使用R
eLU、tanh函数作为激活函数,同时网络的训练标签为车牌四个角点的归一化坐标。角点的原始坐标转换为归一化坐标的公式为
xnorm=xorgworg,ynorm=yorg
worg
(4)
其中:Worg、Horg为原图像宽、高,xorg、yorg
为车牌某个角点的在原始图像中的绝对坐标。车牌矫正网络采用平均绝对误差(
MAE)作为损失函数,具体表示为MAE=
1c∑ci=1
|coordi-coord
i|(5)
其中:C=8表示四个坐标的八个坐标值,coordi、coord
i分别表示坐标的预测值和真实值。对于输入的车牌图像车牌矫正网络输出八个值,依次分别表示对原车牌图像预测的左上、右上、右下、左下四个角点的八个归一化横、纵坐标,将表示横、纵坐标的输出值分别乘以输入原车牌图像的宽、高得到车牌角点的绝对坐标值,再按序组成四个角点坐标。
通过预测得到的四个角点坐标和投影后新坐标空间内的四个坐标[0,0]、[0,W]、[W,H]、[0,H]得到形如式(2)的共八组等式方程,求解该方程组得到投影变换矩阵参数,再将原
车牌图像中的每个像素按照式(
1)映射至新坐标空间,即得尺·1551·第5期祁忠琪,等:基于深度学习的含堆叠字符的车牌识别算法
寸为H×W
且被矫正后的车牌图像。
图3 车牌矫正网络
Fig.3 Correctionnetworkoflicenseplate
4 堆叠字符端到端识别
堆叠字端到端识别模块从通用性角度考虑了车牌识别应
用中的特殊车牌型号,该模块用于识别车牌中的竖排堆叠字符,其接收整个竖排堆叠字符区域作为网络输入,直接预测图片中的堆叠字符序列。该模块在训练时以CTC损失作为优化目标,在测试时可避免对字符进行手动分割并通过端到端的方式直接对字符序列进行整体识别。堆叠字符端到端识别模
块弥补了传统图像处理算法中因为图像字符黏连、照明不均、质量模糊而导致字符分割差、识别精度不高的缺陷。4 1 CTC损失
连接主义时序分类(connectionisttemporalclassification,CTC)用于解决输入是序列化数据的分类问题。其允许网络在序列化数据的任意一点预测该点属于某类的概率,解决了输入的数据序列和输出的预测序列难以对齐的问题。
听历史故事假设输入序列中的所有位置点的真实标签均来自于集合A。为了区分相邻的重复字符,CTC引入了空白符(‘-’),因
此每个位置点的预测标签来自集合A′=A∪{‘-’}。定义yt
a
为网络预测第t个位置点为类别a的概率,且在每一点的预测概率与其他时刻是相互独立的,其中a∈A′。则某个输入数据X被预测为序列Y的概率为
p(Y|X)=∏Ttyt
Y
t
(6)
其中:T为预测序列的长度,Yt为预测序列Y
在t个位置点的预测类别。之后将预测序列Y通过一个预定义的函数F得到
最终的预测标签Y
′。其中函数F先合并Y中相邻的重复标签,再删除空白符。如F(‘ab-bb-c’)=‘abbc’。
因为多个预测序列Y均可以通过函数F映射至同一个预
测标签Y
平凡之路歌曲歌词′,所以网络最终预测标签为Y′的概率是所有可以通过函数F映射至预测标签Y
′的原预测序列Y的概率之和,即p(Y′|X)=∑Y∈F-
1(Y′)p(Y|X)(7)
其中:F-1
(Y′)表示所有可以通过函数F映射至预测标签Y′的预测序列构成的集合。对式(7)取负对数即可得到CTC损失函数,如式(8)所示。
CTC_loss=-ln(p(Y′|X))(8)
在训练好以CTC损失作为优化目标的函数后,在对输入
的序列数据X预测时有两种方式可以获得最终的识别结果:贪婪搜索和集束搜索,其中贪婪搜索对于每个位置点均取具有
最大预测概率的类别,预测序列Y
可表示为
Y
=argmaxY
p(Y|X)
(9)
贪婪搜索简单粗暴地以单路径的方式,取具有最大概率的
某个输出序列作为预测序列。集束搜索为解决该问题,引入新参数———集束宽度(beam_size),即在每个位置点上找到可使当前
b
eam_size个类别,并将beam_size个当4 2 堆叠字符端到端识别网络
本文设计的堆叠字符端到端识别网络接收竖排堆叠字符
作为输入,直接输出堆叠字符的识别结果。为了提高识别效果,该网络中包含专门设计的深度可分离卷积模块(DW_conv_module)、多重卷积模块(multi_module)和特征融合模块(SE_
module)[23],如图4所示。其中,Cout
表示模块输出特征图的通道数;DW_conv表示深度可分离卷积操作[20]
;concat表示在通道维度上对两个同样大小的输入特征图进行连接;其余变量均与图3
中的同名变量含义一致。
图4 深度可卷积模块和多重卷积模块
Fig.4 Depthconvolutionmoduleandmultipleconvolutionmodule
堆叠字符端到端识别网络接收60×30×3(高×宽×通道)
的竖排堆叠字符图像作为输入。该网络将输入的竖排堆叠字符图片从上至下每两行像素作为一个位置点进行字符标签序列预测,最后通过函数F得到最终的预测标签。其中真实字符标签集A有36类,其中包括10个数字和26个大写英文字母,预测标签集合A′增加空白符(‘-’)以区分相邻的重复字符,即A′=A∪{‘-’}。堆叠字符识别网络的设计细节和总体连接框架如图5所示。其中squeeze层删除特征图中的指定维度(该维度满足长度为1),transpose
层改变特征图的维度顺序。
图5 Fig.5 Stackedctersrecognitionnetwork
5 5 1 MobileNet SSD车牌字符定位
本文使用MobileNet SSD进行字符检测,输入为一张包含
车牌且大小为2海海人生
00×400×3(高×宽×通道)图像,输出该车牌·2551·计算机应用研究
第38卷
中各个字符的信息,包括字符位置、字符类别、预测得分。其中
字符位置包括字符左上角坐标和右下角坐标,且均以归一化的形式给出。预测的字符类别共38类,包括10个数字、26个大写英文字母、堆叠字符类和背景类。其中堆叠字符类为竖直方向包含两个或两个以上字符(数字或字母)的字符类。MobileNet SSD字符检测网络采用与文献[8]相同的训练损失。5 2 堆叠字符分割重识别
各地区内车牌中的堆叠字符长度是固定的,堆叠字符重识别可根据指定长度进行分割重识别。堆叠字符分割重识别包
括三个步骤:a)分割字符,根据指定的堆叠字符长度Nstack
对竖排的堆叠字符图像从上到下等比例分割得到Nstack
个仅包含单个字符的单字符图像;
b)使用基于卷积神经网络架构的单字符识别网络对Nstack
个单字符图像依次进行识别;c)从上至下拼接单字符图像的识别结果。单字符识别网络的识别标签类别为36类(10个数字+26个大写英文字母),采用最基本的
卷积、池化等操作。接收大小为2
8×28×3的单字符图像作为输入,以节点数为36的softmax层作为最终输出,并取具有最大预测概率的标签作为识别结果。训练损失采用交叉熵损失。
6 实验结果与分析
本文的实验环境和参数如下:Ubuntu16.04,训练环境下
GPU采用NVIDIAGeForceGTX1080,22GB显存,测试环境下CPU采用IntelCorei7 8700K,深度学习框架为Caffe和Tensor Flow1.12。实验所采用的原始数据是来自美国马里兰州(简称MD州)和西弗吉尼亚州(简称WV州)的车牌图片,共14830张,其中车牌图片集信息如表1所示。
表1 车牌数据集信息
Tab.1 Informationoflicenseplatedataset
/张
地区
不含堆叠字符车牌
含堆叠字符车牌
MD州22182561WV州
9311
740
原始车牌数据集以8 2划分训练集和测试集,其包含车
牌图片、每个车牌的四个角点坐标和车牌中每个字符框的位置标签。车牌图片尺寸为150×300×3(高×宽×通道),车牌数据集包含受光不均、倾斜严重、模糊、曝光度过高等各种复杂场景下的车牌图片。6 1 车牌矫正实验为保证对严重倾斜、扭曲的车牌均能达到较好的矫正效果,车牌矫正实验利用原始车牌图片和车牌四个角点信息进行数据增强,具体步骤为:分别将原始的四个角点随机映
射至以该角点为中心、r个像素为半径的圆形区域内,再根据式(1)(2)依次计算投影变换矩阵和并对原车牌图像进行投影,实验中r=10。最终共得到29606张车牌图片,以8 2的比例划分训练集和测试集。
在车牌矫正网络的训练中,采用A
dam优化器,其两个梯度累积指数分别为0.9、0.999。初始学习率为0.02,以64个数据为一个批量进行一次迭代,共训练迭代370000次,每迭
代3700次学习率衰减一次,衰减系数为0.9。最终模型的MAE损失为小于0.05,表明在输入图片尺寸为40×80×3(高×宽×通道)的情况下,该网络预测四个角点的横、纵坐标平均偏差量分别小于2个、4个像素值。各场景下的车牌角点检测效果和投影矫正后的车牌图片如图6
所示。
图6 车牌矫正示例
Fig.6 Correctionexamplesoflicenseplates
由图6可以看出,在各种复杂的场景下,如收光不均、倾斜
扭曲严重、模糊严重、曝光度过高等,本文设计的车牌矫正网络均具有较好的角点检测效果,这为后面的字符检测、堆叠字符识别等步骤打下了较好的基础。6 2 堆叠字符识别实验
从原始数据共获得3301张堆叠字符图片,为更好训练堆叠字符端到端识别网络,同样进行数据增强操作。具体步骤
为:每次在同一张车牌内不重复挑选Nstack
个字符,从上至下依次拼接这些字符,在字符连接处使用核大小为3×
3的高斯模糊进行平滑处理,每张车牌图片生成2~3张堆叠字符。因为MD州和WV州的堆叠字符仅为双排堆叠,本实验中Nstack=2,最终共获得13692张双排堆叠字符图片。同样以8 2划分训练集和测试集,最后10953张为训练集数据,2739张为测
试集数据。在堆叠字符识别网络的训练中,采用A
dam优化器,其两个梯度累积指数分别为0.9、0.999,学习率初始值为0.001,以64个堆叠字符图片和对应标签为一个批量迭代一
次,共迭代2
0000次,每1000次学习率衰减一次,衰减率为0 9。网络权重使用系数为0.0001的L2正则化,
批量归一化的动量参数设置为0
.997。分别使用三种方法识别测试集的2739张堆叠字符,即端到端识别、分割识别、综合方法,其中综合方法为端到端识别+分割重识别。三种方法对堆叠字符图像的识别准确率和速度
如表2所示。从表2中间两行可以看出,
无论是对仅存在数字或字母、或是对数字和字母同时存在的堆叠字符,本文设计的基于CTC损失的堆叠字符端到端识别方法比分割方法在准确率上均具有明显提升。其中尤其对数字、字母同时存在或仅存在字母的堆叠字符图片,基于CTC损失的堆叠字符端到端识别方法相比于分割识别方法分别提升了13.58%、36.9%。
表2 三种方法对堆叠字符图片的识别准确率对比
Tab.2 Comparisonofrecognitionaccuracyon
stackedcharactersbythreemethods
方法数字字母数字+字母总字符时间/ms端到端识别0.99780.98990.99660.99525.6分割识别0.96170.62900.86080.80866.7综合方法
0.9986
0.9919
0.9977
0.9963
5.9
同时从表2可以看出,在综合方法中,使用分割方法能够从识别结果的字符长度上进行判断并进行重识别,在一定程度弥补了端到端方法的识别误差,进一步提高整体的堆叠字符识别精度。对比后三
行可以看出综合方法对各种堆叠字符的高精度主要来源于端到端识别方法,因其较高的精度,综合方法相比端到端识别方法,在提高识别准确率时,每张堆叠字符图片的平均识别时间仅多用了0.3ms。
综上可以看出本文设计的识别方法对特殊车牌中存在的堆叠字符均具有较好的识别效果。6 3 消融实验
除车牌矫正和堆叠字符端到端识别,本文提出的车牌识别算法还包括字符检测实验和单字符识别。
对于MobileNet SSD字符检测,采用RMSProp优化器进行训练,梯度累计参数为0.9。学习率初始设置为0.0005,以24张车牌图片和每张图片内所有字符位置信息、类别信息为标签
作为一个批量迭代一次,共迭代2
5000次;对于堆叠字符分割重识别,采用Momentum优化器训练,其累计梯度参数设为0 9。学习率初始设为0.025。以64张单字符和对应类别标签
广式五仁月饼
为一个批量迭代一次,共训练迭代85小店创业
00次,每迭代150次,学习率衰减一次,衰减率为0.9;本文使用的非极大值抑制交并
比阈值设置为0
.7。实验中所有dropout层在训练时采用0.5的节点保留率,在测试时置为1.0。
本节使用图2所示的整体实验流程,
对原始完整车牌数据测试集进行车牌识别实验。同时组合不同流程模块进行消融实验,消融实验的结果如表3所示。
·3551·第5期祁忠琪,等:基于深度学习的含堆叠字符的车牌识别算法
表3 消融实验
Tab.3 Ablationexperimentresults
车牌矫正网络
为什么耳朵会嗡嗡响
tanh激活随机角点映射
堆叠字符CTC识别网络
DW_conv_module
SE_module
连接处高斯模糊
堆叠字符分割识别
非极大值抑制准确率
全部车牌含堆叠字符的车牌
时间/s√
√√√√√√0.96080.94640.0435
√√√√0.92410.77290.0403√√
√√√0.32100.48240.0389√√√√√√0.95690.92800.0430√√√√√√0.94290.91410.0427√√√√√√0.94570.87520.0438√√√√√√0.95590.92320.0428√√√√√√0.95600.92400.0412√
√√√√√0.93710.90930.0430√
√
√
√
√
√
0.9557
0.9313
0.0423
为保证消融实验公平性,对于各种形式的车牌矫正网络
(如不使用t
anh激活、不使用随机角点数据增强等)均采用相同的训练策略;对于各种形式的堆叠字符端到端
识别网络(如不使用SE_module、不使用DW_conv_module、连接处不使用高斯模糊等)也均采用相同的训练策略。对于不使用DW_conv_
module
的堆叠字符端到端识别网络,为保证特征图大小和通道数一致,使用3×3最大池化和3×3卷积,其中最大池化的步长和卷积操作的卷积核个数均与DW_conv_module对应的输入参数相同。从表3的前三行可以看出,本文设计的车牌矫正网络和堆叠字符识别网络大幅提高了含堆叠字符的车牌识别准确度,在包含堆叠字符的车牌识别中分别可以带来46 4%、17.37%的准确度提升,同时图3还表明,在本车牌识别流程中,车牌矫正网络的全连接层使用tanh激活函数、角点随机映射、DW_conv_moduel、SE_moduel、堆叠字符拼接处的高斯模糊处理、堆叠字符分割重识别、非极大值抑制等操作对于最终的车牌识别准确度均具有一定的提升作用。6 4 对比实验与可视化
考虑到中国常见的车牌不存在图1所示的含堆叠字符的特殊类型,对比实验采用常用的美国车牌识别系统Open
ALPR[23]和Sighthound[24]
。
数据集采用MD州和MV州的测试集,三种识别算法的结果如表4所示,可以看出,OpenALPR和Sighthoud对于含堆叠字符的车牌均不具有较好的识别结果,本文算法则对于含堆叠字符的车牌,识别精度达到94%以上。从该对比实验则证明对于复杂的车牌,如含堆叠字符的车牌,本文算法具有较好识别准确率,极大提高了车牌识别的鲁棒性和通用性。
表4 不同算法的车牌识别精度
Tab.4 Accuracyofdifferentlicenseplaterecognitionalgorithms
算法全部车牌不含堆叠字符的车牌
含堆叠字符的车牌
本文算法0.96080.96480.9464OpenALPR0.77750.97570.0860Sighthound
0.7718
0.9878
0.0181
本文算法对于倾斜矫正后,含堆叠字符和不含堆叠字符的
车牌识别结果的可视化如图7
、8所示。从图7、8可以看出,对于字符模糊、照明不均、对比度过低、曝光度高等众多复杂环境下的车牌,
本文算法均具有较好的识别效果。
图7 对含堆叠字符车牌的
识别结果
Fig.7 Recognitionresultsof
licenseplateswithstackedcharacters图8 对不含堆叠字符车牌的
识别结果
Fig.8 Recognitionresultsof
licenseplateswithoutstackedcharacters
7 结束语
本文从车牌识别应用的通用性角度考虑,提出了基于深度
学习的含堆叠字符的车牌识别方法。该方法先通过一个卷积
神经网络定位车牌四个角点,并在投影矫正后的车牌上进行车牌识别,极大提高了对扭曲、倾斜车牌的识别鲁棒性;其次,针对车牌识别应用中含堆叠字符的特殊车牌,本文设计并提出了
一个基于C
TC损失的卷积神经网络,通过不依赖字符分割的方式对竖排堆叠字符进行整体的端到端识别,提高
了含堆叠字符车牌的识别准确度。
本文通过消融实验表明在车牌识别应用中,诸如网络结构、数据增强、字符重识别等均是提升车牌识别准确度的关键步骤。此外通过对比实验和识别结果的可视化表明,尤其对于含堆叠字符车牌的识别,本文算法优于目前流行的车牌识别系统,同时对于复杂环境下的车牌均有较好的识别精度和较高的鲁棒性。未来工作会增加车牌定位模块,即先对整张车辆图片内的车牌区域进行粗定位,再将粗定位的结果作为本文方法的处理对象进行车牌识别,实现完整的车牌识别流程。参考文献:
[1]龚越.基于车牌识别数据的交通出行特征分析[D].杭州:浙江大
学,2018.(GongYue.Traffictravelfeatureanalysisbasedonrecogni
tiondataoflicenseplate
[D].Hangzhou:ZhejiangUniversity,2018.)[2]LoweDG.Objectrecognitionfromlocalscale invariantfeatures
[C]//ProcofIEEEInternationalConferenceonComp
uterVision.
WashingtonDC
:IEEEComputerSociety,1999:1150 1157.[3]AhonenT,HadidA,Pietik inenM.Facerecognitionwithlocalbinary
patterns[C]//Procofthe8thEuropeanConferenceonComputerVi sion.Berlin
:Springer,2004:469 481.[4]DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection
[C]//ProcofIEEEConferenceonComputerVisionandPatternRecogni tion.WashingtonDC:IEEEComputerSocietyPress,2005:886 893.[5]XingJianju,LiJun,XieZanfu,etal.ResearchandImplementationof
animprovedradontransformforlicenseplaterecog
nition[C]//Procofthe8thInternationalConferenceonIntelligentHuman MachineSys
temsandCybernetics.Piscataway
,NJ:IEEEPress,2016:42 45.[6]TarngW,LiCL.Enhancingaccuracyoflicenseplaterecognitionsystems
withtheanglerecoverymethod
[J].InternationalJournalofPatternRecognitionandArtificialIntelligence,2013,27(8):1350025.[7]SedighiA,VafadustM.Anewandrobustmethodforcharacterseg
mentationandrecognitioninlicenseplateimages
[J].ExpertSys temswithApplications,2011,38(11):13497 13504.[8]RenShaoqing,HeKaiming,GirshickR,etal.FasterR CNN:towards
real timeobjectdetectionwithregionproposalnetworks
[J].IEEETransonPatternAnalysisandMachineIntelligence,2017,39(6):1137 1149.[9]LiuWei,AnguelovD,ErhanD,etal.SSD:singleshotmultiboxdetec
tor[C]//Procofthe14thEuropeanConferenceonComputerVision.Cham:Springer,2016:21 37.[10]LiwickiM,GravesA,BunkeH,etal.Anovelapproachtoon line
handwritingrecognitionbasedonbidirectionallongshort termmemory
networks
[C]//Procofthe9thInternationalConferenceonDocumentAnalysisandRecognition.WashingtonDC
:
IEEEComputerSociety,2007:33 47.(下转第1558页)
·4551·计算机应用研究
第38卷