收稿日期:2020年7月10日,修回日期:2020年8月21日
东北玉米基金项目:国家自然科学基金青年科学基金项目(编号:61802192);南京林业大学大学生创新基金项目(编号:2017NFUSPITP230);南京林业大学青年科技创新基金项目(编号:CX2017032);江苏省自然科学基金项目(编号:BK20170934);江苏省高等学校自然科学研究项目(编号:18KJB520024)资助。作者简介:周小亮,男,硕士研究生,研究方向:边缘计算、机器学习。丁静军,男,研究方向:机器学习。吴东洋,女,博士研究生,讲师,研究方向:数据挖掘,生物信息学。
∗
1引言
植物分类学中,常用的方法是根据外部器官的
形态,即根据正确描述植物根、茎、叶、花、果等器官形态,通过形态学特征正确识别植物。叶片作为植物光合作用的主要器官,具有叶形、叶缘、叶裂、叶尖、颜色等较强的形态学特征。基于叶片图像的特征提取可实现植物自动分类识别[1~3],在植物分类、植物病害自动诊断等方面有着重要的研究意
义。近年来,国内外学者提出了大量的基于图像分析的叶片自动识别方法。
Osikar [4]等提取叶片的几何特征和矩特征,利
用前馈神经网络对15种瑞典植物进行分类。该方法在样本较少的情况下有较高的识别率,但在形状类似的情况下,识别率明显下降。Cope [5]等提取叶片Gabor 纹理特征对32种植物进行识别,但是由于纹理特征过于单一,识别率并不理想。
针对图像特征的叶片自动分类识别技术,国内学者也做了大量研究。王晓峰[6]提取叶片的形状特征和图像不变矩,采用了移动中心超球分类器实现了20多种植物的识别,平均识别率达到92%。祁享年[7]等通过提取叶片的大小、形状和叶缘参数,证明了形状处理识别植物的可行性。近年来,也有研究者将叶片的纹理特征和形状特征相结以
基于SC 特征的叶片图像识别研究
∗
周小亮1
丁静军1
吴东洋1窦立君2
吴东华3
(1.南京林业大学信息科学技术学院南京
210037)(2.南京林业大学信息中心
南京
210037)
(3.南京航空航天大学继续教育学院
南京
210016)
摘
要
提出一种基于改进SC 形状上下文描述子的叶片图像特征提取方法。利用颜色聚类分割图像,使用Ostu 算子
实现二值化处理,提取图像边缘轮廓,结合形状上下文(SC )描述子提取图像轮廓特征,计算匹配代价矩阵,利用匈牙利算法获得最小匹配代价。结果表明该算法具有较高的识别准确度。
关键词
图像分割;特征提取;形状上下文;匈牙利算法
中图分类号
TP751
DOI :10.3969/j.issn.1672-9722.2021.01.033
Leaf Image Recognition Bad on Shape Context Feature Extraction
ZHOU Xiaoliang 1
DING Jingjun 1
西湖七月半
WU Dongyang 1
DOU Lijun 2
WU Donghua 3
(1.School of Information Science and Technology ,Nanjing Forestry University ,Nanjing
210037)
(2.Information Center of Nanjing Forestry University ,Nanjing
210037)
(3.College of Continuing Education ,Nanjing University of Aeronautics and Astronautics ,Nanjing 210016)
Abstract
A method of leaf image feature extraction bad on improved SC shape context descriptor is propod.The image is
gmented by color clustering ,the binarization process is implemented by Ostu operator.Image edge contour is extracted ,shape context (SC )descriptor is ud to extract image contour features ,the matching cost matrix is calculated ,and the Hungarian algo⁃
rithm is ud to obtain the minimum matching cost.The results show that the algorithm has higher recognition accuracy.
Key Words
image gmentation ,feature extraction ,shape context ,hungarian algorithm Class Number
讲台英文TP751
第49卷
提高识别率。张宁[8]等将叶片几何特征、灰度共生矩阵、纹理特征、分形维数等多特征结合,在100种植物叶片数据库中进行测试,CSA+KNN法识别率为91.37%。徐浩然[9]等提出不变量多尺度形状描述方法,该方法具有着较强的缩放、平移和旋转不变性,且对类内差异和铰接形变以及噪声都有着较好的鲁棒性。为了提高匹配的准确性,在做形状特征描述时,所提取的特征针对同一物体的不同形状变化不大,而对不同物体的形状变化较大[10]。
本文基于形状上下文(SC)描述子,提出改进的形状描述子算法(N-SC),通过提取叶片图像的轮廓信息对不同形状叶片能够准确识别,相比传统的SC描述子具有较高的匹配速度及旋转不变性。2形状特征提取
形状上下文(SC)算法是Belongie[11]等于2002年提出,该算法通过选取有限的点集来描述样本的边界,是一种基于图像形状轮廓的描述方法。不同边界样本点间的相对位置能够较好的描述该形状,且样本点距离参考点之间的距离决定了该样本点在描述形状中的有效程度。为更好地表达位置信息,可采用极坐标系统计样本点相对于参考点的位置关系。
2.1轮廓提取采样
在形状描述方法中,将轮廓看作是一组点,并假设轮廓可由一组有限的离散点表示。若给出n 个点的集合P={p1,⋯,p n},则当n→∞时,则可获得连续图像轮廓,故n越大,轮廓描述越精确,故使用的描述子通过有限的采样点来建立描述子,如图1
农村入党申请书
所示。
图1叶片轮廓采样
2.2形状上下文(SC)
在轮廓矩阵中,若需描述点集P中的任意一点p i,可通过计算剩余的n-1个点与该点的位置关系确定。以p i为圆心,r为半径,将此区域在逆时针方向12分以形成模板,即以点p i为极点建立极坐标系,这样使得点p i到其他各点的向量简化为极坐标系中每个扇区里的点数分布,如图2
所示。
(a)原图(b)极坐标建立文化与翻译的关系
图2图像轮廓极坐标
由于点阵图像数据基于笛卡尔坐标系,而形状上下文特征提取基于极坐标系,则需坐标系转换。
设极坐标系极轴方向与笛卡尔坐标系水平方向一致,若x0表示所选点为极坐标系原点的横坐标,y0表示所选点为极坐标系原点的纵坐标,x表示边缘点的横坐标,y表示边缘点的纵坐标,则笛卡尔坐标转换极坐标如式(1)与式(2)所示。
r=(x-x
)2-(y-y
)2(1)
θ=arctan t(
y-y
x-x
)(2)其中,r为所选点与极坐标原点距离,θ为所选点与极坐标原点连线与极轴间夹角。
将数据区域用极坐标分割后统计统计其余各点到极坐标原点的角度θ和距离r,建立p i的形状直方图作
为p i的描述子,如图3
所示。
(a)
原图
(b)以黑点为坐标原点的θ-r直方图
周小亮等:基于SC特征的叶片图像识别研究164
2021年第1期
计算机与数字工程(c )以红点为坐标原点的θ-r
直方图
(d )以蓝点为坐标原点的θ-r 的直方图
图3形状直方图
直方图密集程度代表该区域点的密度,颜色越深,则该区域点的数量越密集。由图(b )和图(c )可知,黑点和红点在数据分布上具有相似性,而蓝点则有较大差异。
2.3改进的形状上下文描述子(N-SC )
形状上下文(SC )描述子采用直方图描述数据
分布,提取轮廓点的个数对计算性能影响较大,即轮廓点个数较多,识别准确度较高,轮廓点较少则结果不精确。若采用χ2分布来计算匹配代价,即认为当轮廓点数量达到一定程度,则数据分布趋向于正态分布,在获得较高的计算精度的同时,计算时间不会明显增加。
若p i 表示第一个轮廓P 中的样本点,q j 表示第二个轮廓Q 中的样本点,g (k )表示pi 的形状直方图,h (k )表示q j 的形状直方图,则代价值C ij 为恒正的值:
C ij =12å
i =1k
|g ()
k -h (k )|2
g ()k +h (k )
(3)
由式(3)可知,代价值C ij 越小,两个样本点的形状描述子越相似,反之,若代价值C ij 越大,则两个样本点相似度越差。
若构建代价矩阵M n×n ,其中M 为C ij 的集合,则该代价矩阵M 可描述两个样本点集中每一对样本点间的相似程度。
若H (π)为两个轮廓样本整体的匹配代价,π
为一个置换,若q π(i )为每个p i 的最优解,可根据代价矩阵M ,计算轮廓样本整体的匹配代价。
H (π)=åi
C (p i q π(i ))
(4)
若希望获得最小的总代价,即求min (H (π))。其中,min (H (π))表示两个轮廓样本总代价最小。
选取Betula pubescens 数据集中的一组叶片图
像,如图4所示,分别采用SC 描述子和SC-X 描述子计算iPAD2_C09_EX01.JPG 与其余三幅图间的
匹配代价。
(a )(b )(c )(d )
图4
测试叶片表1
匹配代价
N-SC 描述子
1.3655
2.1725
2.9069
由表1可知,N-SC 描述子匹配代价远小于传统SC 描述子。其中,图(a )与图(b )匹配代价最小,cost 值为1.3655,说明这两幅图像相似度最高。图
(a )与图(d )匹配代价最大,因为图(d )叶片内部具有破损及病害斑块,破损及斑块导致的轮廓数据提取影响了识别效果。
3
基于形状上下文的叶片识别与匹配算法流程
基于形状上下文的图像识别与匹配算法流程
如图5
所示。
图5
图像识别与匹配算法
由图5可知,叶片识别与匹配算法流程如下。
165
第49卷第一步:利用K-Means算法分割图像;
第二步:利用Otsu算法将图像二值化;
第三步:采样图像边界,每隔四个边界点选取一个轮廓点,得到轮廓点集P;
第四步:坐标转换,将笛卡尔坐标转化为极坐标;
第五步:利用χ2分布计算匹配代价C ij,得到代价矩阵M;
第六步:利用匈牙利算法评估代价矩阵M,获得最小代价值cost。
4实验结果与分析
4.1实验数据
实验采用UCI数据库中的leaf数据集。UCI 数据库是由加州大学欧文分校为图像识别和机器学习而建立的数据库,该数据库目前共有335个数据集。UCI-leaf数据集包含40类植物叶片图像,包含木本及草本叶片数据,每类叶片包含数量为8~
16张不等的图像,部分叶片图像如图6所示。随机选取其中的5类叶片,每类叶片选取10张图像作为实验数据集。实验平台采用Intel Core i5处理器,8G内存,MacOS10.14.2,算法实现采用Matlab 2017b 。
图6leaf数据集部分叶片图像
4.2实验结果
选取leaf数据集中Betula pubescens(柔毛桦)、Acer palmaturu(七角枫)、Castanea sativa(欧洲板栗)、Populus alba(银白杨)四种不同的叶片图像。这四张叶片图像在颜色及形状上各有特点。图6中2及5分别为七角及五角形状,4中叶片边界平滑,1中叶片为椭圆心形,且边缘有轻微破损,5中叶片左侧中间带有虫洞,2中叶片背景为灰色。通过N-SC描述子计算柔毛桦1与其他三种叶片之间
的匹配代价。
(a)(b)(c)(d)
图7叶片图像
表2图像间匹配代价
SC-X描述子16.534218.56697.9248
根据表2可知,不同形状的叶片,匹配代价cost 差异明显。其中图7(a)与图7(c)匹配代价为18.5669,说明这两种叶片相似性最差,图7(a)为阔卵形,而图7(c)叶片为长椭圆形。在三组数据中,图7(a)与图7(d)匹配代价值最小为7.9248,表示两种叶片在形状上最为相似,图7(a)和图(7d)都属于阔卵形,但两者为不同树种,并且图7(d)有虫洞干扰。
为验证N-SC算法的识别准确性,选取一幅银白杨叶片图像如图8所示,与数据集中的5类各10张叶片图像对比,计算匹配代价Cost
。
图8银白杨
选取leaf数据集中Quercus suber(欧洲栓皮栎)、Populus nigra(黑杨)、Quercus robur(夏栎)、Betula pubescens(柔毛桦)、Populus alba(银白杨)的5类各10张图像作为实验数据,结果如表3所示,其中第5类Populus alba为银白杨。
由表3可知,银白杨叶片与第5类即银白杨叶片匹配代价最小,平均Cost值为5.36327。而该叶片与Quercus robur(夏栎)差异最大,其中银白杨叶片呈卵圆形,掌状5浅裂,而Quercus robur(夏栎)叶片为长倒卵形。银白杨叶片与第二类Populus nigra (黑杨)叶片平均Cost值为8.00923,说明两者相似度较高,因为Populus nigra(黑杨)叶片与银白杨叶片同都为卵圆形,但黑杨为菱状卵圆形。
周小亮等:基于SC特征的叶片图像识别研究166
2021年第1期计算机与数字工程
统计上述50幅叶片图像匹配时间,如图9所示,总匹配花费257.053s,平均单幅图像识别时间
保护母亲河作文
5.141s。在总识别时间中,图像分割与轮廓提取算法耗时51.88s,形状上下文描述子建立耗时3.080s,代价矩阵计算耗时0.529s,匈牙利算法耗时200.682s。由此可见,轮廓集匹配阶段耗时最高。
图9叶片识别时间折线图
由图9可知,大部分叶片图像匹配时间介于4s~6s之间,平均的识别时间为4.8141s。其中,部分叶片图像匹配时间低于4s,只有一幅叶片识别时间高于6s,为6.883s。叶片图像匹配效率与轮廓的复杂程度及采样点数目有关,轮廓越复杂,采样点越多,匹配耗时越长。其中第10幅图像为欧洲栓皮栎叶片,其形状为长椭圆形,轮廓与银白杨叶片差异较大。而第45幅为银白杨叶片,其轮廓与待比较叶片相似程度最高。
5结语
植物叶片形状,即叶片轮廓,基于叶片图像的植物分类方法研究是植物分类学的一个重要研究方向[12]。不同的植物,叶形的变化很大,根据特征数据结合植物分类学知识能够识别叶片的基本形
状[13],以达到快速有效的植物种类识别,对于区分
植物、探索植物间亲缘关系具有重要意义。本文提
出一种改进的SC形状上下文描述子(N-SC),在对
叶片图像膨胀[14]、腐蚀[15]等预处理的基础上,利用Ostu[16]算子对图像进行二值化处理,进而提取图像的形状特征,使用匈牙利算法计算图像间匹配代
价。实验结果表明该算法具有较高的识别准确度。
但该方法也存在一些缺陷,为了保证图像边界
的连续性,N-SC描述子选取更多的轮廓点,导致识
别时间较长,平均4.8s。该算法可有效区分叶片形
状差异较大植物,对于形状相似性较高的叶片图像
具有明显的局限性。
在进一步的工作中,可提取关键代表点描述图
像轮廓,以减少轮廓点数量,进一步优化匹配代价Min(cost)计算方法。结合叶片纹理信息,可以解决不同植物相同叶片的问题。
参考文献
[1]高良,闫民,赵方.基于多特征融合的植物叶片识别研
究[J].浙江农业学报,2017,29(4):668-675. GAO Liang,YAN Min,ZHAO Fang.Study on plant leaf recognition bad on multi-feature fusion[J].Journal of Zhejiang agriculture,2017,29
(4):668-675.
[2]陈良宵,王斌.基于形状特征的叶片图像识别算法比
较研究[J].计算机工程与应用,2017,53(9):17-25. CHEN Liangxiao,WANG Bin.Comparative study on blade image recognition algorithm bad on shape features[J]. Computer engineering and application,2017,53(9):17-25.
[3]李洋,李岳阳,罗海驰,等.基于形状特征的植物叶片
在线识别方法[J].计算机工程与应用,2017,53(2):
表3匹配代价
方法
cost 1
2
3
4
5
6
7
8
9
10
均值Quercus suber
11.7786
10.5178
11.9435
10.6896
14.3673
14.3394
15.3314
13.7309
14.978
20.2811
13.79576
Populus nigra
7.6218
7.0108
7.7527
7.6979
8.6847
8.8204
8.3802
四明公所
8.3253
6.9763
8.8222
8.00923
Quercus robur
15.0517
15.9638
13.7414
18.7022
19.489
16.89
19.3102
21.4669
13.4434
13.9451
16.80037
Betula pubescens
8.9946
7.604
6.955
11.7533
12.6136
物理高一9.6248
9.5788
6.7793
10.8091
8.064
9.27765
Populus alba
5.7865
3.8073
4.2932
4.0131
6.1964
4.2358
4.2502
4.8201
6.3457
9.8844
5.36327
167