中国农业大学学报2021,26(6): 170-179 h t t p:// Journal of China Agricultural University DOI:10. 11841/j.issn. 1007-4333. 2021. 06. 17基于深度残差网络的麦穗回归计数方法
刘航1刘涛2李世娟1李路华1吕纯阳1刘升平〃
(1.中国农业科学院农业信息研究所,北京100081;
2.扬州大学农学院,江苏扬州225009)
摘要单位面积的穗数是估算小麦产量的重要指标,针对传统麦穗计数方法效率低、主观性高等问题,将基于深度残差网络的密度回归模型引入麦穂的计数领域,建立原始图片与密度图的对应关系,以密度图像素值总和确定图像中麦穗数量。对R esN et34网络进行改进,提出了ResNet-16模型,实现端对端的麦穗计数。针对ResN et34 网络复杂度高的特点,ResNet-16增加了残差块的宽度,减少了 ResN et34网络的深度;为了避免真值密度图的精度误差以及梯度下降过快,引入了矫正因子5和膨胀因子K。结果表明:改进后的ResN et-16模型能够取得更好的预测精度,平均绝对误差为2. 50,均方根误差为3. 27,相关系数R2为0.973,计数准确率达到94%,较M C N N计数模型精度提高了6%,可以实现高效、快速的麦穗计数。利用基于深度残差网络的回归计数模型为麦穗计数提供了一种新的计数方式。
关键词麦穗;计数;密度回归;残差网络
中图分类号T P391 文章编号1007-4333(2021)06-0170-10 文献标志码A
Rearch on wheat ear regression counting bad on
deep residual network
LIU Hang1, LIU Tao2, LI Shijuan1, LI Luhua1, LV Chunyang1, LIU Shengping1*
(1.In s titu te o f A g ric u ltu ra l In fo rm a tio n, C h in e s e A c a d e m y o f A g ric u ltu ra l S c ie n c e s, B e ijin g100081, C h in a;
2. C o lle g e o f A g r ic u ltu r e, Y a n g z h o u U n iv e rs ity, Y a n g zh o u225009, C h in a)
Abstract T h e n u m b e r of wh eat ears per unit area is an important indicator for estimating w h e a t yield. I n view of the low efficiency a nd high subjectivity of traditional w h e a t ear counting methods, a density regression model b a d on the
d e e p residual network is introduced into the field of wheat ear counting. I t establishes the corresponding relation
ship b e t w e e n the original i m age an d the density m a p,and determines the n u m b e r of w h e a t ears i n the image by the s u m of the pixel values of the density m a p.T h e ResNet-16 model is propod on the basis of improving the R e s Net34 model. In vie w of the high complexity of the ResNe t34 network, ResNet-16 model is ud to increas the width of the residual block a nd reduces the depth of the ResNet34 network;In order to avoid distortion of true value density m a p a nd too fast gradient descent, correction factor 6 and the expansion factor K are introduced. T h e results s h o w that:T h e improved ResNet-16 model can obtain better prediction accuracy. Its m e a n absolute error is 2.50, root m e a n square error is 3. 27,correlation coefficient R2is 0.973,and the counting accuracy rate reaches 94% .
C o m p a r e d with M C N N m o d e l,the accuracy of ResNet-16 is improved by 6%,which can achieve high efficiency and fast
ear counting. T h e regression counting model b a s e d on d e e p residual network provides a n e w counting m e thod for wheat
收稿日期:2020-09-21
基金项目:中国农业科学院科技创新工程项目(CAAS-ASTIP-2020-A n);中央级公益性科研院所基
本科研业务费专项(Y2020XK07 JB Y W-AII-2020-10)
第一作者:刘航,硕士研究生,E-m ail:
通讯作者:刘升平,副研究员,主要从事农业信息技术研究,£-1113丨1:1丨1131^1^口丨1^@€333.(:11
第6期刘航等:基于深度残差网络的麦穗回归计数方法171
ear counting.
K e y w o r d s w h e a t e ar;counting;density m a p regression;residual network
小麦是世界上最重要的粮食作物,从作物生产角度,估算小麦的产量对监测其生长状况具有重要意义。单位面积麦穗数是小麦产量的重要指标,传 统的人工计数费时耗力。随着农业信息化技术的不断深入发展,图像处理技术被广泛的应用于估算单位面积穗数。特征提取是麦穗计数的基础,早期主要是提取麦穗图像的颜色特征[12]、纹理特征[3]等,这些方法虽然容易提取特征,但是对有复杂背景的图像难以达到很好的计数精度;之后随着机器学习的发展,已有研究转向利用机器学习的方式进行麦穗计数,如基于聚类[4]的方法等,建立图像颜色特征到麦穗数量的直接分类关系,统计麦穗数量。近年 来,卷积神经网络(Convolutional neural n e t w o r k, C N N)的优势日益彰显,引起了广泛关注,
它不仅在对象检测[5]和分割[6]上取得最先进的性能,还在解决对象计数的问题上发挥了重要作用。基于C N N 的回归计数方法最早由L e m p i t s k y等[7]提出,是将低层次特征映射到相应真值密度图中,在计数过程中加人空间信息,建立图像的回归模型,最后对密度图求取积分,得到图像中物体的数量。此类方法把对象当作整体,有效的解决了对象之间相互遮挡的问题。这种密度图的思路可以解决许多特定领域的视觉问题,提供较为准确的对象计数;并且由于在特征提取步骤中需要非常小的时间开销,使其成为涉及实时处理或处理大量可视数据的应用程序的良好候选者。在计数人群[8]、车辆™、细胞[1°]、动物[11]和 植物[1215]方面取得显著的成就。本研究拟采用
R e s N e t-16模型对全球小麦麦穗检测数据集(Global w h e a t head detection,G W H D)中的麦德进行计数,首先采用卷积高斯核的方式生成与麦穗图像相对应的真值密度图,然后利用矫正因子3矫正真值密度图中的麦穗数量,对输人图片和真值密度图做相同的数据增强操作,从而达到扩充数据集的效果,并引 人膨胀因子K避免梯度消失,旨在训练出更适合麦穗计数的密度回归模型,以期达到更好的计数精度。
1材料与方法
1. 1C N N模型
随着卷积神经网络的不断发展,越来越多的C N N模型在图像识别领域取得了突破性的进展。鉴于R e
sN e t网络™在图像识别中的优越性,本研究的直接回归模型和基于密度图的回归模型均参考ResNet34的网络构架。R e sN e t的主要贡献在于利用残差学习单元有效的解决了随着网络层数的加深,梯度退化的问题。残差学习单元由残差块(Residual block)组成,残差块的整体输出为该残差块的输入加上该残差块的线性输出,并且加人BN[17](Batch normalized)层进行归一化操作,进一步避免梯度的消失,减少迭代次数以加快训练的速度。在残差学习中,若X表示输人,F(X)表示残差块在第二层激活函数之后的输出,即F(X) =W2X W W,X X),其中W i和VV2表示第一层和第二层的权重,t r表示激活函数ReLU (Rectified linear umt),则最后残差块的输出S W F d) +X))。这种 残差计算相对于普通网络更有利于避免因梯度的消失而造成的网络坍缩。
1.1.1 网络总体结构
基于密度图的回归模型的网络构架借鉴
R e s N e t34层次结构,根据奥卡姆剃刀法则,简单的和复杂的方法能达到相同的效果,那么简单的方法更可靠。为追寻更简单的网络结构,更少的检测时间,本研究尝试去掉不必要的残差块,减少网络参数;在考虑性能的同时,还兼顾网络的精度。最后发现:自定义的残差网络R e s N e t-16不仅网络精度较高,而且模型参数少,能够达到预期的精度要求,网 络结构见图1。
该模型参考W R N[18](W i d e residual n e t w o r k s),用增加网络宽度的方式提高模型性能,前期用
7X7的感受野获取更多有用信息,同时利用改变R e s N e t34网络原有的步长、减少边缘零填充的方式增强网络的特征提取能力,并去除后两层共计9个残差块,增加前2层(C〇n v2_x,C o n v3_x)共计7个残差块的宽度,最后利用
1X1卷积核进行降维,实现不同通道上特征的归一化融合,网络输出密度图的大小为原来的
1/10,与真值密度图的大小相对应。网络具体参数见表1。
172中国农业大学学报2021年第26卷
Conv2_x Conv3_x
C o n v l表示第一个卷积层,Conv2_v,C o n v3_x表示由多个残差块组成的组合模块,C o n v4_x表示最后一个卷积层。表1同。
Convl reprents the first convolutional layer, C onv2_v, Conv3_x reprents building blocks compod of multiple residual blocks, and Conv4_x reprents the last convolutional layer. Table 1is the same.
图1R e s N e t-16网络结构图
Fig. 1Network structure of ResNet-16
表1R e s N e t-16网络参数表
Table 1ResNet-16 network parameter table
卷积层卷积核大小输入尺寸步长,零填充
Convolution layer Kernel size Input size S tep,Zero padding
Convl7X7, 64400X400, 35,1
Pool3X3, 6480X80, 641,1
Conv2_x -3 X 3, 128-
_3 X 3, 128_
X 380X80, 641,1
Conv3_x -3 X 3, 256_
_3 X 3, 256_
X 480X80, 1282,1
Conv4_x1X1,140X40, 2561,0注:P o o l表示第一个池化层。
N o te:Pool reprents the first pooling layer.
1.1.2 损失函数
基于密度的回归结果和真值密度图之间采用欧氏距离衡量,选取均方误差(M e a n squared error, M S E)作为模型的损失函数。在实际训练过程中,鉴于真值密度图的数值较小,大多都小于1(T4,梯 度消失明显,无法学习到图像特征而过早的收敛,故 定义膨胀因子K,保证不会由于真值密度图总和不会过小,而造成网络坍缩。本研究采用的K值为 10 000,基于密度回归的损失函数定义如下:
L(0)=-K Z(;T y(1)
^i1式中:N为训练集中图像总数量;乙表示与图片X,相对应的模型输出的密度图;2!;T表示真值密度图。
1.2麦穗数据集
D a v i d圧等[|9]公开了全球小麦麦穗检测数据集(Global w h e a t he a d detection,G W H D),该数据集包含了 4 700张高分辨率R G B图像,总计标注了约190 000的麦穗;这些麦穗图像采集于2016—2019 年,分为几个不同的麦穗“子数据集”,由9家机构在 10个不同地点收集得来,涵盖了不同的生长阶段,具有广泛的基因型(图2)
。
第6期刘航等:基于深度残差网络的麦穗回归计数方法173
(a)〜(〇〉表示来自不同子数据集的麦穗图像。
(a) —(o) reprent wheat head images from different sub-data ts.
图2全球小麦麦穗检测数据集图片示例
Fig. 2 Examples of images of the Global Wheat Head Detection datat
G W H I)数据集涵盖了一系列生产环境.有着不同的土壤气候条件,差异化的种植密度,以及不相等的行间距_并且还设计了比较灌溉和水分胁迫环境的试验。该数据集选用的传感器平台和相机的拍摄参数也不尽相同,例如相机焦距.地面采样距离(Ground sampling distance,G S D),沿图像对角线的半视场范围.阁像的采集高度等。正是这些多样性使得图像具有广 泛的特性,这将有助于训练深度学习模型,增强模型的 普适性。各子数据集的具体情况见表2。
2试验与结果分析
2.1麦穗密度图
麦穗真值密度图的制作方法参考人群计数〜_22],采用脉冲函数以及卷积高斯核的方式定义真值密度图。制作真值密度图时,根据麦穗标注时外围的方框的坐标值来推算中心点坐标值•即麦穗标注框的中心点的位置可以表示为:
工m i n,max 3^m in ^(2)式中:表示麦穗标注框X轴坐标的最大值;
表示■轴坐标的最小值;3%…表示麦穗标注框^轴坐标的最大值表示^轴坐标的最小值。本研
究用脉冲函数
.V
H(.x) =i p(x—X i)(3)
I
表示具有N个麦穗位置标记的图像.再利用二维高斯函数
对麦穗中心点进行平滑滤波,则可以得到对应图像的真值密度图
F(x) =H(x) •G A-r)(5)在二维高斯滤波函数中0表示卷积核的宽度.0越 大图像越模糊.经试验测试,本研究选定高斯卷积核〇值为10,此时真值密度图都很好的反应了麦穗在图像中的大体位置.最终生成与原图同等大小的真值密度图,见图3
。
174中国农业大学学报2021年第26卷
表 2 G W H1)子数据集基本情况
T a b l e2B a s i c i n f o r m a t i o n o f G W H D s u b-d a t a s e t
子数据集
目标阶段行距/c m 播种密度/
(粒/m2)
与地面
焦距/m m视野八°)
地面采样距离/
名称距离/m(m m/像素)T a r g e t R o w F o c a l F i e l d o f
S u b d a t a s e t
s p a c i n g S e e d i n g D i s t a n c e
l e n g t h v i e w
G r o u n d s a m p l i n g
d i s t a n c e
s t a g e
n a m e d e n s i t y t o g r o u n d
U T o k y o_l开花后15.01861.810. 038.150. 43
U T o k y o_2开花12. 5200 1. 77.0或4.045.500. 60
A r v a l i s_l开花后熟17. 5300 2. 950. 0和 60. 07.100.10〜0. 16 A r v a l i s一2开花后17. 53001.87. 79. 990.56
A r v a l i s_3开花后熟17. 53001.87. 79. 990. 56
I N R A E_1开花后16.03001.87. 79. 990. 56
U S a s k_l无30. 52502.016.019.800. 45
R R e s_l无无3503.0〜3. 550.012. 800. 330〜0. 385 E T H Z_1无12. 54003.035. 032. 200. 55
N A U_1开花20. 0300或 4502.024. 016. 900. 21
U Q_1开花成熟22. 0150 2. 055. 017. 300. 20
(a) (a 丨)(b) (h丨)(c) (c,)
(d) (d,) (e) (e.) (1) (f.)
(g) (g.) (h) (h,) (i) (i.)
(a)〜(i)表示原始图像.(a!)〜(h)表示原始图像与对应真值密度图重合后的图像。
(a) — (i) reprent original im ages,(a i) —(“)reprent tru th density m aps overlaid on original images.
图3 G W H D中原始图像与对应的密度图示例
F i g.3E x a m p l e o f o r i g i n a l p i c t u r e a n d c o r r e s p o n d i n g d e n s i t y m a p i n
G W
H D