2021574
高光谱遥感图像包含着数百个丰富的空间和光谱信息的波段,可以为对感兴趣的领域进行分类提供依据,因此在农业[1]、医学图像[2-3]、土地管理[4]、生态监测[5]和法医学[6]等领域有着广泛的应用。随着高光谱成像技术的发展,光谱分辨率大大提升,同时也增加了高光谱图像的复杂度,容易造成所谓的Hughes现象[7]。因此,在高光谱图像处理过程中,去除数据冗余的过程必不可少。而降维可分为特征提取和特征选择两种方式。特征提取用于寻找合适的映射,将高维特征空间转换为低维特征空间,如常见的主成分分析方法[8]、独立成分分析方法[9]等。另一种是特征选择方法,特征选择是从原始集合中选择最具代表性的特征子集,可以保留原始数据的物理意义,因此应用最为广泛。如Huang等人根据信息熵理论,量化了各波段的信息量,从而达到降维的目的[10]。
近年来,深度学习已经成功应用到语音识别[11]、自然语言处理[12]和图像识别[13]等领域并取得了显著进
标准分数降维的3D-CNN高光谱遥感图像分类
佘海龙,解山娟,邹静洁
杭州师范大学遥感与地球科学研究院,杭州311121
摘要:针对高光谱图像存在Hughes现象,以及空间和光谱特征利用效率低的问题,提出了一种结合标准分数降维和深度学习的高光谱图像分类算法。利用标准分数对高光谱数据的波段质量进行评价以剔除高光谱遥感图像中的冗余波段,结合优化过的3D-CNN(3D Convolutional Neural Network)分类方法,通过使用大步距卷积层替代池化层,引入L2正则化、批量归一化(Batch Normalization,BN)、Dropout等一系列策略,在减少网络参数的同时有效防止过拟合现象。通过Pavia Centre和Pavia University两个公开高光谱数据集的实验测试,该算法大幅度降低了网络模型的参数和计算量,取得了99.01%和95.99%的分类精度。
关键词:卷积神经网络;深度学习;标准分数;高光谱遥感图像;分类
文献标志码:A中图分类号:TP701doi:10.3778/j.issn.1002-8331.2001-0150
3D-CNN with Standard Score Dimensionality Reduction for Hyperspectral Remote Sensing Images Classification
SHE Hailong,XIE Shanjuan,ZOU Jingjie
Rearch Academy of Remote Sensing and Earth Sciences,Hangzhou Normal University,Hangzhou311121,China
Abstract:Aiming at the problems of Hughes phenomenon and low utilization efficiency of spatial and spectral features in hyperspectral images,a hyperspectral image classification algorithm combining standard score dimensionality reduc-tion and deep learning is propod.Standard scores are ud to evaluate the band quality of hyperspectral data to eliminate redundant bands in hyperspectral remote nsing images.Combined with the optimized3D Convolutional Neural Network (3D-CNN)classification method,a large stride convolution layer is ud to replace the pooling layer,and a ries of tricks such as L2regularization,Batch Normalization(BN)and Dropout are introduced to reduce network parameters and effectively prevent overfitting.Through the experimental tests of two hyperspectral datats of Pavia Centre and Pavia University,the algorithm greatly reduces the parameters and computational costs of the network model,and achieves clas-sification accuracy of99.01%and95.99%.
Key words:convolutional neural network;deep learning;standard scores;hyperspectral remote nsing images;classification ⦾图形图像处理⦾
基金项目:国家自然科学基金(61701153)。
作者简介:佘海龙(1994—),男,硕士研究生,CCF学生会员,研究领域为遥感图像处理、深度学习,E-mail:;
解山娟(1985—),通信作者,女,博士,副教授,研究领域为数字图像处理、机器学习;邹静洁(1995—),女,硕士研究生,研究领域为空间信息分析与地理模拟。
收稿日期:2020-01-09修回日期:2020-04-15文章编号:1002-8331(2021)04-0169-07
169
2021574
展。因此,将深度学习应用于高光谱遥感图像分类有着巨大的研究价值。国内外也有越来越多的学者将深度学习的方法应用于高光谱遥感图像分类。如王立伟等人采用迁移学习策略和深度残差网络对高光谱影像进行分类并取得较好的效果[14]。Hu等人在2015年首次利用深度卷积神经网络(Convolutional Neural Networks,CNN)模型对高光谱遥感图像进行分类[15]。该方法利用CNN的局部感知、权值共享等特性,大大减少了模型参数,降低了训练难度,进一步提高了分类性能,但未能充分利用高光谱遥感图像的空间信息。而后3D卷积出现,由于可以同时提取时间和空间维度的特征
[16],使得各学者尝试使用3D卷积处理高光谱遥感图像。2016年,Chen等人将3D卷积神经网络应用于高光谱图像分类,提取空间-光谱的深层特征,并且加入了虚拟样本的方法解决样本匮乏的问题[17],但网络卷积层参数较多,增加了模型的计算量。
基于以上问题,本文提出了基于标准分数的特征选择方法,结合3D-CNN网络提取高光谱遥感图像的空间和光谱特征,对图像进行分类,并使用大步距卷积层替代池化层[18],以达到提升分类精度和减少计算量的目的。
1标准分数降维的3D卷积神经网络分类方法1.1基于统计方法的高光谱图像异常检测
高光谱图像的异常检测在没有任何已知信息的情况下,逐一检测图像中的每一个像元,若待测像元与周围的背景像元相差较多,则此像元被判定为异常像元,否则为背景像元,图像中的任一像元只属于此两种情况中的一种[19]。
本文为了减少数据量以提升后续分类速度,且通过去除质量较低的波段对分类精度的影响,引入基于统计方法的离群点检测方法,对高光谱数据进行预处理。统计方法中基于分布的方法,是假设给定的数据集符合某种概率分布模型,或利用给定的数据集自动构造其概率分布模型,然后根据分布模型采用不一致性检验来确定离群点,优点是可以达到无监督异常检测且速度较快[20]。其中标准分数是一种常见的一维或低维特征空间中基于统计概率原理的参数异常检测方法[21]。该方法适合处理较大的
无标签高光谱遥感数据集,并且方便后续指标的建立。
1.2标准分数的降维方法
标准分数是一种不受原始测量单位影响的数值,其作用除了能够表明原数据在其分布中的位置外,还能对未来不能直接比较的各种不同单位的数据进行比较。标准分数的计算公式为式(1):
z=x-μ
σ(1)
其中,z为标准分数,x为某一具体分数,μ为平均数,σ为标准差。
本文定义了两个指标来衡量波段质量,第一个是某一波段的样本点的标准分之和,另一指标是某一波段样本点标准分数绝对值大于3的个数。原理是基于统计分布理论,在已知目标概率分布模型的情况下,通过假设检验原理可以进行离群点检测[22]。根据拉依达准则,以3作为阈值,如图1,即样本中99.74%的数据区域的数据视为正常数据,将超出此范围的数据视为异常数据。
设C v为第v类样本(v=1,2,⋯,C),B k表示高光谱遥感图像中第k个波段(k=1,2,⋯,B)。一个波段中,标准分之和越小,说明该波段的反射率越趋于稳定,各样本的离群点个数总数越少,说明该波段数据质量更好。
score k=sumæ
è
ç
ö
ø
÷
X v k-mean(X v k)
std(X v k)(2)
outlier k=sumæ
è
ç
ö
ø
÷
X v k-mean(X v k)
std(X v k)
>2(3)式(2)、(3)中,X v k=[X1v k,X2v k,⋯,X t v k]表示第v类第k个波段的所有像素点,t表示第v类的像素个数,mean(⋅)表示求平均值操作,sum(⋅)代表求和操作。可得到k波段的标准分总分score k和k波段的离群点总数outlier k。
根据上文中定义的两个指标对高光谱遥感图像的每个波段进行评价,本文以标准分总和为主要参考指标,离群点个数作为次要指标,获取质量最好的前15个波段参加后文的分类。
1.33D-CNN模型
卷积神经网络(CNN)是一种专门处理具有类似网络结构的数据的神经网络。卷积神经网络最初受到
视觉系统的神经机制启发,是针对二维形状的识别设计的一种生物物理模型,在平移情况下具有高度不变性,在缩放和倾斜情况下也具有一定的不变性。
但CNN最初是针对二维形状的识别而设计的,对三维数据进行分析时,存在一定的局限性。高光谱图像不同于通常的二维图像,在二维图像空间信息的基础上添加了光谱维,形成三维的数据立方体。针对二维卷积神经网络对三维高光谱数据的信息利用不足的问题,本文采用三维卷积神经网络对降维后高光谱数据立方体进行分析处理。三维卷积神经网络[16]最早被用于视频分析,该方法通过三维卷积操作可以从不同帧间同时提取空间维和时间维特征,因此能更好地对视频中的运动进行分析。三维卷积神经网络(3D-CNN)与二维卷积
2.14%1
3.59%
0.13%34.13%34.13%13.59% 2.14%0.13%
-4.0-3.0-2.0-1.00 1.0 2.0 3.0 4.0
标准分数
每个例数占
总例数的百分比
图1正态分布曲线和标准分之间的关系
170
2021574神经网络(2D-CNN )的网络结构较为类似,都是由卷积层和池化层组成。与2D-CNN 不同的是,3D-CNN 采用的是3D 卷积核来进行卷积操作,这是两种卷积运算的关键区别。网络的第l 层第j 个特征图在位置(x,y,z )处的值v xyz
lj 的计算公式如式(4):
v xyz
lj =f æèççö
ø
÷÷∑m ∑p =0P l -1∑q =0Q l -1∑r =0R l -1w pqr ljm v (x +p )(y +q )(z +r )(l -1)m +b lj (4)
女生英语网名其中,P l 与Q l 表示三维卷积核的长度和宽度;深圳日语
R l 为三维卷积核在光谱维上的尺寸;m 表示第l -1层中与当
前特征图相连的特征图的个数;w pqr
ljm 表示与第l -1层相连的第m 个特征图的权值;v (x +p )(y +q )(z +r )
(l -1)m
表示第l -1
层中第m 个特征图在位置(x +p,y +q,z +r )处的值;
b lj 为第l 层第j 个特征图的偏置;f (⋅)为激活函数。
1.4本文的网络结构
高光谱遥感图像是典型的三维数据立方体,在应用深层网络对其分类时,需要面临高维度导致的“维数
灾难”问题,以及网络参数过多导致的计算量过大问题。在设计适用于高光谱遥感图像分类的CNN 模型时,实验研究表明,当构建一定层数的模型时,进一步增加CNN 模型的层数,会出现分类精度没有提高反而降低的情况,且还会花费更多时间[23]。因此在构建CNN 模型的过程中,需要重点考虑的因素主要为模型的深度(层数)、滤波器的大小和滤波器的数量,其中模型的深度是影响分类精度的主要因素。
针对此问题,本文构建了三维卷积神经网络对降维后的高光谱遥感图像进行分类,网络结构如图2所示。网络由若干层的一维和三维卷积/池化的成对组合以及一层全连接层组成,并且使用大步距的卷积层替代池化层完成特征图的降维操作,从而可以降低网络的参数量,以达到降低计算量的目的。
本文卷积层均采用ReLU 激活函数进行非线性映射。ReLU 激活函数比传统的Sigmoid 函数和tanh 函数收敛速度更快。ReLU 激活函数的形式如式(5):
f (x )=max(0,x )(5)
本文算法分类步骤如下:
(1)构建空谱数据
首先根据标准分对W ×L ×H 的高光谱遥感数进行降维,降维后的数据大小为W ×L ×15,以每个目标像
元为中心,提取邻域大小为5×5×15的高光谱数据立方体及其标签作为训练样本,按照一定的比例随机选取每类像元作为训练样本。由于高光谱遥感图像不同波段的数据范围不一致,为了降低不同数据范围对高光谱遥感图像分类精度的影响,在训练CNN 模型之前需要对高光谱遥感图像数据按波段分别进行归一化操作,才能作为网络模型的标准输入。
(2)提取空谱特征
将上一步骤提取到的高光谱图像数据立方体作为网络的输入,首先经过N 层的K 个三维卷积/池化层的操作,将输出转换为K 个一维输出,再将得到的一维输出作为输入,经过M 层的P 个一维卷积/池化层操作后,得到P 个一维特征图,然后经过全连接层,产生高光谱地物类别数量为n 个的神经元,并在全连接层采用Dropout 方法随机丢弃50%的隐藏层节点以控制过拟合的风险。
(3)分类
在输出层使用Softmax 分类器,完成高光谱遥感图像的多分类任务。n 个标定训练样本(x (i ),y (i ))用于网络的学习,x (i )为第i 个样本,y (i )∈{1,2,⋯,k }为其期望输出的标签。本文构建的目标函数如式(6):
J (θ)=-1n ∑i =1n
∑j =1
k
1{y (i )=j }ln Y (i )
j
(6)
其中,Y (i )=éëêêêêùû
úúú
大学英语精读第一册úe e T 1x (i )∑h =1k e θT h x
(i ),e e T 2x (i )
∑h =1k e θT h x (i ),⋯,e e T k x
(i )∑h =1k e θT h x (i )T
∈R k 为模型的实际预测值;Y (i )j 为Y (i )
的第j 个分量,表示属于第j 类的概率;θ为逻辑回归参数;1{⋅}为示性函数,即当
大括号里为真时,结果为1,否则结果为0。在训练过程
中,采用SGD (Stochastic Gradient Descent )优化器优化目标函数,对参数进行学习。分类结束后,得到每个像元所属的类别。
Softmax 分类器
N 层3D 卷积和池化层K 个1D 输出M 层1D 卷积和池化层P 个1D 输出
全连接层分类结果K 个3D 卷积核
P 个1D 卷积核
降维
15
K
P
w
l
h
motorbike图2本文3D 卷积神经网络结构
171
20215742实验结果和分析
为验证网络的有效性,本文提出的网络算法分别和
SVM 、4层的全连接神经网络(NN )、Hu 的1D-CNN [15]以及Chen 的3D-CNN [17]在Pavia Univer
一般现在时的结构sity 和Pavia Centre 两个数据集上,采用总体分类精度(OA )、F1-score 和Kappa 系数进行精度评价。实验运行环境为GeForce GTX 1060(6GB )的PC ,Windows10系统。
2.1实验数据陕师大研究生院
Pavia Centre 和Pavia University 两个数据集是2013年由德国机载反射光学光谱成像仪ROSIS 传感器在意大利帕维亚的飞行活动中获得的。该光谱成像仪对波长范围为0.43~0.86μm 内的115个波段连续成像,图像分别共有1096×715,610×340个像素,空间分辨率都为1.3m 。由于受到噪声的影响,Pavia Centre 数据集剔除了13个波段,Pavia University 数据集剔除了12个波段,分别剩下102个和103个波段作为分类使用数据,同时两个图像中都包含一些没有信息的样本点,在使用之前已被剔除。两个数据集都包含9种地物类别。两个数据集的伪彩色图和真值图如图3、图4所示。
使用标准分数的方法对两组测试数据集的统计结果如图5、图6,并以每个波段的标准分总和为主要考虑因素,每个波段的离群点个数为次要因素,对每个波段的质量进行评价和排序,并选取质量最优的15个波段进行分类,最终结果如表1。
2.2实验参数设置
本文按照7∶1∶2的比例将数据集分为训练集、验证
集和测试集,网络采取Xavier 初始化方法,
偏置初始化
(a )伪彩色合成图
(b )真值图
图4
Pavia University
数据图像
17131925313743495561677379859197103
波段
2200
210020001900180017001600150014001300
离群点个
数
17131925313743495561677379859197103
波段
3.403.353.303.253.203.15
标准分总和/104
图5
Pavia University
数据集的统计结果
(a )伪彩色合成图
(b )真值图
图3
Pavia Centre
数据图像
17131925313743495561677379859197103
波段
750070006500600055005000
离群点个
数
17131925313743495561677379859197103
波段
12.512.011.511.010.510.09.5
9.0
标准分总和/104
图6Pavia Centre 数据集的统计结果
数据集最优波段
Pavia Centre 82,80,79,81,83,89,90,78,91,88,92,87,93,94,95
Pavia University 70,73,69,68,71,13,72,67,
18,19,12,17,15,14,20
表1
选取的最优波段
172
2021574
为0,Dropout层的参数设置为0.5,采用SGD优化器对网络进行学习训练,学习率设置为0.01。参与结果对比的神经网络均将Batch size设置为100,Epoch为100,每次卷积操作之后都加入了BN层。为适应本文降维后的数据,将参与对比的Chen的3D-CNN[17]的卷积核尺寸由4×4×32调整为4×4×4大小,其余参数不做改变。本文的卷积核采用3×3×3大小,因经过验证,3×3×3的小卷积核能够很好地处理三维时空特征[13]。
2.3网络模型的选择
本节主要比较了网络深度和训练样本的邻域大小的选择对网络精度结果的影响,结果如表2、表3所示,分别构建了4层和6层的网络模型对分类精度进行对比,通过实验结果对比选择适合降维后数据的最优网络。
其中3层卷积的神经网络参考Hu的1D-CNN网络模型[15],在实验中发现两层全连接层对于分类精度影
功夫熊猫2英语版响不大,但是会增加大量网络的参数,因此只采用了一层全连接层。4层和6层的网络参考了Hamida的网络模型[24],4层的卷积神经网络采用了两层的卷积-池化结构,并采用步距为2的小卷积核1×1×3代替了池化层,最后加入一层全连接层。由于大步距小卷积核的加入,使得在加深网络深度的情况下,网络整体的参数不会增加过多,因此尝试构建6层的网络对数据进行分类,在原有4层的基础上,增加一层卷积-池化层,以提取数据更深层次的特征。不同网络的参数和对应的分类精度如表2和表3所示。最后取10次预测结果的OA的平均值和总体方差作为评价指标。从实验结果对比可以看出,6层的网络模型和取邻域大小为5的网络模型对于两个数据集的适应性最好,精度最高。因此采用此模型参与对比,详细的网络模型参数及特征图计算过程如图7所示。
2.4网络模型的时间复杂度分析
网络的时间复杂度以FLOPS(Floating Point Oper-ations Per Second)作为衡量标准,即每秒执行的浮点运算数。卷积的时间和全连接层的复杂度计算公式如式(7)、(8):
网络层数
3
4
6
特征图数量
20,35,35
20,35,35,35
20,35,35,35,35,35
jv是什么意思
3D卷积层数量
2
2
2
1D卷积层数量
1
2
4
全连接层
1
1
1
邻域大小
3
5
7
3
5
7
3
5
7
分类精度/%
89.660±9.460
93.589±12.740
96.500±3.710
97.176±2.665
90.567±14.408
97.033±3.383
92.551±11.235
97.285±2.407
93.403±11.450
表2Pavia Centre数据集中各网络的参数和分类精度
网络层数
3
4
6
特征图数量
20,35,35
20,35,35,35
20,35,35,35,35,35
3D卷积层数量
2
2
2
1D卷积层数量
1
2
4
全连接层
1
1
1
邻域大小
3
5
7
3
5
7
3
5
7
分类精度/%
80.373±18.684
68.041±20.958
67.889±23.793
89.847±5.521
79.445±16.034
78.191±14.230
70.448±25.618
92.101±3.240
sounds interesting
76.676±23.190
表3Pavia University 数据集中各网络的参数和分类精度
Kernel
size (3,3,3)Stride (1,1,1)Padding (0,0,0)
mar是哪个国家的缩写
Kernel
size
(1,1,3)
Stride
(1,1,2)
Padding
(0,0,1)
Kernel
size
(3,3,3)
Stride
(1,1,1)
Padding
(0,0,1)
Kernel
size
(1,1,3)
Stride
(1,1,2)
Padding
(0,0,1)
Kernel
size
(3)
Stride
(1)
Padding
(1)
Kernel
size
(3)
Stride
(2)
Padding
(1)
FC+
Softmax 5-3+2×0
1+1
5-3+2×0
1+1
15-3+2×0
1+1
3
3
13
3
3
7
1
1
7
1
1
4
1
1
3
1
1
2
输入(m,n,15)
特征图
计算过程
特征图
的大小
卷积层参数
图7网络模型的参数结构和特征图大小计算过程
173