-
0 引言
-
遥感影像分类是指用不同的类别来标识遥感影像中的不同目标像素[1].高光谱遥感影像(HSI)因其数据维度高、冗余信息多和下垫面的“同物异谱、同谱异物”复杂特性,导致数据结构呈现高度非线性特征.当前,高光谱遥感影像处理多采用特征提取与分类器结合的方法完成高光谱遥感影像分类任务,如:Licciardi等[2]采用非线性主成分分析(NLPCA)方法,在具有不同空间和光谱分辨率/覆盖度的数据集上均得到相较于线性主成分分析(PCA)更高的分类精度; Villa等[3]提出一种基于贝叶斯分类准则的独立分量判别分析(ICDA)方法,并在不同数据集上与支持向量机[4]进行比较测试,验证了ICDA方法的明显优势.两种方法都达到了降低影像处理难度、提高分类精度的目标.为了更贴合遥感目标地物离散分布的实际,要充分使用数据中的空间信息,以解决高光谱数据中的非线性问题.常见的机器学习分类器有最大似然法(MLC)和人工神经网络(ANN)[5-6]等,而改进型的机器学习方法有基于稀疏表示的扩展形态学属性断面算法[7]、基于全变差优化的稀疏图结构[8]等,在一些特定领域数据集上得到了较理想的分类结果.但是,使用机器学习的分类方法仍然面临许多问题:
-
1)分类速度慢、精度低.其原因是高光谱遥感影像数据量大.相较于单波段遥感影像,高光谱遥感影像数据量增加了几十甚至上百倍.更大的数据量包含更多的信息冗余,影响分类精度.且相较于深度学习方法,机器学习无法较好地使用GPU加速,造成事实上的硬件资源浪费.
-
2)数据预处理困难.高光谱遥感图像成像机理特殊、分类所需数据量大,难以进行高效率、高精度的预处理操作,如大气纠正、几何校正、光谱定标、反射率转换等.
-
3)训练样本关系复杂或者信息缺失.高光谱遥感图像的波段多,且波段间的相关性复杂,分类时需要参考多类训练样本的信息.当其中任一类训练样本信息缺失时,都将导致整个实验的训练受到影响.
-
4)统计学分类模型参数的估计较困难,以至模型对光谱特征选择的要求难以满足.
-
深度学习框架的兴起,在各类图像处理领域展现出了超强的处理复杂问题的能力.遥感图像分类是一类特殊的图像处理任务,需要结合计算机视觉图像分类、目标检测和语义分割等技术来实现.Zhao 等[9]结合PCA和融入了平衡局部判别嵌入算法的2DCNN(2D Convolutional Neural Network)处理高光谱图像,以提取其空间和光谱信息特征.Yue 等[10]使用2DCNN进行遥感图像特征提取,并结合逻辑回归分类器实现分类.Zhong等[11]提出有监督空谱残差网络(SSRN),基于3DCNN[12]实现了连续的空间模块和光谱残差模块,以提取空间信息和光谱信息.相较于1DCNN和2DCNN,3DCNN可实现更高精度的遥感图像分类,其本身即可实现空间和光谱维度的同时采样.但3DCNN运行时占用内存较大,运行速度相对1DCNN和2DCNN较慢,不适用于实际部署.但1DCNN和2DCNN 等方法需要分开提取遥感图像的空间和光谱维度信息,且预处理工作复杂,无法实现空间和光谱信息的充分融合利用.
-
针对上述问题,本研究将深度学习技术应用于高光谱遥感图像[13]处理中.以SegNet[14]模型为基础模型,使用改进的2DCNN模块进行基础模型结构重构.对Pavia University HSI数据集[15]进行图像语义分割实验,并在其他常用HSI数据集(Salinas、Indian Pines和Pavia Centure)上进行模型鲁棒性验证.在提高分类精度的同时,寻找内存使用和运行速度方面的优化解决方案.
-
本文的主要贡献性工作如下:
-
1)通过多个实验指标综合对比分析了高光谱遥感图像的多种CNN分类方法;
-
2)参考SegNet的Encoder-Decoder结合双卷积池化思想改进2DCNN;
-
3)实现了兼顾快速、轻量和精准的高光谱遥感图像分类.
-
1 材料与方法
-
1.1 数据
-
Pavia University HSI数据集由 ROSIS 传感器收集的意大利北部地区帕维亚大学校园及其周边场景的光谱信息.影像尺寸为 610像素×340像素,空间分辨率为1.3 m,波长为 0.43~8.6 μm,其中有103个波段可用于常规分类任务.该场景下垫面中含9类地物,共42 776 个样本.详细类别信息如表1所示.
-
图1 研究区域的假彩色图
-
Fig.1 False color plots of the study area
-
研究区地面参考图像和假彩色图像如图1所示.图1中各个合成波段合成形式为(Red,Green,Blue),各波段波长(单位:cm-1)为:1)合成波段1,(65,27,11);2)合成波段2,(90,60,30);3)合成波段3,(60,90,30);4)合成波段4,(90,60,30).
-
本研究中除Pavia University 数据集外,还使用了部分其他常见的公开高光谱遥感图像数据集,如Salinas、Indian Pines和Pavia Centure等(数据来源:https://www.ehu.eus/ccwintco/index.php/Hyperspectral_Remote_Sensing_Scenes).综合使用多种数据集可检验分类算法或分类模型的鲁棒性.
-
1.2 遥感图像分类模型
-
1.2.1 2DCNN
-
在1DCNN中,内核沿1个方向移动,其输入和输出都是2维数据,主要用于时间序列数据处理任务[16].在2DCNN中,内核沿2个方向移动,其输入和输出都是3维数据,主要用于图像数据处理任务[17-18].在3DCNN中,内核在3个方向上移动,其输入和输出都是4维数据,通常用于3D 图像数据[19],如MRI[20]、CT扫描[21]等.相较于3DCNN,2DCNN的计算量(FLOPs)[22]更少(也即模型复杂度更小).相应地,2DCNN计算速度更快[23].在不考虑激活函数[24]的情况下,2DCNN卷积层和全连接层的计算方式[25]如下.
-
1)卷积层
-
其中,Ci是输入通道,Co是输出通道,K是卷积核尺寸,H、W是输出特征图的尺寸.
-
2)全连接层
-
其中,I是输入神经元的数量,O是输出神经元的数量.
-
当考虑偏置时,式(1)变为
-
相应地,式(2)变为
-
而3DCNN的运算次数计算方式(不加偏置时)为
-
其中,T表示时间维度.相应地,考虑偏置时计算方式为
-
对比上述各式可知,对于同一个图像处理任务,3DCNN的计算量比2DCNN多出了K×T倍.即在算力不变的条件下,2DCNN相应的计算时间为3DCNN的.
-
另外,本文中在对比模型运行结果时用到了F1指标,其计算公式如下:
-
其中,P和R分别为精准度和召回率,其计算公式分别如下:
-
其中:TP表示真正例的数目; FP表示假正例的数目; FN表示假负例的数目.TP、FP和FN通过分类结果混淆矩阵计算得出.
-
1.2.2 SegNet
-
SegNet是一种深度全卷积神经网络,可用于图像语义分割.SegNet核心结构是一个编码器和一个对应的解码器,如图2[14]所示.编码器在每个最大池化步骤中保存了计算的池化索引,并将之用于解码器来执行非线性上采样.与反卷积相比,这种编码解码方法减少了参数量和运算量,而且避免了学习上采样的工作.值得注意的是,反池化(Unpooling)是上采样(Upsampling)最常用的一种实现方法,以至于两者常混淆使用,池化(Pooling)则是下采样(Downsampling)唯一的实现方法.
-
图2 SegNet结构示意[14]
-
Fig.2 Schematic of SegNet structure[14]
-
SegNet以几乎对称的下采样和上采样结构(图2、3),对图像进行简单明了的处理.模型结构简洁高效,且实现简单,适用于图像语义分割任务,特别是遥感图像处理.本研究将借鉴此编码-解码结构,实现Pavia University HSI卫星图像的特征提取.
-
1.2.3 En-De-2CP-2DCNN
-
本文提出的编解码双卷积池化2DCNN 模型即En-De-2CP-2DCNN,如图4所示.
-
En-De-2CP-2DCNN模型包含一个Encoder-Decoder结构模块和一个2CP-2DCNN模块.2CP-2DCNN包含3个双卷积池化结构、1个随机丢弃层和 3个双卷积加上采样结构(池化).模型选择(32×32×200,pixel)作为输入像素块尺寸.为了能够对遥感图像的边缘特征进行同等质量的提取,采用Padding方法对原始输入图像(145×145×200,pixel)进行边缘填充至(155×155×200,pixel).
-
图3 下采样和上采样示意
-
Fig.3 Schematic of upsampling and downsampling
-
图4 En-De-2CP-2DCNN模型总体架构
-
Fig.4 Overall architecture of the proposed En-De-2CP-2DCNN model
-
本研究的实验平台、软硬件配置和开发环境如表2所示.
-
2 结果与讨论
-
2.1 1DCNN、2DCNN和3DCNN分类结果
-
当使用同样超参数时(超参数均为:Epochs=100,Batch_size=64,Learning_rate=0.001),3种CNN模型在Pavia University HSI数据集上的分类结果(以Loss值和Accuracy为评估指标),如图5所示.
-
图5 使用同组超参数时Pavia University HSI分类结果的Accuracy和Loss值曲线
-
Fig.5 Curves of accuracy and loss for classification on Pavia University HSI when using same hyper-parameters
-
当不使用同样超参数,以结果为导向,试探性寻找3个模型取得各自最优结果时的超参数组合.在Pavia University HSI数据集上进行分类,其结果与使用同样超参数时的结果指标对比,如表3所示.
-
2.2 En-De-2CP-2DCNN分类结果
-
En-De-2CP-2DCNN模型性能指标(各模型表现最好时的时间、精度和参数量,使用Pavia University HSI数据集)如表4所示.
-
使用En-De-2CP-2DCNN模型在其他常见HSI数据集上的分类结果如表5所示.
-
限于篇幅,表5未将全部分类结果列出,省略了无对比参考意义的若干数据.如Accuracy项,只把En-De-2CP-2DCNN模型的分类结果与一般情况下均可获得最高Accuracy值的3DCNN模型分类结果对比.参数量项,不再列出与改进模型大小相近的2DCNN.在测试时间项中,因3DCNN处理时间太长(参考表4),将研究值与之比较无参考意义,因此也不再列出.
-
使用改进模型En-De-2CP-2DCNN对Pavia University HSI数据进行分类,并与其他模型分类结果进行直观对比,结果如图6所示.其中,2Conv-3D-CNN是使用双卷积改造的3DCNN模型.
-
2.3 讨论
-
高光谱遥感在各种植被指数提取、精准农业、水体监测、矿物勘探、环境监测和土地规划等领域已经被广泛应用[26-28].高光谱遥感图像分类,是计算机视觉领域的图像分类和图像语义分割的结合,是高光谱图像数据分析和应用的前提.
-
深度学习是一种严重依靠超参数的学习策略.在有些情况下,模型收敛缓慢,达到最佳表现需要异常极端的条件(如很大的Epochs值、很小的Batch_size值),此时,模型效率非常低,寻求参数最优值和最佳参数组合的工作会非常困难.所以,常见的模型性能对比方法是:使用同样的超参数(如Epochs、Batch_size、Learning_rate等),并保证同样的硬件配置和独立的运行环境.然而,硬件配置的一致性和独立的运行环境固然重要,但还是应该在超参数配置方面继续深入讨论和实验验证:同一组参数可能刚好适用于某个模型而不适用于其他模型.此推测可通过图7所示的5个Accuracy曲线得到更直观的验证.
-
图6 Pavia University HSI分类结果对比
-
Fig.6 Comparison of classification results on Pavia University HSI
-
图7a和7b分别为本文构建的两种简单CNN模型的Accuracy曲线.明显地,图7a在100个Epoch内未实现收敛,即该模型的最佳结果需要超参数Epoch>100,而图7b则在100个Epoch内较图7a有更明显的收敛趋势.但这并不能证明图7b所示模型的收敛速度更快,因为模型短暂收敛后可能会出现过拟合现象.1DCNN在Epoch=20时出现短暂收敛(图7c),但在Epoch=30时再次发散(出现过拟合现象).因此,在较小的Epoch值内对CNN1和CNN2的性能进行比较无实际意义.为了对所有模型的最佳表现进行对比,应该设置较宽松的超参数约束条件.但限于计算算力及硬件配置(主要是有限的GPU资源),太宽松的超参数,例如很大的Batch_size和Epoch将导致模型运行效率的急剧下降.为了提高寻优工作的效率,本研究采用的策略是:首先,进行同样超参数情况下的对比实验; 然后,观察并对比分析各个模型的Accuracy和Loss曲线变化情况,并根据曲线走势推测模型运行情况(是否出现收敛或过拟合现象); 最后,根据分析结果进行超参数调优,并结合学习策略的调整,寻求模型最佳表现.
-
Epoch、Batch_size、Learning_rate、L1/L2等是较常见的超参数,它们无法被模型在训练过程中自动学习或者调整,需要在模型构建过程中手动调整.通常根据经验选择不同的值,通过对比实验结果来验证超参数的优劣[29].当使用同组超参数时,观察图7c、7d、7e中“Val_Acc”曲线的变化情况:1DCNN,在Epoch=20时开始出现过拟合现象,并逐渐加重; 2DCNN,有多处较为剧烈的跳跃,表明模型不稳定; 3DCNN,虽有轻微跳跃和过拟合,但总体收敛走势比较理想.数据集和运行环境一般不随意变动,不同模型的分类效果产生差异的因素是模型本身结构不同导致拟合数据的策略不同.因此,针对不同模型需要设置不同的超参数.对比表3可知,当使用同一组参数时,只有3DCNN模型的评估指标与其最佳表现近似,其他模型的评估指标都与各自的最佳表现相差较大.
-
3 结论
-
本研究围绕高光谱遥感图像(HSI)分类中的处理速度、精度和参数量等指标,开展卷积神经网络分类模型的结构改进和优化.以2DCNN为基础模型,融入SegNet的Encoder-Decoder结构和双卷积池化思想,提出一种En-De-2CP-2DCNN模型.为此进行了1DCNN、2DCNN和3DCNN等模型性能对比实验,并在此基础上进行了2DCNN为基础模型的结构改造和学习策略优化实验,提出了En-De-2CP-2DCNN模型,并在Salinas等其他3个常见HSI数据集上进行了鲁棒性验证实验.模型改进工作以实际应用和轻量化部署为标准开展.实验结果表明新模型能有效提高高光谱遥感影像地物分类精度,且参数量更少、模型运行时间更少、计算效率更高,有利于实现移动端的轻量化部署.
-
图7 多个模型的Accuracy曲线对比
-
Fig.7 Comparison of accuracy curves of some models
-
参考文献
-
[1] 杜培军,夏俊士,薛朝辉,等.高光谱遥感影像分类研究进展[J].遥感学报,2016,20(2):236-256.DU Peijun,XIA Junshi,XUE Zhaohui,et al.Review of hyperspectral remote sensing image classification[J].Journal of Remote Sensing,2016,20(2):236-256
-
[2] Licciardi G,Marpu P R,Chanussot J,et al.Linear versus nonlinear PCA for the classification of hyperspectral data based on the extended morphological profiles[J].IEEE Geoscience and Remote Sensing Letters,2012,9(3):447-451
-
[3] Villa A,Benediktsson J A,Chanussot J,et al.Hyperspectral image classification with independent component discriminant analysis[J].IEEE Transactions on Geoscience and Remote Sensing,2011,49(12):4865-4876
-
[4] Hwang J T,Chang K T,Chiang H C.Satellite image classification based on Gabor texture features and SVM[C]//2011 19th International Conference on Geoinformatics.June 24-26,2011,Shanghai,China.IEEE,2011:1-6
-
[5] Li J,Bioucas-Dias J M,Plaza A.Semisupervised hyperspectral image segmentation using multinomial logistic regression with active learning[J].IEEE Transactions on Geoscience and Remote Sensing,2010,48(11):4085-4098
-
[6] Mahmon N A,Ya'acob N.A review on classification of satellite image using artificial neural network(ANN)[C]//2014 IEEE 5th Control and System Graduate Research Colloquium.August 11-12,2014,Shah Alam,Malaysia.IEEE,2014:153-157
-
[7] Song B Q,Li J,Dalla M M,et al.Remotely sensed image classification using sparse representations of morphological attribute profiles[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(8):5122-5136
-
[8] Du P J,Xue Z H,Li J,et al.Learning discriminative sparse representations for hyperspectral image classification[J].IEEE Journal of Selected Topics in Signal Processing,2015,9(6):1089-1104
-
[9] Zhao W Z,Du S H.Spectral-spatial feature extraction for hyperspectral image classification:a dimension reduction and deep learning approach[J].IEEE Transactions on Geoscience and Remote Sensing,2016,54(8):4544-4554
-
[10] Yue J,Zhao W Z,Mao S J,et al.Spectral-spatial classification of hyperspectral images using deep convolutional neural networks[J].Remote Sensing Letters,2015,6(6):468-477
-
[11] Zhong Z L,Li J,Luo Z M,et al.Spectral-spatial residual network for hyperspectral image classification:a 3-D deep learning framework[J].IEEE Transactions on Geoscience and Remote Sensing,2018,56(2):847-858
-
[12] Tran D,Bourdev L,Fergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision(ICCV).December 7-13,2015,Santiago,Chile.IEEE,2016:4489-4497
-
[13] 黎江,许明慧,张羽.基于Mask R-CNN的遥感影像土地分割与轮廓提取[J].南京信息工程大学学报(自然科学版),2021,13(1):116-123.LI Jiang,XU Minghui,ZHANG Yu.Land segmentation and contour extraction of remote sensing image based on Mask R-CNN[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(1):116-123
-
[14] Badrinarayanan V,Kendall A,Cipolla R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495
-
[15] Derosa G,Sahebkar A,Maffioli P.The role of various peroxisome proliferator-activated receptors and their ligands in clinical practice[J].Journal of Cellular Physiology,2018,233(1):153-161
-
[16] Jiang L L,Wang Y X,Zheng W Y,et al.LSTMSPLIT:effective SPLIT learning based LSTM on sequential time-series data[J].arXiv e-print,2022,arXiv:2203.04305
-
[17] Park S,Hwang J,Kwak N.3D human pose estimation using convolutional neural networks with 2D pose information[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2016:156-169
-
[18] Ghulam A,Ali F,Sikander R,et al.ACP-2DCNN:deep learning-based model for improving prediction of anticancer peptides using two-dimensional convolutional neural network[J].Chemometrics and Intelligent Laboratory Systems,2022,226:104589
-
[19] Kamnitsas K,Ledig C,Newcombe V F J,et al.Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation[J].Medical Image Analysis,2017,36:61-78
-
[20] Guida C,Zhang M,Shan J A.Knee osteoarthritis classification using 3D CNN and MRI[J].Applied Sciences,2021,11(11):5196
-
[21] Mecheter I,Abbod M,Zaidi H,et al.Brain MR images segmentation using 3D CNN with features recalibration mechanism for segmented CT generation[J].Neurocomputing,2022,491:232-243
-
[22] Morisita H,Inakagata K,Osana Y,et al.Implementation and evaluation of an arithmetic pipeline on FLOPS-2D:multi-FPGA system[J].ACM SIGARCH Computer Architecture News,2010,38(4):8-13
-
[23] Jin B W,Xu Z.EAC-net:efficient and accurate convolutional network for video recognition[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):11149-11156
-
[24] Xu B,Wang N,Chen T,et al.Empirical evaluation of rectified activations in convolutional network[J].arXiv e-print,2015,arXiv:1505.00853
-
[25] Garland J,Gregg D.HOBFLOPS CNNs:hardware optimized bitslice-parallel floating-point operations for convolutional neural networks[J].arXiv e-print,2020,arXiv:2007.06563
-
[26] 张煜东,吴乐南,王水花,等.一种基于神经网络的遥感图像压缩编码[J].南京信息工程大学学报(自然科学版),2009,1(1):82-88.ZHANG Yudong,WU Lenan,WANG Shuihua,et al.A neural network based compression coding for remote sensing images[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2009,1(1):82-88
-
[27] 张霞,刘良云,赵春江,等.利用高光谱遥感图像估算小麦氮含量[J].遥感学报,2003,7(3):176-181,242.ZHANG Xia,LIU Liangyun,ZHAO Chunjiang,et al.Estimating wheat nitrogen concentration with high spectral resolution image[J].Journal of Remote Sensing,2003,7(3):176-181,242
-
[28] 康健,管海燕,于永涛,等.基于RFA-LinkNet模型的高分遥感影像水体提取[J].南京信息工程大学学报(自然科学版),2023,15(2):160-168.KANG Jian,GUAN Haiyan,YU yongtao,et al.RFA-LinkNet:a novel deep learning network for water body extraction from high-resolution remote sensing images[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(2):160-168
-
[29] 邓帅.基于改进贝叶斯优化算法的CNN超参数优化方法[J].计算机应用研究,2019,36(7):1984-1987.DENG Shuai.Hyper-parameter optimization of CNN based on improved Bayesian optimization algorithm[J].Application Research of Computers,2019,36(7):1984-1987
-
摘要
针对传统遥感图像处理中的时间成本和人工成本高、效率低等问题,以提高遥感高光谱图像分类中的处理速度、精度,降低参数量为目标,提出改进的2DCNN模型En-De-2CP-2DCNN.首先,使用1DCNN、2DCNN与3DCNN在Pavia University HSI数据集上分别进行分类实验,对比分析各自优缺点.其次,在保持较快的处理速度和不增加模型参数量的前提下,选择2DCNN为基础模型,参考SegNet的Encoder-Decoder结构,融入双卷积池化思想进行基础模型改进,同时优化学习策略.结果表明:En-De-2CP-2DCNN模型F1为99.96%,达到3DCNN的同等水平(99.36%),较改进前(97.28%)提高2.68个百分点;处理速度(5 s/epoch)和1DCNN位于同一量级,快于3DCNN(96 s/epoch);参数量(2.01 MB)较改进前降低了1.54 MB,虽高于3DCNN(316 KB),但远低于1DCNN(19.21 MB).En-De-2CP-2DCNN模型在处理速度和参数量方面的改进,有利于进一步实现移动端的轻量化部署.
Abstract
To address the problems of high cost of time and labor and low efficiency frustrated traditional remote sensing image processing,an improved 2DCNN (2D Convolutional Neural Network) model abbreviated as En-De-2CP-2DCNN was proposed,with the purpose to improve the processing speed,accuracy and reduce the number of parameters in the classification of remote sensing Hyperspectral Images (HSI).First,1DCNN,2DCNN and 3DCNN were used to carry out classification experiments on Pavia University HSI dataset,and their advantages and disadvantages were compared and analyzed.Second,under the premise of maintaining fast processing speed without increasing model parameters,the 2DCNN was selected as the basic model,which was then improved with referring to the Encoder-Decoder structure of SegNet and integrating the idea of double convolutional pooling,and the learning strategy was optimized.The results show that the F1-score of the proposed En-De-2CP-2DCNN model is 99.96%,reaching the same level of 3DCNN (99.36%),which is 2.68 percentage points higher than that before improvement (97.28%);the processing speed (5 s/epoch) is comparable to that of 1DCNN and faster than 3DCNN (96 s/epoch);the amount of parameters is reduced from 3.55 MB to 2.01 MB,which is higher than 3DCNN (316 KB) but much lower than 1DCNN (19.21 MB).The proposed En-De-2CP-2DCNN model realizes accurate,fast and lightweight processing of remote sensing hyperspectral images.In particular,the improvement in processing speed and parameter amount is conducive to further realizing the lightweight deployment of mobile terminals.