en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
作者简介:

张云佐,男,博士,副教授,研究方向为计算机视觉、人工智能、大数据分析、复杂信息系统设计.zhangyunzuo888@sina.com

中图分类号:TP391.4

文献标识码:A

DOI:10.13878/j.cnki.jnuist.20230829001

参考文献 1
王李祺,张成,侯宇超,等.基于深度学习特征融合的遥感图像场景分类应用[J].南京信息工程大学学报(自然科学版),2023,15(3):346-356.WANG Liqi,ZHANG Cheng,HOU Yuchao,et al.Remote sensing image scene classification based on deep learning feature fusion[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(3):346-356
参考文献 2
Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'05).June 20-25,2005,San Diego,CA,USA.IEEE,2005:886-893
参考文献 3
Lienhart R,Maydt J.An extended set of Haar-like features for rapid object detection[C]//Proceedings of International Conference on Image Processing.September 22-25,2002,Rochester,NY,USA.IEEE,2002.DOI:10.1109/icip.2002.1038171
参考文献 4
Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.December 8-14,2001,Kauai,HI,USA.IEEE,2003.DOI:10.1109/CVPR.2001.990517
参考文献 5
张兵.光学遥感信息技术与应用研究综述[J].南京信息工程大学学报(自然科学版),2018,10(1):1-5.ZHANG Bing.A survey of developments on optical remote sensing information technology and applications[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2018,10(1):1-5
参考文献 6
黎江,许明慧,张羽.基于Mask R-CNN的遥感影像土地分割与轮廓提取[J].南京信息工程大学学报(自然科学版),2021,13(1):116-123.LI Jiang,XU Minghui,ZHANG Yu.Land segmentation and contour extraction of remote sensing image based on Mask R-CNN[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(1):116-123
参考文献 7
张雪红,吴雨阳,王永俊,等.基于热红外和夜间灯光遥感的GDP空间化研究:以福建省为例[J].南京信息工程大学学报(自然科学版),2021,13(6):720-729.ZHANG Xuehong,WU Yuyang,WANG Yongjun,et al.GDP spatialization based on thermal infrared and night light remote sensing:a case study in Fujian province[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(6):720-729
参考文献 8
董超,刘晶红,徐芳,等.光学遥感图像舰船目标快速检测方法[J].吉林大学学报(工学版),2019,49(4):1369-1376.DONG Chao,LIU Jinghong,XU Fang,et al.Fast ship detection in optical remote sensing images[J].Journal of Jilin University(Engineering and Technology Edition),2019,49(4):1369-1376
参考文献 9
Wu C P,Wen W,Afzal T,et al.A compact DNN:approaching GoogLeNet-level accuracy of classification and domain adaptation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:761-770
参考文献 10
Iandola F N,Han S,Moskewicz M W,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size[J].arXiv e-print,2016,arXiv:1602.07360
参考文献 11
Howard A G,Zhu M L,Chen B,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[J].arXiv e-print,2017,arXiv:1704.04861
参考文献 12
Sandler M,Howard A,Zhu M L,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:4510-4520
参考文献 13
Howard A,Sandler M,Chen B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:1314-1324
参考文献 14
Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141
参考文献 15
Han K,Wang Y H,Tian Q,et al.GhostNet:more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:1577-1586
参考文献 16
Li H,Kadav A,Durdanovic I,et al.Pruning filters for efficient ConvNets[J].arXiv e-print,2016,arXiv:1608.08710
参考文献 17
Liu Z,Li J G,Shen Z Q,et al.Learning efficient convolutional networks through network slimming[C]//2017 IEEE International Conference on Computer Vision(ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2755-2763
参考文献 18
Yang L X,Zhang R Y,Li L D,et al.SimAM:a simple,parameter-free attention module for convolutional neural networks[C]//38th International Conference on Machine Learning,2021:11863-11874
参考文献 19
刘丽伟,侯德彪,侯阿临,等.基于SimAM-YOLOv4的自动驾驶目标检测算法[J].长春工业大学学报,2022,43(3):244-250.LIU Liwei,HOU Debiao,HOU Alin,et al.Automatic driving target detection algorithm based on SimAM-YOLOv4[J].Journal of Changchun University of Technology,2022,43(3):244-250
参考文献 20
Yu N G,Qiu S,Hu X L,et al.Accelerating convolutional neural networks by group-wise 2D-filter pruning[C]//2017 International Joint Conference on Neural Networks(IJCNN).May 14-19,2017,Anchorage,AK,USA.IEEE,2017:2502-2509
参考文献 21
Law H,Deng J.CornerNet:detecting objects as paired keypoints[J].International Journal of Computer Vision,2020,128(3):642-656
参考文献 22
Duan K W,Bai S,Xie L X,et al.CenterNet:keypoint triplets for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:6568-6577
参考文献 23
Ge Z,Liu S T,Wang F,et al.YOLOX:exceeding YOLO series in 2021[J].arXiv e-print,2021,arXiv:2107.08430
参考文献 24
Zhang H Y,Wang Y,Dayoub F,et al.VarifocalNet:an IoU-aware dense object detector[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:8510-8519
参考文献 25
Yi J R,Wu P X,Liu B,et al.Oriented object detection in aerial images with box boundary-aware vectors[C]//2021 IEEE Winter Conference on Applications of Computer Vision(WACV).January 3-8,2021,Waikoloa,HI,USA.IEEE,2021:2149-2158
参考文献 26
Hou L P,Lu K,Xue J A,et al.Shape-adaptive selection and measurement for oriented object detection[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(1):923-932
参考文献 27
Tian Z,Shen C H,Chen H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:9626-9635
目录contents

    摘要

    现有遥感图像目标检测算法存在参数量大、检测速度慢和难以部署于移动设备的问题,为此,本文提出了一种无锚框的轻量级遥感图像目标检测算法.首先设计了DWS-Sandglass轻量化模块以降低模型体积,并改进模型激活函数,以确保检测精度.然后引入无参数注意力模块SimAM,使网络能够专注于更重要的特征信息.最后对无锚框算法的冗余通道进行剪枝操作以减少模型参数量,并通过微调回升精度.在HRSC2016数据集上的实验结果表明,与当前主流的无锚框检测算法相比,该算法在检测精度相当的情况下检测速度更快、模型体积更小,更适合在移动设备部署.

    Abstract

    The existing remote sensing image object detection algorithms have been frustrated by large parameter quantities,slow detection speed and inability to deploy on mobile devices.Here,we propose a lightweight remote sensing image object detection algorithm without anchor frames.First,a DWS-Sandglass lightweight module is designed to reduce the model volume,and the activation function of the model is improved to ensure detection accuracy.Then,a parameter free attention module SimAM is introduced to enable the network to focus on more important feature information.Finally,the redundant channels of the anchor frame free algorithm are pruned to reduce the number of model parameters,and the accuracy is improved by fine tuning.The experimental results on HRSC2016 dataset show that compared with current mainstream detection algorithms free of anchor frame,the proposed algorithm has faster detection speed and smaller model size,making it more suitable for deployment on mobile devices with comparable detection accuracy.

  • 0 引言

  • 航天遥感技术的飞速发展使高质量的遥感图像逐步增多.因此,遥感图像目标检测技术已成为计算机视觉领域的重要研究方向.传统目标检测方法通常可分为3步:1)通过区域选择器以遍历的方式选出候选区域; 2)利用HOG[1]、Haar[2]等特征提取器进行特征提取; 3)使用AdaBoost[3]、支持向量机[4]等分类器对提取到的特征进行分类.但该类方法通过穷举候选框来得到感兴趣区域,不仅时间复杂度高,而且会产生大量窗口冗余.此外,手工设计的特征提取器泛化能力不足以应对遥感图像中的复杂场景和多类目标检测任务.

  • 得益于硬件和算力的发展,基于深度学习的遥感图像目标检测算法逐渐代替传统方法成为了主流.与传统方法相比,基于深度学习的方法因其出色的特征表达和学习能力促进了遥感图像目标检测的发展.目前,基于深度学习的遥感图像目标检测已经在各个领域有广泛的应用[5],为土地监测[6]、资源调查[7]、海洋测绘[8]等领域提供了新的解决方案.然而,传统的基于深度学习的遥感图像目标检测方法往往追求精度的提升,一般不考虑模型的复杂性和算法的计算速度.但在实际遥感应用场景中不仅要考虑检测的准确性,还要考虑工程应用中的运行效率和部署难度.随着卷积神经网络在可移动设备上的应用需求不断增加,轻量级网络结构的设计得到了极大的发展[9]

  • SqueezeNet[10]的提出开辟了轻量化卷积神经网络的发展道路.SqueezeNet通过使用1×1卷积减少参数量来缩小特征图,此外,它减少了3×3卷积的输入通道数量,以进一步降低参数量.同时,为了保证输出的准确性,在网络的后期使用池化操作,使卷积层具有更大的特征图.而更大的特征图可以容纳更多的信息,从而可以提高分类的准确性.尽管SqueezeNet在网络参数量上具有优势,但该网络的模型计算量相对较高,在速度方面和其他轻量级卷积神经网络模型相比较慢.

  • MobileNetv1[11]使用深度可分离卷积大大减少了参数量和计算量,并在此基础上使用两个超参数以进一步减少模型体积.在MobileNetv1整体网络中,大部分的参数和计算量都被1×1卷积所占据,所以,该方法的速度取决于1×1卷积.这也为后来的MobileNetv2[12]提供了一个改进方向,即着重减少网络中1×1卷积的比例.

  • 为了进一步降低模型的计算复杂度,许多学者都进行了研究.Mo-bileNetv3[13]将SENet[14]注意力机制引入MobileNetv2中,并重新设计了尾部.华为诺亚提出了GhostNet[15],此网络通过恒等映射和线性变换的方式减少了模型的参数量.Li等[16]提出kernel-wise的剪枝方法,通过移除特定卷积核,在对网络性能影响较小的前提下使模型尺寸得到相当大的压缩.在卷积核剪枝的基础上,Liu等[17]对剪枝方法进行了进一步细化,提出了基于卷积核通道即所谓的 channel-wise 的通道剪枝算法,通过联合BN层γ参数训练的方法,进一步压缩模型体积,减少网络参数量.但是这些方法都需要启发式调整参数量.

  • 基于以上分析,本文提出了一种无锚框的轻量级遥感图像目标检测算法.此算法基于无锚的YOLOx模型,减少了需要启发式调整的设计参数量.在此基础上设计了DWS-Sandglass轻量化模块以降低模型体积,并通过改进模型激活函数以提高检测精度.同时引入无参数注意力模块SimAM,使网络能够专注于更重要的特征信息.最后,对模型中的冗余通道进行剪枝操作以减少模型参数量.

  • 1 本文所提方法

  • 针对现有模型运行速度慢、体积大,难以在移动端部署的问题,本文提出一种基于无锚框的轻量级遥感图像目标检测算法,网络结构如图1所示.该算法以无锚框检测模型YOLOx为基础框架.在Backbone中,通过卷积和所提出的轻量化模块DWS-Sandglass提取遥感图像目标的浅层纹理特征和深层语义特征,并将3组不同尺度的特征图(C3~C5)输入到特征融合模块FPN中.SimAM注意力机制的引入使网络能够在保持模型参数量和复杂度的情况下专注于主干网络提取的重要特征信息.最后对模型中冗余通道进行剪枝操作进一步压缩模型体积,并通过微调回升模型精度.

  • 1.1 DWS-Sandglass模块设计

  • 逆残差模块中的逆残差学习和线性瓶颈层的设计使其取得了良好的效果,但这样的设计存在一些问题,逆残差模块中采用的先升维后降维的结构容易削弱梯度的跨层传播能力,造成特征从高维空间压缩到低维空间时信息的丢失.为此,MobileNeXt中提出了一种新的沙漏瓶颈模块Sandglass,它运用了两次深度卷积这样的轻量级单元来编码更多的空间信息,可以将更多的信息从底层传递到顶层.另外,还设计了一个更宽的网络结构缓解梯度混淆的问题.具体实现方法是采用沙漏形的网络结构,从通道维度上执行先降采样后升采样的操作,沙漏瓶颈模块结构如图2所示.

  • Sandglass模块的运算复杂度SG和参数量SP的计算公式分别如式(1)和式(2)所示:

  • SG=H×W×Cin ×3×3+Cin ×Cin T×Cin T×Cout +Cout ×3×3,
    (1)
  • 图1 算法网络结构

  • Fig.1 Algorithm network structure

  • 图2 沙漏瓶颈模块结构

  • Fig.2 Sandglass bottleneck module structure

  • SP=Cin ×3×3+Cin ×Cin T+Cin T×Cout +Cout ×3×3.
    (2)
  • 式(1)和式(2)中的HW分别表示输入特征图和输出特征图的高和宽,T表示Sandglass模块的缩放系数,CinCout分别表示输入特征图和输出特征图的通道数.

  • 轻量级骨干网络MobileNeXt虽然可以减少网络中的计算量和参数数量,但其特征提取能力不足.本文在Sandglass的基础上提出DWS-Sandglass模块,如图3所示.

  • 图3 DWS-Sandglass模块

  • Fig.3 DWS-Sandglass module

  • 首先,利用第1个步长为2的3×3深度可分离卷积实现下采样操作,然后,为了减少特征提取过程中的信息丢失,将2个逐点卷积的步长设置为1.为了提高网络的泛化性与准确性,此模块用Mish激活函数替换ReLU激活函数,Mish激活函数对负值容许度高的特点容易使神经网络中包含更好的信息.另外,为了增强残差单元中梯度跨层传播的能力,在DWS-Sandglass模块中额外构建了跨层交互路径.

  • 1.2 改进的激活函数

  • 基线模型中使用的激活函数是SiLU,它是Sigmoid函数的改进版本,具有无上界、下界、平滑和非单调的特点.非单调激活函数可以与其他激活函数区分开来.其作用可以表示为

  • y(x)=x1+e-x
    (3)
  • ELiSH激活函数采用了交叉算子的思想,能够更好地改善信息流,避免梯度消失的问题.在正数部分,它与SiLU激活函数具有相同的性质,而在负数部分,它可以看作是Sigmoid函数与ELU函数的乘积.其作用可以表示为

  • y(x)=x1+e-x, x0;ex-11+e-x, x<0.
    (4)
  • ELiSH分片混合激活函数结合了SiLU、ELU和Sigmoid函数,它可以同时继承3个激活函数的基因,对深度神经网络有更好的分类效果.因此,在本文算法中,使用ELiSH激活函数替换SiLU激活函数,以实现更好的检测效果.

  • 1.3 无参注意力模块

  • 近年来,注意力机制受到了广泛的关注,越来越多的研究者将注意力机制引入到网络中以提高检测结果的准确性,传统的注意力机制分为通道注意力机制和空间注意力机制.但是,通道注意机制是针对不同的通道而区分的,空间注意机制是针对不同的位置而区分的,而人脑中的两种注意往往是协同工作的.基于上述内容,Yang等[18]提出一种无参数的三维注意机制SimAM,并设计了一种能量函数来计算权重以评估每个神经元的重要性.此外,大多数算子是根据定义的能量函数的解来选择的,因此原始网络的结构不会被改变.SimAM注意力机制如图4所示.

  • 图4 SimAM注意力机制

  • Fig.4 SimAM attention mechanism

  • 不同于常见的通道注意力和空间注意力机制,SimAM的核心思想是为每个通道和空间位置上的每个像素生成对应的权重,从而可以同时完成通道和空间之间关联信息的学习.因此,在算法中引入了三维注意力机制,对网络模型的神经元进行建模,并为最具区分力的神经元分配更高的权重,以进一步提高细粒度图像分类的性能[19].SimAM通过定义线性可分性的能量函数对每个网络中的每个神经元进行评估.其中,目标神经元的能量函数如下所示:

  • et*=4σ^2+λ(t-μ^)2+2σ^2+2λ.
    (5)
  • 式中,t为目标神经元,λ为超参数,μσ2分别是除t以外所有神经元的平均值和方差.基于单个通道中所有像素遵循相同的分布的假设,可以计算该通道内所有神经元的平均值和方差,避免重复计算每个位置的平均值和方差,降低计算成本.平均值和方差计算公式分别如式(6)和式(7)所示:

  • μ^=1Mi=1M xi,
    (6)
  • σ^2=1Mi=1M xi-μ^2.
    (7)
  • 式中,M表示整体神经元数量,xi 表示第i个神经元的参数.

  • e*t 能量越低,神经元与整体区域神经元的区分度就越高,神经元的重要程度也越高.因此,神经元的重要性可以通过1/e*t得到.SimAM模块最终优化为

  • X~=sigmoid1EX.
    (8)
  • 式中,X为输入特征,⊙为哈达玛积运算,E为每个通道上的能量函数,sigmoid函数用于限制E中可能出现的过大值,而输出结果X~表示增强后的特征.

  • 在图像特征识别中,通道和空间位置特征非常重要.为了有效和全面地评估信道和空间位置特征的重要性,本文将无参数注意力模块SimAM引入到YOLOx中.在不添加模型参数的情况下,它通过能量函数评估主干提取的特征.换句话说,SimAM注意力模块可以找到非常重要的神经元.改进后的模型可以发现重要特征,抑制无关特征的干扰,提高模型的目标定位能力和网络的特征表达能力.

  • 1.4 结构化剪枝

  • 为获得能部署在移动设备上的小体积模型,可以在训练过程中删减网络模型中的重复参数和连接,这个过程为剪枝操作,是压缩模型的主要方法之一.剪枝可以分为结构化剪枝和非结构化剪枝两种.与非结构化剪枝相比,结构化剪枝最明显的特点是它产生的稀疏矩阵是有规则的,剪枝后网络加速所需的运算量更少[20].因此,本文采用结构化剪枝策略裁剪网络中的不重要通道.

  • 在卷积神经网络中,BN层可以抑制内部协变量偏移,基于BN层的缩放因子对网络进行剪枝的优点在于其可以在不引入其他卷积层和参数量的前提下提升剪枝效率.BN层具有提升训练速度和网络泛化能力的作用,BN层进行的变换为

  • Z^=zin -μBσB2+ε,zout =γZ^+β.
    (9)
  • 训练过程中可学习的缩放因子用γ来表示,而平移参数用β表示.选择BN层的缩放因子γ作为指标有两个原因:一是结构化剪枝可以减少参数量和浮点运算量,二是通道级剪枝方案具有一定的灵活性,可以适用于大多数卷积神经网络.式(9)中:B批次所输入数据的标准差为σΒ,均值为μΒ; 为防止出现分母为0的情况,在其中加入极小值参数ε; 而BN层的输入与输出分别用zinzout表示.一般来说,γ较大的通道被认为对网络更重要,应避免被裁剪.BN层输出的激活值大多数不接近0并且呈正态分布,这对稀疏化训练不利.因此,为约束通道重要性量化指标γ的值,引入了L1正则约束,改进后的损失函数为

  • L=Lbaseline +λγΓ g(γ).
    (10)
  • 式中:基础模型的损失函数为Lbaseline; λ是用于平衡损失项的惩罚因子; L1正则约束项为γΓ gγ,其中gγ)=|γ|.

  • 在训练过程中,首先采用稀疏训练对网络进行预训练,然后根据BN层缩放因子γ的绝对值开发了一种裁剪通道的算法.最后,设定一个较小的学习率来微调裁剪后的网络.经稀疏化训练后,BN层的缩放因子γ通常接近零.因此可以通过适当的剪枝比例来删除不重要的通道.剪枝过程如图5所示.

  • 2 实验结果与分析

  • 2.1 实验环境及评价指标

  • 实验环境:操作系统CentOS7,显卡NVIDIA Tesla V100S-PCIE-32 GB,处理器Intel(R)Xeon(R)Gold 6226R CPU @ 2.90 GHz.

  • 评价指标:本文中评价检测模型精度的指标为AP,用以衡量遥感图像目标的检测效果; 使用Param来测量模型体积的大小; 采用FPS衡量检测器的检测速度.实验使用所提出方法的标准模型进行训练,此过程分为冻结训练和解冻训练.其中,冻结训练中学习率设为0.001,迭代次数设置为50.

  • 在冻结训练过程中,基本模型主干部分的网络层被冻结.在解冻训练期间将学习率设置为0.000 1,迭代次数设置为150,批量大小设置为8,在此过程中,取消了对模型参数的限制,能够使网络朝着更适合遥感图像目标检测应用场景的方向学习.在稀疏训练中,基准模型的权重参数被设置为初始权重,惩罚系数为0.001、批量大小为8、学习率为0.000 1.根据比例系数的分布,使用60%的剪枝率来避免严重的精度损失.为了提高实验数据的稳定性和可信度,平衡随机性带来的影响,本文在5次实验结果中取平均值.

  • 2.2 实验数据集

  • 本实验采用的 HRSC2016 数据集由西北工业大学于2016年发布,是光学遥感船只图像数据集,它包括近岸船只和海上船只,数据集中所有图像来自6个著名港口.该数据集中的图像尺寸范围在300×300~1 500×900之间,一共有1 061幅图像,其中,用于训练、验证和测试的图像分别为436幅、181幅和444幅.使用训练集和验证集进行训练,使用测试集进行测试.

  • 2.3 消融实验

  • 为了促使模型关注重要特征,抑制无关特征的干扰,提高模型的目标定位能力和网络的特征表达能力,本文在特征融合部分引入了注意力机制指导模型训练.并且,验证了多种注意力模块对模型整体性能的影响.实验结果如表1所示.其中:CBAM的添加使模型精度达到最好,但同时也带来了较多的额外参数量; SimAM模块精度仅略微低于CBAM,同时SimAM通过能量函数评估特征的方式也使得该模块不会带来过多参数量.因此,最终选取SimAM引导模型训练.

  • 表1 不同注意力模块性能对比

  • Table1 Performance comparison between different attention modules

  • 为了探究不同激活函数对模型精度的影响,本文选取ReLU、SiLU和ELiSH进行实验,结果如表2所示.实验结果表明,ELiSH可以有效平衡线性和非线性特征的融合,提供更好的梯度传播和模型泛化能力,同时具备高效计算和稳定性.

  • 为了验证各个模块对最终实验结果的影响,实验中以Param、AP和FPS作为评价标准,通过消融实验评估不同模块对整体模型性能的影响.消融实验结果如表3所示.

  • 图5 剪枝过程示意

  • Fig.5 Schematic of pruning process

  • 表2 不同激活函数性能对比

  • Table2 Performance comparison between different activation functions

  • 表3 消融实验

  • Table3 Ablation experiment

  • 通过在基准模型中添加DWS-Sandglass模块,模型体积和检测精度都实现了小幅下降,检测速度得到了提升.接着加入SimAM注意力模块,检测精度得到提高,但模型的参数量增加了0.27 MB.改进激活函数后,实现了88.04%的最佳检测精度.综上,相较于基准模型,改进后的算法具有更低的参数量和更高的检测精度.

  • 最后,通过模型剪枝对最终模型进行压缩.在模型剪枝过程中,剪枝率是一个重要的超参数,它决定了保留在模型中的参数比例,较高的剪枝率可以显著减小模型大小和提高推理速度,但可能会导致性能下降.因此,为了探究剪枝率对模型性能的影响,本文测试了剪枝率为50%、60%、70%、80%情况下的模型参数和精度.修剪和微调的检测结果如表4所示.实验数据表明,随着修剪比例的增加,虽然参数数量会显著减少,但mAP也会降低.同时,在微调后,精度也会在一定程度上回升.综合比较和分析,本文最终将剪枝率设定为60%.经过剪枝处理后,模型的体积显著减少,且由于微调策略,检测精度仅略微下降.

  • 表4 剪枝和微调对模型性能的影响

  • Table4 Impact of pruning and fine-tuning on model performance

  • 2.4 对比实验

  • 为了满足不同场景的需求,通过调整网络的深度和宽度,导出了两个不同规模的模型,即本文方法-L和本文方法-S.为了对两种方法进行充分评估,验证其对遥感图像目标的检测能力,将两种方法与当前主流无锚框检测算法进行了对比实验分析,对比算法主要包括CornerNet、CenterNet、VarifocalNet等方法,实验结果如表5所示.结果表明,与其他遥感图像目标检测算法相比,本文方法在模型体积和检测速度方面均具有显著优势,满足了遥感图像目标准确度和实时检测的要求.

  • 表5 不同遥感目标检测算法在HRSC2016 数据集上的性能比较

  • Table5 Performance comparison between different remote sensing object detection algorithms on HRSC2016 dataset

  • 为进一步说明本文所提算法的有效性,将对比方法中Param和FPS的值进行了直观展示,如图6所示.可以直观看出,本文方法-S实现了更低的模型参数量及更快的检测速度.其中:CornerNet使用的主干网络为Hourglass-104,其参数量过大,严重影响了网络的检测速度; CenterNet虽然在CornerNet中添加了中心点预测,大大降低了错误检测的概率.然而,其主干网络使用RestNet-18,特征提取能力不强,检测效果也不理想;VarifocalNet、BBAVectors、SASM和FCOS 4种方法均使用ResNet-50作为主干网络,取得了不错的检测效果,但没有达到最优效果;YOLOx-L虽然取得了最优的检测精度,但检测速度不高,模型体积也高达45.21 MB;本文方法-L的平均精度与YOLOx-L相当,其在检测速度上也具有明显的优势,模型体积压缩了39%;本文方法-S的检测精度虽然只有82.74%,但基本可以实现遥感场景下目标的准确检测.且其模型体积达到最小体积,便于移动端部署,检测速度最佳,更适合实际应用.

  • 图6 对比算法直观展示结果

  • Fig.6 Visual display of comparison results

  • 在HRSC2016数据集上的部分检测可视化结果如图7所示,可以看出本文所提算法可以精准检测到遥感目标.

  • 图7 HRSC2016数据集检测结果

  • Fig.7 Results of detection on HRSC2016 dataset

  • 综上所述,本文所提算法在模型参数量和检测速度方面都实现了最优结果,虽然检测精度没有达到最佳值,但并不影响最终检测效果.

  • 3 结论

  • 为了保证模型的检测速度与检测精度,本文引入无锚框的检测算法,并在主干网络中引入轻量化模块DWS-Sandglass降低模型的体积,改进激活函数实现更好检测精度.在此基础上,为了获得体积更小的检测模型,使用剪枝策略裁剪模型中的冗余通道.并添加无参数注意力模块SimAM,在不带来过多计算量和参数量的前提下评估主干提取的特征,提高网络的特征表达能力.最后,通过模型剪枝缩减模型体积,并通过微调回升精度.在HRSC2016数据集上的实验结果表明,本文所提算法在确保检测精度的前提下具有检测速度快、模型体积小的特点,更适合部署于移动设备.

  • 参考文献

    • [1] 王李祺,张成,侯宇超,等.基于深度学习特征融合的遥感图像场景分类应用[J].南京信息工程大学学报(自然科学版),2023,15(3):346-356.WANG Liqi,ZHANG Cheng,HOU Yuchao,et al.Remote sensing image scene classification based on deep learning feature fusion[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(3):346-356

    • [2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'05).June 20-25,2005,San Diego,CA,USA.IEEE,2005:886-893

    • [3] Lienhart R,Maydt J.An extended set of Haar-like features for rapid object detection[C]//Proceedings of International Conference on Image Processing.September 22-25,2002,Rochester,NY,USA.IEEE,2002.DOI:10.1109/icip.2002.1038171

    • [4] Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.December 8-14,2001,Kauai,HI,USA.IEEE,2003.DOI:10.1109/CVPR.2001.990517

    • [5] 张兵.光学遥感信息技术与应用研究综述[J].南京信息工程大学学报(自然科学版),2018,10(1):1-5.ZHANG Bing.A survey of developments on optical remote sensing information technology and applications[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2018,10(1):1-5

    • [6] 黎江,许明慧,张羽.基于Mask R-CNN的遥感影像土地分割与轮廓提取[J].南京信息工程大学学报(自然科学版),2021,13(1):116-123.LI Jiang,XU Minghui,ZHANG Yu.Land segmentation and contour extraction of remote sensing image based on Mask R-CNN[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(1):116-123

    • [7] 张雪红,吴雨阳,王永俊,等.基于热红外和夜间灯光遥感的GDP空间化研究:以福建省为例[J].南京信息工程大学学报(自然科学版),2021,13(6):720-729.ZHANG Xuehong,WU Yuyang,WANG Yongjun,et al.GDP spatialization based on thermal infrared and night light remote sensing:a case study in Fujian province[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(6):720-729

    • [8] 董超,刘晶红,徐芳,等.光学遥感图像舰船目标快速检测方法[J].吉林大学学报(工学版),2019,49(4):1369-1376.DONG Chao,LIU Jinghong,XU Fang,et al.Fast ship detection in optical remote sensing images[J].Journal of Jilin University(Engineering and Technology Edition),2019,49(4):1369-1376

    • [9] Wu C P,Wen W,Afzal T,et al.A compact DNN:approaching GoogLeNet-level accuracy of classification and domain adaptation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:761-770

    • [10] Iandola F N,Han S,Moskewicz M W,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size[J].arXiv e-print,2016,arXiv:1602.07360

    • [11] Howard A G,Zhu M L,Chen B,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[J].arXiv e-print,2017,arXiv:1704.04861

    • [12] Sandler M,Howard A,Zhu M L,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:4510-4520

    • [13] Howard A,Sandler M,Chen B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:1314-1324

    • [14] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141

    • [15] Han K,Wang Y H,Tian Q,et al.GhostNet:more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:1577-1586

    • [16] Li H,Kadav A,Durdanovic I,et al.Pruning filters for efficient ConvNets[J].arXiv e-print,2016,arXiv:1608.08710

    • [17] Liu Z,Li J G,Shen Z Q,et al.Learning efficient convolutional networks through network slimming[C]//2017 IEEE International Conference on Computer Vision(ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2755-2763

    • [18] Yang L X,Zhang R Y,Li L D,et al.SimAM:a simple,parameter-free attention module for convolutional neural networks[C]//38th International Conference on Machine Learning,2021:11863-11874

    • [19] 刘丽伟,侯德彪,侯阿临,等.基于SimAM-YOLOv4的自动驾驶目标检测算法[J].长春工业大学学报,2022,43(3):244-250.LIU Liwei,HOU Debiao,HOU Alin,et al.Automatic driving target detection algorithm based on SimAM-YOLOv4[J].Journal of Changchun University of Technology,2022,43(3):244-250

    • [20] Yu N G,Qiu S,Hu X L,et al.Accelerating convolutional neural networks by group-wise 2D-filter pruning[C]//2017 International Joint Conference on Neural Networks(IJCNN).May 14-19,2017,Anchorage,AK,USA.IEEE,2017:2502-2509

    • [21] Law H,Deng J.CornerNet:detecting objects as paired keypoints[J].International Journal of Computer Vision,2020,128(3):642-656

    • [22] Duan K W,Bai S,Xie L X,et al.CenterNet:keypoint triplets for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:6568-6577

    • [23] Ge Z,Liu S T,Wang F,et al.YOLOX:exceeding YOLO series in 2021[J].arXiv e-print,2021,arXiv:2107.08430

    • [24] Zhang H Y,Wang Y,Dayoub F,et al.VarifocalNet:an IoU-aware dense object detector[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:8510-8519

    • [25] Yi J R,Wu P X,Liu B,et al.Oriented object detection in aerial images with box boundary-aware vectors[C]//2021 IEEE Winter Conference on Applications of Computer Vision(WACV).January 3-8,2021,Waikoloa,HI,USA.IEEE,2021:2149-2158

    • [26] Hou L P,Lu K,Xue J A,et al.Shape-adaptive selection and measurement for oriented object detection[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(1):923-932

    • [27] Tian Z,Shen C H,Chen H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:9626-9635

  • 参考文献

    • [1] 王李祺,张成,侯宇超,等.基于深度学习特征融合的遥感图像场景分类应用[J].南京信息工程大学学报(自然科学版),2023,15(3):346-356.WANG Liqi,ZHANG Cheng,HOU Yuchao,et al.Remote sensing image scene classification based on deep learning feature fusion[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(3):346-356

    • [2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'05).June 20-25,2005,San Diego,CA,USA.IEEE,2005:886-893

    • [3] Lienhart R,Maydt J.An extended set of Haar-like features for rapid object detection[C]//Proceedings of International Conference on Image Processing.September 22-25,2002,Rochester,NY,USA.IEEE,2002.DOI:10.1109/icip.2002.1038171

    • [4] Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.December 8-14,2001,Kauai,HI,USA.IEEE,2003.DOI:10.1109/CVPR.2001.990517

    • [5] 张兵.光学遥感信息技术与应用研究综述[J].南京信息工程大学学报(自然科学版),2018,10(1):1-5.ZHANG Bing.A survey of developments on optical remote sensing information technology and applications[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2018,10(1):1-5

    • [6] 黎江,许明慧,张羽.基于Mask R-CNN的遥感影像土地分割与轮廓提取[J].南京信息工程大学学报(自然科学版),2021,13(1):116-123.LI Jiang,XU Minghui,ZHANG Yu.Land segmentation and contour extraction of remote sensing image based on Mask R-CNN[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(1):116-123

    • [7] 张雪红,吴雨阳,王永俊,等.基于热红外和夜间灯光遥感的GDP空间化研究:以福建省为例[J].南京信息工程大学学报(自然科学版),2021,13(6):720-729.ZHANG Xuehong,WU Yuyang,WANG Yongjun,et al.GDP spatialization based on thermal infrared and night light remote sensing:a case study in Fujian province[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(6):720-729

    • [8] 董超,刘晶红,徐芳,等.光学遥感图像舰船目标快速检测方法[J].吉林大学学报(工学版),2019,49(4):1369-1376.DONG Chao,LIU Jinghong,XU Fang,et al.Fast ship detection in optical remote sensing images[J].Journal of Jilin University(Engineering and Technology Edition),2019,49(4):1369-1376

    • [9] Wu C P,Wen W,Afzal T,et al.A compact DNN:approaching GoogLeNet-level accuracy of classification and domain adaptation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:761-770

    • [10] Iandola F N,Han S,Moskewicz M W,et al.SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size[J].arXiv e-print,2016,arXiv:1602.07360

    • [11] Howard A G,Zhu M L,Chen B,et al.MobileNets:efficient convolutional neural networks for mobile vision applications[J].arXiv e-print,2017,arXiv:1704.04861

    • [12] Sandler M,Howard A,Zhu M L,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:4510-4520

    • [13] Howard A,Sandler M,Chen B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:1314-1324

    • [14] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141

    • [15] Han K,Wang Y H,Tian Q,et al.GhostNet:more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:1577-1586

    • [16] Li H,Kadav A,Durdanovic I,et al.Pruning filters for efficient ConvNets[J].arXiv e-print,2016,arXiv:1608.08710

    • [17] Liu Z,Li J G,Shen Z Q,et al.Learning efficient convolutional networks through network slimming[C]//2017 IEEE International Conference on Computer Vision(ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2755-2763

    • [18] Yang L X,Zhang R Y,Li L D,et al.SimAM:a simple,parameter-free attention module for convolutional neural networks[C]//38th International Conference on Machine Learning,2021:11863-11874

    • [19] 刘丽伟,侯德彪,侯阿临,等.基于SimAM-YOLOv4的自动驾驶目标检测算法[J].长春工业大学学报,2022,43(3):244-250.LIU Liwei,HOU Debiao,HOU Alin,et al.Automatic driving target detection algorithm based on SimAM-YOLOv4[J].Journal of Changchun University of Technology,2022,43(3):244-250

    • [20] Yu N G,Qiu S,Hu X L,et al.Accelerating convolutional neural networks by group-wise 2D-filter pruning[C]//2017 International Joint Conference on Neural Networks(IJCNN).May 14-19,2017,Anchorage,AK,USA.IEEE,2017:2502-2509

    • [21] Law H,Deng J.CornerNet:detecting objects as paired keypoints[J].International Journal of Computer Vision,2020,128(3):642-656

    • [22] Duan K W,Bai S,Xie L X,et al.CenterNet:keypoint triplets for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:6568-6577

    • [23] Ge Z,Liu S T,Wang F,et al.YOLOX:exceeding YOLO series in 2021[J].arXiv e-print,2021,arXiv:2107.08430

    • [24] Zhang H Y,Wang Y,Dayoub F,et al.VarifocalNet:an IoU-aware dense object detector[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 20-25,2021,Nashville,TN,USA.IEEE,2021:8510-8519

    • [25] Yi J R,Wu P X,Liu B,et al.Oriented object detection in aerial images with box boundary-aware vectors[C]//2021 IEEE Winter Conference on Applications of Computer Vision(WACV).January 3-8,2021,Waikoloa,HI,USA.IEEE,2021:2149-2158

    • [26] Hou L P,Lu K,Xue J A,et al.Shape-adaptive selection and measurement for oriented object detection[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(1):923-932

    • [27] Tian Z,Shen C H,Chen H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:9626-9635

  • 地址:江苏省南京市宁六路219号    邮编:210044

    联系电话:025-58731025    E-mail:nxdxb@nuist.edu.cn

    南京信息工程大学学报 ® 2024 版权所有  技术支持:北京勤云科技发展有限公司