-
0 引言
-
海上目标检测包括对军舰、船只、漂浮物等各种物体进行准确的预测与定位,对有效预防海上交通事故、提高船舶运输效率等具有重要意义[1].然而,由于海洋环境复杂多变,波浪、云层、光照变化等因素会极大地影响目标的外观特征,这使得海上目标检测任务存在一系列挑战,因此,设计更为精确的海上目标检测模型具有重要价值.
-
海上目标检测方法分为传统方法和深度学习方法.传统方法常采用不同传感器或是建立相关数学模型来解决目标检测问题.例如:刘安邦等[2]先将雷达信号分解为时域、频域等多维特征,再采用梯度提升树分类的方法,提高了强海杂波背景下,雷达对小目标的检出概率; 陈卓等[3]采用激光雷达检测无人艇,提出自适应阈值(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法对海面障碍物进行分割和聚类,再结合多假设跟踪(Multi-Hypothesis Tracking,MHT)模型和卡尔曼滤波器实现对目标的多帧检测和跟踪; Pan等[4]建立了海面目标运动模型,首先用分数阶傅里叶变换对运动目标进行多普勒偏移补偿,然后采用可调Q因子小波变换对信号进行分解,再利用基追踪去噪算法得到小波系数,并通过对系数的稀疏化和目标的重构,为海上运动目标检测研究提供了更多依据; 薛安克等[5]提出基于多分类器的方法,先构造海杂波与目标数据的特征空间,后使用双参数K邻近算法构造多个二分类器进行联合判定,有效提高海上小目标的检测精度.虽然传统方法可以有效针对海上目标检测出现的各种问题,但泛化能力较弱,在复杂的场景下表现不稳定.
-
深度学习算法主要以YOLO[6]卷积神经网络模型为主.周薇娜等[7]利用YOLOv2网络结合SELU激活函数,在弱小船舶检测问题中获得了优良检测精度和速度; Hong等[8]针对海上船舶特征尺寸小等问题,提出改进k-means++算法获得准确预测框,并引入高斯模型预测边界框的不确定性,配合YOLOv3网络,增强模型的鲁棒性; Fu等[9]在YOLOv4网络的特征融合部分添加卷积注意力模块,对通道特征和空间特征进行权值分配,提高了海上目标检测的精度; Zheng等[10]提出改进YOLOv5模型,首先在数据处理过程中应用加权聚类算法,然后进一步利用BN比例因子实现算法轻量化,最后实现了实时船舶检测.虽然上述深度学习方法检测精度高、模型鲁棒性强,但针对小目标检测的能力较弱,存在召回率低等问题需要解决.
-
针对上述问题,本文提出一种基于深度背景监督的改进YOLOv8海上目标检测算法.主要贡献有如下:
-
1)引入多尺度卷积模块(Mulit-Scale Convolution,MSC),丰富特征信息,增强小尺度目标的特征表示,提高召回率;
-
2)在YOLOv8主干网络加入深度监督网络(Deep Supervision Network,DSN),在保证有效定位目标的基础上,增加对目标类别信息的置信度,并防止梯度消失;
-
3)通过融合通道注意力机制(Squeeze-and-Excitation,SE),抑制无用特征的干扰,增强对关键信息的识别,进一步提升了综合性能指标.
-
1 理论基础
-
1.1 YOLOv8网络
-
YOLOv8网络如图1所示,由主干网络、特征融合网络和检测头3个部分组成.主干网络由CBL、C2f和SPPF等模块组成,其中:C2f是进行特征学习的主要模块,该模块仿照YOLOv7[11]的ELAN结构,通过残差模块提取特征,并将特征进行拼接融合,形成一个具有更强特征表示能力的模块; CBL代表普通的特征提取操作,主要由卷积、批归一化和激活组成,图中不同颜色的CBL代表不同的卷积核尺寸与步长; SPPF主要进行串联的最大池化计算,实现局部特征与全局特征的融合.特征融合网络采用PAN(Path Aggregation Network)结构,可加强网络对不同缩放尺度对象特征融合的能力.检测头作用是对网络提取出的特征进行目标类别与位置的推理,并将结果进行正负样本筛选,计算损失.YOLOv8正负样本使用Task Aligned Assigner[12]方法进行筛选,损失计算包括分类和回归2个分支,分类采用BCE(Binary Cross Entropy)损失,回归则使用Distribution Focal Loss[13]和CIOU(Complete Intersection Over Union)损失.在目前的多数目标检测应用中,YOLO一直是最为主流的目标检测方法,而YOLOv8则是YOLO系列中最新的SOTA算法,因此选择该网络作为本文的主干网络模型.
-
1.2 深度监督
-
深度监督网络[14]于2014年被提出,主要用于解决卷积神经网络特征辨别度降低、梯度消失等问题.深度监督通过在网络模型各处添加监督分支,并引入损失函数来引导网络特征提取方式,结构通常如图2所示.图2a代表用于分类的普通卷积神经网络,由卷积和全连接层(Fully Connected,FC)组成,该网络通常由于参数规模大,导致模型训练难度增加,容易过拟合.图2b为在图2a基础上添加深度监督分支的改进网络,不同的是在主干特征提取网络的中间层添加辅助分类器.在反向传播时,为了降低辅助分类器的损失,模型就必须优化网络早期的特征提取层,由此提高每一层网络权重的利用率,进而提高网络预测精度,缓解梯度消失问题.
-
图1 YOLOv8网络结构
-
Fig.1 YOLOv8 network structure
-
图2 深度监督网络
-
Fig.2 Deep supervision network
-
2 本文算法
-
2.1 改进YOLOv8网络结构
-
针对海上目标姿态复杂且尺度多变的问题,本文提出改进YOLOv8检测模型,模型网络结构如图3所示.首先,在网络浅层引入多尺度卷积模块,提取目标多尺度信息.然后,在网络输出特征图尺寸为80×80×64处与20×20×256处分别添加深度监督网络分支,分别用于监督定位和分类损失.最后,在网络每个预测端都添加通道注意力机制,过滤无关特征.YOLOv8按照模型参数规模主要分为v8n、v8s、v8m、v8l、v8x五个版本,其中v8n为参数最少的版本.在海上目标数据集上经初步实验发现,仅通过增加网络深度及宽度并不会提高检测性能,同时会增加不必要的训练参数,增加计算量.因此,本文提出的改进YOLOv8模型通道数等参数都以YOLOv8n作为参考.
-
2.2 多尺度卷积模块
-
针对海上目标由于视觉远近,导致尺度变换频繁的问题,引入多尺度卷积模块[15].多尺度卷积模块是深度学习中的一种实用技术,旨在提取和融合不同尺度的特征信息.在许多计算机视觉任务中,多尺度信息对于准确地理解和处理图像非常关键.该模块可以帮助网络更好地捕捉目标的细节和上下文信息,提高模型的性能和鲁棒性.
-
多尺度卷积模块结构如图4所示,包括两个主要组成部分:多尺度特征提取和特征融合.首先,对输入特征图应用具有不同感受野的卷积核获取不同尺度的上下文信息; 然后,通过使用1×1卷积,进一步捕捉图像的局部细节信息,提高小目标的检测率; 最后,特征融合模块将不同尺度的特征按照通道维数进行连接,以综合利用信息.
-
将多尺度卷积模块引入YOLOv8浅层网络中的优势在于能够使网络提前注意图像中的多尺度特征、丰富特征信息、提高精度、加快模型收敛速度.
-
2.3 深度监督与损失函数
-
因图像采样角度不同,导致海上目标类别特征多样,容易造成漏检、误检等问题,一个解决方法是添加有助于增强目标分类信息的注意力模块,但在深度学习网络中,过分注重提高对目标的分类精度,会导致网络对目标位置特征的辨别能力下降,降低目标检测整体精度,反之依然成立.因此,为了兼顾海上目标检测的定位精度与分类精度,本文提出在YOLOv8网络中引入深度监督.
-
图3 改进YOLOv8模型
-
Fig.3 Improved YOLOv8 model
-
图4 多尺度卷积模块
-
Fig.4 Multi-scale convolution module
-
由文献[16]可知,深度网络中深层特征具有更好类别信息,而较浅层的特征具有更好的位置信息,因此,在YOLOv8用于提取特征的主干网络中的大尺度分支(80×80×64)引入位置监督网络,小尺度分支(20×20×256)引入分类监督网络.在引入深度监督网络时,需要定义相应的监督损失函数.本文采用与YOLOv8检测头相同的损失函数,即分类使用BCE Loss(Binary Cross Entropy Loss),BCE Loss根据预测结果与真实标签的差异来计算网络对目标类别预测的平均精度,并以此作为评价指标来更新网络对目标类别特征的提取能力,具体如式(1)所示:
-
其中:n代表样本数量; gi代表第i个类别对应的标签,pi代表第i个类别的预测值.
-
位置采用CIOU Loss与DFL Loss相加的形式,其中,CIOU Loss用于计算网络预测矩形框与真实矩形框的重叠程度,包括两者的交叠面积,中心点距离以及对角线距离,具体如式(2)所示:
-
其中:φ用于表示预测框与真实框之间面积的交并比; b代表预测框的坐标值; bgt代表真实框的坐标值; p代表预测框与真实框中心点之间的欧氏距离; α代表权重系数; c代表预测框与真实框所组成矩形的最大对角线距离; w与h分别代表框的长和宽.DFL Loss如式(3)所示:
-
DFL将回归看作概率密度问题,其目的是将预测值快速接近标签附近的数值.y代表目标中心点到边界框各距离的真实值; yi,yi+1和Si,Si+1分别为距离标签左右两侧最近的预测值和对应概率值.
-
监督损失函数将监督层的预测结果与真实目标进行比较,用于指导网络学习更准确的目标检测表示.在训练过程中,深度监督网络与YOLOv8检测头同时计算损失,两者加权后的总损失函数如式(4)所示:
-
其中:α,β,λ为可调的权重系数,经多次实验可得,三者分别取1.5、6.5、2.0时网络输出质量几乎达到最优.
-
2.4 通道注意力机制
-
通道注意力机制[17]的作用是建模卷积特征通道间的依赖性.在卷积神经网络中,不同的通道可能对输出结果产生正面或是负面的影响,因此需要对通道赋予不同的权重参数,抑制无用特征的干扰,提高对关键信息的利用率.SE模块如图5所示.设输入特征为H×W×C,其中,H和W分别为特征图的长度和宽度,C为特征图的通道数.首先对输入特征进行全局平均池化,得到通道数为1×1×C的特征; 然后,将1×1×C特征输入进全连接网络,计算每个特征通道之间相关性并输出不同通道的重要性权值; 最后,通过乘法操作更改原输入特征图每个通道权值,进而达到通道注意的目的.
-
将通道注意力模块添加在YOLOv8检测头的部分.在训练时,为了提高模型精度,会更改通道注意力模块中的权重,抑制对预测产生负面影响的通道,从而过滤掉无关特征,增强有效特征的权重,提高预测精度.
-
3 实验分析与比较
-
3.1 实验平台与数据集
-
本文的实验环境如下:CPU为Inter(R)i9-10900X,GPU为GeForce RTX 3060,Ubuntu18.04系统,Pytorch1.12.1框架及Python3.8.优化器为Adam,批量大小(Batch Size)设置为4,共训练300个epoch,实验结果取最好值[18].
-
数据集为自建含5 237张图片的海上目标检测图库(数据集获取可联系本文通信作者),其中有战舰(warship)、普通船只(boat)、直升机(helicopter)、航空母舰(aircraft carrier)、游客船(cruiser)共5类目标,如图6所示.通过labelimg工具,将数据集进行注释,后按6∶2∶2的比例划分成训练集、验证集和测试集.
-
图5 通道注意力模块
-
Fig.5 Channel attention module
-
3.2 评价指标
-
实验中采用精确率(Precision,P)、召回率(Recall,R)、平均精度(mean of Average Precision,mAP)作为模型评价指标.精确率代表模型正确预测的比例,召回率代表正确识别出的目标占总目标的比例,P与R的计算如式(5)与(6)所示:
-
其中:TP代表预测为正的正样本; FP代表预测为负的正样本; FN代表预测为负的负样本.mAP(其量值记为ηmAP)代表所有类别预测精度的平均值,具体如式(7)所示:
-
3.3 消融实验
-
为验证本文所提出模块的有效性,在自制数据集中进行消融实验,结果如表1所示,其中,mAP@0.5代表预测框与真实框面积交并比为0.5时对应的mAP值.由表1可以看出:YOLOv8在仅融合深度监督的情况下对检测指标就有着显著的提升,可以证明深度监督有助于网络训练,使网络兼顾定位与分类综合的精度; 多尺度卷积模块对召回率的提升较为明显,其主要原因是提高了对小目标的关注,可以证明该模块对海上目标的大小特征较为敏感; 通道注意力机制放在网络检测头部,主要过滤网络预测结果中不重要的通道值,因此对mAP指标的提升具有一定的辅助作用.
-
3.4 深度监督消融实验
-
为进一步验证本文提出主要创新点深度监督的有效性,在改进YOLOv8n模型的主干网络修改深度监督网络位置进行消融实验,具体指标如表2所示.其中:L代表位置监督网络、C代表类别监督网络; 括号中的数值代表添加的位置.由于卷积神经网络浅层特征丰富度低,因此深度监督网络添加位置主要在较为深层的地方,包括80×80(MSC模块后)、40×40、20×20三个尺度的位置.
-
图6 数据集样本
-
Fig.6 Dataset samples
-
由表2可以看出:在类别监督网络固定时,位置监督网络越深,mAP值越低,可以证明目标位置信息在浅层网络较为丰富; 在位置监督网络固定时,类别监督网络越深,mAP值越高,且根据mAP值可以看出,类别监督网络对指标起着关键性作用,可以证明网络层数的变化对类别信息的影响较大,而对位置信息的影响一般.因此,将位置监督网络添加在模型较浅处,类别监督网络添加在较深处,有助于提高模型综合性能.
-
3.5 对比实验
-
为验证本文所提出模型的优越性,在自制数据集中进行对比实验,模型选取目标检测领域中较为经典的YOLOv5及SSD[19]模型、基于两阶段网络Cascade R-CNN[20]模型、基于Anchor-free的FCOS[21]模型以及最新的YOLOv7模型,具体检测指标如表3所示.
-
由表3可知,相比较经典的YOLOv5模型,文中提出的方法在预测精度方面更具有优势,检测速度虽略有降低,但不影响实时检测.这是因为YOLOv5模型为工程应用模型,其网络结构与参数规模在具有更多类别的复杂目标检测任务中鲁棒性更高、适应力更强,但针对特定任务如海上目标检测,模型精度相比本文改进模型会有降低.YOLOv7为2022年SOTA目标检测模型,为提高在通用数据集中的指标,YOLOv7的模型结构与训练方式更为复杂,因此在一些真实场景拍摄的自制数据集中表现出泛化能力不强,相比YOLOv5和本文算法指标都有所降低.Cascade RCNN与FCOS都针对锚框的生成方式做了不同的改进,其中,Cascade RCNN通过RPN网络提前生成检测框,而FCOS采用Anchor free方式,相比其他模型,二者召回率并未降低太多,但mAP值较低,因此证明二者未能兼顾模型的分类与定位能力.
-
3.6 实际检测效果对比
-
为了更直观地验证改进YOLOv8海上目标检测的性能,本节选取对比试验中指标较高的YOLOv5n、YOLOv7-tiny及本文所提出的YOLOv8算法进行实际检测效果对比,结果如图7所示.由图7可以看出:YOLOv7-tiny相比其他两种算法,存在多处目标未能检测,漏检率较高,在第4行的图中还存在将房子识别成战舰的现象; YOLOv5n与本文算法在召回率方面几乎相同,但YOLOv5n在第3行与第4行对应的图中存在一定的误检现象.对于图中每个目标的预测准确率,综合来看,YOLOv5n没有本文算法高,证明了本文算法在兼顾定位与分类精度方面更加优秀.
-
4 总结
-
针对海上目标形态多样、特征复杂等问题,本文提出一种融合深度监督的改进YOLOv8的海上目标检测算法.首先,以YOLOv8n模型为基础,在主干网络浅层添加多尺度卷积模块,获取不同尺度目标的特征信息; 其次,引入深度监督网络分支,让模型更精准地辨别位置与类别信息,从而提高检测精度; 最后,在检测头部分添加通道注意力机制,过滤无效的通道特征值,增加检测头对关键特征的识别度.实验结果表明,本文算法不仅在主观视觉上优于其他算法,在客观指标上相较其他算法也取得出色成绩,表明本文提出的算法更适用于海上目标检测.后续,将考虑提升算法在恶劣天气下的海上目标检测精度.
-
图7 实际检测效果对比
-
Fig.7 Comparison of detection results
-
参考文献
-
[1] 王亮,陈建华,李烨.一种基于深度学习的无人艇海上目标识别技术[J].兵工学报,2022,43(增刊2):13-19;WANG Liang,CHEN Jianhua,LI Ye.A target identification technique for unmanned surface vessel based on deep learning[J].Acta Armamentarii,2022,43(sup2):13-19
-
[2] 刘安邦,施赛楠,杨静,等.基于虚警可控梯度提升树的海面小目标检测[J].南京信息工程大学学报(自然科学版),2022,14(3):341-347;LIU Anbang,SHI Sainan,YANG Jing,et al.Sea-surface small target detection based on false-alarm-controllable gradient boosting decision tree[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2022,14(3):341-347
-
[3] 陈卓,王飞,陈奕宏,等.基于激光雷达的无人艇海上目标检测与跟踪方法研究[J].中国造船,2022,63(6):264-272;CHEN Zhuo,WANG Fei,CHEN Yihong,et al.Research on marine target detection and tracking method of unmanned surface vehicle based on lidar[J].Shipbuilding of China,2022,63(6):264-272
-
[4] Pan M Y,Sun J,Yang Y H,et al.Improved TQWT for marine moving target detection[J].Journal of Systems Engineering and Electronics,2020,31(3):470-481
-
[5] 薛安克,毛克成,张乐.多分类器联合虚警可控的海上小目标检测方法[J].电子与信息学报,2023,45(7):2528-2536;XUE Anke,MAO Kecheng,ZHANG Le.Multi-feature marine small target detection based on multi-class classifier[J].Journal of Electronics & Information Technology,2023,45(7):2528-2536
-
[6] Redmon J,Divvala S,Girshick R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:779-788
-
[7] 周薇娜,丁豪文,周颖.一种海上弱小运动船舶实时检测方法[J].合肥工业大学学报(自然科学版),2021,44(9):1187-1192;ZHOU Weina,DING Haowen,ZHOU Ying.A real-time detection method for dim and small moving ships at sea[J].Journal of Hefei University of Technology(Natural Science),2021,44(9):1187-1192
-
[8] Hong Z H,Yang T,Tong X H,et al.Multi-scale ship detection from SAR and optical imagery via a more accurate YOLOv3[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2021,14:6083-6101
-
[9] Fu H X,Song G Q,Wang Y C.Improved YOLOv4 marine target detection combined with CBAM[J].Symmetry,2021,13(4):623
-
[10] Zheng J C,Sun S D,Zhao S J.Fast ship detection based on lightweight YOLOv5 network[J].IET Image Processing,2022,16(6):1585-1593
-
[11] Wang C Y,Bochkovskiy A,Liao H Y M.YOLOv7:trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 17-24,2023,Vancouver,BC,Canada.IEEE,2023:7464-7475
-
[12] Feng C J,Zhong Y J,Gao Y,et al.TOOD:task-aligned one-stage object detection[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV).October 10-17,2021,Montreal,QC,Canada.IEEE,2022:3490-3499
-
[13] Li X,Wang W H,Wu L J,et al.Generalized focal loss:learning qualified and distributed bounding boxes for dense object detection[J].Advances in Neural Information Processing Systems,2020,33:21002-21012
-
[14] Sun Z,Wang P,Wang J,et al.Exploiting deeply supervised inception networks for automatically detecting traffic congestion on freeway in China using ultra-low frame rate videos[J].IEEE Access,2020,8:21226-21235
-
[15] 李校林,王复港,张鹏飞,等.基于多尺度特征提取的YOLOv5s算法优化[J].计算机工程与科学,2023,45(6):1054-1062;LI Xiaolin,WANG Fugang,ZHANG Pengfei,et al.YOLOv5s algorithm optimization based on multi-scale feature extraction[J].Computer Engineering and Science,2023,45(6):1054-1062
-
[16] Yu W,Yang K Y,Yao H X,et al.Exploiting the complementary strengths of multi-layer CNN features for image retrieval[J].Neurocomputing,2017,237:235-241
-
[17] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141
-
[18] 赵春江,梁雪文,于合龙,等.基于改进YOLOv7的笼养鸡/蛋自动识别与计数方法[J].农业机械学报,2023,54(7):300-312;ZHAO Chunjiang,LIANG Xuewen,YU Helong,et al.Automatic identification and counting method of caged hens and eggs based on improved YOLOv7[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(7):300-312
-
[19] Zhai S P,Shang D R,Wang S H,et al.DF-SSD:an improved SSD object detection algorithm based on DenseNet and feature fusion[J].IEEE Access,2020,8:24344-24357
-
[20] Cai Z W,Vasconcelos N.Cascade R-CNN:delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:6154-6162
-
[21] Tian Z,Shen C H,Chen H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2020:9626-9635
-
摘要
针对海上目标姿态复杂且尺度多变,导致现有人工智能算法难以稳定检测的问题,提出一种融合深度监督与改进YOLOv8的海上目标检测算法.首先,设计了多尺度卷积模块,提取目标多种感受野的特征信息,减少漏检率;然后,添加深度监督网络,提高网络对深层类别信息及浅层位置信息的利用率,优化主干网络的目标特征提取性能;最后,在网络检测头部分引入通道注意力机制,过滤无关信息,增强对关键特征的识别率.在海上目标数据集中的实验结果表明,改进算法的mAP值达到93.69%,召回率达到85.16%,相比原模型分别提高了7.38、8.52个百分点,且优于对比的经典算法和新颖算法,检测时间约14 ms,满足海上实时目标检测需求,可为航运管理、预防海上事故等提供有效技术参考.
Abstract
To address the unstable detection of marine targets challenged existing artificial intelligence algorithms due to the target's complex poses and variable scales,a detection approach based on deep supervision and improved YOLOv8 is proposed.A multi-scale convolution module is designed to extract the feature information of the target's multi-receptive fields and reduce the missed detection rate.Then,a deep supervision network is added to improve the utilization ratio of deep class information and shallow location information,thus optimizing the performance of the backbone network in target feature extraction.Finally,a channel attention mechanism is introduced into the detection head to filter the irrelevant information and enhance the recognition rate of key features.Experiments on the marine target dataset show that the mAP value and the recall rate of the proposed approach reach 93.69% and 85.16%,respectively,which are 7.38 and 8.52 percentage points higher than those of the original model,and the proposed approach outperforms both classical and novel algorithms.The detection time is about 14 ms,which meets the requirements of real-time marine target detection and provides technical support for shipping management and marine accident prevention.