-
0 引言
-
随着高性能硬件与深度学习架构的迅速发展,小目标检测作为目标检测的重要子领域,被广泛应用于虚拟现实[1]、航拍图像检测[2]、自动驾驶[3]、搜救搜查[4]等领域.由于上述场景存在检测角度多变、背景复杂、目标特征信息少、小目标物体密集、目标与背景之间尺度失衡等问题,对图像中的物体进行实时检测与精准定位就更具挑战.目前,基于卷积神经网络深度学习的主流目标检测算法主要分为两阶段算法(Two-Stage)与单阶段算法(Single-Stage)两类.两阶段算法(如Faster R-CNN[5]、Mask R-CNN[6]、Mask-R-FCN[7])通常包含两个步骤:生成目标区域候选区域; 对候选区域进行分类和边界框回归.单阶段算法(如DF-SSD[8]、Mini-YOLOv3[9]、TPH-YOLOv5[10])则通过一次前向传播直接完成目标检测.
-
近年来,研究人员为提升小目标检测性能,做了许多研究.Betti 等[11]提出的YOLO-S利用一个小的特征提取器,通过旁路和级联的跳过连接,以及一个重塑直通层来促进跨网络的特征重用,并将小目标低级位置信息与更有意义的高级信息相结合,但是面对复杂环境时其检测效果依然具有局限性.Wei 等[12]以特征变换的方式增强特征通道间的通信,该方案能够根据全局特征相关性自适应确定每个通道的校准权重以减少计算资源并提升小目标检测性能.Gong 等[13]使用一个新概念“融合因子”来控制深层向浅层传递的信息量,以使特征金字塔网络(FPN)适应小目标检测.Zhu等[14]提出一种基于特征增强的机场小目标检测方法,在增强记忆的全局-局部聚合(MEGA)基础上构建了一个关注多尺度特征融合增强(A-MSFFE)网络,以补充小物体的语义和空间信息,并设计了一个上下文特征增强(CFE)模块,通过不同的膨胀卷积获得不同的感受野.秦强强等[15]将通道注意力(CA)和空间注意力(SA)相结合,重新组合连接结构,提出一种混合注意力模块(MAM),根据不同大小的感受野对目标影响的不同,基于混合注意力提出一种多分支混合注意力模块(SMAM),增强不同分支下对小目标特征信息的捕获能力,但过度特征提取网络的深度会导致其自身特征信息的丢失.李利霞等[16]在YOLOv5主干网络中融入多头注意力机制,使用浅层特征增强模块来学习底层特征信息,设计了一种多级特征融合模块,将不同层级的特征信息进行聚合,使网络能够动态调节各输出检测层的权重,该方法虽然对航拍图像小目标检测效果有所改进,但对小目标的误检、漏检仍然存在.
-
由于小目标对象分辨率低(分辨率小于32×32像素[17]),在图像中像素占比少,极易与图像背景混合在一起,小目标检测任务亦可以近似为低分辨率图像目标检测.在算法提取目标特征时,随着下采样次数增多,特征图尺寸不断减小,小目标对象的特征变得难以提取,导致算法检测过程对小目标定位识别出现严重偏差,不能有效区分检测小目标和图像背景.针对以上问题,本文提出一种基于空频双流对比学习的改进小目标检测算法,其主要创新如下:
-
1)所提算法利用对比学习来学习表征特征空间中更多具有区分性和通用性的语义表征,用以区分图像背景和检测目标,而不是仅仅依赖于所标记的训练数据.
-
2)所提算法使用图像多尺度退化增强,对小目标对象进行多种不同尺度的图像退化增强,增强算法对不同尺度低分辨率图像的特征感知能力.
-
3)将对比学习模块设计为空域和频域的双流网络,允许算法模型同时学习目标图像来自空域和频域的双重特征信息,为目标检测网络创造更多的可鉴别性的融合特征.
-
1 网络模型框架
-
如图1所示,所提算法的整体架构包括一个双流对比学习网络和目标检测网络,其中,双流对比学习网络负责在空域和频域提取图像的语义特征,目标检测网络负责目标检测.在双流对比学习网络训练前,其输入图像将进行多尺度退化增强,增强算法对小目标的捕获感知,双流对比学习网络提取到的高层次语义特征将继续用来帮助目标检测网络进一步提取到更多的强辨别性和广泛通用性的语义特征,目标检测网络利用获取的额外语义特征来区分检测目标和背景,进而提升目标检测网络的检测精度和鲁棒性.
-
1.1 双流对比学习网络
-
依据对比学习思想构建空频双流编码器.空频双流编码器包含空域编码器与频域编码器,空域编码器与频域编码器网络结构相同,如图2所示.空频双流编码器通过相应的对比学习损失函数约束构成双流对比学习网络,如图3所示.图3中训练样本图像被随机裁分成不同的矩形框图,训练样本图像中的真实标签框表示查询实例(红框),与查询实例相同或相似的矩形框图被认为是正样本(蓝框),查询实例中的背景矩形框图与其他不同类别的样本图像的矩形框图被认为是负样本(橙框).随后这些矩形框图被送入双流对比学习网络,其中一个流用于提取空域特征,另一个流用于提取频域特征.每一个流的编码器包含6个卷积层、1个平均池化层和1个多层感知机(Multi-Layer Perceptron,MLP)层.随机裁分矩形框图中的查询实例、正样本和负样本分别被编码为q、k+和k-,依据MoCo对比学习算法[18]定义,q和k+在特征空间中被拉近,被近似为相似,而q和k-在特征空间中被推开,被视为不相似.上述特征空间关系都由InfoNCE损失函数所决定.
-
图1 所提方法的整体网络结构,包含双流对比学习网络模块(包括频域编码器和空域编码器)、目标检测网络模块(包括特征提取模块(Backbone、Neck)和检测模块(Prediction))
-
Fig.1 Overall network structure of the proposed method, in which the Siamese contrastive learning module consists of both frequency domain encoder and spatial domain encoder, while the object detection module is composed of feature extraction components (Backbone, Neck) and detection components (Prediction)
-
式中:queue表示负样本的数量; τ 是一个超参数,表示对负样本的惩罚程度,增加τ 的值会导致惩罚更弱.
-
图2 所提方法频域编码器和空域编码器具体的网络结构
-
Fig.2 Network architectures of the proposed method's frequency domain encoder and spatial domain encoder
-
图3 所提出的双流对比学习网络提取图像高级语义特征流程
-
Fig.3 Processes for extracting high-level semantic features from images using the proposed dual-stream contrastive learning network
-
本文将对比学习构建为一个双流网络,包含空域与频域2个分支.对比学习是一种用于自监督学习的方法,其目标是使相似的样本在特征表征空间中更接近,使不相似的样本更远离.将训练样本图像处理得到的查询实例、正样本、负样本直接传入空域对比学习流中,对空域中图像的近似离散特征进行表征学习.图像中的目标可能以不同的大小和比例出现在图像中,网络通过对空域图像中的像素分布和相对距离的尺度特征信息学习,可以进一步推断目标的尺度,学习目标在图像中的位置特征信息.空域对比学习流通过学习图像信息中的目标纹理特征,网络可学习到更多可鉴别特征帮助区分不同的目标类别.空域对比学习流可获取图像中目标周围的上下文信息,使网络更好地理解目标语境,有助于减少误检或漏检.空域网络流所学习到的额外语义特征将进一步提升目标检测网络骨干网对图像特征上下文信息的提取能力,帮助目标检测网络对检测目标更精准地定位与分类.
-
将上述同样的矩形框图经过如式(2)所示频域变换转换为频域信息.
-
式中:F(u,v)是图像在频域中的复数表示,表示图像中对应频率的幅度和相位; M 和N 分别表示图像的宽度和高度; u 和v 为频率域中的变量,分别表示在水平和垂直方向上的频率.处理得到的信息传入频域对比学习流中,在频域中学习额外的高级语义特征表示.
-
高频信息通常对应图像中的细节、纹理等变化较快的部分,表达式如下:
-
式中:AH(u,v)表示高频信息的振幅谱; A(u,v)是原始图像的振幅谱; DH 是高频截止半径.
-
低频信息通常对应图像中相对平滑的区域和整体结构,表达式如下:
-
式中:AL(u,v)表示低频信息的振幅谱; A(u,v)是原始图像的振幅谱; DL 是低频截止半径.
-
在频域对比学习时,网络可利用低频信息学习图像全局特征、图像结构,在训练图像较模糊时,低频信息通常可以保持图像的主要特征,网络依然可以学习到足量的鉴别特征.高频信息为图像中变化最剧烈的部分,网络通过对高频信息的特征学习能学习到更多的区分目标与图像背景的可鉴别特征.
-
而空域和频域信息融合可以提供更全面、丰富的图像表示,捕捉到更多不同层次的图像特征.这有助于提高模型对图像内容的理解和表示能力,增加模型对不同类型图像变化的鲁棒性,提升算法在各种应用场景下的检测精度.双流对比学习网络可以根据任务自适应地学习空域和频域中更有效的特征,从而更好地完成不同类型的任务,如图像分类、目标检测等.
-
1.2 图像多尺度退化增强
-
小目标对象通常具有较小尺寸,小目标可能被相邻的背景像素淹没.本文将对比学习模型的输入图像进行多尺度退化增强,增强算法对小目标的捕获感知.如图4所示,即在对比学习模型训练前,分别将查询实例(红框)、与查询实例相同或相似的正样本(蓝框)、查询实例中的背景矩形框图(橙框)从训练数据集中裁切扣取出来.图像裁切矩形块中有2/3以上区域包含检测目标即被认为是正样本(蓝框),图像裁切矩形块中只有1/5以下区域包含检测目标即被认为是负样本(橙框),依据训练图像真实标签框裁切抠取的检测目标矩形框图即被认为是查询实例(红框),每张训练图像分别裁切抠取4张正样本与4张负样本矩形框图.
-
将以上裁切抠取得到的正样本图像做图像退化操作,具体操作为将正样本图像分别进行最近邻插值、双线性插值、双三次插值图像退化操作.最近邻插值图像退化如式(5)所示:
-
式中: 、分别为原图的x坐标和y坐标; 、分别为目标图像的x坐标和y坐标; 、分别为原图的高度和宽度; 、分别为目标图像的高度和宽度.
-
双线性插值图像退化如式(6)所示:
-
图4 所提方法所采用的图像多尺度退化增强
-
Fig.4 Image multi-scale degradation augmentation in the proposed method
-
双线性插值是对线性插值在二维直角网格上的扩展,其核心思想是在x、y两个方向分别进行一次线性插值.式(6)中,Q11=(x1,y1),Q12=(x1,y2),Q21=(x2,y1),Q22=(x2,y2)分别为函数f 上4个点的已知值.
-
双三次插值图像退化如式(7)所示:
-
其中:(x,y)表示待插值的像素点的坐标; f(x,y)表示经过计算待插值像素点应该插入的值;(xi,yj),i,j=0,1,2,3 表示待插值点附近4×4 邻域的点.W函数称为 BiCubic函数,如式(8)所示:
-
其中:t 为超分放大倍数; a 为指定的值.
-
经上述多种图像退化操作,得到3组不同退化图像,分别随机选取图像退化方法再次进行图像退化操作得到另外3组不同的退化图像,共得6组不同退化图像.完成对训练数据集的扩充丰富,使模型更好地适应不同的场景变化,提高模型的泛化能力.基于已有的模型训练样本数据,使用数据增强方式来生成更多的训练数据,使扩增的训练数据尽可能接近真实分布的数据,迫使模型学习更多鲁棒性特征,从而有效提高模型的泛化能力.对上述6组退化图像及原始图像数据采用以下数据增强方式:Random Affine(随机缩放和平移变换)、Augment HSV(调整图像的色度、饱和度和亮度)和MixUp(将2张图像用一定的透明度融合在一起).
-
本文采用上述图像多尺度退化增强策略降低模型对图像的敏感度,避免样本不均衡,增加图像中小目标的可见性,使模型更容易感知学习小目标语义特征.
-
1.3 目标检测网络
-
目标检测网络包含3个主要部分,即Backbone、Neck和Prediction.图1所示的Backbone部分主要由2个Focus structures和2个CSP structures组成.图像在进行语义特征提取前将经过Focus模块对图片进行切片操作,获取到4张相似互补图像,将W、H信息集中到通道空间,输入通道扩充4倍,即拼接起来的图像相对于原先的RGB 3通道变成了12通道,将得到的新图像再经过卷积操作,最终得到没有信息丢失情况下的2倍下采样特征图.而CSP操作是将Feature map拆成2个部分,一部分进行卷积操作,另一部分与卷积操作的结果进行Concate拼接操作,可有效降低计算量.在Backbone主干网络部分采用CSP1_X结构,Backbone后续部分继续从处理后的输入特征图中提取多层语义特征.
-
CSP1_X结构应用于Neck部分以加强网络特征融合能力,Neck部分进一步融合Backbone所提取的各特征通道的语义特征.传统的特征金字塔结构会在所有尺度上构建高级语义特征图,然而,在通过特征金字塔网络(Feature Pyramid Network,FPN)[19]中的多层网络后,物体的底层语义信息会变得十分模糊.为解决这个问题并加强定位信息,目标检测网络Neck部分采用具有自下而上路线的聚合网络(Path Aggregation Network,PAN)[20]对不同层次的特征图进行融合,生成具有多尺度信息的特征图,还采用多层级特征融合的方法,将不同层级的特征图进行融合,得到更加丰富的特征信息,从而提高检测性能.
-
最后,Prediction部分根据得到的细化完整语义特征完成对目标的检测,将CIoU_Loss作为目标检测网络的Bounding box损失函数.目标检测预测组件Prediction主要由3个检测头组成,这些检测头在不同尺度的特征图上使用,Grid-based anchors来对目标进行多尺度目标检测.当输入图像尺寸为608×608时,3种尺度的特征图尺寸分别为76×76、38×38和19×19.在目标检测的后处理过程中,针对多个目标检测框的筛选,通常需要非极大值抑制(Non-Maximum Suppression,NMS)操作.因为CIoU_Loss中包含影响因子v,涉及Groudtruth的信息,而在算法测试推理时,没有Groundtruth信息.所以,在目标检测网络中采用加权非极大值抑制(Soft-NMS),通过降低重叠框的置信度而不是将其丢弃,从而更加平滑地抑制多余的框.Soft-NMS 通过减小与最高置信度框的IoU(Intersection over Union)来惩罚其他相交框的置信度,这使得即使有重叠区域,次高得分的框也有机会被保留,从而提高检测的鲁棒性.
-
1.4 网络联合优化
-
在算法训练阶段,对比学习双流网络与目标检测网络同时联合优化训练.目标检测网络训练使用完整图像进行训练,对比学习双流网络使用分割的图像矩形框图进行训练,将2个网络损失函数通过相应权重系数组合构成整体网络的损失函数,总体损失函数(L)如式(9)所示:
-
总体损失函数L 被表示为3个不同损失函数的组合,即Lspl、Lfre 和目标检测网络损失函数Lobj.Lspl 和Lfre 分别表示空域和频域的对比学习损失函数; 权重系数ω1、ω2 分别为0.3、0.1.它们将在模型训练时被联合优化以提高所提算法性能.Lobj 由3个不同的部分组成,即分类损失、定位损失和置信度损失.分类损失是为了衡量预测类标签和真实类标签之间的差异,定位损失反映预测框位置和真实边界框位置之间的差异,而置信度损失是为了惩罚假阳性和假阴性.Lobj 表示为3个单独的损失函数的加权和,如式(10)所示.Lcls、Lloc和Lconf的权重系数分别表示为λcls、λloc和λconf,其具体值分别为0.5、0.25、0.25.Lobj 为目标检测模型提供了一个灵活有效的损失函数框架,允许对检测任务不同方面的侧重进行精细控制,在模型训练过程对其分量进行单独控制调整.
-
Lcls为分类损失函数:
-
式中:N表示类别总数; xi 为当前类别预测值; yi 为经过激活函数后所得到的当前类别的概率; 为当前类别的真实值(0或1).
-
在对图像中的物体进行检测时,需要准确预测出被检测物体周围的边界框的位置.定位损失函数[21]被用来提高边界框回归的准确性.
-
式中:α 是一个平衡因子,用来权衡长宽比造成的损失和IoU引起损失的重要性; β 为0和1之间的值; gt表示真实标签; v 是预测框和实际框的长宽比之差的归一化值.
-
置信度损失函数Lconf用于计算所有样本的置信度损失.置信度是指目标检测网络预测的边界框和真实的边界框之间的CIoU.
-
式中:self.gr 为目标检测网络的一个超参数,表示用于平衡分类损失和定位损失的参数.在计算置信度损失时,它用于平滑地结合目标存在得分(socre_iou,表示网络预测目标存在时的得分,是通过IoU计算得到的)和目标不存在得分(1.0-self.gr).
-
整体网络模型通过反向传播算法联合优化双流网络分支与目标检测网络的参数,在双流对比学习网络与目标检测网络的Backbone部分共享层参数,减少整体参数量,提高模型的效率.通过联合优化综合损失函数,可以使两个网络同时训练学习、优化参数,每个网络都可以学到一些对方网络所学到的独特特征信息,最终提高整体算法模型的性能.
-
2 实验设置与评价指标
-
2.1 实验设置
-
在NVIDIA GTX 4090 GPU上使用MS COCO数据集[17]、VisDrone2019数据集[22]进行实验评估.MS COCO 数据集包含自然图片以及生活中常见的目标图片,背景比较复杂、目标数量比较多且目标尺寸更小,数据集中包含大约 41% 的小目标、34% 的中等目标(分辨率大于32×32像素小于96×96像素)和 24% 的大目标(分辨率不小于96×96像素).VisDrone2019数据集由天津大学机器学习和数据挖掘实验室AISKYEYE团队收集,在不同的场景、不同的天气和光照条件下使用不同的无人机平台进行收集,数据集图像背景复杂、目标拥挤稠密,包含大量航拍小目标,被广泛应用于小目标检测算法训练评估.训练过程中,对比学习缩放系数ω1 被设置为1,对比学习双流网络和目标检测网络同时联合训练,共300次迭代.模型深度系数被设置为0.33,目标检测算法训练图像大小被设置为640×640,初始学习率被设置为0.01,使用Adam 优化器.
-
2.2 评价指标
-
为验证所提算法的性能,使用mAP50、mAP75、mAP50∶95、mAPS、mAPM和mAPL作为评估指标,其中,mAPS、mAPM和mAPL分别是小目标、中等目标、大目标的评价指标.对于目标检测任务,依据样本的真实类和算法预测类的不同组合可以将样本划分为4种类型:预测为正的正样本(TP)、预测为负的正样本(FN)、预测为正的负样本(FP)、预测为负的负样本(TN).准确率P表示所有预测为正的样本中真正为正的样本所占的比例,P越大表示预测结果正确的样本占比越高,误检的越少.
-
mAP表示所有类别平均精度AP值的平均值,mAP值越高,目标检测模型各个类别的平均检测效果越好.
-
mAP50、mAP75分别表示非极大值抑制(NMS)过程中设定IoU阈值为0.5和0.75; mAP50∶95 表示步长为0.05,计算 IoU 阈值从 0.5到0.95 的所有 IoU 阈值下的检测精度的平均值.
-
3 实验结果与分析
-
3.1 消融实验
-
为了验证提出的每种改进策略的有效性,使用MS COCO数据集、VisDrone2019数据集对基线算法YOLO-V5进行消融实验,设置以下4种消融实验组合形式:E0为基线算法YOLO-V5,不包含对比学习算法; E1为YOLO-V5目标检测算法融合空域对比学习; E2为YOLO-V5目标检测算法融合空频双流对比学习; E3在E2的基础上采用图像多尺度退化增强,其他训练参数保持不变.不同组合的MS COCO数据集实验结果如表1所示.由表1可知:E1组通过将训练图像裁切抠取形成查询实例、正样本、负样本3种不同矩形框图传入空域对比学习算法中,使得所提方法可利用对比学习算法所提取的语义特征更容易区分图像中的检测目标与背景,从而提升算法检测性能,相较于E0基线算法各评估指标均有提升,对小目标检测性能提升明显,mAPS提升0.8个百分点; E2组将对比学习构建为空频双流网络,可以分别对图像高频信息与低频信息进行感知学习,更好地捕获检测目标边缘像素变化信息,相较于只采用空域对比学习流改进策略的E1来说,各项评估指标均有提升; E3组(本文方法)相较于E0基线算法各项指标均有提升,小目标检测性mAPS性能提升明显.
-
因图像多尺度退化增强改进策略适配于双流对比学习算法训练阶段,故图像多尺度退化增强改进策略的消融实验不再单独设置.不同组合的VisDrone2019数据集实验结果如表2所示,其组合设置与MS COCO数据集实验一致.VisDrone2019数据集是由不同的无人机平台对地航拍所收集的,包含各种不同光照条件的图像和多目标拥挤稠密场景图像,其中有行人、三轮车、自行车等多种小目标.由表2可知,E3组(本文所提算法)相较于E0组基线算法的mAP50∶95、mAP50、mAP75分别提升2.4、2.7、1.8个百分点,可显著提升小目标检测性能.
-
3.2 与其他先进算法比较
-
3.2.1 MS COCO数据集实验
-
为验证所提算法的有效性,选取FIENet[23]、Conditional-DETR[24]、Anchor-DETR[25]、DAB-DETR[26]等目标检测先进算法与所提方法在MS COCO数据集上进行对比分析.FIENet使用VGG-16 作为Backbone,Input size为512×512.Conditional-DETR、Anchor-DETR、DAB-DETR、AdaMixer[27]、DN-Deformable-DETR[28]均使用R50作为Backbone.PP-YOLOv2[29]使用ResNet50-vd-dcn作为Backbone,Input size 为512×512.默认将数据集分成118 287个训练集、40 670个测试集和5 000个验证集.为减小实验误差证明实验可信度,将文中所提算法进行10次实验后,取10次评估指标平均值作为所提算法的最终评估指标(下同).对比分析结果如表3所示,可见,所提方法在各项评估指标上均取得最佳成绩.小目标对象在图像中的像素占比少,边缘特征不明显,容易淹没在图像背景中,而空频双流对比学习能更好区分图像中检测目标和背景,增强目标与背景之间对比度,故所提方法对小目标检测性能提升更加明显.同时,所提方法对中、大目标的检测性能仍有较大提升.
-
3.2.2 VisDrone2019数据集实验
-
为进一步验证所提算法的有效性,选取YOLOv8s、YOLOv6m等小目标检测先进算法与所提方法在VisDrone2019数据集上进行对比分析.相比MS COCO数据集,VisDrone2019数据集包含更多尺度较小的目标检测对象,能更好反映目标检测算法对小目标对象的检测性能.如表4所示,对比其他先进目标检测算法,文中所提方法在mAP50∶95、mAP50两项评估指标上均取得最好成绩.
-
3.2.3 DOTA数据集实验
-
为进一步验证所提算法在其他数据集上的有效性及泛化性能,选取RetinaNet[36]、RepPoints[37]、GWD[38]等小目标检测先进算法与所提方法在DOTA数据集上进行对比分析.DOTA数据集包含2 806张4 000×4 000分辨率图像,总共包含188 282个小目标,图像场景丰富、目标尺度较小,能进一步反映目标检测算法对小目标对象的检测性能.如表5所示,对比其他先进目标检测算法,文中所提方法取得最优成绩.
-
通过以上3个不同数据集上的实验,结果表明所提算法切实有效,对小目标检测性能有较为明显提升,拥有较优的泛化性能,算法综合性能优于所对比的其他先进算法.
-
3.3 算法可视化检测效果分析
-
为验证所提方法在实际场景中的检测效果,分别从MS COCO数据集、VisDrone2019数据集中选取若干不同场景下的图像进行目标检测.MS COCO数据集检测效果如图5、图6所示.如图5a、5b所示,相较于基线算法,所提方法在黑暗环境中对目标的检测效果更佳.图5a组,基线算法将黑暗场景中的地灯识别为鸟类,归因于黑暗场景中目标与图像背景区分度不足,目标在图像中较为模糊,使得基线算法对其目标检测更加困难,而所提方法得益于增强了检测目标与图像背景之间的区分对比度,有效地避免了此类情况的误检.图5b组,所提方法在光照条件不佳的场景下仍能有效地检测出图像中的中、小目标.图5c组,因待检测目标特征在图像中被部分遮挡,容易导致算法对其特征学习不充分而出现漏检,所提方法通过对检测目标进行图像多尺度退化增强,使得算法能够学习同一检测目标的多种数据形态语义特征,增强算法对检测目标特征的感知理解,在目标被部分遮挡的情况下依然能够有效检出.图5d组,基线算法的目标检测定位框包含图像中目标的水中倒影,而所提方法则对目标的定位更加精准,归因于空频双流对比学习算法可充分利用图像频域信息,算法在图像频域特征空间能学习到更多有关目标边缘像素变化剧烈的特征,可以有效区分目标边缘与图像背景.图6a、6b、6c组,基线算法在面对同一张图像中目标尺度跨度巨大、目标尺度分布不均的情况下容易出现漏检,基线算法对6a中的碗、6b中远处的信号灯、6c中右侧的人出现了漏检,并对6a中图像虚化背景出现了错检,相比之下,本文所提方法对以上漏检、错检的问题都有很好的解决.通过分析图6b、6c可知,所提方法相较于基线算法对小目标、极小目标具有更好的检测性能.对于小目标检测,其应用场景往往伴随着目标拥挤稠密、图像模糊、目标尺度跨度大等附加挑战,如图6d所示,检测图像中目标稠密拥挤,图像模糊只有前景目标较为清晰明显,基线算法对于前景目标可以有效检出,但对于远景目标的检测就显得力不从心,而所提方法在有效检出前景目标的同时,也对远景模糊目标做出了较多有效检出,因此,所提方法面对目标稠密、像素模糊的图像时依然可以保持较高的检测性能.
-
图5 所提方法与基线算法在MS COCO数据集上检测效果对比:第1行,原始输入图像; 第2行,基线算法检测效果; 第3行,所提方法的检测效果
-
Fig.5 Object detection performance comparison between baseline algorithm and the proposed method on MS COCO dataset, with original input images in the first row, detection results of baseline algorithm in the second row, and detection results of the proposed method in the third row
-
图6 所提方法与基线算法在MS COCO数据集上检测效果对比:第1行,原始输入图像; 第2行,基线算法检测效果; 第3行,所提方法的检测效果
-
Fig.6 Object detection performance comparison between baseline algorithm and the proposed method on MS COCO dataset, with original input images in the first row, detection results of baseline algorithm in the second row, and detection results of the proposed method in the third row
-
为进一步验证所提方法在实际场景中对小目标对象的检测效果,从VisDrone2019数据集随机选取部分图像进行检测效果分析.如图7所示,通过无人机航拍图像所采集到的图像,图像中部分目标可能存在互相遮挡,而基线算法对航拍图像中的遮挡目标无法有效检出,出现较为严重的漏检,而所提方法则很好地解决了这一问题.图7a组,基线算法对图像中被部分遮挡的行人和远处像素值较小的行人目标漏检,所提方法则将上述漏检目标全部检出.图7b、7c组,面对暗光照条件下的稠密小目标检测场景,在同等条件下,相较于基线算法,所提方法对图像中的小目标检出成功率更高.
-
4 结束语
-
为解决目标检测算法在未知场景中对小目标检测能力低以及不能有效区分检测目标和背景等问题,提出一种基于空频双流对比学习的改进小目标检测算法.将对比学习与目标检测算法相结合,以提高目标检测算法的通用性与检测性能; 采用空频双流编码器架构,利用空域和频域使网络学习更多额外的具有可鉴别性的语义特征,帮助目标检测网络利用额外的语义特征来区分检测目标与背景.在进行对比学习算法训练时,将双流对比学习网络输入图像进行多尺度退化增强,提升算法对小目标的感知捕获能力.对所构建的对比学习双流网络与目标检测网络采用联合优化训练,将两独立网络学习到的目标语义特征进行有机融合实现特征共享、网络参数共用,提升算法综合性能,提升网络训练效率.在MS COCO数据集、VisDrone2019数据集、DOTA数据集上的实验结果表明,所提方法在不同场景下具有良好的检测效果,对小目标检测性能提升明显,稳健性较好,综合性能更优.下一步,将展开模型轻量化研究,为移动设备在线实时检测提供技术支持.
-
图7 所提方法与基线算法在VisDrone2019数据集上检测效果对比:第1行,原始输入图像; 第2行,基线算法检测效果; 第3行,所提方法的检测效果
-
Fig.7 Object detection performance comparison between baseline algorithm and the proposed method on VisDrone2019 dataset, with original input images in the first row, detection results of baseline algorithm in the second row, and detection results of the proposed method in the third row
-
参考文献
-
[1] 靳晓芳,岳鼎,刘金羽.基于YOLOv3-tiny的智能侦察虚拟训练系统研究[J].兵器装备工程学报,2023,44(8):186-190 JIN Xiaofang,YUE Ding,LIU Jinyu.Research on virtual intelligent reconnaissance training system based on YOLOv3 tiny[J].Journal of Ordnance Equipment Engineering,2023,44(8):186-190
-
[2] 刘安邦,施赛楠,杨静,等.基于虚警可控梯度提升树的海面小目标检测[J].南京信息工程大学学报(自然科学版),2022,14(3):341-347 LIU Anbang,SHI Sainan,YANG Jing,et al.Sea-surface small target detection based on false-alarm-controllable gradient boosting decision tree[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2022,14(3):341-347
-
[3] 李伟文,缪小冬,顾曹雨,等.融合点柱网络和DETR的三维复杂道路目标检测[J].重庆理工大学学报(自然科学),2023,37(11):32-39 LI Weiwen,MIAO Xiaodong,GU Caoyu,et al.3D complex road target detection method by fusing PointPillar network and DETR[J].Journal of Chongqing University of Technology(Natural Science),2023,37(11):32-39
-
[4] 温秀兰,焦良葆,李子康,等.复杂环境下小尺度烟火目标检测研究[J].南京信息工程大学学报(自然科学版),2023,15(6):676-683 WEN Xiulan,JIAO Liangbao,LI Zikang,et al.Small scale smoke & fire target detection in complex environment[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(6):676-683
-
[5] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision(ICCV).December 11-17,2015,Santiago,Chile.IEEE,2015:1440-1448
-
[6] He K M,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision(ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2980-2988
-
[7] Zhang Y F,Chi M M.Mask-R-FCN:a deep fusion network for semantic segmentation[J].IEEE Access,2020,8:155753-155765
-
[8] Zhai S P,Shang D R,Wang S H,et al.DF-SSD:an improved SSD object detection algorithm based on DenseNet and feature fusion[J].IEEE Access,2020,8:24344-24357
-
[9] Mao Q C,Sun H M,Liu Y B,et al.Mini-YOLOv3:real-time object detector for embedded applications[J].IEEE Access,2019,7:133529-133538
-
[10] Zhu X K,Lyu S C,Wang X,et al.TPH-YOLOv5:improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//2021 IEEE/CVF International Conference on Computer Vision Workshops(ICCVW).October 11-17,2021,Montreal,BC,Canada.IEEE,2021:2778-2788
-
[11] Betti A,Tucci M.YOLO-S:a lightweight and accurate YOLO-like network for small target selection in aerial imagery[J].Sensors,2023,23(4):1865
-
[12] Wei Z Q,Liang D,Zhang D,et al.Learning calibrated-guidance for object detection in aerial images[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:2721-2733
-
[13] Gong Y Q,Yu X H,Ding Y,et al.Effective fusion factor in FPN for tiny object detection[C]//2021 IEEE Winter Conference on Applications of Computer Vision(WACV).January 5-9,2021,Waikoloa,HI,USA.IEEE,2021:1159-1167
-
[14] Zhu X,Liang B B,Fu D Y,et al.Airport small object detection based on feature enhancement[J].IET Image Processing,2022,16(11):2863-2874
-
[15] 秦强强,廖俊国,周弋荀.基于多分支混合注意力的小目标检测算法[J].计算机应用,2023,43(11):3579-3586 QIN Qiangqiang,LIAO Junguo,ZHOU Yixun.Small object detection algorithm based on split mixed attention[J].Journal of Computer Applications,2023,43(11):3579-3586
-
[16] 李利霞,王鑫,王军,等.基于特征融合与注意力机制的无人机图像小目标检测算法[J].图学学报,2023,44(4):658-666 LI Lixia,WANG Xin,WANG Jun,et al.Small object detection algorithm in UAV image based on feature fusion and attention mechanism[J].Journal of Graphics,2023,44(4):658-666
-
[17] Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[M]//Computer Vision-ECCV 2014.Cham:Springer International Publishing,2014:740-755
-
[18] He K M,Fan H Q,Wu Y X,et al.Momentum contrast for unsupervised visual representation learning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 14-19,2020,Seattle,WA,USA.IEEE,2020:9726-9735
-
[19] Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:936-944
-
[20] Li H C,Xiong P F,An J,et al.Pyramid attention network for semantic segmentation[J].arXiv e-Print,2018,arXiv:1805.10180
-
[21] Zheng Z H,Wang P,Liu W,et al.Distance-IoU loss:faster and better learning for bounding box regression[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000
-
[22] Du D W,Zhu P F,Wen L Y,et al.VisDrone-DET2019:the vision meets drone object detection in image challenge results[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop(ICCVW).October 27-28,2019,Seoul,Korea(South).IEEE,2019:213-226
-
[23] 刘建政,梁鸿,崔学荣,等.融入特征融合与特征增强的SSD目标检测[J].计算机工程与应用,2022,58(11):150-159 LIU Jianzheng,LIANG Hong,CUI Xuerong,et al.SSD visual target detector based on feature integration and feature enhancement[J].Computer Engineering and Applications,2022,58(11):150-159
-
[24] Meng D P,Chen X K,Fan Z J,et al.Conditional DETR for fast training convergence[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV).October 11-17,2021,Montreal,QC,Canada.IEEE,2021:3631-3640
-
[25] Wang Y M,Zhang X Y,Yang T,et al.Anchor DETR:query design for transformer-based detector[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(3):2567-2575
-
[26] Liu S L,Li F,Zhang H,et al.DAB-DETR:dynamic anchor boxes are better queries for DETR[J].arXiv e-Print,2022,arXiv:2201.12329
-
[27] Gao Z T,Wang L M,Han B,et al.AdaMixer:a fast-converging query-based object detector[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:5354-5363
-
[28] Li F,Zhang H,Liu S L,et al.DN-DETR:accelerate DETR training by introducing query DeNoising[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:13609-13617
-
[29] Huang X,Wang X X,Lv W Y,et al.PP-YOLOv2:a practical object detector[J].arXiv e-Print,2021,arXiv:2104.10419
-
[30] Shang J C,Wang J S,Liu S B,et al.Small target detection algorithm for UAV aerial photography based on improved YOLOv5s[J].Electronics,2023,12(11):2434
-
[31] Liu H Y,Duan X H,Lou H T,et al.Improved GBS-YOLOv5 algorithm based on YOLOv5 applied to UAV intelligent traffic[J].Scientific Reports,2023,13(1):9577
-
[32] Liu H Y,Sun F Q,Gu J,et al.SF-YOLOv5:a lightweight small object detection algorithm based on improved feature fusion mode[J].Sensors,2022,22(15):5817
-
[33] Ding K W,Li X J,Guo W J,et al.Improved object detection algorithm for drone-captured dataset based on Yolov5[C]//2022 2nd International Conference on Consumer Electronics and Computer Engineering(ICCECE).January 14-16,2022,Guangzhou,China.IEEE,2022:895-899
-
[34] 吴明杰,云利军,陈载清,等.改进YOLOv5s的无人机视角下小目标检测算法[J].计算机工程与应用,2024,60(2):191-199 WU Mingjie,YUN Lijun,CHEN Zaiqing,et al.Improved YOLOv5s small object detection algorithm in UAV view[J].Computer Engineering and Applications,2024,60(2):191-199
-
[35] 刘展威,陈慈发,董方敏.基于YOLOv5s的航拍小目标检测改进算法研究[J].无线电工程,2023,53(10):2286-2294 LIU Zhanwei,CHEN Cifa,DONG Fangmin.Improved aerial small object detection algorithm based on YOLOv5s[J].Radio Engineering,2023,53(10):2286-2294
-
[36] Lin T Y,Goyal P,Girshick R,et al.Focal loss for dense object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318-327
-
[37] Yang Z,Liu S H,Hu H,et al.RepPoints:point set representation for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2019:9656-9665
-
[38] Yang X,Yan J C,Ming Q,et al.Rethinking rotated object detection with Gaussian Wasserstein distance loss[J].arXiv e-Print,2021,arXiv:2101.11952
-
[39] Tian Z,Shen C H,Chen H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2019:9626-9635
-
[40] Chen Q,Wang Y M,Yang T,et al.You only look one-level feature[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 21-25,2021,Nashville,TN,USA.IEEE,2021:13034-13043
-
[41] Yang X,Zhang G F,Li W T,et al.H2RBox:horizontal box annotation is all you need for oriented object detection[J].arXiv e-Print,2022,arXiv:2210.06742
-
摘要
针对小目标检测任务中目标图像尺寸小、目标特征信息模糊、目标和背景难区分等问题,提出一种基于双流对比特性学习和图像多尺度退化增强的小目标检测方法.首先,将对比学习模型的输入图像进行多尺度退化增强,增强算法对小目标的捕获感知;其次,在空间域和频率域同时进行对比学习表征,以学习更具鉴别性的目标识别特征,增强模型对目标与背景的区分能力,从而提高小目标检测的效果.为验证所提方法的有效性设计了消融实验,并对比分析了与其他先进算法的检测性能优劣.实验结果表明:所提方法在MS COCO数据集上平均精度均值mAP相较基线算法提升3.6个百分点,小目标平均精度均值mAPS相较主流先进算法提升7.7个百分点;在VisDrone2019数据集上,所提方法平均精度均值mAP较基线算法提升2.4个百分点,所提方法综合性能优于基线算法与其他主流先进算法.可视化检测效果分析表明,所提方法在小目标检测上的漏检、误检问题得到较大改善.
Abstract
To address the challenges in small object detection tasks,such as the small size of target images,blurred target features,and difficulty in distinguishing targets from backgrounds,a method based on dual-stream contrastive feature learning and multi-scale image degradation augmentation is proposed.First,the input images of the contrastive learning model are subjected to multi-scale degradation augmentation,thus enhancing the model's ability to perceive and capture small targets.Second,contrastive learning representations are conducted in both spatial and frequency domains simultaneously to learn more discriminative target recognition features,thereby improving the model's ability to differentiate between targets and backgrounds.To verify the effectiveness of the proposed scheme,ablation experiments are designed,and the detection performance is compared with that of other advanced algorithms.Experimental results show that the proposed scheme achieves an improvement of 3.6% in mean Average Precision (mAP) over the baseline algorithm on the MS COCO dataset,and an improvement of 7.7% in mAP for small objects (mAPS) compared to mainstream advanced algorithms.On the VisDrone2019 dataset,the proposed method achieves a 2.4% increase in mAP compared to the baseline algorithm,demonstrating its superior overall performance over the baseline algorithm and other mainstream advanced algorithms.Visual analysis of detection results indicates a significant improvement in the rates of false negatives and false positives for small object detection.