摘要
针对车载影像中的道路病害尺寸差异大,小尺度病害多,导致检测精度低的问题,本文提出一种基于YOLOv5s改进的实时车载影像道路病害检测模型VRD-YOLO(Vehicle-mounted image Road Damage Detection-YOLO).首先,提出通道混合滑动Transformer模块,增强模型全局上下文建模能力,强化细粒度道路病害语义特征信息提取;其次,引入具有跨层融合和跨尺度融合特性的广义特征金字塔,扩大网络感受野,强化多尺度病害特征融合;再次,设计动态检测头,实现尺度感知、空间感知和任务感知,优化模型特征响应,进一步提升模型的检测性能;最后,构建车载影像道路病害数据集VIRDD(Vehicle-mounted Image Road Damage Dataset),扩充现有道路病害数据集数量及类型,并基于该数据集进行消融和对比实验.实验结果表明:VRD-YOLO在VIRDD数据集上的平均精度均值(mAP@0.5)为74.45%,检测速度(FPS)可达到28.56帧/s,与YOLOv5s模型相比,精确度、召回率、F1分数和mAP分别提升2.79、2.32、2.54和3.19个百分点.同时,通过与其他6种经典及主流目标检测模型比较,VRD-YOLO以最少的模型参数量(9.68×106)获得了最佳的检测精度,验证了本文方法的有效性和优越性.
Abstract
To accurately detect road damages with large size differences and small scales in vehicle-mounted images,this paper presents a real-time road damage detection model based on improved YOLOv5s,termed as VRD-YOLO (Vehicle-mounted image Road Damage Detection-YOLO).Firstly,a Channel Mix Slide Transformer (CMST) module is proposed to enhance the model's global context modeling capability and strengthen the extraction of fine-grained road damage semantic feature information.Secondly,a generalized feature pyramid with cross-layer fusion and cross-scale fusion is introduced to expand the network receptive field and strengthen the fusion of multi-scale damage features.Thirdly,to optimize the model's feature response and further improve detection performance,a dynamic detection head is designed to achieve scale perception,spatial perception,and task perception.Finally,a Vehicle-mounted Image Road Damage Dataset (VIRDD) is constructed to expand the quantity and types of existing road damage datasets,and ablation and comparative experiments are conducted based on this dataset.Experimental results show that the VRD-YOLO achieves a mean Average Precision (mAP@0.5) of 74.45% on the VIRDD dataset,with a detection speed reaching 28.56 frames per second.Compared to the YOLOv5s model,VRD-YOLO improves the precision,recall,F1 score,and mAP by 2.79,2.32,2.54,and 3.19 percentage points,respectively.Additionally,compared with six other classical and mainstream object detection models,the proposed VRD-YOLO attains the highest detection accuracy with the smallest model parameter count of 9.68 million,verifying its effectiveness and superiority.
0 引言
近年来,我国公路建设飞速发展,截至2023年,公路总里程已突破550万km.伴随公路总里程和上路率的增加,及时有效的道路病害检测至关重要[1].目前,我国主要依赖专业养护人员实地调查、人工目视检查来完成道路病害的检测工作.但是,人工检测存在成本高、效率低、影响正常交通等问题[2].随着计算机技术的快速发展与普及,基于传统图像处理和机器学习方法被广泛应用于道路病害检测领域,如开运算归一化方法[3]、改进的Otsu阈值法[4]、数字图像方法[5]、神经网络法[6]和支持向量机法[7]等.由于道路影像中存在噪声和阴影等干扰,传统的图像处理技术和基于机器学习的道路病害检测方法无法满足高精度、高质量道路病害检测与提取需求.
随着深度学习方法的快速发展,基于影像的目标检测算法已经开始广泛应用于道路、墙体、桥梁等建筑物病害检测.此类算法根据检测流程可分为双阶段算法和单阶段算法.双阶段目标检测算法首先生成包含目标的候选区域,然后进行边界框回归.典型的算法包括R-CNN(Region-based Convolutional Neural Network)[8]、Fast R-CNN[9]、Faster R-CNN[10]和Mask R-CNN[11]等.双阶段算法尽管在精度上具有优势,但由于其复杂的深度网络结构,难以满足大规模道路病害实时巡检的速度要求.单阶段目标检测算法摒弃了候选区域生成,在回归过程中直接对目标提取特征,结合特征图和锚框完成目标定位和分类.SSD(Single Shot Multibox Detector)[12]和YOLO[13]系列为典型的单阶段目标检测算法.
SSD作为一种实时目标检测模型,具备较高的检测速度,能够同时在不同特征层上执行目标检测任务,例如,赵雪寒等[14]利用梯度下降Sobel算子优化SSD模型,实现了5种类型道路病害的检测.然而,SSD在多尺度病害特征图上生成大量锚框,虽然提升了病害检测的灵活性,但同时带来了较高的计算开销,增加了模型的复杂性.YOLO系列算法因其精简的模型设计得到了研究人员的广泛应用.Ren等[15]在YOLOv5模型中增加超大尺寸检测头,提升了对网状裂缝等大尺度病害的检测精度.何铁军等[16]在特征提取阶段的池化中将传统的金字塔池化(Spatial Pyramid Pooling Fast,SPPF)替换为分组金字塔池化(Spatial Pyramid Pooling Fast Cross Stage Partial Connection,SPPFCSPC)以获取不同感受野,有效解决了低分辨率影像中小裂缝目标特征丢失的问题.针对光照增强或光照不均匀情况下影像失真的问题,钟山等[17]结合YOLOv7模型和光照增强训练策略,实现了多种光照条件下道路病害检测.耿焕同等 [18] 在YOLOv8模型中引入通道注意力机制自适应地调整通道权重,进而实现移动端设备上的实时病害检测.
目前大多数基于YOLO系列算法的道路病害检测模型研究存在如下问题:1)利用注意力机制或卷积和池化优化等方法增强模型局部特征提取能力,忽略了背景特征以及无关噪声抑制;2)多尺度特征表达能力弱,缺乏不同维度相邻层间的跨层连接和跨尺度连接;3)未考虑长宽比差异大、小尺度目标数量多的道路病害目标.当前,YOLO系列已发展出10余种版本,其中,YOLOv5、YOLOv7和YOLOv8是当前研究的焦点.YOLOv5和YOLOv8属于同一框架,但在模型架构方面存在差异.YOLOv7由于模型复杂且参数量大,不适宜应用于实时道路病害检测场景.尽管YOLOv8在检测精度上略胜一筹,但其复杂的模型结构和轻量化的特征提取模块导致性能稳定性较差,微调成本较高.相比之下,YOLOv5框架结构简洁,优化空间较大,更适合道路病害检测领域.在模型稳定性方面,YOLOv5由Ultralytics团队维护且模型持续更新,在实际应用中经过广泛验证,显示出较强的工业稳定性.因此,鉴于YOLOv5s网络参数量小、框架稳定等优点,本文基于YOLOv5s提出一种车载影像道路病害检测模型VRD-YOLO(Vehicle-mounted image Road Damage Detection-YOLO),提高细粒度道路病害特征提取能力,增强小尺度病害语义信息表达和多尺度病害特征融合.为扩充现有道路病害数据集,本文构建了一套车载影像道路病害数据集VIRDD(Vehicle-mounted Image Road Damage Dataset),并用于验证本文所提VRD-YOLO模型道路病害检测的有效性.此外,本文进一步探究了路面其他非病害类别如井盖、雨水箅子和伸缩缝对道路病害检测精度的影响.
1 模型介绍
1.1 VRD-YOLO整体框架
VRD-YOLO沿用YOLOv5s网络结构,主要由骨干特征提取网络、颈部特征融合网络和目标检测头三部分组成.VRD-YOLO整体网络结构如图1所示.骨干特征提取网络主要由原YOLOv5的标准卷积模块(Convolutional block with BatchNorm2d and SiLu,CBS)(图1a)、三卷积的跨阶段瓶颈模块(CSP Bottleneck with 3 Convolutions,C3)(图1b)、空间金字塔池化模块(Spatial Pyramid Pooling Fast,SPPF)(图1c)和本文所提通道混合滑动Transformer模块(Channel Mix Slide Transformer,CMST)组成.其中,在骨干特征提取网络第8层嵌入CMST模块,结合上下文语义信息,提取细粒化道路病害特征,以解决车载影像中小尺度道路病害目标特征提取不足的问题.假设输入影像大小为640×640像素,骨干特征提取网络通过5次下采样,以及C3模块和CMST模块融合特征图信息并拼接其特征通道,获得80×80、40×40和20×20三种像素大小的特征图.同时,特征图维度以成倍比例逐渐增加(即256→512 →1 024维度),网络将其学习到的高维度特征输送至颈部特征融合网络进行多尺度特征融合.
颈部特征融合网络引入广义特征金字塔模块(Generalized Feature Pyramid Network,GFPN),通过跨层融合和跨尺度融合,扩大网络感受野,增强多尺度道路病害特征的信息融合.在GFPN上采样的第13层(20×20像素特征图)和第17层(40×40像素特征图),下采样的第20层(20×20像素特征图)、23层(40×40像素特征图)和27层(80×80像素特征图)依次融合多尺度病害特征,并将其融合的多尺寸特征图输送至目标检测头.
目标检测头设计了动态检测头模块(Dynamic Head,DYHEAD),通过结合尺度、空间和任务三种维度注意力机制,协调特征响应,提升VRD-YOLO模型对道路病害目标的特征表达能力,同时降低路面背景信息和噪声的干扰.最终,动态检测头对20×20、40×40和80×80(像素)的特征图进行多尺度预测,输出道路病害目标的位置、类别和置信度信息.
1.2 通道混合滑动Transformer模块
在YOLOv5s模型中,C3模块通过简单堆叠3个标准卷积块来增加特征图维度,但这种设计在处理道路病害等多尺度、细节丰富的任务时,容易导致小尺度病害细节特征的丢失.为此,本研究提出了CMST模块.在增加少量参数量的前提下,增强模型全局上下文建模能力,缓解道路病害特征信息丢失,提高病害检测精度.CMST模块聚合了大量道路病害特征语义信息,不可避免会增加模型计算量.因此,本研究仅在骨干特征提取网络第8层嵌入一个CMST模块,其最佳嵌入位置详细见2.5节分析.

图1VRD-YOLO网络结构
Fig.1VRD-YOLO network structure
CMST模块的具体结构如图2所示.首先,通过多分支拓扑结构将输入道路病害特征图分为两个支路:一条支路直接通过标准卷积模块提取局部细节特征,如道路病害的边缘、纹理和形态等信息;另一条支路在标准卷积模块之后嵌入Swin Transformer模块,利用其多头注意力机制分配特征权重,优化和增强特征表达,从而更好地提取全局上下文和细粒度病害语义信息.值得注意的是,Swin Transformer模块并不是直接用于特征提取,而是通过优化标准卷积提取的特征,帮助模型捕捉更为复杂的上下文信息和全局依赖.随后,通道拼接融合这两条支路的特征图,获得局部细节和全局上下文信息互补的道路病害特征图.
Swin Transformer模块由窗口多头自注意力(Windows Multi-Head Self-Attention,W-MSA)、滑动窗口多头自注意力(Shifted Windows Multi-Head Self-Attention,SW-MSA)和层归一化(Layer Normalization,LN)组成[19].为增强模型训练的稳定性,在这些组件之间引入了残差连接,以克服网络仅能建立短距离信息依赖的问题.CMST工作原理如式(1)所示.
(1)
其中:Attention()为注意力机制;Q为查询矩阵;K为键矩阵;V为值矩阵;SoftMax()为归一化指数函数;c为特征通道数;S为滑动位移.

图2通道混合滑动Transformer模块结构
Fig.2Structure of CMST
1.3 广义特征金字塔模块
为提高多尺度道路病害目标识别的准确性,本文在路径聚合网络(Path Aggregation Network,PANet)基础上提出了广义特征金字塔GFPN模块.图3a所示为PANet结构,图3b所示则为本文设计的GFPN结构.如图3a所示,PANet通过自顶向下路径从高维度向低维度传递语义信息,通过自底向上路径从低维度向高维度传递位置信息.然而,PANet在特征融合中对多尺度特征的利用不够充分,限制了对复杂病害目标的检测效果.如图3b所示,GFPN模块在PANet的基础上,增加了相邻层之间的跨层连接和跨尺度连接,提升了多尺度特征图的利用效率.通过多层上采样、下采样和拼接操作,实现了多尺度病害特征的高效融合,逐层地结合高层语义信息和低层空间信息,使网络能够在不同分辨率下提取和综合特征信息.GFPN模块不仅增强了特征的表达能力,还保留了病害特征图的细节信息和语义上下文,并建立了网络的长距离依赖关系.在GFPN中,跨层连接和跨尺度连接的连接方式分别为密集连接和log2n连接[20],其公式分别如式(2)、式(3)所示:
(2)
(3)
其中:为第m层特征图在第n级的特征信息;Conv()为3×3卷积操作;Concat()为特征拼接操作;i-2k大于等于0.
1.4 动态检测头模块
YOLOv5原目标检测头存在一定局限性:1)仅使用单尺度检测,忽略了不同检测层级的语义信息和空间位置信息的协同作用;2)YOLOv5头部参数量少、计算能力有限,全局视野较弱.为增强头部特征表达能力,降低特征图中背景和噪声的干扰,本文设计了动态检测头DYHEAD模块.DYHEAD模块采用多维度动态调整策略,可以自适应调整不同维度特征权重,有利于多尺度道路病害特征的提取.如图4所示,DYHEAD模块分别利用πL尺度感知注意力函数在水平维度加强对道路病害目标的语义特征学习,πS空间感知注意力函数在空间维度上关注道路病害目标的分布位置信息,以及πC任务感知注意力函数在通道维度指导特征图执行不同的通道任务[21].DYHEAD模块通过多维度注意力机制克服传统检测头的局限,有助于提高复杂场景下的道路病害检测精度.

图3PANet 和 GFPN 结构
Fig.3Structures of PANet and GFPN

图4动态检测头结构
Fig.4Structure of DYHEAD
DYHEAD模块采用了串行连接3种注意力机制,避免了检测头大幅增加模型的计算量和复杂度,其注意力机制计算过程如式(4)所示:
(4)
其中:F表示预测端的三维特征张量F∈RL×S×C.
图5为DYHEAD模块注意力机制结构.如图5所示:πL采用自适应平均池化缩放道路病害特征图,对其进行尺度上卷积调整,最后应用Relu和Hard Sigmoid激活函数增强对不同尺度特征的区分能力;πS采用3×3卷积计算输入特征图偏移和掩码,通过Sigmoid函数将掩码值限制在0和1之间,最后变形卷积更精确地处理图像中病害空间特征和结构;πC利用全局平均池化提取特征全局信息,按照通道数对特征图切片,再利用全连接层和归一化层加快特征学习,最后应用移位Sigmoid函数将输出规范化到[-1,1]以灵活控制特征增强或抑制.
2 实验和结果
2.1 数据集介绍
针对现有道路病害数据集数量有限且病害种类不全面的问题,本文构建了车载影像道路病害数据集VIRDD(Vehicle-mounted Image Road Damage Dataset).VIRDD数据集所有影像是由890万像素CMOS图像传感器的工业相机采集,包含了4个国内城市近20万幅高分辨率车载道路街景影像(分辨率为2 448×2 048像素和1 920×1 080像素).经过严格人工筛选和标注,最终得到6 550张车载影像,其中,北京市1 278张、天津市1 811张、郑州市1 851张、武汉市1 610张.该数据集涵盖高速公路、国道、省道、城市快速路和住宅区慢速路等多等级道路类型.VIRDD数据集包含了纵向裂缝、横向裂缝、网状龟裂、坑洞、横向裂缝修补、纵向裂缝修补、块状修补、坑洞修补8种道路病害类型.此外,由于井盖、雨水箅子和伸缩缝与道路病害存在一定形态和光谱相似性,对这3种常见的非道路病害也进行标注.VIRDD数据集标签类型如图6所示.VIRDD数据集按8∶1∶1的比例随机划分为训练集5 240张、验证集655张和测试集655张.VIRDD各标签数量具体如表1所示.

图5动态检测头模块注意力机制结构
Fig.5Structure of DYHEAD attention mechanism
2.2 实验环境与评价指标
本文所有实验和评价均在Windows10操作系统、 AMD Ryzen7 3700X CPU、单张NVIDIA RTX 2070 GPU显卡、 Python3.7开发环境、 Pytorch1.13.0深度学习框架、 CUDA11.7 GPU计算平台上完成.模型训练参数设置及线上数据增强等参数设置如表2所示.
为定量评估VRD-YOLO模型道路病害检测性能,本文使用精确度(Precision,P)、召回率(Recall,R)、F1分数(F1-score,F1)和平均精度均值(mAP@0.5)作为模型检测性能评价指标,其计算公式如式(5)—(8)所示.此外,采用参数量(Params)和每秒处理帧数(FPS)评价模型的复杂程度.
表1VIRDD标签数量
Table1Number of VIRDD labels

(5)
(6)
图6VIRDD标签类型示意图
Fig.6VIRDD label types
表2参数设置
Table2Parameter setting

(7)
(8)
2.3 对比实验
为验证VRD-YOLO病害检测模型优越性,与无锚框单阶段检测模型CenterNet[22]和YOLOv8s[23]、基于锚框双阶段模型Faster R-CNN、引入辅助头的YOLOv7[24]和YOLOv9c[25]及改进的YOLOv5-AC[26]进行实验对比.为满足工业界目标检测模型的应用部署要求,采用mAP、Params和FPS作为性能评价指标,实验结果如表3所示,其中最佳结果已加粗表示.
表3对比实验结果
Table3Comparative experimental results

如表3所示,VRD-YOLO在mAP@0.5上达到74.45%的平均精度,同时模型参数量为9.68×106,检测速度为28.56帧/s,满足了实时道路病害检测的需求.与Faster R-CNN双阶段模型相比,VRD-YOLO模型参数量显著下降了127.21×106,mAP@0.5显著提升37.11个百分点,检测速度大大加快,表明单阶段VRD-YOLO架构能有效轻量化模型并提升模型检测速度.与CenterNet和YOLOv8s模型相比,VRD-YOLO在mAP@0.5上分别获得20.36和1.04个百分点的提升,表明无锚框模型在面对长宽比不规则的道路病害目标时,模型长距离依赖建模能力不足,导致关键点回归受限.与YOLOv7和YOLOv9c相比,VRD-YOLO不仅参数量压缩了26.85×106和41.04×106,并且mAP@0.5分别提升18.63和7.93个百分点,表明YOLOv7和YOLOv9c的辅助头未能有效提取道路病害的浅层特征,反而与引导头提取的深层特征相互混淆.与YOLOv5-AC模型相比,VRD-YOLO的参数量压缩4.06×106,检测速度提升45.64%的情况下,mAP@0.5显著提升28.32个百分点,表明YOLOv5-AC仅在局部网络结构中引入注意力机制,难以使模型获得全局感受野并导致模型复杂度增加.
图7为对比实验结果,展示不同模型对测试集中存在细小、密集病害等复杂场景的实际预测效果.如图7a所示,对影像远处和车道线的细小裂缝,仅有VRD-YOLO能正确识别.如图7b所示,VRD-YOLO能从密集的道路病害中准确检测病害数量和类别.同时,VRD-YOLO检测道路病害置信度均高于其他模型.具体而言,Faster R-CNN仅使用单层特征图进行特征提取,特征提取能力有限,导致道路病害识别置信度低.基于无锚框的CenterNet和YOLOv8s,CenterNet未使用非极大值抑制算法筛选边界框,预测结果出现大量冗余框;YOLOv8s仅在检测头简单引入非极大值抑制算法,则出现目标框去除过度导致大量漏检的情况.由于YOLOv5-AC、YOLOv7和YOLOv9c模型仅注重在检测头嵌入注意力模块或添加辅助头,其预测结果均出现较为严重的漏检情况,表明模型不能有效利用头部大量特征信息,反而存在信息相互干扰,影响检测精度.
2.4 消融实验
为进一步验证所提模块对道路病害检测性能的影响,本节以YOLOv5s模型作为基线模型,在VIRDD数据集上逐个添加模块进行消融实验,实验结果如表4所示.其中:模型A为基线模型YOLOv5s;模型B为仅在YOLOv5s骨干网络第8层中嵌入CMST模块得到的模型;模型C为仅在YOLOv5s特征融合网络中使用GFPN得到的模型;模型D为仅使用DYHEAD作为目标检测头得到的模型; 模型E为同时将CMST模块和GFPN模块引入YOLOv5s得到的模型.
由表4可知,CMST、GFPN和DYHEAD三种改进模块均能使模型在精确度、召回率、平均精度均值和F1分数上有着不同程度的提高.在仅引入单个模块的B、C、D模型中,引入GFPN特征融合网络的模型C的 mAP@0.5提高1.25个百分点,证明了添加跨层连接和跨尺度连接的GFPN特征融合网络能有效解决特征融合过程中小尺度病害特征信息易丢失的问题.在YOLOv5s模型中引入CMST模块和GFPN模块的模型E中,获得了最佳75.30%的精确度,表明CMST模块能够提取丰富的上下文语义特征信息,可增强模型全局上下文建模能力.在模型E基础上继续引入DYHEAD模块得到本文所提VRD-YOLO,相比于YOLOv5s,在P、R、mAP@0.5和F1分数4个指标上分别提升2.79、2.32、3.19和2.54个百分点,表明引入具有3种注意力机制的DYHEAD模块,能够增加特征信息的多样性,进一步优化模型特征响应,提升道路病害检测精度.
图7对比实验结果
Fig.7Comparative experiment results
表4消融实验结果
Table4Ablation analysis results

为了进一步证实VRD-YOLO在道路病害检测中的优越性,本文与YOLOv5s基线模型对测试集影像进行预测对比,部分预测结果如图8所示.由图8a可知,VRD-YOLO能准确识别3条连续的纵向裂缝,且置信表现远超YOLOv5s;由图8b可知,VRD-YOLO能精确检测出远处的纵向裂缝并且未出现目标框冗余现象;由图8c可知,VRD-YOLO能从复杂的划分车道线情况下检测病害边界,计算出正确的病害数量,而 YOLOv5s 则出现漏检和目标框重叠的问题;由图8d可知,YOLOv5s误将阴影识别成道路病害,且漏检了处于车道线上的纵向裂缝,而VRD-YOLO则准确识别车道线上细小裂缝并排除阴影干扰.结合表4定量结果可以发现,VRD-YOLO获得全局感受野,可实现长距离建模中多尺度特征信息的有效提取、融合和表达,从而提升模型在车载影像中道路病害的检测性能.
图8YOLOv5s 和 VRD-YOLO对比实验结果
Fig.8Visual comparison results obtained by YOLOv5s and VRD-YOLO
2.5 CMST模块嵌入位置对模型的影响
为了验证CMST模块在骨干特征提取网络嵌入位置对模型检测性能的影响,本节以YOLOv5s引入GFPN模块和DYHEAD模块得到的模型作为基线模型a,依次在模型a的骨干特征提取网络第2、4、6、8层中嵌入CMST模块,分别得到a2、a4、a6、a8 4个模型.在同一数据集下进行实验,实验结果如表5所示.
表5CMST模块嵌入位置影响
Table5Effect of CMST embedding position

由表5可知,CMST模块嵌入基线模型a的不同位置,会对网络的检测精度和复杂度造成不同程度影响.CMST模块嵌入到第2层时,模型a2不仅在参数量上降低了0.27×106,还获得了最高70.99%的召回率,F1分数和mAP@0.5分别比基线模型a提升0.32和0.14个百分点,表明在浅层骨干网络中引入CMST模块能使得网络更加关注低维特征图中的小尺度病害,减少背景信息的干扰,使得模型更加轻量并有效提取道路病害语义信息.将CMST模块嵌入到第8层时,a8模型获得最佳的mAP@0.5和F1分数值.相比于 a、a2、a4和a6模型,a8的mAP@0.5分别提升1.00、0.86、2.73和1.36个百分点,F1分数分别提高了0.75、0.43、2.57和0.52个百分点.此外,a8模型的参数量相比于基线模型a仅增加0.12×106,表明在深层特征提取网络中引入CMST模块能减少骨干网络对冗余特征的干扰,增强模型对复杂语义信息的捕捉能力,能够更准确地识别和区分不同形态的道路病害,进而显著提高检测性能.基于此,VRD-YOLO模型将CMST模块嵌入在骨干特征提取网络中的第8层.
2.6 加入井盖等非道路病害对检测结果的影响
为了探究非道路病害对检测精度的影响,基于VIRDD数据集,建立不含井盖、雨水箅子和伸缩缝3种类型的数据集VIRDD-1.并与含有井盖、雨水箅子和伸缩缝3种常见的非道路病害VIRDD数据集进行对比实验,各标签类型检测精度如图9所示.
图9表明,相比于VIRDD-1,VIRDD数据集中仅有横向裂缝和纵向裂缝修补两种病害类别的mAP@0.5指标分别降低0.46和0.23个百分点.此外,VIRDD数据集中纵向裂缝、网状龟裂、坑洞、横向裂缝修补、块状修补和坑洞修补6种道路病害的mAP@0.5指标则分别提升1.32、1.56、16.83、1.18、5.46和2.68个百分点,并且VIRDD数据集中所有病害类型mAP@0.5提升3.54个百分点,其中,对坑洞类别mAP@0.5提升最为显著,达到16.83个百分点.在VIRDD数据集中,井盖、雨水箅子和伸缩缝分别以mAP@0.5为89.49%、96.16%和67.40%的检测精度被VRD-YOLO识别,表明形态规则的目标更容易被模型检测.

图9各标签类型检测精度
Fig.9Detection accuracies for each label type
图10为VIRDD-1和VIRDD数据集训练得到的模型(分别称为V-1和V模型)在测试集中部分对比实验结果.由图10a可知,V-1模型将路面的污渍误检为纵向裂缝修补,而V模型则能排除污渍干扰并以较高的置信度正确识别坑洞.由图10b可知,V-1模型将水渍识别成纵向裂缝,而V模型不仅忽略水渍背景信息并正确检测出横向裂缝,而且还成功识别出远处的雨水箅子.由图10c可知,面对复杂的道路背景时,V-1模型不但出现明显的误检,并且出现目标框严重重叠的情况,而V模型则能正确识别网状裂缝和井盖并正确划分目标框.由图10d可知,V-1模型将大量路面细纹识别成纵向裂缝,而V模型则能正确检测纵向裂缝和划分伸缩缝所在区域.从以上VIRDD和VIRDD-1数据集对比实验结果表明,井盖、雨水箅子和伸缩缝3种非道路病害类别与坑洞及其他病害在影像光学和几何特征上具有相似性,将非道路病害类别添加到道路病害检测任务中,有助于模型聚合更多特征信息并有效排除背景信息干扰,从而提升模型对道路病害检测性能.
图10VIRDD-1 和 VIRDD对比实验结果
Fig.10Visual comparison results obtained by VIRDD-1 and VIRDD
3 结论
针对当前道路病害检测算法在面对目标尺度多样化和小尺度病害数量较多时检测精度较低的问题,本文提出一种基于YOLOv5s模型改进的实时车载影像道路病害检测模型VRD-YOLO,并且建立了一个多类别车载影像道路病害数据集VIRDD.所提VRD-YOLO模型中,嵌入CMST模块以增强细粒度语义特征信息提取,引入GFPN模块丰富颈部特征融合和提升模型感受野以增强多尺度特征融合,设计了DYHEAD模块增强特征图水平、空间和通道的感知力,以提升模型特征表达能力.VIRDD测试集验证表明,相比于基线模型YOLOv5s以及其他6种目标检测模型,所提VRD-YOLO模型的精确度、召回率、F1分数和mAP@0.5分别为71.49%、68.50%、69.96%和74.45%,并且检测速度可达28.56帧/s.因此,所提VRD-YOLO模型可从复杂的道路背景中高精度检测多尺度,甚至小尺度道路病害,并且满足实时道路病害检测需求.此外,本文研究得出通过在数据集中添加非道路病害类别能有效提升模型对道路病害的检测性能.尽管VRD-YOLO模型显著提升道路病害检测性能,但仍存在进一步优化的空间.未来研究将继续注重模型的轻量化,以便VRD-YOLO能更好地满足各类移动设备的部署需求.