2024, 16(1):11-19.DOI: 10.13878/j.cnki.jnuist.20230502002
摘要:针对交通标识在图像中占比小、检测精度低且周围环境复杂等问题,提出一种基于改进YOLOv5s的算法.首先,在主干网络部分添加注意力机制ECA(Efficient Channel Attention,高效通道注意力),增强网络的特征提取能力,有效解决了周围环境复杂的问题;其次,提出HASPP(Hybrid Atrous Spatial Pyramid Pooling,混合空洞空间金字塔池化),增强了网络结合上下文的能力;最后,修改网络中的Neck结构,使高层特征与底层特征有效融合,同时避免了跨卷积层造成的信息丢失.实验结果表明,改进后的算法在交通标识数据集上取得了94.4%的平均检测精度、74.1%的召回率以及94.0%的精确率,较原始算法分别提升了3.7、2.8、3.4个百分点.
2024, 16(4):451-460.DOI: 10.13878/j.cnki.jnuist.20240330001
摘要:跨模态行人重识别是一项具有挑战性的任务,目的是在可见光和红外模式之间匹配行人图像,以便在犯罪调查和智能视频监控应用中发挥重要作用.为了解决跨模态行人重识别任务中对细粒度特征提取能力不强的问题,本文提出一种基于融合注意力和特征增强的行人重识别模型.首先,利用自动数据增强技术缓解不同摄像机的视角、尺度差异,并基于交叉注意力多尺度Vision Transformer,通过处理多尺度特征生成具有更强区分性的特征表示;接着,提出通道注意力和空间注意力机制,在融合可见光和红外图像特征时学习对区分特征重要的信息;最后,设计损失函数,采用基于自适应权重的难三元组损失,增强了每个样本之间的相关性,提高了可见光和红外图像对不同行人的识别能力.在SYSU-MM01和RegDB数据集上进行大量实验,结果表明,本文提出方法的mAP分别达到了68.05%和85.19%,相较之前的工作性能有所提升,且通过消融实验和对比分析验证了本文模型的先进性和有效性.
2023, 15(1):76-84.DOI: 10.13878/j.cnki.jnuist.2023.01.008
摘要:模型的效率在计算机视觉中变得越来越重要.本文通过研究用于火焰检测的神经网络结构,提出了几个关键的优化方案,以提高模型效率和检测效果.第一,提出一种由多卷积组合结构构建的主干网络(FIRE-Net),它能高效地从多个尺度上提取丰富的火焰特征;第二,提出一种改进的加权双向特征金字塔网络(BiFPN-mini)以快速地实现多尺度特征融合;第三,提出一种新的注意力机制(FIRE-Attention),让检测器对火焰特征更敏感.基于上述优化,本文开发出了一种全新的火焰检测器FIRE-DET,它在硬件资源有限的条件下能够取得比现有基于深度学习的火焰检测方法更高的检测效率.FIRE-DET模型在自建数据集上进行训练后,最终对火焰检测的准确率和帧率分别达到97%和85 FPS.实验结果表明,与主流算法相比,本文火焰检测模型检测性能更优.本文为解决火焰探测问题提供了一个更通用的解决方案.
2023, 15(3):274-285.DOI: 10.13878/j.cnki.jnuist.20220321001
摘要:视频编码技术有效地解决了原始视频数据量过大的问题,但压缩效率的提升会使视频质量下降.为了提高压缩视频的视觉质量,本文提出了一种基于细节还原卷积神经网络(Detail Recovery Convolutional Neural Network,DRCNN)的视频质量增强方法,该方法由一个主去噪分支和一个细节补偿分支组成.为了有效地提取和消除压缩失真,在主去噪分支中提出了一个多尺度失真特征提取块(Multi-scale Distortion Feature Extraction Block,MDFEB),使其更加关注压缩视频中的失真区域,并提高DRCNN的失真特征学习能力.此外,为了丰富压缩视频中的细节,本文提出了细节补偿分支:首先采用预训练的50层残差网络组成的内容特征提取器,提供丰富的内容特征,如突出的物体、形状、细节等;然后通过设计的细节响应块(Detail Response Block,DRB)从内容特征中有效地提取细节特征.大量的实验结果表明,与4种有代表性的方法相比,本文所提出的DRCNN实现了最佳的压缩视频质量增强性能.
2023, 15(4):393-402.DOI: 10.13878/j.cnki.jnuist.20220505003
摘要:为了提高高光谱图像在有限训练样本下的分类性能,提出了一种基于双池化注意力机制的高光谱图像分类网络(DPAMN).首先,采用三维卷积提取高光谱图像的空间和光谱浅层信息.其次,为了增强网络的特征提取能力,在DPAMN中引入了一种双池化注意力机制.最后,在网络的深层引入三维卷积密集连接模块,该模块不仅能够充分提取高光谱图像的空间和光谱特征,同时还能提高特征的判别能力.实验结果表明,在Indian Pines、University of Pavia、Salinas以及Houston 2013数据集上分别取得95.45%、97.11%、95.30%以及93.71%的整体平均精度,与目前主流的已有先进方法相比,所提出的方法在4个数据集上均有较大提升,表明所提方法具有较强的泛化能力.
2019, 11(2):186-191.DOI: 10.13878/j.cnki.jnuist.2019.02.009
摘要:为了解决带电作业时手臂末端输出力的准确控制,提出一种基于表面肌电信号(sEMG信号)和支持向量机回归(SVR)实现对手臂末端施力的评估方法.通过手握机械手臂末端的手柄,做往复推拉运动,记录此时手柄处的力传感器的数据F,同时利用3组肌电信号传感器同步采集手臂的肌电信号.将肌电信号提取特征后,与力F组合成样本集合S,在样本集合中随机抽取50%的样本数据作为训练集,分别训练BP神经网络、GRNN神经网络以及SVR神经网络.最后用训练好的神经网络对整个样本集中的力F进行预测,并用均方根误差和相关系数评估模型的预测效果.结果显示,SVR神经网络的预测效果较好,其均方根误差为3.074 0,相关系数为0.951 7.
2019, 11(3):295-301.DOI: 10.13878/j.cnki.jnuist.2019.03.007
摘要:针对解决图像描述生成中对浅层图像特征利用不充分、图像目标间关系提取不足的问题,提出一种基于注意力图像特征提取的图像描述生成算法.通过语言模型上下文信息对不同深度图像特征进行自适应注意力权重分配,使带有注意力的图像特征参与指导图像描述生成,提升了图像描述生成的效果.在MSCOCO测试集中所提算法的BLEU-1和CIDEr得分分别达到0.752和0.934,从而验证了所提算法的有效性.
2019, 11(6):706-715.DOI: 10.13878/j.cnki.jnuist.2019.06.008
摘要:文本理解是人工智能的一个重要分支,其技术推动了人与计算机之间在自然语言上的有效交互.为了让计算机准确地理解和感知文本数据,文本特征提取是最为基础和关键的步骤之一.基于此,本文介绍文本特征提取研究的发展历史,以及近年来主流特征提取的方法,并对未来的研究方向进行展望.首先,介绍语义最底层的词级表示;接着,总结在词级表示基础上衍生出的句级表示上的研究进展;随后,介绍比词级表示和句级表示更高层的篇分析;最后,通过文本特征提取的一个典型应用——问答系统的介绍,阐述文本特征提取的最新方法和技术在问答系统上的应用,并对未来的研究方向做了展望.
2019, 11(6):716-721.DOI: 10.13878/j.cnki.jnuist.2019.06.009
摘要:针对视频序列中人体动作识别存在信息冗余大、准确率低的问题,提出基于关键帧的双流卷积网络的人体动作识别方法.该方法构建了由特征提取、关键帧提取和时空特征融合3个模块构成的网络框架.首先将空间域视频的单帧RGB图像和时间域多帧叠加后的光流图像作为输入,送入VGG16网络模型,提取视频的深度特征;其次提取视频的关键帧,通过不断预测每个视频帧的重要性,选取有足够信息的有用帧并汇聚起来送入神经网络进行训练,选出关键帧并丢弃冗余帧;最后将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体动作识别器,实现了对视频的关键帧处理和对动作的时空信息的充分利用.在UCF-101公开数据集上的实验结果表明,与当前人体动作识别的主流方法相比,该方法具有较高的识别率,并且相对降低了网络的复杂度.
2012, 4(4):362-365.
摘要:核方法广泛应用于模式识别等领域,但其存在着特征抽取效率和样本集的大小成反比的瓶颈问题.因此提出一种基于数值逼近的方法确定虚拟样本矢量,以此代替训练样本,提高KPCA(Kernel Principle Component Analysis)特征抽取效率.在确定虚拟样本矢量时,只需将样本矢量的初值设定为随机变量,算法实现简单、高效.在基准数据集上的实验结果显示该算法优于同类算法.
地址:江苏省南京市宁六路219号 邮编:210044
联系电话:025-58731025 E-mail:nxdxb@nuist.edu.cn
南京信息工程大学学报 ® 2025 版权所有 技术支持:北京勤云科技发展有限公司