邓旭冉 , 闵少波 , 徐静远 , 李攀登 , 谢洪涛 , 张勇东
2019, 11(6):625-637. DOI: 10.13878/j.cnki.jnuist.2019.06.001 CSTR:
摘要:细粒度图像分类是计算机视觉中一项基础且重要的工作,其目的在于区分难以辨别的对象类别(例如不同子类的鸟类、花或动物).不同于传统的图像分类任务可以雇佣大量普通人标注,细粒度数据集通常需要专家级知识进行标注.除了视觉分类中常见的姿态、光照和视角变化因素之外,细粒度数据集具有更大的类间相似性和类内差异性,因此要求模型能够捕捉到细微的类间差异信息和类内公有信息.除此之外,不同类别的样本存在不同程度的获取难度,因此细粒度数据集通常在数据分布中表现出长尾的特性.综上所述,细粒度数据分布具有小型、非均匀和不易察觉的类间差异等特点,对强大的深度学习算法也提出了巨大的挑战.本文首先介绍了细粒度图像分类任务的特点与挑战,随后以局部特征与全局特征两个主要视角整理了目前的主流工作,并讨论了它们的优缺点.最后在常用数据集上比较了相关工作的性能表现,并进行了总结与展望.
2019, 11(6):638-650. DOI: 10.13878/j.cnki.jnuist.2019.06.002 CSTR:
摘要:目标跟踪一直都是机器视觉领域的研究热点,应用场景主要分为单目标跟踪和多目标跟踪.本文主要介绍了单目标跟踪问题,回顾了近年来用于视频单目标跟踪的算法,对单目标跟踪方法进行了分类,并且对每一类中具有代表性的方法进行了介绍,分析了各自的优缺点.最后讨论了单目标跟踪任务中的难点问题和发展趋势,为该方向的研究人员快速了解单目标跟踪技术提供了参考.
杨弋鋆 , 邵文泽 , 王力谦 , 葛琦 , 鲍秉坤 , 邓海松 , 李海波
2019, 11(6):651-659. DOI: 10.13878/j.cnki.jnuist.2019.06.003 CSTR:
摘要:现如今,深度学习已然成为机器学习领域最热门的研究方向之一,其在图像识别、目标检测、语音处理、问答系统等诸多领域都取得了巨大成功.然而通过附加经过特殊设计的细微扰动而构造出的对抗样本,能够破坏深度模型的原有性能,其存在使许多对安全性能指标具有极高要求的技术领域,特别是以视觉感知为主要技术优先的智能驾驶系统,面临新的威胁和挑战.因此,对对抗样本的生成攻击和主动防御研究,成为深度学习和计算机视觉领域极为重要的交叉性研究课题.本文首先简述了对抗样本的相关概念,在此基础上详细介绍了一系列典型的对抗样本攻击和防御算法.随后,列举了针对视觉感知系统的多个物理世界攻击实例,探讨了其对智能驾驶领域的潜在影响.最后,对对抗样本的攻击与防御研究进行了技术展望.
2019, 11(6):660-681. DOI: 10.13878/j.cnki.jnuist.2019.06.004 CSTR:
摘要:异质人脸图像合成旨在生成逼真、可识别的多种视觉形态的人脸肖像,包括画像、漫画等多种模态.异质人脸图像合成在公共安全和数字娱乐领域具有广泛的应用前景和重要的研究价值,已成为当前研究热点之一.近年来,随着生成对抗网络的发展以及其在多种图像风格转换任务中的成功,研究人员利用生成对抗网络构建了多种异质人脸图像合成的新方法.本文简要回顾了异质人脸图像合成的发展历史,并从异质人脸图像合成的应用进展、模型结构、性能评估、数据集和定性分析等方面综述了该领域最新的关键技术的发展情况,展望了异质人脸图像合成面临的挑战以及其关键技术的发展趋势.
2019, 11(6):682-689. DOI: 10.13878/j.cnki.jnuist.2019.06.005 CSTR:
摘要:随着图像大数据的爆发,特别是用户贡献数据的飞速增长,图像样本的语义内容越来越丰富,标签信息也随之越来越复杂.因此图像多标签学习的研究是近年来学术圈和产业界的研究热点之一,涌现了大量表现优异的方法和技术.基于此,本文将对近年来图像多标签学习上的研究成果进行总结.首先,对多标签学习进行简单介绍,并详述其主流方法的分类;随后,针对目前大数据时代的数据特性,总结了多标签学习面临的新的技术难点及其对应的解决方案;最后,在应用层面上介绍了多标签学习在医学、计算机科学等领域的应用实例.
丁正彤 , 徐磊 , 张研 , 李飘扬 , 李阳阳 , 罗斌 , 涂铮铮
2019, 11(6):690-697. DOI: 10.13878/j.cnki.jnuist.2019.06.006 CSTR:
摘要:RGB-T目标跟踪是基于RGB目标跟踪问题发展而来的.为了提高复杂环境下的目标跟踪性能,学者们提出结合可见光和热红外的信息来克服单一成像受限的问题.本文首先介绍了RGB-T目标跟踪的研究背景,并指出该任务所面临的挑战,然后归纳并介绍了目前已有的RGB-T目标跟踪的几类方法,包括传统方法和深度学习方法.最后,本文对现有的RGB-T数据集、评价指标进行了分析和对比,并指出RGB-T跟踪中值得研究的方面.
2019, 11(6):698-705. DOI: 10.13878/j.cnki.jnuist.2019.06.007 CSTR:
摘要:近年来,随着深度学习技术的进步与推广,目标检测领域得到快速发展.但目前基于深度学习的方法大多对大规模标注数据有着极高的需求,而现实场景中大量标注数据往往不可能.因此,基于少量标注样本的目标检测领域逐渐得到大家关注.本文系统地总结与分析了目前有关小样本目标检测的方法,指出了目前方法的缺陷,并提出了一些可能的发展方向.
2019, 11(6):706-715. DOI: 10.13878/j.cnki.jnuist.2019.06.008 CSTR:
摘要:文本理解是人工智能的一个重要分支,其技术推动了人与计算机之间在自然语言上的有效交互.为了让计算机准确地理解和感知文本数据,文本特征提取是最为基础和关键的步骤之一.基于此,本文介绍文本特征提取研究的发展历史,以及近年来主流特征提取的方法,并对未来的研究方向进行展望.首先,介绍语义最底层的词级表示;接着,总结在词级表示基础上衍生出的句级表示上的研究进展;随后,介绍比词级表示和句级表示更高层的篇分析;最后,通过文本特征提取的一个典型应用——问答系统的介绍,阐述文本特征提取的最新方法和技术在问答系统上的应用,并对未来的研究方向做了展望.
2019, 11(6):716-721. DOI: 10.13878/j.cnki.jnuist.2019.06.009 CSTR:
摘要:针对视频序列中人体动作识别存在信息冗余大、准确率低的问题,提出基于关键帧的双流卷积网络的人体动作识别方法.该方法构建了由特征提取、关键帧提取和时空特征融合3个模块构成的网络框架.首先将空间域视频的单帧RGB图像和时间域多帧叠加后的光流图像作为输入,送入VGG16网络模型,提取视频的深度特征;其次提取视频的关键帧,通过不断预测每个视频帧的重要性,选取有足够信息的有用帧并汇聚起来送入神经网络进行训练,选出关键帧并丢弃冗余帧;最后将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体动作识别器,实现了对视频的关键帧处理和对动作的时空信息的充分利用.在UCF-101公开数据集上的实验结果表明,与当前人体动作识别的主流方法相比,该方法具有较高的识别率,并且相对降低了网络的复杂度.
2019, 11(6):722-726. DOI: 10.13878/j.cnki.jnuist.2019.06.010 CSTR:
摘要:本文提出了一种利用方向性特征进行显著性建模的MRI脑图像肿瘤自动检测算法.该模型首先将MRI脑图像进行预处理,去除掉图像中头骨区域的干扰;然后使用基于方向特征的显著性检测增加病变区域的对比度,实现更准确地提取肿瘤图像区域.本文算法在脑图像数据集上进行了大量的实验,并且与主流的肿瘤自动检测方法进行了对比,证明了本文算法的有效性,并为医生提供可靠的辅助诊断和临床参考.
2019, 11(6):727-734. DOI: 10.13878/j.cnki.jnuist.2019.06.011 CSTR:
摘要:在各类在线学习系统中,为了给学生提供优质的学习资源,一个基础性的任务是对大量未标注的试题进行知识点标注.已有标注方法通常基于人工专家标注或者采用传统机器学习方法.在实际应用中,这些方法普遍存在成本过高、标注精准度不足等局限.为此,本文提出了一种基于属性关系深度挖掘的试题知识点标注模型.首先,利用句法语义模型和结构语义模型分别从试题文本和试题图形中抽取试题的显性属性关系.然后,利用蒙特卡罗树搜索构建问题求解框架,挖掘试题的隐含属性关系.最后,结合学科知识图谱,将属性关系映射到知识图谱空间,生成试题知识点.实验结果表明,所提出的方法能够有效地进行试题知识点标注,将对学生认知诊断、个性化试题推荐等具有一定的实际应用价值.
2019, 11(6):735-742. DOI: 10.13878/j.cnki.jnuist.2019.06.012 CSTR:
摘要:为感知室内空间布局,提出一种基于信息化边界和多模态特征的场景布局估计方法.首先,采用VGG-16全卷积神经网络预测蕴含空间布局先验的信息化边界图.其次,采用Canny边缘检测和投票策略估计水平和竖直方向消失点,从消失点等角度间隔引出射线细采样信息化边界能量高的区域.接着,采用VGG空间多尺度卷积神经网络估计几何深度和法向特征.然后,积分几何求和候选布局多边形中多模特征描述一元共生,候选布局的表面法向平滑和位置关系确定二元标记约束.最后,采用结构化支持向量机学习模型,最大布局候选得分以推理布局.实验结果表明,与经典方法相比,本估计方法可以有效改善布局的完整度.
2019, 11(6):743-750. DOI: 10.13878/j.cnki.jnuist.2019.06.013 CSTR:
摘要:当前,食品图像的营养成分识别主要还是集中在食品类别的识别以及作为多标签任务的识别.但是这两种方法并不具备很好的判别性,因为它们忽略了原材料之间的潜在关系.因此,本文在前期工作的基础上引入了原材料之间的关系.具体地说,我们的工作主要分为图像特征提取和原材料关系学习两部分.图像特征提取通过卷积神经网络提取到图像的低维特征向量.图卷积网络通过使用图数据(图的每个节点表示原材料的词嵌入,边表示节点之间的相关性),将图数据直接映射到一组相互依赖的分类器中,并与图像的低维特征向量融合,最后进行分类.通过在Food-101和VireoFood-172两个食品数据集上进行实验,并与当前最好的实验模型进行对比,发现基于图卷积的食品多标签分类方法可以有效地提高食品图像的分类性能.
2019, 11(6):751-756. DOI: 10.13878/j.cnki.jnuist.2019.06.014 CSTR:
摘要:对说话人意图的识别极大地推进了自然语言理解任务的发展.之前的工作大多采用Bi-LSTM即双向LSTM模型进行词汇特征与词汇之间语义关系的提取,但这并不能很好地使句子整体和构成句子的词汇个体之间的信息进行交流.而S-LSTM(Sentence-state LSTM)模型,即句子状态LSTM模型可以很好地将自然语言中句子整体与词汇个体的信息相结合,以便于我们挖掘与利用意图检测与槽值填充之间的关系成立联合模型来更好地理解应答系统中蕴含的语义.因此,本文引入了‘槽值门’机制解决S-LSTM应用于意图检测与槽填充的联合任务时最新迭代时刻的句子状态信息没有得到充分利用的问题.最终的实验结果在ATIS数据集和Snips数据集上均取得了优于目前最先进算法的结果.
2019, 11(6):757-763. DOI: 10.13878/j.cnki.jnuist.2019.06.015 CSTR:
摘要:图像分割是计算机视觉中基础且重要的一个问题.熵阈值图像分割作为一种有效的分割方法,被广泛应用于模式识别和图像处理中.传统的图像分割方法并不能获得足够有效的图像特征.为解决这个问题且进一步探究熵阈值在图像分割中的应用,引入一种GLLE(Gray Level and Local Entropy)二维直方图改进熵阈值图像分割模型,并提出了基于模糊熵的方法计算所建立的二维直方图模型.通过标准实验数据集上的对比实验表明,基于模糊熵的GLLE熵阈值分割方法可以得到更加准确的阈值,提高了分割精度.同时在处理不同类型图像的表现上优于往常的算法,具有更强的鲁棒性.
钟劲松 , 聂琪 , 曾非同 , 李宁 , 胡浩亮 , 张建文
2019, 11(6):764-770. DOI: 10.13878/j.cnki.jnuist.2019.06.016 CSTR:
摘要:在直流电压互感器校验中,为解决直流互感器一次分压器和二次测量系统通信距离长的问题,本文基于无线通信与北斗同步技术,提出了一种直流电压互感器无线校验方法和硬件设计方案,在锦屏-苏州±800 kV直流换流站开展了直流电压互感器现场误差无线校验试验.试验结果显示,装置在测量低压时无线校验试验数据偏差小,但在测量高压时,由于处于高电压强电磁的环境,GPS定位与同步存在不稳定与小范围偏差的问题.针对此问题,本文对直流电压互感器无线校验系统在复杂电磁环境干扰下进行特性分析,并提出减小无线传输的直流电压互感器误差的解决方法,对直流电压互感器的无线校验技术发展有一定的工程意义.
地址:江苏省南京市宁六路219号 邮编:210044
联系电话:025-58731025 E-mail:nxdxb@nuist.edu.cn
南京信息工程大学学报 ® 2024 版权所有 技术支持:北京勤云科技发展有限公司