2019, 11(3):241-250. DOI: 10.13878/j.cnki.jnuist.2019.03.001 CSTR:
摘要:信息技术的快速发展导致信息过载.推荐系统是解决信息过载最有效的方式之一.近年来,深度学习的快速发展也带动了推荐系统的进步,各种深度推荐算法层出不穷.然而由于候选物品数量巨大且用户兴趣动态变化,深度推荐算法的推荐复杂度巨大,难以在实际系统中单独使用.在深度推荐技术发展的同时,物品召回技术(也称近似搜索技术)也有了较大的发展与进步.本文先介绍基于距离最小化的物品召回的研究进展,再从向量索引、局部敏感哈希、哈希学习、向量量化四个方面来深入探讨基于内积最大化的物品召回技术的研究进展.
2019, 11(3):251-255. DOI: 10.13878/j.cnki.jnuist.2019.03.002 CSTR:
摘要:随着物联网、云计算技术的飞速发展,大数据及其相关科学成为学术界和工业界关注的热点.本文从范式理论的角度对大数据科学进行剖析,阐述大数据研究与传统研究的联系与区别;从机器学习的视角出发,分析了大数据带来的三大主要挑战及其背后的科学问题.此外,本文介绍了第四范式视角下进行大数据科学研究的洞察力,以及其所具有的积极意义;最后总结并展望未来大数据科学面临的挑战.
2019, 11(3):256-268. DOI: 10.13878/j.cnki.jnuist.2019.03.003 CSTR:
摘要:近些年来,人机对话系统作为自然语言处理的重要问题之一受到了越来越多的关注.基于大数据的深度学习的方法在对话系统中被广泛应用.本文首先介绍了人机对话系统的研究背景,然后以基于多轮交互的对话系统为例,着重介绍了任务型和非任务型对话系统的主要类型和目前的研究进展,并对评估对话系统的主要方法进行了概述.最后,结合当前研究现状,对多轮交互的人机对话系统的研究方向进行了展望.
2019, 11(3):269-277. DOI: 10.13878/j.cnki.jnuist.2019.03.004 CSTR:
摘要:迁移学习的目的是解决目标领域中训练样本不足的学习问题,可以把一些在其他相关的源领域中获得的知识,迁移到目标领域中.它放宽了传统机器学习中的两个基本假设:用于学习的训练样本与新的测试样本满足独立同分布的条件;必须有足够可利用的训练样本才能学习得到一个较好的分类模型.按照源领域和目标领域的特征空间是否相同可划分为同构迁移学习和异构迁移学习.本文主要针对同构迁移学习的相关研究进展进行了综述,从理论、算法、应用方面介绍了在该领域所做的研究工作,并指出了同构迁移学习未来可能的研究方向.
2019, 11(3):278-285. DOI: 10.13878/j.cnki.jnuist.2019.03.005 CSTR:
摘要:由于网络上每天有海量的新闻报道产生,新闻推荐已经成为减轻用户信息负载、实现个性化新闻信息获取的重要途径,并被广泛用于新闻网站和新闻APP中以提升用户体验.不同于传统的商品推荐,在新闻推荐中新的新闻文章产生速度很快,而且新闻的语义信息需要结合整体新闻文本去理解,给传统的基于ID和基于特征的推荐算法带来了很大的挑战.此外,用户的新闻阅读兴趣存在高度多样性和动态性的特点,使得准确的用户建模变得非常困难.本文介绍了一些基于深度学习的个性化新闻推荐算法,并探讨了新闻推荐未来的一些可行的方向.
2019, 11(3):286-294. DOI: 10.13878/j.cnki.jnuist.2019.03.006 CSTR:
摘要:情感分析主要基于文本数据研究人们对于商品、服务、事件等对象的情感、意见或者态度.标记数据稀缺是情感分析领域面临的巨大挑战.在有监督的情感分类任务中,标记数据稀少会导致分类器的效果下降.跨领域的方法能够在一定程度上帮助解决该问题,但领域间往往存在差异.因此在利用领域适应方法进行情感分类时,分类器对目标领域的效果会变差.本文提出利用少量的目标领域标记信息来提高目标领域适应效果的思想.特别地,本文提出了一个基于胶囊网络的跨领域情感分类模型,在此基础框架上,设计了额外的胶囊网络层辅助目标领域的适应.在真实数据集上的实验结果表明,本文提出的模型效果优于以往的研究方法.
2019, 11(3):295-301. DOI: 10.13878/j.cnki.jnuist.2019.03.007 CSTR:
摘要:针对解决图像描述生成中对浅层图像特征利用不充分、图像目标间关系提取不足的问题,提出一种基于注意力图像特征提取的图像描述生成算法.通过语言模型上下文信息对不同深度图像特征进行自适应注意力权重分配,使带有注意力的图像特征参与指导图像描述生成,提升了图像描述生成的效果.在MSCOCO测试集中所提算法的BLEU-1和CIDEr得分分别达到0.752和0.934,从而验证了所提算法的有效性.
程明月 , 刘淇 , 李徵 , 于润龙 , 高维博 , 陈恩红
2019, 11(3):302-308. DOI: 10.13878/j.cnki.jnuist.2019.03.008 CSTR:
摘要:为解决隐式反馈推荐问题,贝叶斯个性化排序(BPR)模型已经成为最具有代表性的对级(Pairwise)排序算法之一.在BPR模型中,存在一个严格的偏序假设:相较于未标记的物品而言,用户更喜欢已经有过标记行为的物品.本文提出了一种多重对级贝叶斯个性化排序(MBPR)推荐算法来进一步提升用户对物品的偏好预测能力.首先,基于BPR模型的排序关系设计了一种改进的多重对级偏序假设.具体地,对于每一用户,本文提出将未标记的反馈集细分为潜在的负反馈集和不确定性反馈集,并基于改进的对级偏序假设,提出了一种新的多重对级排序的优化目标来学习用户与物品之间的相关性.为实现MBPR模型的采样任务,本文设计了一种自适应采样策略来为模型更新动态地选取训练样本.最后,在公开数据集上开展了仿真推荐实验,并与基线算法对比.实验结果表明,MBPR算法能够取得更好的推荐效果.
2019, 11(3):309-315. DOI: 10.13878/j.cnki.jnuist.2019.03.009 CSTR:
摘要:传统的多视图字典学习算法旨在利用多视图数据间的相关性,未能考虑多视图数据的差异性,这可能会降低字典的学习性能.受此启发,提出一种基于视图内字典原子不一致的多视图字典学习算法.该算法为每个视图学习类属字典和共享字典,同时,引入编码系数方差的最小化约束,以降低视图间字典的差异性;此外,通过每个视图编码系数与所有视图编码系数均值之间距离的加权和的最小化来约束相应特征的贡献度;然后,施加视图内字典原子的不一致性约束以降低视图内字典的冗余.最后,在两个数据集(AR和Extended Yale B数据集)上的实验验证了所提算法的有效性.
2019, 11(3):316-325. DOI: 10.13878/j.cnki.jnuist.2019.03.010 CSTR:
摘要:为了探索影响学习成绩的关键因素,为学生学习、教师教学和学校管理提供帮助,采用密度全局K-means算法对UCI机器学习数据库的葡萄牙学生数据、陕西蒲城县第三高级中学的学生数据进行聚类分析,挖掘影响学生成绩的相关因素,并对学生成绩进行预测分析.葡萄牙学生数据挖掘发现:学生成绩与其所在学校、家庭住址、母亲学历、家庭有无网络有极大相关性,与父亲受教育程度、上学路上花费时间、想上大学、在谈恋爱也有一定相关性.蒲城县第三高级中学学生数据分析发现:学生成绩与其监护人、父母年龄、父母学历、学习态度、课后学习量之间有极大相关性.成绩预测聚类结果显示:预测成绩与实际成绩一致.中外学生数据挖掘揭示:学生成绩与父母受教育程度,特别是母亲受教育程度密切相关,母亲受教育程度越高,孩子学习成绩越好;孩子成长过程中,父母作为监护人的陪伴作用不容忽视;激励和引导学生树立远大理想,调动学生学习的主动性,对学习成绩和成长至关重要;缩小城乡教育差距势在必行.
2019, 11(3):326-331. DOI: 10.13878/j.cnki.jnuist.2019.03.011 CSTR:
摘要:由于经济发展的复杂性,本文旨在探索由环境变迁引发这一动态、复杂而又相互作用的过程,通过引入环境变迁与经济成长两方面因素分析其中的潜在关联性,并将区域稳定性作为环境变迁与经济成长相互作用后的衡量指标,来评估该过程.1)通过使用衡量国家经济健康程度的健康性与复杂性(Fitness and Complexity)算法,获得了新的评估国家经济成长的国家经济健康性系数,该系数能在竞争激烈的动态国际贸易环境下有更好预测GDP的表现.随后建立机器学习模型,成功预测了不同国家的稳定性类别,且预测精度都在90%左右.2)实现了基于数据的环境变迁和区域经济成长的关联性可视化分析,通过分析能够得到潜在关联性结论:一些发展中国家经济稳定性与水资源和二氧化碳排放呈强关联,而发达国家则与人均耕地面积有关联.3)设立评估国家稳定性的新指标,与世界主流指标相比,构建的新指标更注重原始数据的量化,减少了概念抽象的指标对预测性能的影响,且在评估区域经济成长时能更符合当前国际的实际经济情况.本文提出的评估区域稳定性的新排名是完全基于量化指标的,因此更容易实现,说服力更强.通过实际的预测效果分析,该新排名在衡量区域稳定性时弥补了世界主流排名由抽象指标带来的预测失真缺陷,能够满足基本的区域稳定性预测功能,并且能够对预测结果造成影响的主要因素进行解释.
李锋 , 李寿梅 , Thierry Denoeux
2019, 11(3):332-339. DOI: 10.13878/j.cnki.jnuist.2019.03.012 CSTR:
摘要:单个聚类方法得到的结果会存在不稳定性等问题,为了克服这些问题,本文在证据理论(又称为信任函数理论)的基础上提出了一种新的聚类集成方法.多数情况下,聚类集成方法主要包含2个关键步骤:得到一组基划分,以及结合基划分得到最终聚类结果,本文的方法重点考虑第2步.在第1步得到基划分之后,将其转换成一种中间表示,可以称这种中间表示为关系表示.在证据理论中,我们认为得到的关系表示是不可靠的,可以用折扣过程对关系表示进行预处理,然后就可以用不同的结合法则融合关系表示.从融合后的关系表示中提取信任矩阵或似然矩阵,将其视为样本间的互相关矩阵.为了能够充分利用样本间的传递性,将得到的互相关矩阵视为一个模糊关系,对其做传递闭包处理,从而得到一个模糊等价关系.将模糊的等价关系视为新的相似性数据,用能够处理相似性数据的聚类方法得到最终的结果.通过实验,表明了该聚类集成方法的稳定性和有效性.
2019, 11(3):340-345. DOI: 10.13878/j.cnki.jnuist.2019.03.013 CSTR:
摘要:为了提高人脸识别率及更好地显示人脸特征,本文提出了一种基于镜像图的LRC和CRC偏差结合的人脸识别方法.该方法首先生成一种镜像人脸,再通过融合原始人脸和镜像人脸形成新的混合训练样本,最后利用LRC和CRC偏差结合进行人脸识别.新方法增加了训练样本的数目,克服了由于光照和姿态等外部因素带来的影响.实验结果表明,镜像图与LRC和CRC偏差结合的人脸识别方法提高了人脸识别的准确性.
2019, 11(3):352-359. DOI: 10.13878/j.cnki.jnuist.2019.03.015 CSTR:
摘要:首先介绍了极轨气象卫星资料地理定位误差的来源,回顾了地理定位误差的研究状况.随后重点分析了3种可行的定位误差评估与订正的数学方法,并结合极轨卫星资料定位误差的订正实例,对不同订正方法进行了比较和讨论.最后展望了地理定位误差订正方法的研究方向.
2019, 11(3):360-366. DOI: 10.13878/j.cnki.jnuist.2019.03.016 CSTR:
摘要:利用陕西省雷电定位系统资料分析了延安地区2009—2012年的雷电流数据,并对多种雷电流幅值累积概率公式进行了比较分析,同时引入雷电流概率密度公式,列举实例,分析了各累积概率公式所拟合的曲线与实测值所绘制曲线的误差,并根据分析结果给出了该地区带有未知系数α、β的雷电流幅值累积概率计算公式,利用Matlab的Cftool工具中的最小二乘曲线拟合方法对地闪进行拟合,求出拟合误差最小和拟合效果最好时的α、β值,得出了该地区更为精确的雷电流幅值累积概率计算公式,并利用该地区2013年的雷电流数据对推导出的公式进行了准确性验证.结果表明:正闪的平均雷电流幅值明显大于负闪,而负闪的雷电流幅值分布比正闪的分布相对更集中;正闪的雷电流幅值累积概率的分布曲线比较平缓,而负闪的相对比较陡峭;利用规程公式拟合的曲线与实测值对应的曲线差异较大,而利用IEEE Std和CIGRE推荐公式分别拟合的曲线与实测值对应曲线的变化趋势一致,相比规程公式IEEE Std的误差明显减小;当α=36.04,β=4.349时,拟合误差最小,拟合效果最好,并且发现雷电流Ic在0~150 kA时,拟合误差在-0.025~0.018,当Ic=35 kA时,拟合误差最大,为0.025,当Ic大于150 kA时,拟合误差趋于0.
地址:江苏省南京市宁六路219号 邮编:210044
联系电话:025-58731025 E-mail:nxdxb@nuist.edu.cn
南京信息工程大学学报 ® 2024 版权所有 技术支持:北京勤云科技发展有限公司