基于权重值的竞争深度双Q网络算法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP273

基金项目:

国家自然科学基金(61873099,62073144);广东省自然科学基金(2020A1515010441);广州市科技计划(202002030158,202002030389);广东省青年创新人才项目(2018GkQNCX005)


Weighted dueling double deep Q-network
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升.

    Abstract:

    In deep reinforcement learning, the deep Q-network algorithm seriously overestimates the action value, which degrades the performance of agents.The double deep Q-network and dueling network structure can partially alleviate the impact of overestimation, sometimes the former one even underestimate the action value.Here, a Weighted Dueling Double Deep Q-Network (WD3QN) algorithm is proposed, in which the improved double estimators and dueling network structure are combined into the deep Q-network, and the learned possible action values are weighted to produce the final action value, which can effectively reduce the estimation error.Finally, the algorithm is applied to the classical CartPole control problem on the open AI Gym platform.The simulation results show that compared with other existing algorithms, the proposed algorithm has better learning effect, convergence and training speed.

    参考文献
    相似文献
    引证文献
引用本文

汪晨曦,赵学艳,郭新.基于权重值的竞争深度双Q网络算法[J].南京信息工程大学学报(自然科学版),2021,13(5):564-570
WANG Chenxi, ZHAO Xueyan, GUO Xin. Weighted dueling double deep Q-network[J]. Journal of Nanjing University of Information Science & Technology, 2021,13(5):564-570

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-09-13
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2021-12-02
  • 出版日期:

地址:江苏省南京市宁六路219号    邮编:210044

联系电话:025-58731025    E-mail:nxdxb@nuist.edu.cn

南京信息工程大学学报 ® 2024 版权所有  技术支持:北京勤云科技发展有限公司