图约束动态注意力文本生成图像方法
DOI:
作者:
作者单位:

1.江苏大学;2.江苏科海智能系统有限公司

作者简介:

通讯作者:

中图分类号:

TP391.41??????????????????????????? DOI

基金项目:

国家自然科学(62372215)资助;江苏省科技计划专项资金项目(BE2022781)资助


Graph-Constrained Dynamic Attention Text-to-Image Generation Method
Author:
Affiliation:

1.Jiangsu University;2.Jiangsu Kehai Intelligent System Co., Ltd.

Fund Project:

Supported by the National Natural Science Foundation of China (62372215); Supported by the Jiangsu Provincial Science and Technology Plan Special Fund Project (BE2022781).

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    随着基于扩散模型的文本图像生成技术持续发展,图像的质量以及多样性均有所提高,然而多主体缺失、属性错乱等问题依旧没有得到妥善解决。本文提出了一种图约束动态注意力文本生成图像方法来提升稳定扩散模型在存在多个主体和多属性条件下的生成能力。方法先是引入了基于图注意力网络的场景图生成器,从CLIP文本嵌入中提取物体节点以及语义关系,进而生成能够起到结构化布局约束作用的信号。接着在U-Net里嵌入动态注意力门控模块,该模块能感知时间步并自适应地调整注意力权重,把原本隐式去噪倾向转变成结合场景图约束的显式注意力调度。在CUB和COCO数据集所开展的实验显示,和主流方法相比,该方法在FID、IS、CLIP-Score这些指标方面都有所提升。

    Abstract:

    As text-to-image generation technologies based on diffusion models continue to evolve, both image quality and diversity have improved. However, issues such as missing multiple subjects and attribute confusion remain unresolved. This paper proposes a graph-constrained dynamic attention text-to-image generation method to enhance the generative capability of Stable Diffusion under conditions involving multiple subjects and attributes. The approach first introduces a scene graph generator based on a graph attention network, extracting object nodes and semantic relationships from CLIP text embeddings to generate signals that impose structural layout constraints. Subsequently, a dynamic attention gating module is embedded within the U-Net architecture. This module perceives temporal steps and adaptively adjusts attention weights, transforming the implicit denoising tendency into explicit attention scheduling that incorporates scene graph constraints. Experiments conducted on the CUB and COCO datasets demonstrate that, compared to mainstream methods, this approach achieves improvements across metrics including FID, IS, and CLIP-Score.

    参考文献
    相似文献
    引证文献
引用本文

施文龙,彭长生,侯浩明,成科杨.图约束动态注意力文本生成图像方法[J].南京信息工程大学学报,,():

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2025-09-08
  • 最后修改日期:2025-12-30
  • 录用日期:2026-01-05
  • 在线发布日期:
  • 出版日期:

地址:江苏省南京市宁六路219号    邮编:210044

联系电话:025-58731025    E-mail:nxdxb@nuist.edu.cn

南京信息工程大学学报 ® 2026 版权所有  技术支持:北京勤云科技发展有限公司