  1.宁夏大学电子与电气工程学院, 宁夏 银川 750021;2.宁夏沙漠信息智能感知重点实验室, 宁夏 银川 750021
  发布日期:2024-12-26
  作者简介:马军(1996— ),男,宁夏吴忠人,硕士研究生,主要研究方向为计算机视觉、图像生成及深度学习. *通信作者简介:车进(1973— ),男,宁夏银川人,教授,硕士生导师,博士,主要研究方向为智能信息处理与模式识别以及多模态智能.
  • 基金资助:

Text-to-image synthesis method based on spatial attention and conditional augmentation

MA Jun1,2, CHE Jin1,2*, HE Yuting1,2, MA Pengsen1,2   

  1. 1. School of Electronic and Electrical Engineering, Ningxia University, Yinchuan 750021, Ningxia, China;
    2. Key Laboratory of Intelligent Sensing for Desert Information, Yinchuan 750021, Ningxia, China
  • Published:2024-12-26

摘要: 针对文本生成图像语义不一致、训练不稳定、生成图像单一等问题,在一种简单有效的文本生成图像基准模型上提出基于空间注意力及条件增强的文本生成图像模型。为提高训练过程的稳定性、增加生成图像的多样性,在原有模型基础上增加条件增强模型;从文本分布出发拟合图像分布,增加视觉特征的多样性,扩大表现空间,在原有的DF-Block模块中增加一层Affine仿射块。在判别器中加入空间注意力模型,提高文本与合成图像的语义一致性。试验结果表明,在CUB和Oxford-102数据集上,初始得分分别提高了2.05%和2.63%;在CUB和COCO数据集上,特征空间距离分别降低了20.73%和9.25%。本研究提出的模型生成的图像更具多样性且更接近真实图像。

关键词: 文本生成图像, DF-GAN, 条件增强模型, Affine仿射块, 空间注意力模型


  • TP391
