en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
作者简介:

杜洪波,男,副教授,主要从事数据挖掘方面的研究.duhongbo@sut.edu.cn

通讯作者:

袁雪丰,女,硕士生,主要从事深度学习与计算机视觉方面的研究.2236831440@qq.com

中图分类号:TP391.4

文献标识码:A

DOI:10.13878/j.cnki.jnuist.20240118001

参考文献 1
Drori I,Cohen-Or D,Yeshurun H.Fragment-based image completion[C]//ACM SIGGRAPH 2003 Papers.San Diego,CA,USA.ACM,2003:303-312
参考文献 2
Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2.December 8-13,2014,Montreal,Canada.ACM,2014:2672-2680
参考文献 3
LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551
参考文献 4
卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17 LU Hongtao,ZHANG Qinchuan.Applications of deep convolutional neural network in computer vision[J].Journal of Data Acquisition and Processing,2016,31(1):1-17
参考文献 5
杨真真,匡楠,范露,等.基于卷积神经网络的图像分类算法综述[J].信号处理,2018,34(12):1474-1489 YANG Zhenzhen,KUANG Nan,FAN Lu,et al.Review of image classification algorithms based on convolutional neural networks[J].Journal of Signal Processing,2018,34(12):1474-1489
参考文献 6
Li Z,Wu J.Learning deep CNN denoiser priors for depth image inpainting[J].Applied Sciences,2019,9(6):1103
参考文献 7
Wang Y,Tao X,Qi X J,et al.Image inpainting via generative multi-column convolutional neural networks[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems.December 3-8,2018,Montréal,Canada.ACM,2018:329-338
参考文献 8
任洪昊,朱新山,卢俊彦.深度图像修复的动态特征融合取证网络[J].哈尔滨工业大学学报,2022,54(11):47-58 REN Honghao,ZHU Xinshan,LU Junyan.Dynamic feature fusion forensics network for deep image inpainting[J].Journal of Harbin Institute of Technology,2022,54(11):47-58
参考文献 9
左心悦,郝子娴,杨有.多尺度语义学习的人脸图像修复[J].南京信息工程大学学报(自然科学版),2023,15(5):534-540 ZUO Xinyue,HAO Zixian,YANG You.Face image inpainting with multi-scale sematic learning[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(5):534-540
参考文献 10
Zeng Y H,Fu J L,Chao H Y,et al.Aggregated contextual transformations for high-resolution image inpainting[J].IEEE Transactions on Visualization and Computer Graphics,2023,29(7):3266-3280
参考文献 11
Pathak D,Krähenbühl P,Donahue J,et al.Context encoders:feature learning by inpainting[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2536-2544
参考文献 12
Iizuka S,Simo-Serra E,Ishikawa H.Globally and locally consistent image completion[J].ACM Transactions on Graphics,36(4):107
参考文献 13
Yu J H,Lin Z,Yang J M,et al.Generative image inpainting with contextual attention[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:5505-5514
参考文献 14
Zhang H R,Hu Z Z,Luo C Z,et al.Semantic image inpainting with progressive generative networks[C]//Proceedings of the 26th ACM International Conference on Multimedia.October 22-26,2018,Seoul,Republic of Korea.ACM,2018:1939-1947
参考文献 15
Karras T,Laine S,Aila T.A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:4396-4405
参考文献 16
Zhao L,Mo Q H,Lin S H,et al.UCTGAN:diverse image inpainting based on unsupervised cross-space translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:5740-5749
参考文献 17
Li J Y,Wang N,Zhang L F,et al.Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:7757-7765
参考文献 18
Suvorov R,Logacheva E,Mashikhin A,et al.Resolution-robust large mask inpainting with Fourier convolutions[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision(WACV).January 3-8,2022,Waikoloa,HI,USA.IEEE,2022:3172-3182
参考文献 19
Lugmayr A,Danelljan M,Romero A,et al.RePaint:inpainting using denoising diffusion probabilistic models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:11451-11461
参考文献 20
Ho J,Jain A,Abbeel P.Denoising diffusion probabilistic models[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems.December 6-12,2020,Vancouver,BC,Canada.ACM,2020:6840-6851
参考文献 21
Wang Z D,Zheng H J,He P C,et al.Diffusion-GAN:training GANs with diffusion [J].arXiv e-Print,2022,arXiv:2206.02262
参考文献 22
Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [J].arXiv e-Print,2014,arXiv:1409.1556
参考文献 23
Shen W,Liu R J.Learning residual images for face attribute manipulation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1225-1233
参考文献 24
Zhou B L,Lapedriza A,Khosla A,et al.Places:a 10 million image database for scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(6):1452-1464
参考文献 25
Liu G L,Reda F A,Shih K J,et al.Image inpainting for irregular holes using partial convolutions[C]//Computer Vision-ECCV 2018:15th European Conference.September 8-14,2018,Munich,Germany.ACM,2018:89-105
目录contents

    摘要

    针对现有图像修复算法修复后的图像可能会出现纹理模糊,以及训练过程中存在的不稳定现象,提出一种基于扩散过程的生成对抗网络图像修复算法.将扩散模型引入至双判别器生成对抗网络,生成器生成的图像与真实图像经过前向扩散过程,得到带有高斯噪声的修复图像和真实图像,将其作为判别器的输入,在提高修复质量的同时,增加了模型训练稳定性.在损失函数中引入风格损失与感知损失来学习语义特征差异,消除动态模糊,使修复结果保留更多细节和边缘信息.在CelebA和Places2数据集上分别做定性、定量分析及消融实验,评价结果及修复效果显示,所提出的算法均有较好的表现.与所对比的当前修复方法相比,峰值信噪比和结构相似性分别平均提高了1.26 dB和1.84%,L1误差平均下降了25.7%,且根据损失函数变化可以看出经过扩散过程的图像修复算法训练更稳定.

    Abstract

    To address the issues of blurry texture of the repaired images and instable training process in existing image inpainting algorithms,this paper proposes a Generative Adversarial Network (GAN) based image inpainting approach leveraging the diffusion process.By incorporating the diffusion model into a dual-discriminator GAN,the generated images from the generator and real images undergo a forward diffusion process to obtain the inverted images and real images with Gaussian noise.These images are then fed into the discriminator to enhance the inpainting quality and improve the model training stability.Style loss and perceptual loss are introduced into the loss function to learn semantic feature differences,eliminate motion blur,and preserve more details and edge information in the inpainting results.Qualitative and quantitative analyses,along with ablation experiments,have been conducted on the datasets of CelebA and Places2.The evaluation and restoration outcomes show the superior performance of the proposed approach.Compared with current inpainting methods,the proposed approach achieves an average improvement of 1.26 dB in Peak Signal-To-Noise Ratio (PSNR) and 1.84% in Structural Similarity Index Measure (SSIM),while reducing the L1 error by an average of 25.7%.Furthermore,the changes in the loss function indicate that the image inpainting algorithm with diffusion process exhibits more stable training behavior.

  • 0 引言

  • 图像修复是一种利用缺损图像中已知部分的信息,对缺损区域内容进行复原的技术,是在目标位置中补全损坏数据的过程,也是构造高效算法来重建缺失部分信息的步骤.图像修复旨在恢复残缺图像中损坏部分的像素特征,确保修复图像整体结构的一致性,保证补全区域边界处结构过渡自然、修复图像的细节信息充实合理.

  • 以往,图像修复大多使用基于扩散的方法[1]来处理,这种方法主要是根据修复区域边缘的像素,按照原始图像的特征向内扩散,填充至整个待修补区域.但是当图像缺损部分较多时,基于扩散的方法往往不能发挥作用.

  • 近年来,随着生成对抗网络[2](Generative Adversarial Network,GAN)和卷积神经网络[3](Convolutional Neural Network,CNN)在计算机视觉领域的快速兴起[4-6],有关深度学习的图像修复算法[7-10]不断涌现.Pathak等[11] 提出的上下文编码器(Context Encoder),是一种无监督的基于上下文像素推断图像特征的算法.他们利用缺损区域附近的像素信息来补全破损的图像,但其修复部分与原缺损图像容易产生内容割裂现象,且对纹理内容的补全效果较差.Iizuka等[12] 使用两个判别器分别关注修复图像的整体结构与纹理细节,还降低了输入限制,可以对任意分辨率图像进行修复,整体修复效果较好.Yu等[13]对生成器进行了优化,在双判别器架构的基础上,提出二级网络的概念,逐步进行初级修复和精细修复,提升修复部分的分辨率,但该方法在随机掩膜下效果较差.Zhang等[14]在两阶段补全的基础上将图像修复分为多个子任务,将缺损区域由外向内逐步补全.2019年,Karras等[15]提出一种新的网络结构StyleGAN,它根据无监督的机器学习来分离图像的高级语义特征,对图像的特征信息进行不同层级的控制,这也导致其泛化能力欠佳.Zhao等[16]提出一种能够生成多样化补全结果的UCTGAN,实现了对同一缺损图像生成多个合理的修复结果.Li等[17]提出RFR网络,利用部分卷积迭代修复缺损区域,从缺损区域由外向内补全特征信息,并设计注意力模块关联所有修复特征.Suvorov等[18]提出LAMA网络,利用傅里叶卷积从特征中提取频率域信息,有效地减少了参数量.Lugmayr等[19]提出一种基于去噪扩散概率模型的图像修复方法,使用马尔可夫随机场建模图像像素与周围上下文之间的关系.

  • 为了提高修复质量和缓解生成对抗网络在训练过程中容易存在的生成样本不稳定现象,本文在GAN的基础上,将扩散过程产生的高斯混合分布实例噪声加入生成图像和原始图像中作为判别器的输入,扩大生成器和判别器的分布支持,防止判别器出现过拟合现象.同时,在损失函数中加入风格损失和感知损失,以促进GAN的训练,提高图像修复效果.

  • 1 相关研究方法

  • 1.1 生成对抗网络

  • GAN是一类生成模型,旨在通过在两个神经网络(生成器和判别器)之间建立最小-最大博弈来学习目标数据集的数据分布px).生成器G将从诸如标准正态或均匀分布的简单先验分布pz)采样的随机噪声向量z作为输入,并试图产生类似于数据的逼真的样本Gz).判别器D的输入为从px)提取的真实数据样本x或由G生成的伪样本Gz),并试图将它们正确地分类为真实样本或伪样本.G的目标是能欺骗D使其错误判别,而D的目标是准确区分Gz)和x.生成对抗网络结构如图1所示.

  • 图1 生成对抗网络结构

  • Fig.1 Framework of the GAN

  • 1.2 扩散模型

  • 扩散模型[20]由两个参数化的马尔可夫链构成,分别称作前向过程和逆向过程.其中:前向过程又称为扩散过程(diffusion process); 逆向过程可用于生成数据样本.

  • 给定一组从真实数据分布中采样的数据x0~qx),即原始数据.存在一个前向扩散链,该链以预定义的标准差βt和方差σ2T步向数据x0~qx)逐渐添加噪声,其中步数T的大小受βt约束: βt1,0 Tt=1.最终经过一系列噪声叠加后得到与x0~qx)有相同维度的样本x1x2,···,xTx0xT为逐步加噪过的前向过程.噪声是已知的,该过程从原始图片逐步加噪至一组纯噪声:

  • qxtxt-1=xt;1-βtxt-1,βtσ2I,qx1:Tx0=t=1T qxtxt-1.
    (1)
  • 前向扩散过程如图2所示.

  • 图2 前向扩散过程

  • Fig.2 Forward diffusion process

  • 前向扩散过程以封闭形式在任意时间步长txt进行采样,定义αt=1-βtα-t=i=1t αi,给定高斯噪声εt0I,则有:

  • xt=αtxt-1+1-αtεt=αtαt-1xt-2+1-αt-1εt-1+1-αtεt=αtαt-1xt-2+αt-αtαt-1εt-1+1-αtεt==α-tx0+1-α-tε.
    (2)
  • 由此得到扩散后的概率分布:

  • qxtx0=xt;α-tx0,1-α-tσ2I.
    (3)
  • 然后使用变分下界来优化反向扩散链:

  • pθx0:T=pxTt=1T pθxt-1xt.
    (4)
  • 2 扩散生成对抗网络

  • 将生成器网络G从简单先验分布pz)中采样的潜在变量z映射到高维数据空间中,从而生成接近真实的样本xg.生成器样本xg=Gzzpz的分布表示为pgx=pxgzpzdz.为了使生成器更具鲁棒性,通过在每一步添加高斯噪声的扩散过程将实例噪声注入生成的样本xg中.扩散过程可以看作是一条马尔可夫链,从原始样本x开始,经过T步后逐渐变为带噪样本.

  • 本文把在扩散过程任意步骤中获得的噪声样本y定义为混合分布qy|x),qy|xt)是高斯分布,其平均值与x成正比,方差取决于步骤t处的噪声水平.对真实样本x~px)和生成样本xg~pgx)使用相同的扩散过程和混合分布.加入扩散过程后真实图像与生成图像的混合分布分别表示为

  • xp(x),yq(yx),q(yx)=t=1T q(yx,t);
    (5)
  • xgpg(x),ygqygxg,qygxg=t=1T qygxg,t.
    (6)
  • 其中,qy|x)是由T部分组成的混合分布,通过扩散得到的混合分量qy|xt)表示为

  • q(yx,t)=y;α-tx,1-α-tσ2I.
    (7)
  • 从混合分布中采样y,可以得到具有不同程度噪声的真实样本和生成样本的噪声版本.在扩散过程中采取的步骤越多,添加到y中的噪声就越多,从x中保留的信息就越少.然后,使用这种由扩散过程得到的混合分布来训练可以区分真实和生成的噪声样本判别器D.扩散生成对抗网络框架如图3所示.

  • 扩散生成对抗网络的目标函数定义为

  • V(G,D)=Exp(x),yq(yx,t)logDϕ(y,t)+Ezp(z),ygqyGθ(z),tlog1-Dϕyg,t.
    (8)
  • 其中:px)是真实图像的分布;qy|xt)是给定原始数据x和扩散步长为t的噪声样本y的条件分布.在高斯重参数化下,根据表达式(7),扰动函数可以写成

  • y=α-tx+1-α-tσεt.
    (9)
  • 其中:1-α-t=1-s=1t αst步骤的累计噪声水平;σ是比例因子;εt0I是高斯噪声.

  • 表达式(8) 中,目标函数的训练目标是使判别器判别真伪的能力达到最强,即在任意扩散步骤 中,将高概率分配给加入噪声后的真实图像,低概率分配给加噪后的生成图像. 生成器的目标是在任何扩散步骤 中生成最大程度欺骗判别器的样本.

  • 经过扩散过程的生成样本ygqyGθzt可以重写为yg=α-tGθz+1-α-tσεtεt~0I.这意味着式(8)中的目标函数相对于生成器参数是可微的,并且本文使用梯度下降来通过反向传播对其进行优化.扩散生成对抗网络结构如图4所示.

  • 2.1 生成网络结构

  • 模型的生成器为基于全卷积网络的编码器-解码器结构,先将输入图像压缩成一个低维向量,再去捕捉图像的主要特征和结构信息,提高了内存利用率,之后经过反卷积层还原为起初的分辨率.通过减小图像分辨率为原始尺寸的1/4,可以有效地促进缺损区域生成清晰、非模糊的纹理.

  • 在卷积层中引入空洞卷积,有助于扩大感受野,从而捕获更广泛的图像信息.空洞卷积通过增加卷积核的大小,确保每个输出像素对应更大的输入面积,并且不会增加参数数量和计算负担,在尽可能获取更大范围的图像信息的同时,避免不必要的信息损失,使模型能够更高效地覆盖输入图像的更大区域,为每个输出像素提供所需的上下文信息.

  • 图3 扩散生成对抗网络框架

  • Fig.3 Diffusion GAN framework

  • 图4 扩散生成对抗网络

  • Fig.4 Diffusion GAN architecture

  • 2.2 结合扩散过程的判别网络结构

  • 本文提出的模型中的判别器由全局判别器网络和局部判别器网络共同构成,其主要任务是判断输入图像是真实的还是经过修复的.这两个判别器均基于卷积神经网络,将图像转化为相应的特征向量,并通过级联方式进行特征融合,预测图片的真实性.与传统判别器的输入不同,本文模型全局判别器的输入为经过扩散过程后的真实图片与生成图片.

  • 全局判别器网络将整个带有噪声的真实图片和生成图片重新缩放作为输入.它由6个卷积层构成,最后一层是一个全连接层,其输出为一个1 024维的向量.所有卷积层都采用步长为2的卷积核,以降低图像分辨率.

  • 局部判别器遵循和全局判别器类似的配置,但它的输入为图像缺损区域的像素块.其初始输入分辨率为全局判别器的一半,所以无需采用全局判别器的第一层.局部判别器的输出也为1 024维向量,表示修复区域的上下文信息.

  • 最后,级联模块将全局和局部判别器的输出进行串联,形成一个单独的2 048维度的向量.通过全连接层处理,输出0~1范围内连续值,代表图像是真实图片而不是已修复图片的概率.判别器级联模块结构如图5所示.

  • 图5 判别器级联模块

  • Fig.5 Discriminator cascade module

  • 全局判别器判别的过程如下:

  • xPinxgPout yPin'tygPout' tqyt=pxqyxtdxqgyt=pgxqyxtdx,高斯分布y; atxbtI,则扩散步骤后的真实图像和生成图像分布为

  • pin',t(y)=pin (x)y;atx,btIdx,pout ',t(y)=pout (x)yg;atx,btIdx.
    (10)
  • 生成对抗网络中的判别器通过判别两个样本中的f 散度来构建,本模型的f 散度表示为

  • Df(PQ)=q(x)fp(x)q(x)dx.
    (11)
  • 另外,有zpzxg=gθzyg=atxg+btε εpε,则扩散生成对抗网络的f散度为

  • Dfpin ',t(y)pout ,tyg=pout ',tygfpin ',t(y)pout ',tygdy=Ey-pour ,t(y)fpin ',t(y)pout ',tyg=Ez-p(z),ϵ-p(ϵ)fpin ',tatgθ(z)+btεpout ',tatgθ(z)+btε.
    (12)
  • 对于任意t水平下噪声的选择,根据文献[21]中的定理1可知,经过扩散过程后,噪声真实样本和噪声生成样本的边缘分布qy|t)和qyg|t)之间的f散度是一个可以由判别器计算和优化的光滑函数.这意味着基于扩散的噪声注入不会在GAN的目标函数中引入任何奇异性或不连续性,在扩散过程中向真实样本和生成的样本添加噪声可以促进学习.

  • 2.3 损失函数

  • 由于对抗损失只关注图像本身的真伪判断,而忽略其纹理、结构信息,因此,为了更加有效地训练生成器和判别器,提高生成对抗网络的修复性能,本文在对抗损失的基础上加入了L1损失、风格损失和感知损失.

  • 训练过程中的对抗损失为

  • Ladv=-D(G(x)).
    (13)
  • 本文利用重建损失函数L1,来计算生成图像与真实图像之间的距离.定义L1损失函数为

  • L1=1Ny×y-yg1
    (14)
  • 式中:Ny是真实图像的像素数量;y是带有噪声的真实图像;yg是带有噪声的生成图像.

  • 判别器的风格损失计算公式如下:

  • Lstyle(y^,y)=1CjHjWjw=1Wj h=1Hj Gjϕyg-Gjϕ(y).
    (15)
  • 式中:C,H,W分别是特征图的维度、高和宽;CjHjWj表示第j层特征图的大小;Gjϕ是对应j值的网络层,G为每层特征图得到的 Gram 矩阵,j对应于预先训练的VGG16[22] 网络 Conv1_2,Conv2_2,Conv3_3,Conv4_3层的激活图,φ为随j取的网络层.

  • 尽管风格损失在一定水平上降低了像素和纹理的修复误差,但它未能充分地保留图像修复区域的结构信息.为了更有效地保留这些信息,引入感知损失.感知损失通过限制生成结果的形状和结构,确保了生成图像在细节上与原始图像更加匹配.判别器的感知损失为

  • Lper(y^,y)=1CjHjWjw=1Wj h=1Hj ϕj(y)-ϕj(x).
    (16)
  • 式中,φj为预训练网络第j层的特征图.

  • 本模型总损失函数为

  • L=λ1Ladv+λ2L1+λ3Lstyle+λ4Lper.
    (17)
  • 超参数分别设置为λ1=0.01,λ2=1,λ3=100,λ4=0.1.

  • 3 实验

  • 3.1 数据集与实验设置

  • 本文算法在CelebA数据集[23]和Places2数据集[24]上进行实验.CelebA公开数据集共包含202 599张人脸图像,实验随机选取48 000张图像进行算法的训练,12 000张图像用于训练后的测试阶段.Places2数据集中包含400多个独特的场景类别,选取chalet分类中5 000张图片作为训练集.分别选用固定掩膜和Liu等[25]提出的不规则掩膜数据集,来对原始图像进行掩膜,得到需要修复的缺损图像.

  • 实验计算平台为DELL GPU运算塔式工作站配置Intel2.2 GHz CPU和NVIDIA GeForce RTX 3070 GPU.软件环境为Windows10,Python3.7,使用CUDA11.1和 Pytorch 1.9.0深度学习框架.

  • 网络输入图像尺寸为160×160像素,经过掩膜处理后输入至生成器.训练过程分为2个阶段,先分别单独训练生成器和判别器,然后对生成器判别器联合训练,迭代次数为40万次.对生成图像及原始图像添加相同的标准差为0.35的高斯噪声,扩散步长选定t=600,以验证模型的有效性.使用AdaDelta优化算法训练网络,Batch_size大小设置为16.

  • 3.2 定性分析

  • 为了客观比较图像修复方法的修复结果,将基于扩散过程的生成对抗网络图像修复算法与图像修复算法StyleGAN[15]、RFR[17]、LAMA[18]和DDPM[19]算法进行修复效果比较,对比方法使用相同的输入数据.图6为本文算法与上述方法在CelebA和 Places2 数据集不同掩码面积缺损图像上的修复效果比较.

  • 由图6可以看出:StyleGAN算法在小面积掩膜中可以修复出图像的大致内容,但在大面积修复时会出现细节内容修复不全和修复区域边界不连贯的问题,如图6c第9张图像中,修复后人脸结构扭曲;RFR算法在修复细节上略有欠缺,如图6d第2张图像中的镜框部分没有修复完全;LAMA算法能实现正确的语义修复,但容易出现伪影;DDPM作为一种基于扩散的图像修复算法,会存在图像修复边缘处模糊,如图6f第8张图像;本文算法在添加噪声后,能适应不同形态的掩膜,且对细节与边缘处理得更好.

  • 3.3 定量分析

  • 为客观分析扩散生成对抗网络算法的图像修复效果,选择L1误差、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似性(Structural Similarity Index Measure,SSIM)作为评价指标.

  • L1误差被广泛应用于大多数实验结果比较,通过计算原始图像和修复图像之间的平均绝对误差来评估逐像素重建精度.L1误差越小代表两幅图片差异越小,修复效果越好.

  • eL1=i=1n yi-xin
    (18)
  • PSNR是评估图像最常见和被大量应用的评价指标之一,它通过直接计算像素值之间的差异来评估图像质量.

  • PSNR=10log102n-12MSE,
    (19)
  • MSE=1H×Wi=1H j=1W (X(i,j)-Y(i,j))2.
    (20)
  • 其中:MSE为均方误差;Xi,j),Yi,j)分别代表对应坐标处的像素值.PSNR值越高,修复图像与原始图像的像素差异越小.

  • SSIM用于评价两幅图像之间的整体相似度,更符合人眼的直观感受.

  • SSIM(x,y)=2μxμy+c12σxy+c2μx2+μy2+c1σx2+σy2+c2.
    (21)
  • 式中:μ代表平均灰度值;σ代表灰度标准差;c1c2代表常量.SSIM的值越大,代表修复的图像越接近原始图像.

  • 在CelebA和Places2数据集上,将本文提出的模型与StyleGAN[15]、RFR[17]、LAMA[18]和DDPM[19]模型进行对比,结果如表1所示.可以看出,在不同面积的掩膜下,本文模型的L1误差低于其他算法,峰值信噪比和结构相似性指标均高于对比算法,其中,峰值信噪比和结构相似性较以上4种算法分别平均提高了1.26 dB和1.84%,L1误差较以上4种算法平均下降了25.7%,且在10%~20%的掩膜面积下修复效果最好.这表明,由本文模型修复得到的图像与原始图像间的像素值差异最小,且整体相似度更高,修复图像更贴近于原始图像,修复效果更优.

  • 图6 不同模型修复效果对比

  • Fig.6 Image inpainting performance comparison between different algorithms

  • 3.4 消融实验

  • 训练过程中通过损失函数判断模型稳定性,在CelebA数据集上进行消融实验.图7为不含扩散过程和带有扩散过程的图像修复模型训练中的损失函数变化,可以看出加入扩散过程后的模型训练更稳定.

  • 表1 不同算法修复效果的定量对比

  • Table1 Quantitative comparison of repair effect among different algorithms

  • 图7 模型训练损失值

  • Fig.7 Model training loss values

  • 为进一步验证扩散过程的有效性,将扩散步长t选定为0、200、400、600、800来选择最佳参数,通过评价指标L1误差、峰值信噪比(PSNR)和结构相似性(SSIM)来评价不同步长扩散过程下的图像修复效果,结果如表2所示.当扩散步长合适时,生成对抗网络能在训练稳定的同时,尽可能有更大的机会获得信息梯度,以达到更好的修复效果.

  • 表2 消融实验修复效果的定量对比

  • Table2 Quantitative comparison of repair effect of ablation experiments

  • 当模型中扩散步长较少时,生成的样本会保留过多的噪声和细节信息,使得判别器难以对噪声进行区分和处理,导致模型性能下降.当扩散步长过大时,则会导致生成的样本过于平滑,失去细节和纹理信息,使得判别器难以区分真实样本和生成样本,同样导致模型性能下降.当t=600时,网络能够达到最佳性能,由表2评价指标可以看出其修复效果达到最佳.

  • 4 总结

  • 本文针对生成对抗网络图像修复算法存在的修复效果不佳及模型训练不稳定的问题,提出基于扩散过程的生成对抗网络图像修复算法.将扩散模型中的前向扩散过程引入生成对抗网络,扩散过程中产生的高斯噪声作为实例噪声注入图像中,进行数据增强,提高了判别器的适应性,使模型训练更加稳定.在损失函数中增加风格损失和感知损失,增强了对图像细节纹理的关注,进一步提高了修复图像质量.在CelebA和Places2数据集上的实验结果表明,与当前主流算法相比,所提方法均有较好的表现.

  • 本文模型虽显示了良好的修复效果,但对大面积掩膜的修复会出现结构还原不佳的现象,训练过程中存在调节参数过程计算量过大的问题,后续研究工作将对扩散过程中的步长选择问题进行优化,提升模型性能.

  • 参考文献

    • [1] Drori I,Cohen-Or D,Yeshurun H.Fragment-based image completion[C]//ACM SIGGRAPH 2003 Papers.San Diego,CA,USA.ACM,2003:303-312

    • [2] Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2.December 8-13,2014,Montreal,Canada.ACM,2014:2672-2680

    • [3] LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551

    • [4] 卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17 LU Hongtao,ZHANG Qinchuan.Applications of deep convolutional neural network in computer vision[J].Journal of Data Acquisition and Processing,2016,31(1):1-17

    • [5] 杨真真,匡楠,范露,等.基于卷积神经网络的图像分类算法综述[J].信号处理,2018,34(12):1474-1489 YANG Zhenzhen,KUANG Nan,FAN Lu,et al.Review of image classification algorithms based on convolutional neural networks[J].Journal of Signal Processing,2018,34(12):1474-1489

    • [6] Li Z,Wu J.Learning deep CNN denoiser priors for depth image inpainting[J].Applied Sciences,2019,9(6):1103

    • [7] Wang Y,Tao X,Qi X J,et al.Image inpainting via generative multi-column convolutional neural networks[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems.December 3-8,2018,Montréal,Canada.ACM,2018:329-338

    • [8] 任洪昊,朱新山,卢俊彦.深度图像修复的动态特征融合取证网络[J].哈尔滨工业大学学报,2022,54(11):47-58 REN Honghao,ZHU Xinshan,LU Junyan.Dynamic feature fusion forensics network for deep image inpainting[J].Journal of Harbin Institute of Technology,2022,54(11):47-58

    • [9] 左心悦,郝子娴,杨有.多尺度语义学习的人脸图像修复[J].南京信息工程大学学报(自然科学版),2023,15(5):534-540 ZUO Xinyue,HAO Zixian,YANG You.Face image inpainting with multi-scale sematic learning[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(5):534-540

    • [10] Zeng Y H,Fu J L,Chao H Y,et al.Aggregated contextual transformations for high-resolution image inpainting[J].IEEE Transactions on Visualization and Computer Graphics,2023,29(7):3266-3280

    • [11] Pathak D,Krähenbühl P,Donahue J,et al.Context encoders:feature learning by inpainting[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2536-2544

    • [12] Iizuka S,Simo-Serra E,Ishikawa H.Globally and locally consistent image completion[J].ACM Transactions on Graphics,36(4):107

    • [13] Yu J H,Lin Z,Yang J M,et al.Generative image inpainting with contextual attention[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:5505-5514

    • [14] Zhang H R,Hu Z Z,Luo C Z,et al.Semantic image inpainting with progressive generative networks[C]//Proceedings of the 26th ACM International Conference on Multimedia.October 22-26,2018,Seoul,Republic of Korea.ACM,2018:1939-1947

    • [15] Karras T,Laine S,Aila T.A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:4396-4405

    • [16] Zhao L,Mo Q H,Lin S H,et al.UCTGAN:diverse image inpainting based on unsupervised cross-space translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:5740-5749

    • [17] Li J Y,Wang N,Zhang L F,et al.Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:7757-7765

    • [18] Suvorov R,Logacheva E,Mashikhin A,et al.Resolution-robust large mask inpainting with Fourier convolutions[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision(WACV).January 3-8,2022,Waikoloa,HI,USA.IEEE,2022:3172-3182

    • [19] Lugmayr A,Danelljan M,Romero A,et al.RePaint:inpainting using denoising diffusion probabilistic models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:11451-11461

    • [20] Ho J,Jain A,Abbeel P.Denoising diffusion probabilistic models[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems.December 6-12,2020,Vancouver,BC,Canada.ACM,2020:6840-6851

    • [21] Wang Z D,Zheng H J,He P C,et al.Diffusion-GAN:training GANs with diffusion [J].arXiv e-Print,2022,arXiv:2206.02262

    • [22] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [J].arXiv e-Print,2014,arXiv:1409.1556

    • [23] Shen W,Liu R J.Learning residual images for face attribute manipulation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1225-1233

    • [24] Zhou B L,Lapedriza A,Khosla A,et al.Places:a 10 million image database for scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(6):1452-1464

    • [25] Liu G L,Reda F A,Shih K J,et al.Image inpainting for irregular holes using partial convolutions[C]//Computer Vision-ECCV 2018:15th European Conference.September 8-14,2018,Munich,Germany.ACM,2018:89-105

  • 参考文献

    • [1] Drori I,Cohen-Or D,Yeshurun H.Fragment-based image completion[C]//ACM SIGGRAPH 2003 Papers.San Diego,CA,USA.ACM,2003:303-312

    • [2] Goodfellow I J,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2.December 8-13,2014,Montreal,Canada.ACM,2014:2672-2680

    • [3] LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551

    • [4] 卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17 LU Hongtao,ZHANG Qinchuan.Applications of deep convolutional neural network in computer vision[J].Journal of Data Acquisition and Processing,2016,31(1):1-17

    • [5] 杨真真,匡楠,范露,等.基于卷积神经网络的图像分类算法综述[J].信号处理,2018,34(12):1474-1489 YANG Zhenzhen,KUANG Nan,FAN Lu,et al.Review of image classification algorithms based on convolutional neural networks[J].Journal of Signal Processing,2018,34(12):1474-1489

    • [6] Li Z,Wu J.Learning deep CNN denoiser priors for depth image inpainting[J].Applied Sciences,2019,9(6):1103

    • [7] Wang Y,Tao X,Qi X J,et al.Image inpainting via generative multi-column convolutional neural networks[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems.December 3-8,2018,Montréal,Canada.ACM,2018:329-338

    • [8] 任洪昊,朱新山,卢俊彦.深度图像修复的动态特征融合取证网络[J].哈尔滨工业大学学报,2022,54(11):47-58 REN Honghao,ZHU Xinshan,LU Junyan.Dynamic feature fusion forensics network for deep image inpainting[J].Journal of Harbin Institute of Technology,2022,54(11):47-58

    • [9] 左心悦,郝子娴,杨有.多尺度语义学习的人脸图像修复[J].南京信息工程大学学报(自然科学版),2023,15(5):534-540 ZUO Xinyue,HAO Zixian,YANG You.Face image inpainting with multi-scale sematic learning[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2023,15(5):534-540

    • [10] Zeng Y H,Fu J L,Chao H Y,et al.Aggregated contextual transformations for high-resolution image inpainting[J].IEEE Transactions on Visualization and Computer Graphics,2023,29(7):3266-3280

    • [11] Pathak D,Krähenbühl P,Donahue J,et al.Context encoders:feature learning by inpainting[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2536-2544

    • [12] Iizuka S,Simo-Serra E,Ishikawa H.Globally and locally consistent image completion[J].ACM Transactions on Graphics,36(4):107

    • [13] Yu J H,Lin Z,Yang J M,et al.Generative image inpainting with contextual attention[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:5505-5514

    • [14] Zhang H R,Hu Z Z,Luo C Z,et al.Semantic image inpainting with progressive generative networks[C]//Proceedings of the 26th ACM International Conference on Multimedia.October 22-26,2018,Seoul,Republic of Korea.ACM,2018:1939-1947

    • [15] Karras T,Laine S,Aila T.A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:4396-4405

    • [16] Zhao L,Mo Q H,Lin S H,et al.UCTGAN:diverse image inpainting based on unsupervised cross-space translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:5740-5749

    • [17] Li J Y,Wang N,Zhang L F,et al.Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:7757-7765

    • [18] Suvorov R,Logacheva E,Mashikhin A,et al.Resolution-robust large mask inpainting with Fourier convolutions[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision(WACV).January 3-8,2022,Waikoloa,HI,USA.IEEE,2022:3172-3182

    • [19] Lugmayr A,Danelljan M,Romero A,et al.RePaint:inpainting using denoising diffusion probabilistic models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:11451-11461

    • [20] Ho J,Jain A,Abbeel P.Denoising diffusion probabilistic models[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems.December 6-12,2020,Vancouver,BC,Canada.ACM,2020:6840-6851

    • [21] Wang Z D,Zheng H J,He P C,et al.Diffusion-GAN:training GANs with diffusion [J].arXiv e-Print,2022,arXiv:2206.02262

    • [22] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition [J].arXiv e-Print,2014,arXiv:1409.1556

    • [23] Shen W,Liu R J.Learning residual images for face attribute manipulation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1225-1233

    • [24] Zhou B L,Lapedriza A,Khosla A,et al.Places:a 10 million image database for scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(6):1452-1464

    • [25] Liu G L,Reda F A,Shih K J,et al.Image inpainting for irregular holes using partial convolutions[C]//Computer Vision-ECCV 2018:15th European Conference.September 8-14,2018,Munich,Germany.ACM,2018:89-105

  • 地址:江苏省南京市宁六路219号    邮编:210044

    联系电话:025-58731025    E-mail:nxdxb@nuist.edu.cn

    南京信息工程大学学报 ® 2025 版权所有  技术支持:北京勤云科技发展有限公司