基于中高位视频监控的图像及视频质量增强算法
doi: 10.13878/j.cnki.jnuist.20240705002
向涛 , 葛宁 , 宋奇蔚
清华大学电子工程系,北京, 100084
基金项目: 国家重点研发计划“变革性技术关键科学问题”重点专项(2018YFA0701601)
作者简介
向涛,男,博士生,高级工程师,研究方向为多媒体计算通信.xiangt19@mails.tsinghua.edu.cn
葛宁,男,博士,教授,研究方向为通信、网络相关理论及应用研究.gening@tsinghua.edu.cn
通讯作者
葛宁,男,博士,教授,研究方向为通信、网络相关理论及应用研究.gening@tsinghua.edu.cn
中图分类号: TP391.41
文献标识码: A
Image and video quality enhancement based on medium and high-altitude video surveillance
XIANG Tao , GE Ning , SONG Qiwei
Department of Electronic Engineering,Tsinghua University,Beijing 100084 ,China
摘要
针对现有图像视频恢复增强方法存在的问题,本文提出一种基于语义特征提取的神经网络模型图像及视频质量增强算法.首先提出一种基于语义特征的图像恢复增强框架,然后建立退化模型和重建模型的联合优化.在公开数据集上对所提模型进行验证,并与现有算法进行对比,结果表明:所提方法相比新型超分辨率算法PULSE(Photo Upsampling via Latent Space Exploration,潜空间搜索照片升采样)能够实现RankIQA(Rank Image Quality Assessment,图像质量评价排名)得分50%的提升,并且和原始高清图像、视频质量得分接近;在用户评价方面,有81%的重建结果被认为优于对比算法,表明所提算法具有更高的重构图像和视频质量.
Abstract
To address the issues inherent in existing image and video restoration and enhancement techniques,this paper proposes a neural network model approach rooted in semantic feature extraction.Firstly,an image restoration and enhancement framework centered on semantic feature is introduced,followed by the joint optimization of degradation and reconstruction models.The proposed model is validated on a publicly accessible dataset and compared with existing algorithms.The results indicate that the proposed approach achieves a 50% improvement in RankIQA (Rank Image Quality Assessment) scores compared to the state-of-the-art super-resolution algorithm PULSE (Photo Upsampling via Latent Space Exploration).Furthermore,the quality scores of the enhanced images and videos are comparable to those of the original HD ones.In terms of user evaluation,81% of the reconstructed results are considered to be superior to those produced by the comparison algorithms,demonstrating that the proposed approach offers higher quality in reconstructed images and videos.
0 引言
智慧城市管理过程中,中高点视频监控在保障城市公共安全和维护管理秩序上发挥着重要作用.此外,高点位的监控在森林、港口、油田、工业园区,甚至边境防御等场景都有广泛的应用.所以,监控视频数据的获取、处理与传递成为业务管理中必不可少的环节,其中涉及计算机图形、计算机网络、图像处理、计算机视觉、数据库和信息检索等诸多学科[1].
由于监控视频的数据量巨大,给数据的存储和传播设备带来了极大的压力,例如,每秒24帧、分辨率为1080P的监控视频数据,每像素包含8 bit量化的红绿蓝(RGB) 三色通道,在无压缩的情况下,每秒所需的数据量约为142 MB.对于如此大体量的数据,智能手机、电脑、服务器等设备不管从存储能力还是通信速率上都难以满足需求.因此,为了降低监控视频的数据量,发展数据压缩技术具有重要意义[2].
对监控视频数据压缩并进行传输及图像重建是计算机视觉和图像处理中一项长期存在的任务,而图像重建是一个欠定问题,同样的退化图像下重建图像对应不同的感知质量.在接收端完成视频接收后,需要估计并纠正由压缩算法和传输信道变化等因素带来的失真,以尽可能提升重建图像的感知质量.通过对重建图像的恢复增强,为实现更低码率的图像传输提供可能.
根据不同的视频图像退化过程,图像恢复可以进一步分为去噪、去模糊、超分辨等.随着深度学习技术的发展,基于真实图像数据学习重建函数的方法,在适用范围和重建性能方面有更好的表现[3-6],大部分基于学习的恢复方法会归结到一个最小化重建图像和输入图像均方误差的优化问题上,然而,基于像素距离的均方误差在较为复杂的区域容易导致模糊,和主观感知质量并不一致.而在许多应用场景中,图像恢复的最终目标是产生主观质量更好的结果,因此均方误差并非最佳选择.相关研究转而提出面向感知质量的恢复方法,其利用生成对抗网络[7]或者主观相似度[8]等和人的主观感知质量更为接近的方法[9-10],和均方误差共同组成优化目标,由此得到在像素误差和主观质量上进行折中的重建结果.
对语义特征的视频提取方法的研究可以使图像的传输、重构及恢复增强提高效率.本文针对中高点位的监控视频进行基于语义特征提取的图像重建和恢复增强,在给定感知质量和目标码率的约束下,恢复由压缩方法等因素带来的图像信息损失与质量失真,进一步提升重建图像的感知质量.
1 基于语义特征提取的图像恢复增强
摄像头在采集到监控视频后,原始视频图像被输入神经网络模型进行视频语义提取.通过语义特征提取的视频有更高的压缩率,可以进行高速率、高质量的传输.然后,通过图像重建、恢复增强网络进行视频复原,具体流程如图1所示.
1.1 恢复增强框架
完成图像数据的恢复增强需要同时估计原始图像分布和退化过程.对退化图像w,其出现的概率pw[11]满足:
logp(w)=qϕ(zw)logp(w)dz=DKLqϕ(zw)p(zw)+qϕ(zw)p(w,z)qϕ(zw)dz.
(1)
其中:z代表原始图像;qϕzw为后验估计,代表根据退化图像估计原始图像概率的恢复增强过程;pzw代表真实的后验概率;DKL代表拟合真实分布的相对信息熵.对于同一个log pw),当恢复增强过程和真实后验分布一致时,DKLqϕzwpzw)取得最小值0,此时式(1)最后一项取得最大值.由于信息熵的非负性,式(1)的后一项成为其下界,可进一步拆分[11]
qϕ(zw)p(w,z)qϕ(zw)dz=
-DKLqϕ(zw)p(z)+qϕ(zw)logp(wz)dz.
(2)
式(2)包括两部分含义,一是重建图像应该和真实图像尽可能接近,二是重建图像要能够退化至给定的退化图像w,只有同时满足二者的恢复方法才能够和真实的后验概率pz|w)一致.从最大似然估计的角度讲,求解模型参数的优化目标为最大化log pw),当求解的恢复过程和真实后验分布一致时,可得到最终的优化目标为最大化式(2).
IHRM×N为原始高质量图像,ILRm×n为退化后的低质量图像,其对应的退化过程可以采用任意退化模型,如模糊、降采样和压缩等模型,退化过程可表述如下:
F:IHIL.
(3)
从退化图像IL开始的恢复增强模型旨在寻求上述模型的逆过程 G,即满足GIL)∈IHFIH=IL,大部分情况下上述逆过程是病态问题,即存在很多个图像IH均可退化至IL.故引出实际恢复增强应用的另一个要求,即从中选择符合自然图像分布的结果:
GILIHFIH=ILM
(4)
其中:M 为自然图像所处的分布(流形).很多场景下,退化过程并非确定性函数,一幅高质量图像IH不会退化至单一结果IL,而是对应一个分布.例如,由高斯噪声产生的模糊,由于随机高斯噪声的出现,退化图像的具体像素值无法由原始图像确定性得到,或者对图像传输而言,由于信道带宽的变化以及可能出现误码,原始图像可能退化至不同的结果.因此,一个更加通用的退化模型是:
1视频图像恢复增强结构
Fig.1Video image recovery and enhancement processes
F:IHILILPIIH.
(5)
其中:PIIH代表图像IH的所有可能退化结果的概率分布.所有可能的退化图像共同组成一个流形,其中的图像和原始图像具有相同的内容,但分别对应不同的退化路径.上述原始图像和退化图像的对应关系以及其内容的相似性均包含在条件分布PIIH内,并且由退化模型唯一决定.式(5)代表的逆过程同样是病态问题,故恢复结果也需要在自然图像所处的分布之内:
G:ILIHPILIH>ϵM.
(6)
其中:ϵ为阈值.式(6)表明得到的恢复图像IH的退化分布需要涵盖给定的待恢复图像IL,即实现退化图像的恢复增强需要已知自然图像的分布以及退化模型.
1.2 隐变量约束
在捕捉自然图像分布方面,现有研究采用的主要方法是利用生成模型进行建模,并通过数据驱动的方法在人工收集的采样数据上训练得到对应的参数.就生成高质量自然图像而言,生成对抗网络具有很好的性能.此类生成模型可以从一个低维隐空间映射到高维图像空间,即g:zIH,其中zRd表示d维隐变量.若生成模型g能够建模自然图像分布,并且所产生图像处于自然图像所处流形M 内,则通过选取隐变量z^并且取gz^)为重建图像,即可满足式(6)中GILM 的要求.在此基础上,为了得到和给定退化图像内容一致的重建结果,需要根据退化模型求解上述隐变量z^,即完成生成模型的逆过程求解.
然而,对于求解给定图像在生成模型中的低维表征比较复杂.通常来说,生成模型的训练会从特定的低维分布出发,称为先验分布,在训练完成之后,往往只有接近先验分布的隐变量才具备较为自然的重建结果.因此,在搜索隐变量时,需要限制其处于先验分布的范围内,但这一约束并没有较好的显式或者隐式表达,如常用的高斯先验分布,即使先验分布极为简单并且具有分布函数,这是因为对于给定的分布函数,直接将最大化似然函数作为优化目标会导致隐变量趋近概率最大的点.所以,对于高斯先验,限制可行域为球面可以在一定程度上保证隐变量和先验较为接近,但对任意的先验分布而言,则缺乏和高斯分布情形下一样简单的启发式算法.
为了解决上述问题,可采用预训练的生成模型,从512维的高斯先验分布Z上进行采样,并通过变换网络映射到W空间,然后通过生成网络得到高维图像.通过在W空间进行求解隐变量,得到比在Z空间上更好的重建结果. W空间中包含一系列向量w1w2wk,上述向量全部相等并代表重建图像的低维表征.将w1w2wk看作从同一分布采样的样本,满足分布qW:RdRdqW=1,设pWW 空间的先验分布,则需要在可行域dqWpW<ϵ 中求解隐变量.由于映射网络高度非线性,加之训练数据分布复杂,先验分布pW是无表达式、无规律的任意分布,因此无法将上述约束目标显式表达,需要选取合适的方法保证可行域处于先验分布之内.本文采用基于采样数据的方法实现上述约束.
d2k,pw,qw=Ex,x'pwkx,x'-2Expx,yqw[k(x,y)]+Ey,y'qwky,y'.
(7)
其中:k为核函数.式(7)可以由采样数据直接计算得到两个分布之间的距离,并且能够给出结果.对待求的隐变量,可将w1w2wk看作不同的采样点,取核函数为高斯函数,则式(7)可变为
d2γ,pw,qw=1k21ij,jke-wi-wj2γ+1k'21i,jK'e-w~i-w-j2γ-1kk'1ik,1jK'e-wi-w-j2γ.
(8)
其中:γ决定了高斯核函数的半径,其值可由W空间中采样数据的统计结果得到.上述约束的优势之一在于不涉及任何可训练的参数,因此不需要针对先验分布额外训练模型捕捉其统计特性,而可以直接使用预训练生成模型进行隐变量求解,只需要在求解中将式(8)作为约束,称为MMD(Maximum Mean Discrepancy,最大平均差异)约束.
1.3 退化估计
在图像恢复增强任务中,退化过程建模是不可避免的,退化模型直接影响到逆过程的求解.然而退化过程的建模并不容易,对于加性高斯噪声或者降采样等简单的退化过程,其对应的退化建模简单直接,但是也有很多退化模型难以进行建模,比如图像压缩传输导致的失真、物理拍摄导致的质量下降等,真实世界中的退化过程则更为复杂[12-14].
相关研究表明,通过生成模型[12-13]可以根据真实世界的数据学习高质量图像到低质量图像的退化过程,用于训练对应的恢复增强网络.但是其主要作用在于数据增强,而在求解隐变量时,需要的是显式的量化指标来表明重建图像退化到给定低质量图像的可能程度,仅有退化映射网络无法满足需求.在此方面l2范数是常用的指标[14],但是不具备理论上的优越性.对两个数据来说,最小化其之间的l2距离本身假设了其中一个数据需满足高斯分布的先验分布,因此两个退化图像的l2距离较小并不代表原始图像的距离较小,无论是客观指标还是主观质量都是如此.
直接将退化过程F:IHILILPIIH建模为概率估计问题,并且采用条件自回归模型进行建模[15-16]
pIIH=pI1,I2,,InIH=j=1npIjI1,I2,,Ij-1,IH.
(9)
其中:I1I2In代表图像I的分量.在高维向量的概率估计中,采样数据个数对模型性能至关重要.评价概率估计性能的一个重要指标为累积概率分布函数的MISE(Mean Integrated Squared Error,平均积分平方误差),为了保持同样的MISE值,需要的采样数据量随数据维度的增长呈指数级增长[17]. 对高维的图像数据而言,现有数据库大小对准确估计概率分布远远不足,因此,在建模时采取局部建模的方式,能够在有限的数据个数下得到更为精确的估计.即式(9)变为
pIIH=j=1npIjIΩj,IHΩj.
(10)
其中:IΩjIHΩj分别为元素Ij在图像IIH上对应的局部依赖区域.就图像退化而言,大部分退化都是局部的,例如模糊、噪声和压缩导致的块效应等,并不涉及较多的全局信息,因此,局部建模导致的性能下降较小.在模型结构上,本节使用较小的感受来降低建模中的依赖区域,模型中不采用升采样和降采样分支,并且使用较小的卷积核以进一步降低模型的感受.
1.4 恢复增强网络算法
恢复增强网络算法整体框架分为两个部分,第一部分为利用高清退化图像进行训练的退化模型,第二部分由预训练的生成网络充当的重建模型,两个部分需要分开进行训练.以下为优化求解流程,使用的生成模型包括但不限于StyleGAN[18].设退化模型为pθILIH;θ,其中,θ为模型参数,IL为退化图像,IH为原始图像,则训练退化模型的目标函数[16]
argminθEIL,IHpdata-logpθILIH;θ.
(11)
其中:ILIHpdata代表在训练集上采样高清-退化图像对.整体误差是在训练集上的平均结果,模型的优化目标为最小化负对数似然.
设待求解的隐变量为w,由隐变量重建图像的过程为Gϕw;ϕ其中,φ为重建模型的参数,则对给定的退化图像IL,隐变量求解的目标函数为
argminw-logpθILGϕ(w;ϕ);θ+βdd2γ,pw,qw
(12)
其中:βd为超参数,可以在重建模型的泛化能力和重建质量上进行折中.在求解隐变量时,退化模型和重建模型的参数保持固定,在完成求解过程后,将隐变量通过重建模型得到的图像作为重建结果.一般性的流程如算法1所示.对StyleGAN来说,优化算法保留了新型超分辨率算法PULSE(Photo Upsampling via Latent Space Exploration,潜空间搜索照片升采样)中的球面梯度下降以及对多个隐变量一致性的约束[14].
退化模型和重建模型的作用如图2所示.总体来说,如果没有退化过程的估计和分布约束,直接根据和退化图像的像素距离从高清模型中进行搜索,得到的结果会继承退化图像存在的压缩失真.加入对低维表征的分布约束之后,颜色不自然的重建结果就会消失,但此时仅靠像素距离依然无法很好地找到内容接近的重建图像,而退化模型并不以像素距离为指标,可以很好地找到内容一致的结果.
2加入分布约束和退化估计对重建结果的影响
Fig.2Impact of adding distributional constraints and degradation estimates on reconstruction results
2 实验过程与分析
2.1 实验设置
1)数据集
①实验测试所用图像和退化模型的训练图像均来自 CelebA HQ[19]数据集,该数据集包括高清人脸图像30 000 张,分辨率为 1024×1024.
②使用的预训练模型StyleGAN[18]以及其优化版本[20]在FFHQ[18]数据集上训练得到.FFHQ数据集包含70 000张高清人脸图像,分辨率为1 024×1 024.
③LIVE[21]数据集.图像质量评价常用数据集,包含压缩失真、噪声、模糊和快速衰落等因素产生的退化图像779张以及原始图像29张,并带有用户的主观打分.
2)评价指标
实验使用的评价重建图像质量的指标包括三个方面,分别为主观效果、无参图像质量评价(No-Reference Image Quality Assessment,NR-IQA)模型以及用户体验.其中,无参质量评价模型采用RankIQA[22]方法,并使用其在LIVE[21]数据集上训练得到的参数.LIVE数据集上图像得分范围是0到100,分数越低代表图像质量越好.实验采用的RankIQA得分有两种计算方式,一是从重建图像随机裁剪得到100份大小为224 × 224的图像块,给出测试集所有块上得分的平均值和中位数,二是将整幅图像缩放大至256 × 256,同样给出整个测试集上得分的平均值和中位数.第一种方法为RankIQA默认的计算方式,但是由于LIVE数据集和CelebA HQ数据集的图像尺寸不一致,评价得分只能基于图像块进行,缺乏对全图视野的把握;第二种方法能够保证评价模型获得整幅图像的视野,在整幅图像的基础上进行打分.
3)参数设置
退化模型的训练集由CelebA HQ中随机挑选的20 000张图像组成,其余图像作为测试集,模拟压缩失真使用的压缩方法为JPEG[23],图像质量因子为1,在实验使用的100张测试图像上,压缩至原始图像的1/400,此时重建图像严重退化.在训练退化模型时,受限于显存大小,将图像缩放大至256 × 256.重建模型在CelebA HQ数据集中随机采样的100幅图像上进行测试,所有图像上的优化求解过程在固定步数内完成.
优化时采用W空间的均值Ez-pz[fz]作为初始值,具体的获取方法为:首先从高斯分布采样得到10 000个Z空间的向量,然后通过变换网络得到W空间下的向量,平均得到统计均值.相关研究[2024]指出,对人脸图像来说,从均值进行初始化能够达到更好的收敛性能,重建图像质量更好.对MMD约束,从W空间采样1 000个数据点刻画先验分布,高斯核函数的带宽γ设置为512.退化模型网络结构和损失函数使用pixelcnn++[15]框架,去掉两个降采样和升采样模块以保证依赖区域较小,模型中条件块个数为6,其通道数设置为100,可在模型性能和占用显存空间之间得到比较好的折中.本节所有实验在Tesla P100显卡上进行.
2.2 重建性能
1)图像超分辨
为了验证MMD约束对生成模型重建图像性能的提升,本节给出不同方法在图像超分辨任务上的性能对比.图像超分辨任务退化模型较为简单,加之为了单独测试MMD约束带来的性能提升,故不使用上述条件概率密度估计框架进行估计,而直接使用常见的双立方采样进行计算.此外,还采用PULSE[14]作为重建的对比算法,比较在加入MMD约束前后重建图像的质量.
实验结果如图3所示.图3a为原始低分辨率图像;图3b表示通过双立方采样的方法进行重建的结果;图3c表示PULSE算法,采用球面梯度下降法[14]进行优化求解;图3d为本文所提方法重建结果,与PULSE算法相比,增加了MMD约束,其他参数设置保持一致.结果表明,双立方采样的方法并不能很好地恢复低分辨率图像中缺失的细节.PULSE方法会在部分低分辨率图像上重建出不自然的结果,其重建的失败率限制了其在实际系统中的使用,失败的原因在于隐变量和先验分布并不一致,而本文所提出的方法能够很好地解决这一问题,在MMD分布约束的作用下,重建图像更加自然且具备更好的主观质量.
3不同方法在超分辨任务上重建图像质量对比
Fig.3Quality comparison of images reconstructed by different methods on super-resolution tasks
2)压缩失真恢复
本节结合重建模型以及退化模型,在图像压缩失真恢复问题上通过大量的实验验证所提方法的有效性,从主观重建质量、用户评价以及无参质量评价方面和前沿方法PULSE进行对比.
不同方法在JPEG 压缩图像上的重建结果如图4所示.图4a为监控视频的原始图像;图4b为经过JPEG压缩后的图像,可以看出压缩比较高;图4c为使用PULSE方法对压缩后图像进行重构后的图像;图4d为本文所提方法重建结果.从重建图像质量上看,本文所提出的方法得到的图像更为自然且高清,而PULSE方法在边缘的过渡上比较生硬,缺失细节.但基于生成模型(StyleGAN、PULSE)进行重建也有缺点,即如果对应生成模型的泛化能力不够,则产生的重建图像和原始图像的内容相差较大,换言之生成模型无法生成对应内容的图像,只能在其模型范围内寻找最为接近的结果.
4不同方法在JPEG压缩失真下重建图像质量对比
Fig.4Comparison of reconstructed image quality for JPEG compression distorted images
为了更好地评价所提方法的性能,本节给出所提方法和对比方法的用户评价结果.从测试数据集中随机挑选100张图像,通过JPEG方法进行压缩并使用所提方法和PULSE方法进行重建,然后要求60名被试从所提方法和PULSE重建结果的图像对中选择更加自然且高清的图像,最终得到的结果中,有81%的由本文所提方法重建的结果被认为优于对比算法,从而表明所提方法在重建图像质量上更具优势.
3)影响因素分析
在主观用户评价之外,根据无参图像质量评价模型对重建图像质量给出量化指标RankIQA值,结果如表1所示.RankIQA得分越小表示排名越高,即模型性能越优,表中显示在合适的设置下,本算法得分9.37,对比PULSE算法的21.33有50%以上的提升.不同设置对性能影响的分析如下:
①初始化方法:对优化求解隐变量的算法而言,不同的初始化方法对收敛速度以及性能有重要的影响.对生成模型而言,从均值进行初始化能够使重建图像具备更好的主观质量.均值初始化对某特定图像来说有一定的性能提升,但是较其他类别图像上却会带来性能下降[24].根据实验结果,基于Z空间进行求解时,相比于随机初始化,均值初始化方式在RankIQA得分上并没有带来性能提升,反而有一定程度的下降,这是因为生成模型StyleGAN的低维隐空间是W空间,因此Z空间的均值不能代表“平均脸”,并且由于Z本身具备高斯先验,其均值在零向量附近,远离其密度最大的球面,故重建图像性能不如随机初始化.相反,基于W进行优化求解时,从均值初始化对性能提升至关重要.
1RankIQA值对比
Table1RankIQA score comparison
②StyleGAN模型:虽然改善后的StyleGAN模型消除了小范围的失真,但是RankIQA得分并没有明显的改善,和原始版本得分接近,也在一定程度上表明RankIQA评价标准对极个别局部区域的失真并不敏感.
③训练轮数:将退化模型训练更多的轮数,同样没有带来性能上的提升,原因为NLL(Negative Log Likelihood,负对数似然)分数和主观质量相关性较小,更多的训练反而会使得模型过拟合情况更为严重.
④退化模型权重:退化模型的权重不仅对指示重建图像的正确性有所影响,还影响重建图像的质量,较大的权重会导致重建图像质量出现下降,因此需要合适的设置以在重建质量和正确性上进行折中.
3 结论和展望
本文针对退化图像的恢复增强问题,提出一种退化模型和重建模型的联合优化框架,从最大似然的角度将退化图像的恢复增强分解为退化过程估计和原始高清图像分布估计两个关键问题.针对第一个问题,利用在高清图像数据上训练的生成模型捕捉高质量图像的分布,并将重建结果限制在生成模型的分布内,并进一步提出基于生成模型优化求解低维向量的方法;对于第二个问题,将退化过程建模为条件概率密度估计问题,基于数据和神经网络建模的方法进行训练,避免人为假设退化模型带来的建模困难、适用范围窄以及性能较差的问题.
所提方法在公开数据集上分别对退化模型和重建模型进行实验验证,通过消融实验验证所提方法的有效性.进一步,在多种图像失真类型上进行恢复增强实验,包括所提出的压缩方法导致的图像失真,无参质量评价方法给出的数值指标表明,所提方法相比前沿PULSE方法能够实现RankIQA得分50%的提升,并且和原始高清图像得分接近.在用户评价方面,有81%的重建结果被认为优于对比算法.
本文所提方法本身并不局限于特定数据类型,但在模型训练以及性能上,在不同复杂度的数据集上表现有所区别.此外,算法在设计上未充分考虑视频数据的帧间依赖和连续性.为进一步提升方法的适用性并基于有限的语义信息进行图像重建,需要利用生成模型填充大量细节,而视频数据的连续性要求则限制了相邻帧图像的像素变化,为此,在语义信息解译以及图像数据重建上,需要加入时域信息的约束和利用.
1视频图像恢复增强结构
Fig.1Video image recovery and enhancement processes
下载: 全尺寸图片
2加入分布约束和退化估计对重建结果的影响
Fig.2Impact of adding distributional constraints and degradation estimates on reconstruction results
下载: 全尺寸图片
3不同方法在超分辨任务上重建图像质量对比
Fig.3Quality comparison of images reconstructed by different methods on super-resolution tasks
下载: 全尺寸图片
4不同方法在JPEG压缩失真下重建图像质量对比
Fig.4Comparison of reconstructed image quality for JPEG compression distorted images
下载: 全尺寸图片
1RankIQA值对比
Table1RankIQA score comparison
下载: 全尺寸图片
[1]
Li Z N, Drew M S, Liu J. Fundamentals of multimedia[M]. Berlin: Springer,2004
[2]
Gibson J D, Berger T, Lookabaugh T,et al. Digital compression for multimedia:principles and standards[M]. San Mateo, CA: Morgan Kaufmann Publishers Inc.,1998
[3]
Tao X, Gao H Y, Shen X Y,et al. Scale-recurrent network for deep image deblurring[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 18-23,2018, Salt Lake City, UT, USA. IEEE,2018:8174-8182
[4]
Zhang H G, Dai Y C, Li H D,et al. Deep stacked hierarchical multi-patch network for image deblurring[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 15-20,2019, Long Beach, CA, USA. IEEE,2019:5971-5979
[5]
Zhang K, Zuo W M, Chen Y J,et al. Beyond a Gaussian denoiser:residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing,2017,26(7):3142-3155
[6]
Zhang H K, Li Y, Chen H,et al. Memory-efficient hierarchical neural architecture search for image denoising[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:3654-3663
[7]
Goodfellow I, Pouget-Abadie J, Mirza M,et al. Generative adversarial networks[J]. Communications of the ACM,2020,63(11):139-144
[8]
Dosovitskiy A, Brox T. Generating images with perceptual similarity metrics based on deep networks[C]//30th Conference on Neural Information Processing Systems(NIPS 2016). December 5-10,2016, Barcelona, Spain. IEEE,2016:658-666
[9]
Ledig C, Theis L, Huszár F,et al. Photo-realistic single image super-resolution using agenerative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). July 21-26,2017, Honolulu, HI, USA. IEEE,2017:105-114
[10]
Yang W H, Wang S Q, Fang Y M,et al. From fidelity to perceptual quality:a semi-supervised approach for low-light image enhancement[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:3060-3069
[11]
Kingma D P, Welling M. Auto-encoding variational Bayes[J].arXiv e-Print,2013,arXiv:1312.6114
[12]
Bulat A, Yang J, Tzimiropoulos G. To learn image super-resolution,use a GAN to learn how to do image degradation first[C]//European Conference on Computer Vision(ECCV). September 8-14,2018, Munich, Germany. ECAV,2018:187-202
[13]
Zhao T Y, Ren W Q, Zhang C Q,et al. Unsupervised degradation learning for single image super-resolution[J].arXiv e-Print,2018,arXiv:1812.04240
[14]
Menon S, Damian A, Hu S J,et al. PULSE:self-supervised photo upsampling via latent space exploration of generative models[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:2434-2442
[15]
Salimans T, Karpathy A, Chen X,et al. PixelCNN++:improving the PixelCNN with discretized logistic mixture likelihood and other modifications[J].arXiv e-Print,2017,arXiv:1701.05517
[16]
Oord A V D, Kalchbrenner N, Kavukcuoglu K. Pixel recurrent neural networks[C]//33rd International Conference on Machine Learning. June 19-24,2016, New York City, NY, USA. IMLS,2016:2611-2620
[17]
Glendinning R H, Scott D W. Multivariate density estimation,theory,practice and visualization[J]. The Statistician,1994,43(1):218
[18]
Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 15-20,2019, Long Beach, CA, USA. IEEE,2019:4396-4405
[19]
Karras T, Aila T, Laine S,et al. Progressive growing of GANs for improved quality,stability,and variation[J].arXiv e-Print,2017,arXiv:1710.10196
[20]
Karras T, Laine S, Aittala M,et al. Analyzing and improving the image quality of StyleGAN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:8107-8116
[21]
Sheikh H, Sabir M F, Bovik A. A statistical evaluation of recent full reference image quality assessment algorithms[J]. IEEE Transactions on Image Processing,2006,15(11):3440-3451
[22]
Liu X, Van De Weijer J, Bagdanov A D. RankIQA:learning from rankings for no-reference image quality assessment[C]//2017 IEEE International Conference on Computer Vision. October 22-29,2017, Venice, Italy. IEEE,2017:1040-1049
[23]
Fonseca R N, Ramírez M A. Using scielab for image and video quality evaluation[C]//2008 IEEE International Symposium on Consumer Electronics. April 14-16,2008, Vilamoura, Portugal. IEEE,2008:1-4
[24]
Abdal R, Qin Y, Wonka P. Image2stylegan:how to embed images into the stylegan latent space?[C]//2019 IEEE/CVF International Conference on Computer Vision. October 27-November 2,2019, Seoul, Korea(South). IEEE,2019:4432-4441
图(4) / 表(1)
手机扫码阅读
引用本文
XIANG Tao, GE Ning, SONG Qiwei. Image and video quality enhancement based on medium and high-altitude video surveillance[J].Journal of Nanjing University of Information Science & Technology,2025,17(1):22-30
复制

XIANG Tao, GE Ning, SONG Qiwei. Image and video quality enhancement based on medium and high-altitude video surveillance[J].Journal of Nanjing University of Information Science & Technology,2025,17(1):22-30
Copy
计量
文章访问量: 60
HTML全文浏览量: 2
PDF下载量: 111
1视频图像恢复增强结构
Fig.1Video image recovery and enhancement processes
2加入分布约束和退化估计对重建结果的影响
Fig.2Impact of adding distributional constraints and degradation estimates on reconstruction results
3不同方法在超分辨任务上重建图像质量对比
Fig.3Quality comparison of images reconstructed by different methods on super-resolution tasks
4不同方法在JPEG压缩失真下重建图像质量对比
Fig.4Comparison of reconstructed image quality for JPEG compression distorted images
1RankIQA值对比
Table1RankIQA score comparison
Li Z N, Drew M S, Liu J. Fundamentals of multimedia[M]. Berlin: Springer,2004
Gibson J D, Berger T, Lookabaugh T,et al. Digital compression for multimedia:principles and standards[M]. San Mateo, CA: Morgan Kaufmann Publishers Inc.,1998
Tao X, Gao H Y, Shen X Y,et al. Scale-recurrent network for deep image deblurring[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 18-23,2018, Salt Lake City, UT, USA. IEEE,2018:8174-8182
Zhang H G, Dai Y C, Li H D,et al. Deep stacked hierarchical multi-patch network for image deblurring[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 15-20,2019, Long Beach, CA, USA. IEEE,2019:5971-5979
Zhang K, Zuo W M, Chen Y J,et al. Beyond a Gaussian denoiser:residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing,2017,26(7):3142-3155
Zhang H K, Li Y, Chen H,et al. Memory-efficient hierarchical neural architecture search for image denoising[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:3654-3663
Goodfellow I, Pouget-Abadie J, Mirza M,et al. Generative adversarial networks[J]. Communications of the ACM,2020,63(11):139-144
Dosovitskiy A, Brox T. Generating images with perceptual similarity metrics based on deep networks[C]//30th Conference on Neural Information Processing Systems(NIPS 2016). December 5-10,2016, Barcelona, Spain. IEEE,2016:658-666
Ledig C, Theis L, Huszár F,et al. Photo-realistic single image super-resolution using agenerative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). July 21-26,2017, Honolulu, HI, USA. IEEE,2017:105-114
Yang W H, Wang S Q, Fang Y M,et al. From fidelity to perceptual quality:a semi-supervised approach for low-light image enhancement[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:3060-3069
Kingma D P, Welling M. Auto-encoding variational Bayes[J].arXiv e-Print,2013,arXiv:1312.6114
Bulat A, Yang J, Tzimiropoulos G. To learn image super-resolution,use a GAN to learn how to do image degradation first[C]//European Conference on Computer Vision(ECCV). September 8-14,2018, Munich, Germany. ECAV,2018:187-202
Zhao T Y, Ren W Q, Zhang C Q,et al. Unsupervised degradation learning for single image super-resolution[J].arXiv e-Print,2018,arXiv:1812.04240
Menon S, Damian A, Hu S J,et al. PULSE:self-supervised photo upsampling via latent space exploration of generative models[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:2434-2442
Salimans T, Karpathy A, Chen X,et al. PixelCNN++:improving the PixelCNN with discretized logistic mixture likelihood and other modifications[J].arXiv e-Print,2017,arXiv:1701.05517
Oord A V D, Kalchbrenner N, Kavukcuoglu K. Pixel recurrent neural networks[C]//33rd International Conference on Machine Learning. June 19-24,2016, New York City, NY, USA. IMLS,2016:2611-2620
Glendinning R H, Scott D W. Multivariate density estimation,theory,practice and visualization[J]. The Statistician,1994,43(1):218
Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 15-20,2019, Long Beach, CA, USA. IEEE,2019:4396-4405
Karras T, Aila T, Laine S,et al. Progressive growing of GANs for improved quality,stability,and variation[J].arXiv e-Print,2017,arXiv:1710.10196
Karras T, Laine S, Aittala M,et al. Analyzing and improving the image quality of StyleGAN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19,2020, Seattle, WA, USA. IEEE,2020:8107-8116
Sheikh H, Sabir M F, Bovik A. A statistical evaluation of recent full reference image quality assessment algorithms[J]. IEEE Transactions on Image Processing,2006,15(11):3440-3451
Liu X, Van De Weijer J, Bagdanov A D. RankIQA:learning from rankings for no-reference image quality assessment[C]//2017 IEEE International Conference on Computer Vision. October 22-29,2017, Venice, Italy. IEEE,2017:1040-1049
Fonseca R N, Ramírez M A. Using scielab for image and video quality evaluation[C]//2008 IEEE International Symposium on Consumer Electronics. April 14-16,2008, Vilamoura, Portugal. IEEE,2008:1-4
Abdal R, Qin Y, Wonka P. Image2stylegan:how to embed images into the stylegan latent space?[C]//2019 IEEE/CVF International Conference on Computer Vision. October 27-November 2,2019, Seoul, Korea(South). IEEE,2019:4432-4441

Address:No. 219, Ningliu Road, Nanjing, Jiangsu Province

Postcode:210044

Phone:025-58731025