en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
作者简介:

李子晗,男,硕士生,主要研究方向为深度学习、图像处理和视频处理.20191220022@nuist.edu.cn

通讯作者:

张佩云,女,博士,教授,主要研究方向为云计算、区块链和深度学习.zpy@nuist.edu.cn

中图分类号:TP391.4

文献标识码:A

DOI:10.13878/j.cnki.jnuist.20220321001

参考文献 1
Sullivan G J,Ohm J R,Han W J,et al.Overview of the high efficiency video coding(HEVC)standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1649-1668
参考文献 2
Norkin A,Bjøntegaard G,Fuldseth A,et al.HEVC deblocking filter[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1746-1754
参考文献 3
Fu C M,Alshina E,Alshin A,et al.Sample adaptive offset in the HEVC standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1755-1764
参考文献 4
Zhang X F,Xiong R Q,Lin W S,et al.Low-rank-based nonlocal adaptive loop filter for high-efficiency video compression[J].IEEE Transactions on Circuits and Systems for Video Technology,2017,27(10):2177-2188
参考文献 5
Misra K,Bossen F,Segall A.On cross component adaptive loop filter for video compression[C]//2019 Picture Coding Symposium(PCS).November 12-15,2019,Ningbo,China.IEEE,2019:1-5
参考文献 6
Zhang X F,Xiong R Q,Fan X P,et al.Compression artifact reduction by overlapped-block transform coefficient estimation with block similarity[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2013,22(12):4613-4626
参考文献 7
Michielin F,Calvagno G,Sartor P,et al.A wavelets based de-ringing technique for DCT based compressed visual data[C]//2013 IEEE International Conference on Image Processing.September 15-18,2013,Melbourne,VIC,Australia.IEEE,2013:1100-1104
参考文献 8
Purica A,Boyadjis B,Pesquet-Popescu B,et al.A convex optimization framework for video quality and resolution enhancement from multiple descriptions[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2019,28(4):1661-1674
参考文献 9
Dai Y Y,Liu D,Wu F.A convolutional neural network approach for post-processing in HEVC intra coding[C]//MultiMedia Modeling,2017:28-39
参考文献 10
Yang R,Xu M,Wang Z L,et al.Multi-frame quality enhancement for compressed video[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:6664-6673
参考文献 11
Guan Z Y,Xing Q L,Xu M,et al.MFQE 2.0:a new approach for multi-frame quality enhancement on compressed video[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(3):949-963
参考文献 12
Zhang Y B,Shen T,Ji X Y,et al.Residual highway convolutional neural networks for in-loop filtering in HEVC[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2018,27(8):3827-3841
参考文献 13
Yang R,Xu M,Liu T,et al.Enhancing quality for HEVC compressed videos[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(7):2039-2054
参考文献 14
Zhang F,Feng C,Bull D R.Enhancing VVC through CNN-based post-processing[C]//2020 IEEE International Conference on Multimedia and Expo.July 6-10,2020,London,UK.IEEE,2020:1-6
参考文献 15
Zheng H,Li X,Liu F L,et al.Adaptive spatial-temporal fusion of multi-objective networks for compressed video perceptual enhancement[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).June 19-25,2021,Nashville,TN,USA.IEEE,2021:268-275
参考文献 16
Ding Q,Shen L Q,Yu L W,et al.Patch-wise spatial-temporal quality enhancement for HEVC compressed video[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2021,30:6459-6472
参考文献 17
Meng X D,Deng X,Zhu S Y,et al.A robust quality enhancement method based on joint spatial-temporal priors for video coding[J].IEEE Transactions on Circuits and Systems for Video Technology,2021,31(6):2401-2414
参考文献 18
Huang J W,Cui J Z,Ye M,et al.Quality enhancement of compressed screen content video by cross-frame information fusion[J].Neurocomputing,2022.DOI:10.1016/j.neucom.2021.12.092
参考文献 19
Luo D Y,Ye M,Li S,et al.Coarse-to-fine spatio-temporal information fusion for compressed video quality enhancement[J].IEEE Signal Processing Letters,2022,29:543-547
参考文献 20
李春平,周登文,贾慧秒.基于边缘指导的双通道卷积神经网络单图像超分辨率算法[J].南京信息工程大学学报(自然科学版),2017,9(6):669-674 LI Chunping,ZHOU Dengwen,JIA Huimiao.Edge guided dual-channel convolutional neural network for single image super resolution algorithm[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2017,9(6):669-674
参考文献 21
陈西江,安庆,班亚.优化EfficientDet深度学习的车辆检测[J].南京信息工程大学学报(自然科学版),2021,13(6):653-660 CHEN Xijiang,AN Qing,BAN Ya.Optimized EfficientDet deep learning model for vehicle detection[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(6):653-660
参考文献 22
郭新,罗程方,邓爱文.基于深度学习的开放场景下声纹识别系统的设计与实现[J].南京信息工程大学学报(自然科学版),2021,13(5):526-532 GUO Xin,LUO Chengfang,DENG Aiwen.A deep learning-based speaker recognition system for open set scenarios[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(5):526-532
参考文献 23
Li J T,Wu X M,Hu Z X.Deep learning for simultaneous seismic image super-resolution and denoising[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-11
参考文献 24
Liu Z S,Siu W C,Chan Y L.Features guided face super-resolution via hybrid model of deep learning and random forests[J].IEEE Transactions on Image Processing,2021,30:4157-4170
参考文献 25
Qian J,Huang S Y,Wang L,et al.Super-resolution ISAR imaging for maneuvering target based on deep-learning-assisted time frequency analysis[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-14
参考文献 26
He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778
参考文献 27
Ding X H,Guo Y C,Ding G G,et al.ACNet:strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2019:1911-1920
参考文献 28
Shi W Z,Caballero J,Huszár F,et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:1874-1883
参考文献 29
Ronneberger O,Fischer P,Brox T.U-net:convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention,2015:234-241
参考文献 30
Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141
参考文献 31
Kingma D P,Ba J.Adam:a method for stochastic optimization[J].arXiv e-print,2014,arXiv:1412.6980
参考文献 32
Bjøntegaard G.Calculation of average PSNR differences between RD-curves[J].VCEG-M33,2001:1-4
目录contents

    摘要

    视频编码技术有效地解决了原始视频数据量过大的问题,但压缩效率的提升会使视频质量下降.为了提高压缩视频的视觉质量,本文提出了一种基于细节还原卷积神经网络(Detail Recovery Convolutional Neural Network,DRCNN)的视频质量增强方法,该方法由一个主去噪分支和一个细节补偿分支组成.为了有效地提取和消除压缩失真,在主去噪分支中提出了一个多尺度失真特征提取块(Multi-scale Distortion Feature Extraction Block,MDFEB),使其更加关注压缩视频中的失真区域,并提高DRCNN的失真特征学习能力.此外,为了丰富压缩视频中的细节,本文提出了细节补偿分支:首先采用预训练的50层残差网络组成的内容特征提取器,提供丰富的内容特征,如突出的物体、形状、细节等;然后通过设计的细节响应块(Detail Response Block,DRB)从内容特征中有效地提取细节特征.大量的实验结果表明,与4种有代表性的方法相比,本文所提出的DRCNN实现了最佳的压缩视频质量增强性能.

    Abstract

    Video coding has effectively addressed the too large data volume of raw videos,however,the achieved compression efficiency comes at the cost of video quality degradation.To improve the visual quality of compressed video,a Detail Recovery Convolutional Neural Network (DRCNN)-based video quality enhancement method is proposed,which consists of a main denoising branch and a detail compensation branch.To effectively extract and eliminate the compression distortions,a Multi-scale Distortion Feature Extraction Block (MDFEB) is added to the main denoising branch,which can pay attention to the distorted areas in the compressed video,and improve the distortion feature learning ability of the proposed DRCNN.Furthermore,to enrich the details in the compressed video,the detail compensation branch adopts a content feature extractor composed of a pre-trained ResNet-50 to provide abundant content features,such as salient objects,shapes,and details,and then involves a Detail Response Block (DRB) to efficiently extract the detailed features from the content features.Extensive experimental results show that the proposed DRCNN achieves the best performance in enhancing the compressed video quality as compared with four representative methods.

  • 0 引言

  • 视频编码技术[1]有效地压缩了视频数据.然而,当视频以低比特率编码时,压缩后的视频会出现许多失真,如基于块结构编码引起的块伪影和变换编码引起的振铃伪影.这些压缩失真可能会严重影响压缩视频的体验质量(Quality of Experience,QoE).因此,为了有效地提高压缩视频的质量,特别是在低比特率下编码的视频,研究一种先进的视频质量增强方法是非常重要的.

  • 在过去的几十年里,许多传统的质量增强方法[2-8]被提出来消除压缩视频的失真,这些方法可以分为环路滤波和后处理.环路滤波类方法[2-5]用于编码中增强重建帧的质量,但是受限于编解码端的复杂度,环路滤波的增强性能并不令人满意.因此,后处理质量增强方法[6-8]被用在编码后,来进一步增强压缩视频的质量.然而,这些传统方法识别和消除失真的能力是不够的,许多压缩伪影仍然保留在压缩视频中.

  • 最近,深度学习方法[9-19]在压缩视频增强领域取得了巨大成功.Dai等[9]考虑到视频编码中的可变编码块大小不一,在已有深度学习方法的基础上,使用两种不同大小的滤波器组合并提出了一种基于可变滤波器的残差学习卷积神经网络(Variable-filter-size Residue-learning Convolutional Neural Network,VRCNN)的环路滤波方法.Yang等[10]提出一种用于压缩视频增强的多帧质量增强方法,通过将高质量帧和目标帧融合后送入网络中,低质量帧可以被邻近的高质量帧增强.接着Guan等[11]更新了多帧方法中的高质量帧搜寻器,并增加网络的深度,实现了更好的增强性能增益.Zhang等[12]提出一种用于高效视频编码的环路滤波的残差公路卷积神经网络(Residual Highway Convolutional Neural Network,RHCNN),文中提出的公路单元可以使原始信息传送到网络深层中,大大改善了RHCNN的性能.Yang等[13]提出一种质量增强卷积神经网络(Quality Enhancement Convolutional Neural Network,QECNN),它使用两个独立的网络分别学习帧内和帧间的失真特征.Zhang等[14]基于残差学习提出一个全新的网络结构作为新一代视频编码的后处理方法.Zheng等[15]采用一种新的收敛机制,自适应地融合不同网络的增强结果,同时保留了平坦区域和丰富的纹理.Ding等[16]设计了一种基于块的时间空间质量增强方法,并采用时空注意融合模块来融合不同特征,取得了很好的多帧质量增强效果.Meng等[17]提出一种多帧引导注意力网络,通过融合运动信息、时间信息和块划分图,在高比特率下和运动场景下取得了很好的效果.考虑到屏幕内容视频中存在大量的颜色相似区域,Huang等[18]提出基于跨帧信息融合的多帧信息交叉融合屏幕内容质量增强网络.Luo等[19]提出一种渐进式的多帧质量增强方法,由粗到细融合了视频的时间空间信息.

  • 现有方法可以很好地去除压缩损失,但是当压缩视频以高码率编码时,视频中的压缩伪影将会减少,细节增多,均不能很好地区分损失和细节,往往会忽略压缩视频的细节,将细节特征当成失真特征一同去除.为了解决这个问题并在去除视频损失的同时丰富视频的细节信息,受到视频增强[9-19]及其他领域[20-25]提出的新颖的深度学习模型启发,本文提出一种细节还原卷积神经网络(Detail Recovery Convolutional Neural Network,DRCNN),此网络主要由两个分支组成:主去噪分支和细节补偿分支.本文主要工作如下:

  • 1)当压缩视频处于低码率时,视频中呈现的损失主要为全局损失,而大的感受野通常可以很好地捕捉全局损失.因此本文提出一个基于多尺度的大感受野的分支:主去噪分支.在此分支中,由于压缩视频中损失特征的尺寸通常不统一,因此本文还采用新颖的多尺度失真特征提取块 (Multi-scale Distortion Feature Extraction Block,MDFEB)提高了整体网络对于不同种类失真特征的提取能力.

  • 2)因为主去噪分支更加关注全局损失,在去除局部损失的同时会去除掉同属于高频特征的细节信息,所以本文提出了基于预训练的50层残差网络(Residual Network-50,ResNet-50)[26]的细节补偿分支,将压缩视频中的细节特征提取出来补偿回增强视频中,还原出丢失的细节信息.在此分支中,由于ResNet-50中的特征丰富且繁杂,本文提出了一个基于压缩激活机制的细节响应块(Detail Response Block,DRB)将丰富的特征中的细节特征标注并提取出来,增强分支的细节提取能力.

  • 1 基于细节还原卷积神经网络的压缩视频增强方法

  • 为了有效地消除压缩失真,提高压缩视频的细节视觉质量,本文提出了一种基于DRCNN的压缩视频质量增强方法,DRCNN的结构如图1所示,由两个分支组成:主去噪分支和细节补偿分支.由于大量的损失出现在全局尺度,因此本文提出一个感受野逐渐扩大的主去噪分支.在此分支中提出一个多尺度失真特征提取块以提取出压缩视频的多尺度失真特征,然后将压缩视频和获得的失真特征融合提取,最终重建一个高质量的去噪视频.接着,为了恢复主去噪分支中丢失的细节特征,本文还提出一个细节补偿分支,以进一步改善压缩视频的细节.在此分支中,通过使用预训练的ResNet-50设计了一个内容特征提取器,并采用多个细节响应块来关注压缩视频的细节,从预训练的ResNet-50的内容特征中提取细节特征.

  • DRCNN的输入是低质量的压缩视频,而输出是增强的高质量压缩视频.为了有效提高压缩视频的质量,压缩视频被送入主去噪分支和细节补偿分支,分别获得去噪视频和细节图.在细节图的帮助下,去噪的视频被进一步增强.这个过程可以表示为

  • fd=FdIc,fc=FcIc,Oe=fdfc,
    (1)
  • 其中,IcOe 分别代表压缩视频和增强的高质量视频,fdfc 分别代表去噪视频和细节图,Fd()和 Fc()分别代表主去噪分支和细节补偿分支,表示元素相加操作.

  • 图1 提出的DRCNN的整体结构

  • Fig.1 Overall architecture of the proposed DRCNN

  • 1.1 主去噪分支

  • 现有基于卷积神经网络的方法都采用寻找压缩视频特征到增强视频特征的最佳映射来增强视频,这些方法在增强过程中忽略了视频中的失真特征,使得网络的训练更加困难.为了更好地学习失真特征,本文提出了主去噪分支,它采用了残差学习机制来加速训练过程,将现有方法的学习图像干净像素特征转化为学习更加简单更容易提取的损失特征,把特征提取过程和重构过程当作两个单独的进程,以更准确地重建噪声图.在特征提取过程中,由于损失的尺度不统一,为了增强多尺度特征提取能力,主去噪分支采用MDFEB来提高对失真区域内不同尺度的失真的提取能力.在重建过程中,主去噪分支利用从前几层学到的损失特征来预测噪声图.为了进一步提高网络的失真学习能力,本文使用长连接引入压缩视频来指导重建过程.图2展示了所提出的主去噪分支的整体结构.在特征提取阶段中,主去噪分支首先采用3×3卷积层将压缩帧转换为特征,然后将这些特征输入13个MDFEB进行失真特征提取.最后,一个带有逐元素相加操作的跳连接被用来让网络学习和处理残差信息.

  • 特征提取阶段可以总结为

  • FI=Conv3×3IC,Fn=FMDFEBnFMDFEB2FMDFEB1Fl,FN=Fl+Fn,
    (2)
  • 其中,ICFN分别代表输入帧和特征提取过程中的特征,Conv3×3FnMDFEB分别代表3×3卷积和第n个MDFEB,FI表示由3×3卷积层提取的特征,Fn表示由n个MDFEB提取的失真特征.

  • 由于所提出的主去噪分支网络层数十分深,而局部信息(如纹理信息和颜色信息)在特征提取过程中容易丢失,这将大大降低神经网络的学习能力.为了解决这个问题,压缩帧被融合到提取的失真特征中,以引入更多有用的局部信息.压缩帧中的局部信息被用作指导信息,以提高网络的重建能力.两个3×3卷积层被用来进一步转换所获得的特征并重建失真图.最后,压缩后的帧被用来减去失真图,得到一个增强的视频帧.综上所述,强化的去噪分支可描述为

  • Fg=FNIC,IN=Conv3×32Conv3×31Fg,Or=IC-IN,
    (3)
  • 其中,Fg代表融合的特征,是拼接操作,Convn3×3表示第i个3×3卷积层,INOr分别代表失真图和没有细节补偿的增强帧.

  • 多尺度失真特征提取块:在深度卷积神经网络的前向传播过程中,网络的感受野逐渐扩大.因此,网络可以有效提取更多的全局特征,如场景、亮度等.然而,局部损失很难通过重复的单一卷积操作来消除.为了提高对不同尺度损失的感知能力,本文提出了多尺度失真特征提取块.MDFEB的结构如图3所示,由三个非对称卷积块(Asymmetric Convolution Block,ACBlock)[27]、两个2倍像素重组操作(pixel-shuffle)[28]和一个卷积层组成.

  • 为了提取更多的压缩失真特征,所提出的MDFEB采用ACBlock作为基本的特征提取器,它用1×n,n×n和n×1的融合卷积运算取代了传统的n×n卷积层.1× n,n×n和n×1卷积分别代表水平、垂直和对称的卷积运算,因此交叉位置的权重比角落的权重要大得多,这使得ACBlock对有微小变化的区域更加敏感,如失真图像中因块编码导致的边界不连续的块伪影区域.因此,MDFEB可以提取更多的局部失真特征.此外,局部损失的尺度也不唯一,例如,蚊子噪声是小尺度的失真,而振铃效应和块效应是大尺度的失真.为了更好地提取压缩视频中的多尺度失真,本文融合了ACBlock在不同尺度上学习的特征.提出的MDFEB可以概括为

  • Oi=Wi,1(x)Wi,2(x)Wi,3(x),i=1Wi,1Oi-1Wi,2Oi-1Wi,3Oi-1,i{2,3}O=Conv3×3O1P2O2P4O3
    (4)
  • 其中,Oi代表第i个3×3 ACBlock提取的特征,Wi1Wi2Wi3分别代表第ith块中1×3、3×3和3×1卷积运算的输出,表示元素相加,P2P4代表pixel-shuffle操作,其上采样系数分别为2和4,是拼接操作,Conv3×3代表3×3的卷积层,O代表提出的MDFEB块的输出.

  • 图2 主去噪分支的结构

  • Fig.2 Architecture of the proposed main denoising branch

  • 1.2 细节补偿分支

  • 主去噪分支可以有效地去除压缩视频的失真,然而,由于失真和细节均为高频信息,压缩视频的细节信息也很容易被主去噪分支去除.为了恢复丢失的细节信息,本文提出一个细节补偿分支,以进一步提高压缩视频的质量.所提出的细节补偿分支利用U型网络[29]作为骨干网络,这种编码-解码结构能够更好地恢复压缩视频中退化的细节信息.图4展示了提出的细节补偿分支的结构,它包括一个使用预训练ResNet-50的内容特征提取器、三个提出的细节响应块、三个2倍pixel-shuffle层、一个4倍pixel-shuffle层以及两个卷积层.

  • 首先预训练的ResNet-50作为内容特征提取器提供了从大规模数据集中学习到的丰富特征,接着本文采用三个细节响应块来进一步提取不同感受野的细节特征.细节补偿分支使用pixel-shuffle层对小尺寸的特征图进行上采样并且不引入冗余信息.最后3×3卷积层被用来来重建细节图.所提出的细节补偿分支可以被总结为

  • 图3 多尺度失真特征提取模块的结构

  • Fig.3 Structure of the multi-scale distortion feature extraction block

  • 图4 细节补偿分支的结构

  • Fig.4 Structure of the detail compensation branch

  • Li=ΦIc, i=1,ΦLi-1, i{2,3,4},
    (5)
  • ODRBi=L3P2φL4,i=1,LiP2φODRBi-1,i={2,3}
    (6)
  • Odetail =Conv3×3P4Conv3×3ODRB3,
    (7)
  • 其中,Ic表示压缩帧,Φ()表示预训练的ResNet-50中的残差块,Li表示ResNet-50中不同层提取的特征,ODRBi表示细节补偿分支中不同层的输出特征,φ(),P2P4分别表示DRB和上采样系数设置为2和4的pixel-shuffle操作,和Conv3×3分别表示拼接操作和3×3卷积层,Odetail代表压缩帧的细节图.

  • 1)内容特征提取器:为了更好地提取丰富的内容特征,如突出的物体、形状和细节等,本文使用了一个预训练的ResNet-50组成的内容特征提取器.ResNet-50是一种针对图像分类任务提出的残差学习网络,其预训练数据集中的大多数图像都没有经过严重的压缩,并且具有丰富的细节.因此,预训练的ResNet-50可以更好地响应细节信息,并忽略压缩失真.本文从卷积2_10、卷积3_12、卷积4_18和卷积5_9中提取多尺度特征.为了直观地说明预训练的ResNet-50的性能,并证明它能有效地提取压缩视频的多尺度细节特征,“BQSquare”序列的特征图可视化如图5所示,其中图5a、5b、5c、5d分别代表从ResNet-50的卷积2_10、卷积3_12、卷积4_18和卷积5_9提取的特征.由图5a和5b可以看出,经过预训练的ResNet-50的浅层可以提取丰富的高频信息,如轮廓和边缘.由图5c和5d可以看出,即使在下采样过程中丢失了很多细节信息,网络的深层仍然专注于细节区域.这些结果证明了所提出的细节补偿分支的有效性.

  • 2)细节响应块:为了从丰富的内容特征中有效地提取高频细节特征(如边缘、纹理等),本文提出一个细节响应块,该块的结构如图6所示.由于压缩视频中物体的大小往往变化很大,因此DRB由四个分支构成,四分支可以提取不同感受野大小的特征.为了降低DRB的计算复杂度,每个分支的开始部分都采用了四个1×1的卷积层压缩特征维度.每个分支中均采用ACBlock作为基础的特征提取器,这可以帮助网络提取出更多的细节特征.在第一个分支中,本文只设计了一个1×1的卷积层来提取非稀疏的全局特征.此种特征具有高密度的信息,可以更好地代表图像全局尺度的特征.最后,将四个分支提取的特征进行融合,并采用压缩激活块(Squeeze-and-Excitation Block,SEBlock)[30]标记融合后的特征中的重要特征.压缩激活块使用一个全局平均池化层来进一步提取重要特征,利用两个全连接层对这些特征进行非线性映射.此外,在DRB中还使用了一个1×1卷积层的残差连接,以避免训练中的梯度消失问题.

  • 图5 预训练的ResNet-50提取的特征图

  • Fig.5 Feature maps extracted by the pre-trained ResNet-50

  • 图6 细节响应块的结构

  • Fig.6 Structure of the proposed detail response block

  • DRB的结构可以描述为

  • OFi=Conv1×1i(I),i=1,F1Conv1×1i(I),i=2,F3F2Conv1×1i(I),i=3,F6F5F4Conv1×1i(I),i=4,
    (8)
  • O=f2f1AvgOF1OF2OF3OF4

  • OF1OF2OF3OF4Conv1×15(I),
    (9)
  • 其中,I是DRB的输入特征,Convi1×1表示第i个1×1卷积层,表示拼接操作,Fi表示ACBlock层,OF表示提取的多尺度特征,Avg表示全局平均池化操作,fi表示第i个全连接层,⊙表示逐元素相乘操作,表示逐元素相加操作,O表示DRB的输出.

  • 2 实验结果与分析

  • 2.1 实验设置

  • 1)数据集:本文采用表1所示的37个不同分辨率的视频序列制作数据集,其中21个视频序列用来建立训练集,其余16个视频序列用来建立测试集.训练集由4 200张图像组成,测试集由16个序列的所有帧组成.每个视频序列由高效视频编码测试软件16.0(High Efficiency Video Coding Test Model16.0,HM16.0)在四个不同的量化参数(Quantification Parameters,QP)下进行编码.

  • 2)训练设置:图像像素块大小设置为64×64,跨度为32,批尺寸设置为16.采用亚当(Adam)优化器[31]来优化模型,学习率设置为0.001,训练过程将在200次迭代后停止.

  • 3)评价指标:为了评价不同方法的客观性能,峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)被用来衡量每种方法的客观质量,其单位为分贝(dB).Bjøntegaard失真率(Bjøntegaard-Delta-rate,BD-rate)[32]被用来评价每种方法的失真率性能.

  • 2.2 客观增强性能的对比

  • 表2列出了全帧内(ALL Intra,AI)、低延迟(Low Delay,LD)和随机访问(Random Access,RA)编码结构的ΔPSNR结果.可以看到,当使用AI编码结构时,VRCNN[9]的PSNR增长范围为-0.657 dB到0.282 dB,平均为-0.079 dB.RHCNN[12]的PSNR增长范围为-0.075 dB到0.292 dB,平均0.143 dB.QECNN[13]的PSNR增长范围为-0.237 dB到0.300 dB,平均0.036 dB.Zhang等[14]的PSNR增长范围为-0.126 dB到0.326 dB,平均0.113 dB.本文提出的方法的ΔPSNR为0.147 dB到0.514 dB,平均0.266 dB.

  • 当使用LD编码结构时,VRCNN[9]的结果仍是负增益.RHCNN[12]的的PSNR增长范围为0.077 dB到0.335 dB,平均0.172 dB.对于QECNN[13]的PSNR增长范围为-0.097 dB到0.225 dB,平均0.092 dB.对于Zhang等[14]的方法,PSNR增长范围为0.092 dB到0.301 dB,平均0.173 dB.本文提出的方法的PSNR增长范围为0.163 dB到0.409 dB,平均0.275 dB,比表现最好的方法高出了0.102 dB.

  • 表1 用于训练和测试的视频序列及其分辨率

  • Table1 Video sequences for training and testing and their resolutions

  • 表2 五种方法在不同编码结构下平均PSNR增长

  • Table2 Average ΔPSNR of five methods for different coding structuresdB

  • 当使用RA编码结构时,VRCNN[9]的PSNR增长范围为-0.690 dB到0.062 dB,平均为-0.086 dB.RHCNN[12]的PSNR增长范围为0.077 dB到0.376 dB,平均为0.184 dB.QECNN[13]的PSNR增长范围为-0.098 dB到0.306 dB,平均为0.010 dB.Zhang等[14]的方法PSNR增长范围为0.112 dB到0.400 dB,平均为0.195 dB.本文提出的方法的ΔPSNR从0.193 dB到0.534 dB,平均为0.290 dB.从这些结果中分析可知,当视频在不同编码结构下进行编码时,由于QP低时码率高,视频中的细节信息比较丰富,对比方法由于缺乏细节信息和损失信息的辨别能力,在增强过程中易将细节和损失共同去除,因此表现不佳.本文方法由于ResNet-50组成的内容特征提取器的存在,大量的包含细节信息的内容特征被提取出来,这些信息提高了本方法增强后视频的客观质量.

  • 2.3 失真率性能的对比

  • 为了比较所提出的方法和有代表性方法之间的失真率性能,表3中列出了每种方法的BD-rate.可以看出,VRCNN[9]的BD-rate节省范围为8.313%到-4.630%,平均1.046%.RHCNN[12]的BD-rate节省范围为1.836%到-7.932%,平均-2.957%.QECNN[13]的BD-rate节省范围为0.820%至-6.250%,平均为-2.249%.Zhang等[14]的的BD-rate节省范围为0.922%至-7.340%,平均为-2.985%.与这些压缩视频质量增强方法相比,本文的方法的BD-rate节省范围为-1.869%到-9.529%,平均-4.964%.由表3可以发现,几种对比方法均有BD-rate负增益的情况,因此对比方法在不同视频序列上的增强效果是有波动的,在细节丰富的视频中,这些方法增强性能大大受限.受益于细节补偿分支提取细节信息的能力,本文提出的DRCNN在每个序列上都获得了稳定的增强效果.

  • 2.4 视觉质量对比

  • 为了比较所提出的DRCNN和最先进的视频质量增强方法之间的视觉质量增强性能,如图7所示,本文从五个视频序列中取出最具代表性的帧做视觉质量对比,包括“PeopleOnStreet”、“Cactus”、“BQMall”、“FourPeople”和“BQTerrace”五个视频序列.对于“PeopleOnStreet”和“Cactus”视频序列,可以看到由于严重的压缩失真,砖块和数字的边缘变得十分不清晰,现有的方法如VRCNN[9]、RHCNN[12]、QECNN[13]和Zhang等[14]都难以改善质量下降的帧的视觉质量.相比之下,本文提出的DRCNN在使用所提出的细节补偿分支后可以更好地改善细节区域的质量.对于 “BQMall”和“FourPeople”序列,许多伪影和模糊出现在视觉质量下降的帧中.与其他增强方法相比,本文提出的DRCNN具有更强的伪影去除能力,并取得了更满意的结果.此外,压缩过程会将色调偏离引入压缩后视频帧中,如“BQTerrace”中的放大区域,由于其学习能力有限,传统的基于卷积神经网络的方法很难将其去除.与这些方法相比, DRCNN能有效地去除色调偏离,并显著改善质量下降的帧的视觉质量.

  • 表3 五种方法的BD-rate

  • Table3 BD-rates of five methods

  • 2.5 计算复杂度的对比

  • 为了比较各方法的计算复杂性,表4列出了一帧的显卡测试时间,表5给出了显卡内存消耗的结果.从表4可以看出,VRCNN[9]、RHCNN[12]、QECNN[13]、Zhang等[14]和DRCNN的平均显卡测试时间分别为0.19、0.27、0.15、1.10和1.18 s.由于VRCNN[9]、RHCNN[12]和QECNN[13]的网络层数较浅,这三种方法的显卡测试时间少于其他两种方法,但是,它们取得的质量提升性能比Zhang等[14]和DRCNN差很多.为了有效提取失真特征并提高降噪能力,Zhang等[14]和DRCNN被设计为深度神经网络.与Zhang等[14]相比,本文方法实现了更好的增强性能,并保持了相当的显卡测试时间.从表5可以发现,VRCNN[9]、RHCNN[12]、QECNN[13]、Zhang等[14]和DRCNN方法的显卡内存消耗分别为2.1、2.5、1.3、3.2和4.1 GB.总的来说,相比于对比方法,本文方法的复杂度高出一点,处理一帧的平均测试时间比对比方法中最高的Zhang等[14]多了0.08 s,显卡内存大小也多了0.9 GB.但是考虑到本文在PSNR和BD-rate上比Zhang等[14]提升了0.117 dB和1.979%,复杂度微微上升是可以接受的.

  • 图7 QP=37条件下的主观质量对比

  • Fig.7 Subjective quality comparison at QP=37

  • 2.6 消融实验

  • 1)对于提出的两分支的消融实验.DRCNN采用一个主去噪分支和一个细节补偿分支来有效地消除失真,提高压缩视频的质量.为了验证这两个分支的有效性,本文将它们从 DRCNN中分别删除,在测试集上进行消融研究.实验结果列于表6,其中“去除去噪分支”表示从DRCNN中删除了主去噪分支,而“去除细节分支”表示从提出网络中删除了细节补偿分支.可以看出,当主去噪分支被移除时,所提出的DRCNN的质量增强能力大大降低,平均PSNR下降了3.533 dB.这一结果证明,主去噪分支可以有效地消除压缩视频中的失真,提高DRCNN的增强性能.此外,可以看出,当去除细节补偿分支时,PSNR平均下降了0.186 dB.从这些结果中可以发现,所提出的主去噪分支和细节补偿分支大大提高了DRCNN的压缩视频增强能力.

  • 表4 处理一帧的平均测试时间

  • Table4 Average testing time for processing one frames

  • 表5 GPU内存大小的测试结果

  • Table5 Results of GPU memory

  • 表6 提出的两分支的有效性

  • Table6 Effectiveness of the proposed two branches

  • 2)对于提出的MDFEB的消融实验.MDFEB的提出有效地提高深度神经网络的失真特征提取能力.为了探索所提出的MDFEB的数量和增强性能之间的潜在关系,本实验测试了一组MDFEB,PSNR性能和网络参数大小列于表7.可以看到,当MDFEB的数量等于13时,提出的DRCNN实现了最佳的压缩视频质量增强性能,参数仅仅略有增加.因此,综合考虑质量增强性能和计算复杂性,MDFEB的数量被设定为13.

  • 表7 MDFEB数量与增强性能的关系

  • Table7 Effectiveness of the number of the MDFEB

  • 3 结论

  • 为了解决现有卷积神经网络增强压缩视频丢失细节的问题,本文基于双分支网络提出一种基于细节还原卷积神经网络的视频质量增强方法.通过主去噪分支去除视频中的失真,在去除失真过程中损失一定的细节特征,接着通过细节补偿分支将损失的细节特征提取并补偿到去噪后的视频中,获得最终的增强视频.在主去噪分支中,本文提出一种多尺度失真特征提取块,融合多尺度特征,以增强网络去噪能力.在细节补偿分支中,通过使用预训练的ResNet-50提取出丰富得细节特征,并且设计了一个细节响应块,通过细节响应块将细节特征转化为可供补偿的细节图.未来将尝试通过结合视频时域信息来增强和改进网络性能.

  • 参考文献

    • [1] Sullivan G J,Ohm J R,Han W J,et al.Overview of the high efficiency video coding(HEVC)standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1649-1668

    • [2] Norkin A,Bjøntegaard G,Fuldseth A,et al.HEVC deblocking filter[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1746-1754

    • [3] Fu C M,Alshina E,Alshin A,et al.Sample adaptive offset in the HEVC standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1755-1764

    • [4] Zhang X F,Xiong R Q,Lin W S,et al.Low-rank-based nonlocal adaptive loop filter for high-efficiency video compression[J].IEEE Transactions on Circuits and Systems for Video Technology,2017,27(10):2177-2188

    • [5] Misra K,Bossen F,Segall A.On cross component adaptive loop filter for video compression[C]//2019 Picture Coding Symposium(PCS).November 12-15,2019,Ningbo,China.IEEE,2019:1-5

    • [6] Zhang X F,Xiong R Q,Fan X P,et al.Compression artifact reduction by overlapped-block transform coefficient estimation with block similarity[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2013,22(12):4613-4626

    • [7] Michielin F,Calvagno G,Sartor P,et al.A wavelets based de-ringing technique for DCT based compressed visual data[C]//2013 IEEE International Conference on Image Processing.September 15-18,2013,Melbourne,VIC,Australia.IEEE,2013:1100-1104

    • [8] Purica A,Boyadjis B,Pesquet-Popescu B,et al.A convex optimization framework for video quality and resolution enhancement from multiple descriptions[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2019,28(4):1661-1674

    • [9] Dai Y Y,Liu D,Wu F.A convolutional neural network approach for post-processing in HEVC intra coding[C]//MultiMedia Modeling,2017:28-39

    • [10] Yang R,Xu M,Wang Z L,et al.Multi-frame quality enhancement for compressed video[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:6664-6673

    • [11] Guan Z Y,Xing Q L,Xu M,et al.MFQE 2.0:a new approach for multi-frame quality enhancement on compressed video[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(3):949-963

    • [12] Zhang Y B,Shen T,Ji X Y,et al.Residual highway convolutional neural networks for in-loop filtering in HEVC[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2018,27(8):3827-3841

    • [13] Yang R,Xu M,Liu T,et al.Enhancing quality for HEVC compressed videos[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(7):2039-2054

    • [14] Zhang F,Feng C,Bull D R.Enhancing VVC through CNN-based post-processing[C]//2020 IEEE International Conference on Multimedia and Expo.July 6-10,2020,London,UK.IEEE,2020:1-6

    • [15] Zheng H,Li X,Liu F L,et al.Adaptive spatial-temporal fusion of multi-objective networks for compressed video perceptual enhancement[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).June 19-25,2021,Nashville,TN,USA.IEEE,2021:268-275

    • [16] Ding Q,Shen L Q,Yu L W,et al.Patch-wise spatial-temporal quality enhancement for HEVC compressed video[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2021,30:6459-6472

    • [17] Meng X D,Deng X,Zhu S Y,et al.A robust quality enhancement method based on joint spatial-temporal priors for video coding[J].IEEE Transactions on Circuits and Systems for Video Technology,2021,31(6):2401-2414

    • [18] Huang J W,Cui J Z,Ye M,et al.Quality enhancement of compressed screen content video by cross-frame information fusion[J].Neurocomputing,2022.DOI:10.1016/j.neucom.2021.12.092

    • [19] Luo D Y,Ye M,Li S,et al.Coarse-to-fine spatio-temporal information fusion for compressed video quality enhancement[J].IEEE Signal Processing Letters,2022,29:543-547

    • [20] 李春平,周登文,贾慧秒.基于边缘指导的双通道卷积神经网络单图像超分辨率算法[J].南京信息工程大学学报(自然科学版),2017,9(6):669-674 LI Chunping,ZHOU Dengwen,JIA Huimiao.Edge guided dual-channel convolutional neural network for single image super resolution algorithm[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2017,9(6):669-674

    • [21] 陈西江,安庆,班亚.优化EfficientDet深度学习的车辆检测[J].南京信息工程大学学报(自然科学版),2021,13(6):653-660 CHEN Xijiang,AN Qing,BAN Ya.Optimized EfficientDet deep learning model for vehicle detection[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(6):653-660

    • [22] 郭新,罗程方,邓爱文.基于深度学习的开放场景下声纹识别系统的设计与实现[J].南京信息工程大学学报(自然科学版),2021,13(5):526-532 GUO Xin,LUO Chengfang,DENG Aiwen.A deep learning-based speaker recognition system for open set scenarios[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(5):526-532

    • [23] Li J T,Wu X M,Hu Z X.Deep learning for simultaneous seismic image super-resolution and denoising[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-11

    • [24] Liu Z S,Siu W C,Chan Y L.Features guided face super-resolution via hybrid model of deep learning and random forests[J].IEEE Transactions on Image Processing,2021,30:4157-4170

    • [25] Qian J,Huang S Y,Wang L,et al.Super-resolution ISAR imaging for maneuvering target based on deep-learning-assisted time frequency analysis[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-14

    • [26] He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778

    • [27] Ding X H,Guo Y C,Ding G G,et al.ACNet:strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2019:1911-1920

    • [28] Shi W Z,Caballero J,Huszár F,et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:1874-1883

    • [29] Ronneberger O,Fischer P,Brox T.U-net:convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention,2015:234-241

    • [30] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141

    • [31] Kingma D P,Ba J.Adam:a method for stochastic optimization[J].arXiv e-print,2014,arXiv:1412.6980

    • [32] Bjøntegaard G.Calculation of average PSNR differences between RD-curves[J].VCEG-M33,2001:1-4

  • 参考文献

    • [1] Sullivan G J,Ohm J R,Han W J,et al.Overview of the high efficiency video coding(HEVC)standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1649-1668

    • [2] Norkin A,Bjøntegaard G,Fuldseth A,et al.HEVC deblocking filter[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1746-1754

    • [3] Fu C M,Alshina E,Alshin A,et al.Sample adaptive offset in the HEVC standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1755-1764

    • [4] Zhang X F,Xiong R Q,Lin W S,et al.Low-rank-based nonlocal adaptive loop filter for high-efficiency video compression[J].IEEE Transactions on Circuits and Systems for Video Technology,2017,27(10):2177-2188

    • [5] Misra K,Bossen F,Segall A.On cross component adaptive loop filter for video compression[C]//2019 Picture Coding Symposium(PCS).November 12-15,2019,Ningbo,China.IEEE,2019:1-5

    • [6] Zhang X F,Xiong R Q,Fan X P,et al.Compression artifact reduction by overlapped-block transform coefficient estimation with block similarity[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2013,22(12):4613-4626

    • [7] Michielin F,Calvagno G,Sartor P,et al.A wavelets based de-ringing technique for DCT based compressed visual data[C]//2013 IEEE International Conference on Image Processing.September 15-18,2013,Melbourne,VIC,Australia.IEEE,2013:1100-1104

    • [8] Purica A,Boyadjis B,Pesquet-Popescu B,et al.A convex optimization framework for video quality and resolution enhancement from multiple descriptions[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2019,28(4):1661-1674

    • [9] Dai Y Y,Liu D,Wu F.A convolutional neural network approach for post-processing in HEVC intra coding[C]//MultiMedia Modeling,2017:28-39

    • [10] Yang R,Xu M,Wang Z L,et al.Multi-frame quality enhancement for compressed video[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:6664-6673

    • [11] Guan Z Y,Xing Q L,Xu M,et al.MFQE 2.0:a new approach for multi-frame quality enhancement on compressed video[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(3):949-963

    • [12] Zhang Y B,Shen T,Ji X Y,et al.Residual highway convolutional neural networks for in-loop filtering in HEVC[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2018,27(8):3827-3841

    • [13] Yang R,Xu M,Liu T,et al.Enhancing quality for HEVC compressed videos[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(7):2039-2054

    • [14] Zhang F,Feng C,Bull D R.Enhancing VVC through CNN-based post-processing[C]//2020 IEEE International Conference on Multimedia and Expo.July 6-10,2020,London,UK.IEEE,2020:1-6

    • [15] Zheng H,Li X,Liu F L,et al.Adaptive spatial-temporal fusion of multi-objective networks for compressed video perceptual enhancement[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).June 19-25,2021,Nashville,TN,USA.IEEE,2021:268-275

    • [16] Ding Q,Shen L Q,Yu L W,et al.Patch-wise spatial-temporal quality enhancement for HEVC compressed video[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2021,30:6459-6472

    • [17] Meng X D,Deng X,Zhu S Y,et al.A robust quality enhancement method based on joint spatial-temporal priors for video coding[J].IEEE Transactions on Circuits and Systems for Video Technology,2021,31(6):2401-2414

    • [18] Huang J W,Cui J Z,Ye M,et al.Quality enhancement of compressed screen content video by cross-frame information fusion[J].Neurocomputing,2022.DOI:10.1016/j.neucom.2021.12.092

    • [19] Luo D Y,Ye M,Li S,et al.Coarse-to-fine spatio-temporal information fusion for compressed video quality enhancement[J].IEEE Signal Processing Letters,2022,29:543-547

    • [20] 李春平,周登文,贾慧秒.基于边缘指导的双通道卷积神经网络单图像超分辨率算法[J].南京信息工程大学学报(自然科学版),2017,9(6):669-674 LI Chunping,ZHOU Dengwen,JIA Huimiao.Edge guided dual-channel convolutional neural network for single image super resolution algorithm[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2017,9(6):669-674

    • [21] 陈西江,安庆,班亚.优化EfficientDet深度学习的车辆检测[J].南京信息工程大学学报(自然科学版),2021,13(6):653-660 CHEN Xijiang,AN Qing,BAN Ya.Optimized EfficientDet deep learning model for vehicle detection[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(6):653-660

    • [22] 郭新,罗程方,邓爱文.基于深度学习的开放场景下声纹识别系统的设计与实现[J].南京信息工程大学学报(自然科学版),2021,13(5):526-532 GUO Xin,LUO Chengfang,DENG Aiwen.A deep learning-based speaker recognition system for open set scenarios[J].Journal of Nanjing University of Information Science & Technology(Natural Science Edition),2021,13(5):526-532

    • [23] Li J T,Wu X M,Hu Z X.Deep learning for simultaneous seismic image super-resolution and denoising[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-11

    • [24] Liu Z S,Siu W C,Chan Y L.Features guided face super-resolution via hybrid model of deep learning and random forests[J].IEEE Transactions on Image Processing,2021,30:4157-4170

    • [25] Qian J,Huang S Y,Wang L,et al.Super-resolution ISAR imaging for maneuvering target based on deep-learning-assisted time frequency analysis[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-14

    • [26] He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:770-778

    • [27] Ding X H,Guo Y C,Ding G G,et al.ACNet:strengthening the kernel skeletons for powerful CNN via asymmetric convolution blocks[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).October 27-November 2,2019,Seoul,Korea(South).IEEE,2019:1911-1920

    • [28] Shi W Z,Caballero J,Huszár F,et al.Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:1874-1883

    • [29] Ronneberger O,Fischer P,Brox T.U-net:convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention,2015:234-241

    • [30] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141

    • [31] Kingma D P,Ba J.Adam:a method for stochastic optimization[J].arXiv e-print,2014,arXiv:1412.6980

    • [32] Bjøntegaard G.Calculation of average PSNR differences between RD-curves[J].VCEG-M33,2001:1-4

  • 地址:江苏省南京市宁六路219号    邮编:210044

    联系电话:025-58731025    E-mail:nxdxb@nuist.edu.cn

    南京信息工程大学学报 ® 2024 版权所有  技术支持:北京勤云科技发展有限公司