2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于模糊核估计的图像盲超分辨率神经网络

李公平 陆耀 王子建 吴紫薇 汪顺舟

李公平, 陆耀, 王子建, 吴紫薇, 汪顺舟. 基于模糊核估计的图像盲超分辨率神经网络. 自动化学报, 2023, 49(10): 2109−2121 doi: 10.16383/j.aas.c200987
引用本文: 李公平, 陆耀, 王子建, 吴紫薇, 汪顺舟. 基于模糊核估计的图像盲超分辨率神经网络. 自动化学报, 2023, 49(10): 2109−2121 doi: 10.16383/j.aas.c200987
Li Gong-Ping, Lu Yao, Wang Zi-Jian, Wu Zi-Wei, Wang Shun-Zhou. Blurred image blind super-resolution network via kernel estimation. Acta Automatica Sinica, 2023, 49(10): 2109−2121 doi: 10.16383/j.aas.c200987
Citation: Li Gong-Ping, Lu Yao, Wang Zi-Jian, Wu Zi-Wei, Wang Shun-Zhou. Blurred image blind super-resolution network via kernel estimation. Acta Automatica Sinica, 2023, 49(10): 2109−2121 doi: 10.16383/j.aas.c200987

基于模糊核估计的图像盲超分辨率神经网络

doi: 10.16383/j.aas.c200987
基金项目: 国家自然科学基金(61273273), 国家重点研究发展计划(2017YFC0112001), 中央电视台基金(JG2018-0247)资助
详细信息
    作者简介:

    李公平:北京理工大学计算机学院硕士研究生. 主要研究方向为计算机视觉, 深度学习. E-mail: gongping_li@bit.edu.cn

    陆耀:北京理工大学计算机学院教授. 主要研究方向为视觉神经计算, 图像图形处理与视频分析, 模式识别和机器学习. 本文通信作者. E-mail: vis_yl@bit.edu.cn

    王子建:北京理工大学计算机学院博士研究生. 主要研究方向为计算机视觉, 深度学习. E-mail: wangzijian@bit.edu.cn

    吴紫薇:北京理工大学计算机学院硕士研究生. 主要研究方向为计算机视觉, 深度学习. E-mail: wzw_cs@bit.edu.cn

    汪顺舟:北京理工大学计算机学院博士研究生. 主要研究方向为计算机视觉, 深度学习. E-mail: shunzhouwang@bit.edu.cn

Blurred Image Blind Super-resolution Network via Kernel Estimation

Funds: Supported by National Natural Science Foundation of China (61273273), National Key Research and Development Program of China (2017YFC0112001), and Funds by China Central Television (JG2018-0247)
More Information
    Author Bio:

    LI Gong-Ping Master student at the School of Computer Science and Technology, Beijing Institute of Technology. His research interest covers computer vision and deep learning

    LU Yao Professor at the School of Computer Science and Technology, Beijing Institute of Technology. His research interest covers vision neural computing, image processing, video analysis, pattern recognition, and machine learning. Corresponding author of this paper

    WANG Zi-Jian Ph.D. candidate at the School of Computer Science and Technology, Beijing Institute of Technology. His research interest covers computer vision and deep learning

    WU Zi-Wei Master student at the School of Computer Science and Technology, Beijing Institute of Technology. Her research interest covers computer vision and deep learning

    WANG Shun-Zhou Ph.D. candidate at the School of Computer Science and Technology, Beijing Institute of Technology. His research interest covers computer vision and deep learning

  • 摘要: 模糊图像的超分辨率重建具有挑战性并且有重要的实用价值. 为此, 提出一种基于模糊核估计的图像盲超分辨率神经网络(Blurred image blind super-resolution network via kernel estimation, BESRNet). 该网络主要包括两个部分: 模糊核估计网络 (Blur kernel estimation network, BKENet)和模糊核自适应的图像重建网络(Kernel adaptive super-resolution network, SRNet). 给定任意低分辨率图像(Low-resolution image, LR), 首先利用模糊核估计子网络从输入图像估计出实际的模糊核, 然后根据估计到的模糊核, 利用模糊核自适应的图像重建子网络完成输入图像的超分辨率重建. 与其他图像盲超分辨率方法不同, 所提出的模糊核估计网络能够显式地从输入低分辨率图像中估计出完整的模糊核, 然后模糊核自适应的图像重建网络根据估计到的模糊核, 动态地调整网络各层的图像特征, 从而适应不同输入图像的模糊. 在多个基准数据集上进行了有效性实验, 定性和定量的结果都表明该网络优于同类的图像盲超分辨率神经网络.
  • 图像超分辨率任务的主要目标是将输入的低分辨率图像(Low-resolution image, LR)重建成具有更多细节的高分辨率图像(High-resolution image, HR). 图像超分辨率技术已经具有广泛的应用, 如遥感图像分析[1]、医学图像处理[2]、视频监控图像处理[3] 等.

    近年来, 随着深度学习技术的发展, 基于深度学习的方法在图像超分辨率任务上取得了显著进展. 其中大部分方法[4-19]只学习由双三次插值(Bicubic)算法退化生成的低分辨率图像与高分辨率图像之间的映射关系. 然而, 现实生活中的低分辨率图像的退化模式是复杂且未知的, 包含了多种因素(如模糊、噪声、压缩、几何失真等), 其中模糊的影响最为重要. 由于生成网络训练数据时未考虑模糊, 将上述这些模型应用到现实生活的真实场景中其重建效果不理想, 甚至会出现明显的模糊和伪影等现象[20].

    为了解决真实场景图像超分辨率问题, 研究者们提出了许多盲图像超分辨率方法. 一种代表性的方法是从输入的低分辨率图像中估计出所对应的模糊核并用来针对性地指导图像超分辨率重建. 例如, Zhang 等[21]使用网格搜索的方式来确定模糊核的参数, 并且提出了维度拉伸策略来利用模糊核信息. Gu 等[22]提出一种迭代模糊核修正的方法(Iterative kernel correction, IKC)来估计输入图像的模糊核, 并结合维度拉伸策略[21]和空间特征变换(Spatial feature transform, SFT)[23]来利用模糊核信息重建高分辨率图像. Luo 等[24] 沿用了Gu 等[22]的方法来利用模糊核信息, 并且提出迭代地进行模糊核估计和图像超分辨率重建. 但是上述方法没有显式地从输入图像中估计出完整的模糊核, 无法给出模糊核估计的质量评价, 也无法评价估计到的模糊核对最终超分辨率结果的影响. 此外, 上述几种方法都使用主成分分析(Principal component analysis, PCA)将模糊核拉成的向量进行降维, 然后将降维后的模糊核向量拉伸成和输入图像一样大小的退化图, 再将退化图和输入图像[21]或图像特征[22, 24]在通道维度上拼接来利用模糊核信息帮助超分辨率重建. 这种做法具有一定的局限性, 首先这样做会丢失一部分模糊核中的信息, 不能充分地利用模糊核信息去指导输入图像中结构化信息的重建. 其次, 这种做法只是简单地将图像或图像特征和模糊核特征在通道维度上拼接来利用模糊核信息. 其中图像特征是与输入图像的像素值高度相关的, 而由模糊核得到的退化图只是一组抽象的数字, 将这二者简单拼接无法高效地利用模糊核信息去指导超分辨率重建过程.

    为了克服上述局限, 本文提出了一种基于模糊核估计的图像盲超分辨率神经网络(Blurred image blind super-resolution network based on kernel estimation, BESRNet). BESRNet 主要包括两部分: 模糊核估计网络(Blur kernel estimation network, BKENet)和模糊核自适应的图像重建网络(Kernel adaptive super-resolution network, SRNet). 此外, 为了充分利用模糊核信息帮助超分辨率重建, 本文还提出模糊核特征提取器(Blur kernel feature extractor, BKFE), 用于从估计出的模糊核中提取关键信息. 给定任意低分辨率图像, BKENet 从中显式地估计出完整的模糊核. 紧接着, BKFE 从估计出的模糊核中提取模糊核特征. 最后, SRNet 利用提取到的模糊核特征对图像特征进行调整并完成输入图像的超分辨率重建. 特别地, 在SRNet中本文利用提出的模糊核自适应特征选择模块(Kernel adaptive feature selection, KAFS), 根据模糊核特征对提取到的图像特征进行动态选择, 从而更高效地利用模糊核信息. 本文在多个图像超分辨率数据集上进行了大量实验, 定性和定量的结果证明了提出方法的有效性.

    本文的主要贡献总结如下:

    1) 设计了一个模糊核估计网络BKENet 来估计输入低分辨率图像对应的模糊核. 与其他盲超分辨率方法中只估计出经由PCA降维后的模糊核向量不同, BKENet 能够显式地从输入图像中估计出完整的模糊核, 从而能够直观地评价估计的模糊核的质量.

    2) 设计了一个模糊核自适应的特征选择模块KAFS, 从而利用提取到的模糊核特征指导输入图像的超分辨率重建. 与之前的方法不同, 本文使用在所估计的模糊核上提取到的特征来指导输入图像的超分辨率重建. 给定模糊核特征和低分辨率图像特征作为输入, KAFS 模块能够根据模糊核特征动态地为当前层级网络选择合适的特征, 从而更有效地利用模糊核信息来指导图像超分辨率重建.

    模糊核估计是图像处理领域内的一个热点问题并得到了广泛的研究. 常振春等[25] 将图像的稀疏先验和结构自相似性先验作为正则约束来求解模糊核和清晰图像. Pan等[26] 提出了一个新的非线性模型用于处理图像中过饱和的像素点, 并且设计了更加鲁棒的能量函数来估计模糊核. Yan等[27] 首先使用一个分类网络来确定输入图像中包含的模糊的种类, 然后使用一个回归网络来估计对应的模糊核. 上述方法都是在模糊图像上估计模糊核, 而本文需要从输入的低分辨率图像中估计出对应的模糊核, 其中低分辨率图像是模糊图像进行下采样得到的. 所以之前提到的方法并不适用于盲超分辨率问题中的模糊核估计. Zhang 等[21] 使用网格搜索的方式来确定模糊核的参数. Gu 等[22]提出迭代修正的框架来不断修正估计到的模糊核向量. Luo 等[24]提出迭代地进行模糊核估计和超分辨率重建. 然而这些方法都只是估计出模糊核经由PCA 降维后的模糊核向量, 并没有显式地从低分辨率图像中估计出完整的模糊核, 导致难以对估计出的模糊核进行直观的质量评价. 为了解决这个问题, 本文设计了一个新的模糊核估计网络BKENet, 用于从低分辨率图像中估计完整的模糊核.

    基于深度学习的图像超分辨率方法通过设计深度神经网络来学习低分辨率图像与高分辨率图像之间的非线性映射. 代表性的图像超分辨率方法可分为以下4类: 1)基于残差学习的方法[5-8]. 这类方法专门设计网络来学习高分辨率与低分辨率图像之间的高频残差, 重建图像的低频部分由输入的低分辨率图像来进行补充. 2)基于递归神经网络(Recursive neural network, RNN)的方法[9-12]. 基于RNN 的图像超分辨率方法通过共享参数的方式能够在不引入额外参数的情况下增加网络的深度和感受野并提升最终的效果. 3)基于密集残差连接的方法[13-16]. 这类方法通过向网络中引入密集残差连接来打通网络不同层之间的数据和梯度流动, 获得更加高效的特征表达从而带来性能上的提升. 4)基于注意力机制的方法[17-19]. 通过向网络中引入注意力机制, 这类方法可以让网络更加注重于重建高分辨率图像中的高频信息, 例如纹理边缘等, 最终提升重建结果的精度.

    然而, 上述方式仅针对双三次插值一种退化方式进行研究, 未考虑其他退化方式. 因此, 直接将上述方法应用于多种退化模式生成的低分辨图像时模型性能会下降. 为了解决这个问题, 研究者们提出了许多盲图像超分辨率方法. 主要包括以下3类: 1)基于图像域转换的方法[28-29]. 这类方法将低分辨率图像和高分辨率图像分别看作是两个图像域, 然后借鉴图像域转换的思想对输入的低分辨率图像进行超分辨率重建. 2)基于内部学习的方法[30-31]. 这类方法通过挖掘输入低分辨率图像内部的重复信息, 如色彩纹理等, 来进行自学习并完成超分辨率重建. 3)基于建模退化过程的方法[21-22, 24]. 这类方法使用多种模糊核来模拟真实的退化过程, 生成更加贴近真实世界低分辨率图像的训练数据, 并且针对该模型设计网络完成超分辨率重建. 本文方法属于上述最后一类盲超分辨率方法. 与之前的工作不同, 本文提出了一种新的基于模糊核估计的图像盲超分辨率网络BESRNet. 首先从输入的低分辨率图像中显式地估计出完整的模糊核, 然后根据所估计的模糊核, 动态地调整不同层级网络的图像特征, 完成输入图像的超分辨率重建.

    本文提出的BESRNet 结构如图1 所示, 其包含两部分: 模糊核估计网络(BKENet)和模糊核自适应的图像重建网络(SRNet). BKENet 从输入的低分辨率图像中估计出模糊核, SRNet 根据估计到的模糊核动态地调整各层网络的特征, 实现图像超分辨率重建. 具体来说, 给定任意的低分辨率图像$ x $, BKENet 从中估计出对应的模糊核$ \hat{k} $, 然后模糊核特征提取器(BKFE) 从估计到的模糊核$ \hat{k} $中提取特征, SRNet 利用模糊核特征对从输入图像中提取到的图像特征进行适应性的调整, 最终输出高分辨率图像$ sr. $ 整个过程可形式化表示为

    图 1  BESRNet 结构示意图
    Fig. 1  Overview of the BESRNet
    $$ \hat{k} = \Phi(x) \qquad$$ (1)
    $$ F_{\hat{k}} = \Gamma(\hat{k}) \qquad$$ (2)
    $$ sr = \Psi(x,F_{\hat{k}}) $$ (3)

    其中, $ \Phi(\cdot) $代表BKENet, $ \Gamma(\cdot) $代表模糊核特征提取器, $ F_{\hat{k}} $代表提取到的模糊核特征, $ \Psi(\cdot) $代表SRNet.

    BKENet的介绍见第2.1节, SRNet 中起特征调整作用的KAFS 模块介绍见第2.2节, 模糊核特征提取器用一个简单的卷积网络实现, 其结构如图1 中标注所示.

    当使用与真实模糊核不相符的模糊核作为先验时, 图像超分辨率网络的性能会有明显的下降[32], 并且会产生过于平滑或锐化的结果[22]. 因此, 准确地从输入的低分辨率图像中估计出模糊核十分必要.

    $ 1) $当前模糊核估计方法

    当前主流模糊核估计方法[26, 33]将模糊图像和清晰图像之间关系建模为

    $$ b = l \otimes k + n $$ (4)

    其中, $ b,l,k,n $ 分别代表模糊图像、清晰图像、模糊核和加性白高斯噪声, $ \otimes $代表卷积操作. 它们通过优化式(5)所示问题来获取清晰图像和模糊核

    $$\min\limits_{l,k} \left\|b - l \otimes k\right\|^2_2 + \mu_1R_l + \mu_2R_k $$ (5)

    其中, $ \mu_1R_l $和$ \mu_2R_k $分别代表清晰图像和模糊核的正则项. 具体来说, 给定一个初始化模糊核, 清晰图像和准确的模糊核可由式(6)和式(7)迭代优化获得

    $$ l_{i+1} = {\rm{arg}}\min\limits_{l} \left\|b - l \otimes k_i\right\|^2_2 + \mu_1R_l $$ (6)
    $$ k_{i+1} = {\rm{arg}}\min\limits_{k} \left\|b - l_{i} \otimes k\right\|^2_2 + \mu_2R_k$$ (7)

    然而, 上述方法并不适用于本文的问题, 因为这些方法都是针对高分辨率的模糊图像进行设计, 没有考虑下采样操作. 而本文需要从输入的低分辨率图像中估计出对应的模糊核, 其中低分辨率图像是模糊图像下采样获得的, 与原始的模糊图像的数据分布有差异.

    同样, 一些图像盲超分辨率方法[22, 24]也会估计低分辨率图像中包含的模糊, 但是它们只估计出经由PCA降维后的模糊核向量, 导致无法直观地对估计到的模糊核进行质量评价. 为了解决这个问题, 本文设计了BKENet 用于从输入的低分辨率图像中估计出完整的模糊核.

    $ 2) $ BKENet

    本文参考ResNet18[34] 设计了一个新的模糊核估计网络BKENet, 用于从输入的任意尺寸的低分辨率图像中估计出模糊核, 其结构如图2 所示. 本文在ResNet18[34] 中的全连接层之前插入了一个全局池化层, 将从输入图像中提取到的特征在特征维度上进行统一. 本文也对全连接层进行了改变, 根据模糊核大小$ d $ 将输出层的神经元个数改为$ d\times d $个, 网络的输出是模糊核拉成的向量, 经过变形得到对应的模糊核.

    图 2  BKENet 结构示意图
    Fig. 2  Architecture of the BKENet

    BKENet的优化目标为

    $$ \theta_{B} = {\rm{arg}}\min\limits_{\theta_{B}} \left\|\Phi(x;\theta_{B}) - k\right\|^2_2 + \Re(\Phi(x;\theta_{B})) $$ (8)

    其中, $ x $ 代表输入低分辨率图像, $ \Phi(\cdot) $ 代表 BKENet, $ \theta_{B} $代表 BKENet 的参数, $ k $代表待估计模糊核的真值, $ \Re(\cdot) $代表正则项.

    对于正则项, 本文考虑两个方面问题: 1)估计得到的模糊核中的权值总和应该等于1, 否则会导致模糊核的能量溢出; 2)估计得到的模糊核的质心应该在整个模糊核的中心位置, 因为本文生成数据所用高斯模糊核的质心在其正中心. 故本文定义正则项为

    $$ \Re(x;\theta_{kp}) = \alpha R_{{\rm{sum}}} + \beta R_{{\rm{mass\_center}}} $$ (9)

    其中, $ R_{{\rm{sum}}} $和$ R_{{\rm{mass\_center}}} $ 分别代表模糊核的能量约束和质心约束, $ \alpha $和$ \beta $分别代表这两项的权重. 具体为

    $$ R_{{\rm{sum}}} = \sum\limits_{i,j}|\hat{k}_{i,j}|-1 $$ (10)
    $$ \begin{aligned}[b] R_{{\rm{mass\_center}}}& =\\ \;& \left\|\frac{\sum\limits_{i,j}\hat{k}_{i,j}\cdot(i,j)}{\sum\limits_{i,j}\hat{k}_{i,j}}-\frac{\sum\limits_{i,j}k_{i,j}\cdot(i,j)}{\sum\limits_{i,j}k_{i,j}}\right\|_2=\\ \;& \left\|\frac{\sum\limits_{i,j}\hat{k}_{i,j}\cdot(i,j)}{\sum\limits_{i,j}\hat{k}_{i,j}}-(0,0)\right\|_2=\\ \;& \left\|\frac{\sum\limits_{i,j}\hat{k}_{i,j}\cdot(i,j)}{\sum\limits_{i,j}\hat{k}_{i,j}}\right\|_2\\[-25pt] \end{aligned} $$ (11)

    其中, $ \hat{k} $和$ k $分别代表估计得到的模糊核和真值模糊核, $ (i,j) $代表以模糊核中心为原点, 模糊核上每个位置的坐标. 在实验中分别将$ \alpha $与$ \beta $设置为1$ \times10^{-2} $和1$ \times10^{-4} $.

    估计到的模糊核准确与否直接影响到输入低分辨率图像的超分辨率重建, 通过向模糊核估计网络的损失函数中添加上述正则项能够使得估计到的模糊核的精度更高, 从而提升最终的超分重建效果.

    $ 1) $ 当前模糊核利用方法

    当前大多数模糊核均采用Zhang 等[21]提出的维度拉伸策略. 具体来说, 假定模糊核大小为$ d\times d $, 首先将模糊核拉成一个$ d^2 $维的向量, 接着使用PCA技术对该向量进行降维, 得到$ t $维的模糊核向量, 再将降维后的模糊核向量每个维度都拉成与输入图像分辨率相同的退化图, 即$ t $个通道, 并且每个通道都是同一个值, 最终将退化图和输入图像叠加在一起作为网络的输入. 但是这种方式并不是最优的, 退化图只是一组抽象的数字, 与输入图像像素值并没有直接的关联, 将其与输入图像叠加在一起是不合适的. Gu 等[22] 对该方法进行了改进, 将退化图与图像特征叠加, 然后使用SFT layer[23]来利用模糊核信息. 但是图像特征也是与输入图像的像素值高度相关的, 直接将退化图和输入图像或者图像特征拼接并没有本质的区别. 此外, 这种方式破坏了模糊核的空间结构, 可能无法高效地利用模糊核去指导重建输入图像中的结构化信息. 为了更高效地利用模糊核信息, 本文设计了KAFS 模块. KAFS 模块在估计得到的模糊核上使用卷积提取模糊核特征, 一定程度上保留了模糊核的空间结构, 然后根据提取到的模糊核特征动态地对图像特征进行调整和修正.

    2) KAFS 模块

    为了高效地利用模糊核信息指导超分辨率重建过程, 本文借鉴动态卷积[35]中根据不同输入进行自适应调整的思想设计了模糊核自适应的特征选择模块(Kernel adaptive feature selection module, KAFS module), 并将其嵌入到SRNet中的残差块中.

    当前标准卷积和动态卷积的操作过程具体为

    $$ F^{\prime} = Conv(F; \theta) \cdot\pi(F;\phi) $$ (12)

    其中, $ F $ 是输入特征, $ F^{\prime} $ 是卷积后的特征, $ Conv(\cdot) $ 代表卷积操作, $ \pi(\cdot) $一般称为显著性生成器. $ \theta $和$ \phi $分别为$ Conv(\cdot) $和$ \pi(\cdot) $的参数. 对于标准卷积来说, $ \pi \equiv 1 $, $ Conv(\cdot) $直接执行卷积操作; 对于动态卷积来说, $ \pi $的输出作用于$ Conv $的输出, 作为动态卷积层的输出结果.

    本文设计的KAFS 模块结构如图3 所示, 其接受图像特征和模糊核特征为输入, 并且根据模糊核特征对图像特征进行调整和修正. 其中, 图像特征调整和修正的过程由多个并行的动态特征选择器(Dynamic feature selector, DFS)完成. 本文将多个DFS 的输出进行融合得到调整后的图像特征. KAFS 模块可形式化表达为

    $$ \begin{split} F_{{\rm{img}}}^{{\rm{out}}} =\;& H_{{\rm{KAFS}}}(F_{{\rm{img}}}^{{\rm{in}}}, F_{k})=\\ & Conv\left([F^1,\cdots,F^i,\cdots ,F^D]; \theta_{{\rm{Conv}}} \right)\end{split} $$ (13)

    其中

    $$ F^i = H^i_{{\rm{DFS}}}(F_{{\rm{img}}}^{{\rm{in}}}, F_{k}) $$ (14)

    其中, $ H_{{\rm{KAFS}}} $代表KAFS模块, $ H^i_{{\rm{DFS}}} $代表第 $ i $ 个DFS, $ F_{{\rm{img}}}^{{\rm{out}}} $代表调整后的图像特征, $ F_{{\rm{img}}}^{{\rm{in}}} $代表输入图像特征, $ F_{k} $代表输入的模糊核特征, $ Conv(\cdot) $代表KAFS 模块最后的卷积操作, $[\cdot\; ,\cdot]$代表通道维度上的拼接操作, $ \theta_{{\rm{Conv}}} $代表$ Conv(\cdot) $的参数, $ F^i $代表第$ i $个DFS 的输出.

    图 3  模糊核自适应的特征选择模块示意图
    Fig. 3  Architecture of the proposed KAFS module

    神经网络中不同层级卷积提取到的特征包含不同层次的语义信息[36]. 因此, 使用相同的模糊核特征去调整不同层级网络提取到的图像特征是不合理的. 为了更高效地利用模糊核信息, 本文设计了动态特征选择器(DFS), 其中包含一个显著性生成器$ \pi $, 能够针对不同层级图像特征的需要, 自适应地生成模糊核显著性向量, 对图像特征进行动态选择和加权, 从而更好地利用模糊核信息指导超分辨率重建过程. DFS的结构如图4 所示.

    图 4  动态特征选择器结构示意图
    Fig. 4  Architecture of the proposed DFS

    DFS生成的显著性向量$ \boldsymbol{g} $的具体计算为

    $$ \begin{split} \boldsymbol{g} =\;& \pi\left(F^{{\rm{in}}}_{{\rm{img}}}\ , F_k\ ;\ \phi\right)=\\ &f\left(\ p(F^{{\rm{in}}}_{{\rm{img}}}\otimes F_k)\right)_+ \end{split} $$ (15)

    其中, $ \phi $代表$ \pi $的参数, $ f $代表全连接层, $ p(\cdot) $代表全局平均池化操作, $ \otimes $代表通道维度的乘法, $ (\cdot)_{+} $代表ReLU 激活函数.

    然后, DFS 根据得到的显著性向量来动态地选择当前层级网络最需要的图像特征. 具体的做法是设定一个失活通道比例$ \xi $, 将特征图的所有通道按其显著性向量的值$ g_j $ 进行排序, 记输入通道数为$ C $, 最小的$ \xi\times C $个通道被移除, 剩下的每个通道特征增强$ g_j $倍. 因此第$ i $个DFS 可形式化表达为

    $$ \begin{split} DFS^i &(F^{{\rm{in}}}_{{\rm{img}}}, F_k) = \\ & Prun\left(\pi^i(F^{{\rm{in}}}_{{\rm{img}}}, F_k;\phi^i)\right)\otimes F^{{\rm{in}}}_{{\rm{img}}}=\\ &Prun\left(f\left(\ p(F^{{\rm{in}}}_{{\rm{img}}}\otimes F_k)\right)_+\right)\otimes F^{{\rm{in}}}_{{\rm{img}}}=\\ & Prun\left(\boldsymbol{g}^i\right)\otimes F^{{\rm{in}}}_{{\rm{img}}}=\\ &\boldsymbol{g}^{i}[\boldsymbol{v}]\otimes F^{{\rm{in}}}_{{\rm{img}}}=\hat{\boldsymbol{g}}^{i}\otimes F^{{\rm{in}}}_{{\rm{img}}} \end{split} $$ (16)

    其中, $ Prun(\cdot) $代表显著性向量的裁剪过程, $\boldsymbol{v} = \mathcal{I}_{{\rm{t o p}}}\lceil(1-\xi) C\rceil\left(\boldsymbol{g}^{i}\right)$代表从${{\boldsymbol{g}}}^{i}$中返回$ (1-\xi)C $个最大值索引, $ \hat{\boldsymbol{g}}^{i} = \boldsymbol{g}^{i}[\boldsymbol{v}] $.

    与动态卷积相比, 本文设计的KAFS 模块主要有两点不同: 1)动态卷积一般使用显著性生成器$ \pi $ 处理卷积后的特征, 而本文直接使用$ \pi $处理输入特征, 根据超分辨率网络不同层级的特征需要对输入特征进行动态选择; 2)动态卷积利用输入特征对自身进行调整, 即$ \pi $的输入只有输入特征本身, 而本文设计的KAFS 模块的输入包括图像特征和模糊核特征, KAFS 模块根据模糊核特征对图像特征进行适应性调整. 特别地, 本文直接在模糊核上提取特征, 然后使用模糊核特征对图像特征进行动态调整. 这样做保留了模糊核空间结构化信息, 更有利于神经网络利用模糊核进行超分辨率图像重建.

    本节主要介绍实验的实施细节与实验结果的分析对比. 具体地, 第3.1节介绍用于训练网络的训练集和测试集, 第3.2 节介绍本文方法的实现细节, 第3.3节论述本文方法与其他方法的结果对比和分析, 第3.4节对本文模型的各部分进行分析和讨论.

    3.1.1   模糊核

    本文选用各向同性和各向异性两种高斯模糊核来生成低分辨率图像, 描述高斯模糊核的协方差矩阵为

    $$ \left[\begin{aligned} \sigma_{11}\;\; & \sigma_{12}\\ \sigma_{21}\;\;& \sigma_{22}\\ \end{aligned}\right] $$

    本文使用8个各向同性和8个各向异性的高斯模糊核分别处理高分辨率图像来生成低分辨率图像. 对于各向同性的高斯模糊核, 设定$\ \sigma_{12} = \sigma_{21} = 0$, 并且令$ \ \sigma_{11} = \sigma_{22} $以$ \ 0.5 $为步长在$[\ 2.5,\ 6\ ]$之间进行8次采样; 对于各向异性的高斯模糊核, 本文分别设定$ \ \sigma_{12} = \sigma_{21} = \pm1\ $, 并且令$ \ \sigma_{11} = \sigma_{22}\ $以$ \ 0.5\ $为步长在$ [\ 2.5,\ 4\ ] $之间进行4次采样. 训练过程中所用的高斯模糊核如图5 所示.

    图 5  训练所用的高斯模糊核
    Fig. 5  Visualization of Gaussian kernels used for training

    测试阶段本文使用2个各向同性和4个各向异性的高斯模糊核. 对于测试用的各向同性的高斯模糊核, 本文设定$ \sigma_{12} = \sigma_{21} = 0 $, $ \sigma_{11} = \sigma_{22} $分别取 2.0 和 6.5; 对于测试用的各向异性的高斯模糊核, 本文分别设定$ \sigma_{12} = \sigma_{21} = \pm1 $, $ \sigma_{11} = \sigma_{22} $分别取2.0和 4.5.

    3.1.2   数据集

    $ 1) $ 训练集

    实验训练所用的高分辨率图像来自DIV2K[37](800幅) 和Flickr2K[38] (2650 幅) 数据集, 共3450幅2K 清晰度的高质量图像. 本文首先使用之前介绍的用于训练的高斯模糊核对这些图像进行模糊, 然后使用双三次插值算法对其进行下采样, 得到训练所用的低分辨率图像.

    $ 2) $ 测试集

    本文测试所用图像来自Set5[39], Set14[40], BSD100[41], Urban100[42]和DIV2K[37]的验证集. 与训练所用低分辨率图像生成方式相同, 本文使用之前介绍的用于测试的模糊核对这些图像进行模糊, 然后使用双三次插值算法对其进行下采样, 得到测试所用的低分辨率图像.

    3.2.1   训练策略

    本文分别在超分辨率放大倍数为2倍, 4倍, 8倍的设定下进行实验, 所有的训练和测试过程都是在RGB 三通道上进行. 训练过程分为两步, 首先分别训练好BKENet 和SRNet, 然后将这两部分连接在一起进行微调. 在单独训练SRNet 这部分时, 使用真值模糊核作为额外的输入. 可以通过优化如下问题来获取SRNet 的参数, 即

    $$ \theta = {\rm{arg}}\min\limits_{\theta} \left\|\Psi(x,k;\theta) - y\right\|_1 $$ (17)

    其中, $ \ \Psi(\cdot) $代表SRNet, $ \ x\ $代表输入的低分辨率图像, $ \ k\ $代表用于生成当前输入的低分辨率图像的模糊核, $ \ \theta\ $代表SRNet 的参数, $ y $代表输入低分辨率图像对应的高分辨率图像.

    在微调阶段, 将SRNet 和BKENet 同时训练, 这一阶段的损失函数定义为

    $$ Loss = L_{{\rm{img}}} + \delta L_{{\rm{kernel}}} \qquad\quad $$ (18)
    $$ L_{{\rm{img}}} = \left\|\Psi(x,\Gamma(\Phi(x))) - y\right\|^2_2 $$ (19)

    其中, $ \Phi(\cdot) $代表BKENet, $ L_{{\rm{img}}}$代表图像损失, $ L_{{\rm{kernel}}} $代表模糊核损失, $ \delta $代表模糊核损失的权重, $ L_{{\rm{kernel}}} $具体描述见式(8). 损失函数中包含两项, 第1项是超分放大的图像和真值图像之间的L2 损失, 第2项是估计出来的模糊核的损失, 本文使用$ \delta $参数平衡这两项来达到最优性能.

    3.2.2   参数设置

    本文提出的网络一共包含16个残差块, 每个残差块中都嵌入了一个KAFS 模块. 训练网络所用的优化器选择Adam[43], 参数设为$ \beta_1 = 0.9 $, $ \beta_2 = 0.999 $, 学习率初始化为1$ \times $$10 ^{-4}$, 并且每经过40000 个迭代下降0.2 倍. 本文从生成的低分辨率图像上截取48$ \times $48像素大小的图像块输入到网络中进行训练, 从高分辨率图像对应的位置截取4 倍大小的图像块作为真值, 批大小设为16. 本文使用Pytorch 框架实现提出的方法, 并且在一张Tesla V100 显卡上进行训练.

    本文使用峰值信噪比(Peak signal noise ratio, PSNR)和结构相似度(Structural similarity, SSIM)对超分结果进行量化评价. 参与对比的方法有非盲超分辨率方法密集残差超分辨率重建网络 (Residual dense network, RDN)[14], 残差通道注意力超分辨率网络 (Residual channel attention network, RCAN)[17], 双向回归超分辨率网络 (Dual regression network, DRN)[8] 和整体注意力超分辨率网络 (Holistic attention network, HAN)[19], 盲超分辨率方法零样本超分辨率网络 (“Zero-shot” super-resolution using deep internal learning, ZSSR)[30] 和IKC[22].

    对于非盲超分辨率方法RDN[14]、RCAN[17]、DRN[8] 和HAN[19], 使用作者提供的预训练模型进行测试; 对于盲超分辨率方法ZSSR[30], 重新训练后进行测试; 对于盲超分辨率方法IKC[22], 使用作者提供的权重在本文所用训练数据上微调后进行测试. 此外, 为了进一步证明所提出方法的有效性, 我们在本文所用训练数据上重新训练了非盲超分辨率方法RDN[14], 即多种退化的密集残差超分辨率网络(Residual dense network for multi-degradations, RDNMD), 并与本文方法进行对比.

    定量结果如表1所示, 其中结果被规范表示为PSNR (dB)/SSIM, 加粗字体代表最优的结果, 下划线代表次优的结果, “—”表示原论文作者未提供相对应的结果. 从表1 中可看出, 非盲超分辨率方法RDN[14]、RCAN[17]、DRN[8]和HAN[19] 在遇到具有多种退化模式的数据时表现不佳, 这表明非盲超分辨率方法很难处理具有多种退化模式的图像. 与RDNMD 对比, 可以看出尽管使用具有多种退化模式的数据进行训练, 非盲超分辨率方法RDN[14]与BESRNet 仍然存在较大差距. 这是因为其本身没有考虑到模糊核这个因素. 而BESRNet 可以先估计出输入图像的模糊核, 然后根据估计到的模糊核来进行动态调整图像特征以适应不同的退化情况. 与ZSSR[30] 和IKC[22] 对比, BESRNet 具有更高的图像重建精度, 这证明了BESRNet的有效性. 与其他盲图像超分辨率方法对比, BESRNet 在多个放大倍数设定下均取得了最优的SSIM 值, 这表明BESRNet 能够更加有效地利用模糊核去指导重建输入图像中的结构化信息.

    表 1  各个超分方法在基准数据集上的性能对比(PSNR (dB)/SSIM)
    Table 1  Performance comparison of different super-resolution methods on benchmark datasets (PSNR (dB)/SSIM)
    方法 放大倍数 数据集
    Set5[39] Set14[40] BSD100[41] Urban100[42] DIV2K_val[37]
    Bicubic × 2 25.76/0.800 23.73/0.699 24.15/0.681 21.51/0.670 25.73/0.776
    RDN[14] × 2 28.03/0.840 25.20/0.713 25.44/0.697 23.04/0.699 27.93/0.807
    RCAN[17] × 2 24.53/0.751 23.05/0.668 23.49/0.653 21.04/0.633 24.70/0.733
    DRN[8] × 2
    HAN[19] × 2 24.45/0.714 22.90/0.650 23.29/0.634 20.91/0.615 24.54/0.708
    RDNMD × 2 29.00/0.879 25.89/0.803 25.97/0.798 24.16/0.818 28.23/0.863
    ZSSR[30] × 2 26.06/0.804 24.02/0.707 24.43/0.688 21.90/0.685 25.99/0.785
    IKC[22] × 2
    BESRNet (本文) × 2 30.96/0.903 27.73/0.834 27.20/0.827 25.38/0.845 29.96 /0.886
    Bicubic × 4 24.72/0.755 22.83/0.647 23.34/0.628 20.65/0.613 24.79/0.733
    RDN[14] × 4 27.46/0.808 24.72/0.694 25.03/0.671 22.53/0.690 27.24/0.775
    RCAN[17] × 4 22.83/0.619 21.62/0.548 22.16/0.541 19.77/0.521 23.25/0.619
    DRN[8] × 4 23.07/0.679 21.92/0.596 22.50/0.580 20.07/0.562 23.96/0.683
    HAN[19] × 4 22.65/0.603 20.81/0.524 22.09/0.536 19.33/0.497 22.83/0.605
    RDNMD × 4 28.63/0.834 25.33/0.716 25.51/0.690 23.29/0.718 27.68/0.793
    ZSSR[30] × 4 25.09/0.710 23.75/0.640 24.15/0.620 21.52/0.622 26.72/0.752
    IKC[22] × 4 28.93/0.844 25.94/0.719 25.73/0.696 23.49/0.729 28.15/0.800
    BESRNet (本文) × 4 29.18/0.860 26.10/0.742 25.74/0.714 23.81/0.751 28.23/0.813
    Bicubic × 8 21.90/0.622 20.68/0.535 21.58/0.530 18.73/0.493 22.66/0.640
    RDN[14] × 8
    RCAN[17] × 8 20.91/0.518 20.15/0.468 21.10/0.463 18.51/0.434 22.26/0.567
    DRN[8] × 8 21.09/0.536 20.76/0.499 21.31/0.493 18.81/0.471 22.67/0.594
    HAN[19] × 8 20.30/0.492 19.88/0.486 19.53/0.467 18.17/0.401 21.47/0.529
    RDNMD × 8 23.86/0.710 21.79/0.560 22.70/0.569 20.29/0.586 24.18/0.686
    ZSSR[30] × 8
    IKC[22] × 8
    BESRNet (本文) × 8 24.15/0.722 22.64/0.600 22.87/0.571 20.54/0.599 24.75/0.691
    下载: 导出CSV 
    | 显示表格

    放大4倍任务上视觉效果对比如图6 所示. 从图6中可以看出, 非盲超分辨率方法RDN[14]、RCAN[17]、DRN[8]和HAN[19] 重建出的图像质量较差, 这说明了只考虑双三次插值下采样这样一种简单的退化模式训练得到的模型, 在遇到模糊图像时难以完成超分辨率任务. 与RDNMD 对比, 本文方法的重建结果细节上更加清楚. 如第3组对比图中, RDNMD重建出的结果窗户部分的纹理模糊不清, 而本文方法的结果明显清晰很多, 与真值图像的差距较小, 这证明了本文方法的有效性和优越性. 与盲超分辨率方法ZSSR[30] 和IKC[22] 的结果比较, 本文方法恢复出的图像具有更清楚的边缘轮廓和更高的对比度, 这进一步证明了本文方法的有效性和优越性.

    图 6  (×4) 各个超分方法的视觉效果对比
    Fig. 6  (×4) Visual comparison of different methods

    此外, 本文也在真实世界图片“chip”上进行了放大4倍结果对比, 结果如图7 所示. 可以看出, ZSSR[30] 放大后的图像伪影较为严重. 与IKC[22] 的结果对比, 本文提出的方法恢复出的图像具有更加清楚的轮廓, 并且伪影也更少. 这表明在真实世界图像上本文方法仍然优于盲超分辨率方法ZSSR[30]和IKC[22].

    图 7  (×4) 真实图像“chip”上的视觉对比结果
    Fig. 7  (×4) Visual comparison on real-world image “chip”
    3.4.1   模糊核估计网络

    本文使用所估计的模糊核与真值模糊核之间的均方误差(Mean square error, MSE)和平均绝对值误差(Mean absolute error, MAE)来评价模糊核估计结果. 为了验证正则项对模糊核估计结果的影响, 本文分别训练了添加正则项和未添加正则项的BKENet, 并将这二者的测试结果进行了对比. 为了证明传统模糊核估计方法不适用于从低分辨率图像中估计模糊核, 本文与Pan 等[33] 提出的在模糊图像上估计模糊核的方法进行了对比. 实验结果如表2 所示, 表2中的数据被规范表示为MSE$ \times10^{-5}/ $MAE$ \times10^{-3} $. 表2 中BKENet $ {\rm{w}}/{\rm{o}} $ R代表没有添加正则项的BKENet, BKENet $ {\rm{w}}/ $ R 代表有正则项的BKENet. 从表2 中可以看出, Pan 等[33]的方法估计出的模糊核偏差较大, 这表明直接使用之前的从模糊核图像中估计模糊核的方法在低分辨率图像上估计模糊核不可行. 相较于没有添加正则项的模型, 添加了正则项的模型估计出的模糊核的误差更小, 这表明正则项能够帮助BKENet 更加准确地估计出模糊核. 本文从Set5[39]上的测试结果中随机挑选了3个模糊核估计结果进行了可视化对比, 视觉对比结果如图8 所示. 图中第1列是使用Pan 等[33]方法估计的结果; 第2列BKENet $ {\rm{w}}/{\rm{o}} $ R 代表不在损失函数中添加正则项训练模型的测试结果; 第3列BKENet $ {\rm{w}}/ $ R代表在损失函数中添加正则项训练模型的测试结果; 第4列是对应的真值(Ground truth, GT). 从图8 中可以看出, Pan等[33]的方法估计出的模糊核出现了明显的失真. 这表明传统的针对高分辨率模糊图像进行设计的模糊核估计算法无法准确估计低分辨率模糊图像的模糊核. 并且添加了正则项之后的结果与真值也更加接近, 这进一步表明正则项能够提升估计到的模糊核的精度. 图9 给出了其他几个测试集上随机选取的模糊核估计结果的视觉效果对比, 其中每一小幅图代表一个数据集上的测试结果, 每一小幅图中的每一列代表一个方法的估计结果, 方法的排列顺序与图8中相同. 从图9中可以看出, Pan等[33]提出的传统方法估计出的模糊核误差较大, 而本文方法估计出的模糊核与真值十分接近, 这进一步证明了BKENet的有效性.

    表 2  各个模糊核预测方法在基准数据集上的定量结果对比 (MSE × 10−5/MAE × 10−3)
    Table 2  Quantitative comparison of kernel estimation methods on the benchmark datasets (MSE × 10−5/MAE × 10−3)
    方法 数据集
    Set5[39] Set14[40] BSD100[41] Urban100[42] DIV2K_val[37]
    Pan 等[33] 3.83/3.85 2.56/3.87 3.23/3.58 2.55/3.32 2.13/2.89
    BKENet ${\rm{w/o}}$ R 1.91/2.69 2.12/2.66 1.83/2.73 2.15/2.90 2.00/2.67
    BKENet ${{\rm{w}}/}$ R 1.76/2.61 1.80/2.53 1.78/2.70 2.13/2.88 1.89/2.59
    下载: 导出CSV 
    | 显示表格
    图 8  不同方法在Set5[39]上估计出的模糊核的视觉效果对比
    Fig. 8  Visual comparison of blur kernels estimated by different methods on Set5[39]
    图 9  不同基准数据集上模糊核估计结果的视觉效果对比
    Fig. 9  Visual comparison of blur kernels estimated by different methods on different benchmark datasets
    3.4.2   模糊核自适应的特征选择模块

    为了验证KAFS 模块的有效性, 本文也与其他的模糊核利用方式进行了对比. 借鉴SRMD[21]中的思想, 本文将模糊核放缩到与输入图像同样大小, 然后叠加在一起输入到网络中进行训练, 本文将该模型命名为KZNet (Kernel zooming network). 此外, 本文使用真值模糊核作为先验来训练盲超分辨率模型ZSSR[30] 并将其与SRNet 进行比较. 为了验证不匹配的模糊核对超分结果的影响, 本文使用一个固定的模糊核作为先验来训练SRNet. 比较的结果如表3 所示.

    表 3  (×4) 使用真值模糊核作为先验的不同方法的量化指标对比(PSNR (dB)/SSIM)
    Table 3  (×4) Quantitative comparison of different methods with real blur kernels as prior (PSNR (dB)/SSIM)
    方法 数据集
    Set5[39] Set14[40] DIV2K_val[37]
    KZNet 26.45/0.818 22.59/0.702 22.75/0.752
    ZSSR ${\rm{w}}/\ k$ 24.38/0.734 23.17/0.672 25.50/0.771
    SRNet ${\rm{w}}/{\rm{o}}\ k$ 25.14/0.796 23.09/0.688 24.72/0.762
    SRNet ${\rm{w}}/\ k$ 29.65/0.864 26.39/0.747 28.45/0.814
    下载: 导出CSV 
    | 显示表格

    表3 中, ZSSR $ {\rm{w}}/\ k $ 代表使用真值模糊核进行训练的ZSSR[30]模型, SRNet $ {\rm{w}}/{\rm{o}}\ k $ 代表使用固定模糊核作为先验训练SRNet得到的模型, SRNet $ {\rm{w}}/\ k $ 代表使用真值模糊核作为先验训练SRNet 得到的模型. 比较SRNet $ {\rm{w}}/{\rm{o}}\ k $ 与SRNet $ {\rm{w}}/\ k $ 可以看出, 使用不匹配的模糊核作为先验会导致超分性能的严重下降, 这也证明了准确预测模糊核的必要性. 观察KZNet 的结果发现, 当输入图像很大的时候(DIV2K 数据集中的测试数据是2K 大小), KZNet 性能下降十分明显, 这表明将模糊核放缩到和输入图像大小相同, 然后再与低分辨率图像叠加在一起作为输入来利用模糊核的信息不是最优的方式. 与ZSSR[30] 相比, 同样使用真值模糊核作为先验, 本文方法的效果提升十分显著, 这表明提出的KAFS 模块能够更好地利用模糊核的信息来指导输入图像的超分辨率重建过程. 上述方法的视觉效果比较如图10 所示. 从图10中可以看出, 当使用真值模糊核作为先验时, 本文提出的方法重建出的图像具有更加清晰的纹理边缘.

    图 10  (×4) 使用真值模糊核作为先验情况下, 各个超分辨率方法的视觉效果对比, 放大观看效果更佳
    Fig. 10  (×4) Visual comparison of different methods with real blur kernels as prior, zoom in for best view

    本文同样也对KAFS 模块中的DFS分支数量和失活的通道数进行了探究, 结果如表4表5所示.

    表 4  (×4) 不同DFS分支数的KAFS 模块在Set5[39]数据集上的定量结果对比
    Table 4  (×4) Quantitative comparison of KAFS module with different numbers of DFS on Set5[39]
    DFS PSNR (dB)/SSIM Params (M) Multi-adds (G)
    1 29.50/0.861 12.92 151.04
    2 29.61/0.863 12.98 151.05
    4 29.54/0.862 13.12 151.06
    下载: 导出CSV 
    | 显示表格
    表 5  (×4) 不同失活通道数的KAFS模块在Set5[39]数据集上的定量结果对比
    Table 5  (×4) Quantitative comparison of KAFS module with different numbers of inactive channel on Set5[39]
    失活通道数 PSNR (dB)/SSIM
    4 29.60/0.860
    8 29.65/0.864
    16 29.61/0.863
    24 29.60/0.860
    下载: 导出CSV 
    | 显示表格

    表4 中统计了不同DFS分支数训练得到模型的性能指标和相对应的参数量以及乘法加法计算量(此时固定失活通道数为16). 从表4中可以看出, 当分支数为1 时, 其参数量和计算量最少, 但是相应的性能也最差; 当分支数为2 时, 参数量和计算量略微增加, 性能上有明显的提升; 当分支数为4 时, 参数量和计算量继续增加, 但是性能并没有随之提升. 这表明相较于单个分支, 使用多个分支可以从不同方面对特征进行选择互补, 但是分支数量多了会造成特征冗余, 反而不利于学习. 综上考虑, 本文将DFS分支数设置为2. 接着本文固定分支数为2, 试验不同的失活通道数对性能的影响, 结果如表5所示.

    本文发现, 在特征通道数设为64的情况下, 失活通道数为8 时效果最好, 这是因为当失活通道数过多时会导致损失的信息过多从而不利于学习, 而失活通道数过少又达不到特征选择的作用. 因此, 本文最终将KAFS 模块中的DFS分支数设为2, 每个DFS 中失活通道数设为8.

    3.4.3   BESRNet

    在微调阶段, 本文将BKENet 和SRNet 连接在一起构成最终的网络BESRNet, 并且对BESRNet 使用式(18)中定义的损失函数再次进行训练. 本文对式(18)中用于平衡图像损失和模糊核损失的系数$ \delta $进行了探究, 结果如表6 所示.

    表 6  (×4) 使用不同$\delta$值训练的模型在DIV2K[37] 数据集的验证集上的性能对比
    Table 6  (×4) Performance comparison of BESRNet with different $\delta$ on the validation set of DIV2K[37]
    δ PSNR (dB)/SSIM
    0.01 28.01/0.809
    0.05 28.09/0.811
    0.1 28.23/0.813
    0.5 28.12/0.811
    1 27.99/0.810
    下载: 导出CSV 
    | 显示表格

    表6中可以发现, 随着$ \delta $值的增大网络的性能呈现先上升后下降的趋势, 并且在对比实验中$ \delta $取0.1时效果最好, 所以本文最终将$ \delta $设置为0.1.

    本文提出了一种基于模糊核估计的图像盲超分辨率网络. 其主要由两个子网络构成: 模糊核估计网络和模糊核自适应的图像重建网络. 模糊核估计网络可以显式地从任意低分辨率图像估计出完整的模糊核. 模糊核自适应的图像重建网络能够利用所估计的模糊核动态地调整图像特征, 从而能够适应不同模糊图像的超分辨率重建. 本文在常用的超分辨率基准数据集上进行了不同模糊核的实验, 定量和定性的实验结果都表明本文所设计网络能够获得更好的超分辨率效果. 在未来的工作中可进一步探究高斯模糊之外的更加复杂的退化模式下的模糊图像盲超分辨率方法.

  • 图  1  BESRNet 结构示意图

    Fig.  1  Overview of the BESRNet

    图  2  BKENet 结构示意图

    Fig.  2  Architecture of the BKENet

    图  3  模糊核自适应的特征选择模块示意图

    Fig.  3  Architecture of the proposed KAFS module

    图  4  动态特征选择器结构示意图

    Fig.  4  Architecture of the proposed DFS

    图  5  训练所用的高斯模糊核

    Fig.  5  Visualization of Gaussian kernels used for training

    图  6  (×4) 各个超分方法的视觉效果对比

    Fig.  6  (×4) Visual comparison of different methods

    图  7  (×4) 真实图像“chip”上的视觉对比结果

    Fig.  7  (×4) Visual comparison on real-world image “chip”

    图  8  不同方法在Set5[39]上估计出的模糊核的视觉效果对比

    Fig.  8  Visual comparison of blur kernels estimated by different methods on Set5[39]

    图  9  不同基准数据集上模糊核估计结果的视觉效果对比

    Fig.  9  Visual comparison of blur kernels estimated by different methods on different benchmark datasets

    图  10  (×4) 使用真值模糊核作为先验情况下, 各个超分辨率方法的视觉效果对比, 放大观看效果更佳

    Fig.  10  (×4) Visual comparison of different methods with real blur kernels as prior, zoom in for best view

    表  1  各个超分方法在基准数据集上的性能对比(PSNR (dB)/SSIM)

    Table  1  Performance comparison of different super-resolution methods on benchmark datasets (PSNR (dB)/SSIM)

    方法 放大倍数 数据集
    Set5[39] Set14[40] BSD100[41] Urban100[42] DIV2K_val[37]
    Bicubic × 2 25.76/0.800 23.73/0.699 24.15/0.681 21.51/0.670 25.73/0.776
    RDN[14] × 2 28.03/0.840 25.20/0.713 25.44/0.697 23.04/0.699 27.93/0.807
    RCAN[17] × 2 24.53/0.751 23.05/0.668 23.49/0.653 21.04/0.633 24.70/0.733
    DRN[8] × 2
    HAN[19] × 2 24.45/0.714 22.90/0.650 23.29/0.634 20.91/0.615 24.54/0.708
    RDNMD × 2 29.00/0.879 25.89/0.803 25.97/0.798 24.16/0.818 28.23/0.863
    ZSSR[30] × 2 26.06/0.804 24.02/0.707 24.43/0.688 21.90/0.685 25.99/0.785
    IKC[22] × 2
    BESRNet (本文) × 2 30.96/0.903 27.73/0.834 27.20/0.827 25.38/0.845 29.96 /0.886
    Bicubic × 4 24.72/0.755 22.83/0.647 23.34/0.628 20.65/0.613 24.79/0.733
    RDN[14] × 4 27.46/0.808 24.72/0.694 25.03/0.671 22.53/0.690 27.24/0.775
    RCAN[17] × 4 22.83/0.619 21.62/0.548 22.16/0.541 19.77/0.521 23.25/0.619
    DRN[8] × 4 23.07/0.679 21.92/0.596 22.50/0.580 20.07/0.562 23.96/0.683
    HAN[19] × 4 22.65/0.603 20.81/0.524 22.09/0.536 19.33/0.497 22.83/0.605
    RDNMD × 4 28.63/0.834 25.33/0.716 25.51/0.690 23.29/0.718 27.68/0.793
    ZSSR[30] × 4 25.09/0.710 23.75/0.640 24.15/0.620 21.52/0.622 26.72/0.752
    IKC[22] × 4 28.93/0.844 25.94/0.719 25.73/0.696 23.49/0.729 28.15/0.800
    BESRNet (本文) × 4 29.18/0.860 26.10/0.742 25.74/0.714 23.81/0.751 28.23/0.813
    Bicubic × 8 21.90/0.622 20.68/0.535 21.58/0.530 18.73/0.493 22.66/0.640
    RDN[14] × 8
    RCAN[17] × 8 20.91/0.518 20.15/0.468 21.10/0.463 18.51/0.434 22.26/0.567
    DRN[8] × 8 21.09/0.536 20.76/0.499 21.31/0.493 18.81/0.471 22.67/0.594
    HAN[19] × 8 20.30/0.492 19.88/0.486 19.53/0.467 18.17/0.401 21.47/0.529
    RDNMD × 8 23.86/0.710 21.79/0.560 22.70/0.569 20.29/0.586 24.18/0.686
    ZSSR[30] × 8
    IKC[22] × 8
    BESRNet (本文) × 8 24.15/0.722 22.64/0.600 22.87/0.571 20.54/0.599 24.75/0.691
    下载: 导出CSV

    表  2  各个模糊核预测方法在基准数据集上的定量结果对比 (MSE × 10−5/MAE × 10−3)

    Table  2  Quantitative comparison of kernel estimation methods on the benchmark datasets (MSE × 10−5/MAE × 10−3)

    方法 数据集
    Set5[39] Set14[40] BSD100[41] Urban100[42] DIV2K_val[37]
    Pan 等[33] 3.83/3.85 2.56/3.87 3.23/3.58 2.55/3.32 2.13/2.89
    BKENet ${\rm{w/o}}$ R 1.91/2.69 2.12/2.66 1.83/2.73 2.15/2.90 2.00/2.67
    BKENet ${{\rm{w}}/}$ R 1.76/2.61 1.80/2.53 1.78/2.70 2.13/2.88 1.89/2.59
    下载: 导出CSV

    表  3  (×4) 使用真值模糊核作为先验的不同方法的量化指标对比(PSNR (dB)/SSIM)

    Table  3  (×4) Quantitative comparison of different methods with real blur kernels as prior (PSNR (dB)/SSIM)

    方法 数据集
    Set5[39] Set14[40] DIV2K_val[37]
    KZNet 26.45/0.818 22.59/0.702 22.75/0.752
    ZSSR ${\rm{w}}/\ k$ 24.38/0.734 23.17/0.672 25.50/0.771
    SRNet ${\rm{w}}/{\rm{o}}\ k$ 25.14/0.796 23.09/0.688 24.72/0.762
    SRNet ${\rm{w}}/\ k$ 29.65/0.864 26.39/0.747 28.45/0.814
    下载: 导出CSV

    表  4  (×4) 不同DFS分支数的KAFS 模块在Set5[39]数据集上的定量结果对比

    Table  4  (×4) Quantitative comparison of KAFS module with different numbers of DFS on Set5[39]

    DFS PSNR (dB)/SSIM Params (M) Multi-adds (G)
    1 29.50/0.861 12.92 151.04
    2 29.61/0.863 12.98 151.05
    4 29.54/0.862 13.12 151.06
    下载: 导出CSV

    表  5  (×4) 不同失活通道数的KAFS模块在Set5[39]数据集上的定量结果对比

    Table  5  (×4) Quantitative comparison of KAFS module with different numbers of inactive channel on Set5[39]

    失活通道数 PSNR (dB)/SSIM
    4 29.60/0.860
    8 29.65/0.864
    16 29.61/0.863
    24 29.60/0.860
    下载: 导出CSV

    表  6  (×4) 使用不同$\delta$值训练的模型在DIV2K[37] 数据集的验证集上的性能对比

    Table  6  (×4) Performance comparison of BESRNet with different $\delta$ on the validation set of DIV2K[37]

    δ PSNR (dB)/SSIM
    0.01 28.01/0.809
    0.05 28.09/0.811
    0.1 28.23/0.813
    0.5 28.12/0.811
    1 27.99/0.810
    下载: 导出CSV
  • [1] Luo Y M, Zhou L G, Wang S, Wang Z Y. Video satellite imagery super resolution via convolutional neural networks. IEEE Geoscience and Remote Sensing Letters, 2017, 14(12): 2398-2402 doi: 10.1109/LGRS.2017.2766204
    [2] Shi W Z, Caballero J, Ledig C, Zhuang X H, Bai W J, Bhatia K, et al. Cardiac image super-resolution with global correspondence using multi-atlas PatchMatch. In: Proceedings of the 16th International Conference on Medical Image Computing and Computer-Assisted Intervention. Nagoya, Japan: Springer, 2013. 9−16
    [3] Zou W W W, Yuen P C. Very low resolution face recognition problem. IEEE Transactions on Image Processing, 2011, 21(1): 327-340
    [4] Dong C, Loy C C, He K M, Tang X O. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307 doi: 10.1109/TPAMI.2015.2439281
    [5] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1646−1654
    [6] Ledig C, Theis L, Huszár F, Caballreo J, Cunningham A, Acosta A, et al. Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Hawaii, USA: IEEE, 2017. 4681−4690
    [7] Lim B, Son S, Kim H, Nah S, Lee K M. Enhanced deep residual networks for single image super-resolution. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, USA: IEEE, 2017. 136−144
    [8] Guo Y, Chen J, Wang J D, Chen Q, Cao J Z, Deng Z S, et al. Closed-loop matters: Dual regression networks for single image super-resolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 5407−5416
    [9] Kim J, Lee J K, Lee K M. Deeply-recursive convolutional network for image super-resolution. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1637−1645
    [10] Tai Y, Yang J, Liu X M. Image super-resolution via deep recursive residual network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 3147−3155
    [11] 周登文, 赵丽娟, 段然, 柴晓亮. 基于递归残差网络的图像超分辨率重建. 自动化学报, 2019, 45(6): 1157-1165 doi: 10.16383/j.aas.c180334

    Zhou Deng-Wen, Zhao Li-Juan, Duan Ran, Chai Xiao-Liang. Image super-resolution based on recursive residual networks. Acta Automatica Sinica, 2019, 45(6): 1157-1165 doi: 10.16383/j.aas.c180334
    [12] Han W, Chang S Y, Liu D, Yu M, Witbrock M, Huang T S. Image super-resolution via dual-state recurrent networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1654−1663
    [13] Tong T, Li G, Liu X J, Gao Q Q. Image super-resolution using dense skip connections. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 4799−4807
    [14] Zhang Y L, Tian Y P, Kong Y, Zhong B N, Fu Y. Residual dense network for image super-resolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 2472−2481
    [15] Liu J, Zhang W J, Tang Y T, Tang J, Wu G S. Residual feature aggregation network for image super-resolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 2359−2368
    [16] 李金新, 黄志勇, 李文斌, 周登文. 基于多层次特征融合的图像超分辨率重建. 自动化学报, 2023, 49(1): 161-171 doi: 10.16383/j.aas.c200585

    Li Jin-Xin, Huang Zhi-Yong, Li Wen-Bin, Zhou Deng-Wen. Image super-resolution based on multi-hierarchical features fusion network. Acta Automatica Sinica, 2023, 49(1): 161-171 doi: 10.16383/j.aas.c200585
    [17] Zhang Y L, Li K P, Li K, Wang L C, Zhong B N, Fu Y. Image super-resolution using very deep residual channel attention networks. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 286−301
    [18] Dai T, Cai J R, Zhang Y B, Xia S T, Zhang L. Second-order attention network for single image super-resolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 11065−11074
    [19] Niu B, Wen W L, Ren W Q, Zhang X D, Yang L P, Wang S Z, et al. Single image super-resolution via a holistic attention network. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 191−207
    [20] Bulat A, Yang J, Tzimiropoulos G. To learn image super-resolution, use a GAN to learn how to do image degradation first. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 185−200
    [21] Zhang K, Zuo W M, Zhang L. Learning a single convolutional super-resolution network for multiple degradations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3262−3271
    [22] Gu J J, Lu H N, Zuo W M, Dong C. Blind super-resolution with iterative kernel correction. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 1604−1613
    [23] Wang X T, Yu K, Dong C, Loy C C. Recovering realistic texture in image super-resolution by deep spatial feature transform. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 606−615
    [24] Luo Z X, Huang Y, Li S, Wang L, Tan T N. Unfolding the alternating optimization for blind super resolution. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2020. Article No. 473
    [25] 常振春, 禹晶, 肖创柏, 孙卫东. 基于稀疏表示和结构自相似性的单幅图像盲解卷积算法. 自动化学报, 2017, 43(11): 1908-1919 doi: 10.16383/j.aas.2017.c160357

    Chang Zhen-Chun, Yu Jing, Xiao Chuang-Bai, Sun Wei-Dong. Single image blind deconvolution using sparse representation and structural self-similarity. Acta Automatica Sinica, 2017, 43(11): 1908-1919 doi: 10.16383/j.aas.2017.c160357
    [26] Pan J S, Lin Z C, Su Z X, Yang M H. Robust kernel estimation with outliers handling for image deblurring. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2800−2808
    [27] Yan R M, Shao L. Blind image blur estimation via deep learning. IEEE Transactions on Image Processing, 2016, 25(4): 1910-1921
    [28] Yuan Y, Liu S Y, Zhang J W, Zhang Y B, Dong C, Lin L. Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Salt Lake City, USA: IEEE, 2018. 701−710
    [29] Zhang Y B, Liu S Y, Dong C, Zhang X F, Yuan Y. Multiple cycle-in-cycle generative adversarial networks for unsupervised image super-resolution. IEEE Transactions on Image Processing, 2020, 29: 1101-1112 doi: 10.1109/TIP.2019.2938347
    [30] Shocher A, Cohen N, Irani M. Zero-shot super-resolution using deep internal learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3118−3126
    [31] Soh J W, Cho S, Cho N I. Meta-transfer learning for zero-shot super-resolution. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE, 2020. 3516−3525
    [32] Efrat N, Glasner D, Apartsin A, Nadler B, Levin A. Accurate blur models vs. image priors in single image super-resolution. In: Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 2832−2839
    [33] Pan J S, Sun D Q, Pfister H, Yang M H. Blind image deblurring using dark channel prior. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 1628−1636
    [34] He K M, Zhang X Y, Ren S Q, Sun J. Identity mappings in deep residual networks. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 630−645
    [35] Su Z, Fang L P, Kang W X, Hu D W, Pietikäinen M, Liu L. Dynamic group convolution for accelerating convolutional neural networks. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 138−155
    [36] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation. In: Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer, 2015. 234−241
    [37] Agustsson E, Timofte R. NTIRE 2017 challenge on single image super-resolution: Dataset and study. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, USA: IEEE, 2017. 126−135
    [38] Timofte R, Agustsson E, Van Gool L, Yang M H, Zhang L, Lim B, et al. NTIRE 2017 challenge on single image super-resolution: Methods and results. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, USA: IEEE, 2017. 114−125
    [39] Bevilacqua M, Roumy A, Guillemot C, Alberi-Morel M L. Low-complexity single-image super-resolution based on nonnegative neighbor embedding. In: Proceedings of the 23rd British Machine Vision Conference BMVC 2012. Surrey, UK: BMVA Press, 2012. 135.1−135.10
    [40] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations. In: Proceedings of the 7th International Conference on Curves and Surfaces. Avignon, France: Springer, 2010. 711−730
    [41] Martin D, Fowlkes C, Tal D, Malik J. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: Proceedings of the 8th IEEE International Conference on Computer Vision. ICCV 2001. Vancouver, Canada: IEEE, 2001. 416−423
    [42] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015. 5197−5206
    [43] Kingma D P, Ba J. Adam: A method for stochastic optimization. arXiv preprint arXiv: 1412.6980v8, 2015.
  • 期刊类型引用(2)

    1. 刘啟瑞,王晨,郭锋,林晨浩,岳焕景,沈盛,杨敬钰. 降质先验引导的二维条码超分辨率研究. 微电子学与计算机. 2024(07): 18-28 . 百度学术
    2. 支凯茹,张凯,门昌骞,王文剑. 融合随机傅里叶特征的混合神经网络模型. 小型微型计算机系统. 2024(12): 2875-2881 . 百度学术

    其他类型引用(9)

  • 加载中
图(10) / 表(6)
计量
  • 文章访问数:  1922
  • HTML全文浏览量:  1091
  • PDF下载量:  234
  • 被引次数: 11
出版历程
  • 收稿日期:  2020-11-26
  • 录用日期:  2021-04-16
  • 网络出版日期:  2021-05-26
  • 刊出日期:  2023-10-24

目录

/

返回文章
返回