-
摘要: 图像分辨率是衡量一幅图像质量的重要标准. 在军事、医学和安防等领域, 高分辨率图像是专业人士分析问题并做出准确判断的前提. 根据成像采集设备、退化因素等条件对低分辨率图像进行超分辨率重建成为一个既具有研究价值又极具挑战性的难点问题. 首先简述了图像超分辨率重建的概念、重建思想和方法分类; 然后重点分析用于单幅图像超分辨率重建的空域方法, 梳理基于插值和基于学习两大类重建方法中的代表性算法及其特点; 之后结合用于超分辨率重建技术的数据集, 重点分析比较了传统超分辨率重建方法和基于深度学习的典型超分辨率重建方法的性能; 最后对图像超分辨率重建未来的发展趋势进行展望.Abstract: Image resolution is an important criterion to measure the quality of an image. High-resolution images are a prerequisite for professionals to analyze problems and make accurate judgments in the fields of military, medicine, and security. The super-resolution reconstruction of low-resolution images according to conditions such as imaging acquisition equipment and degradation factors has become a difficult problem that is both valuable and challenging for research. This paper first briefly describes the concept, reconstruction ideas and method classification of image super-resolution reconstruction. Secondly, the spatial methods for single image super-resolution reconstruction are analyzed, and the representative algorithms and their characteristics of the interpolation-based method and learning-based method are sorted out. Then, combined with the data set used for super-resolution reconstruction technology, the performances of traditional super-resolution reconstruction method and typical super-resolution reconstruction method based on deep learning are analyzed and compared. Finally, the future development trend of image super-resolution reconstruction is prospected.
-
Key words:
- Super resolution reconstruction /
- single image /
- spatial method /
- deep learning
-
图像分辨率指的是图像所包含的细节量, 体现成像系统对物体实际细节的反映能力. 超分辨率(Super-resolution, SR)技术起初指的是可以提高光学成像系统分辨率的技术, 现在常指可以将单幅或多幅低分辨率图像经过处理转换成高分辨率图像的方法[1]. 超分辨重建技术是信息光学、数字图像处理与模式识别、计算机视觉、机器学习等多领域结合的学科, 在医学成像[2]、生物信息识别[3-4]、智能交通、安防监控等领域受到了广泛关注.
1964年和1968年, Harris[5]和Goodman[6]分别发表文章提出SR重建的概念, 但当时并未得到广泛认可. 直到20世纪80年代, 特别是1984年Tsai等[7]提出频域中基于图像序列的方法之后, SR重建技术才取得了突破性进展. 之后国内外众多研究者对SR问题进行深入研究, 一些权威期刊, 如Transactions on Pattern Analysis and Machine Intelligence、International Journal of Computer Vision、Pattern Recognition、Signal Processing和Image Communication等都刊登SR重建领域文章. 除此之外, 几个计算机视觉领域的重要国际会议也收录此类文章, 如Computer Vision and Pattern Recognition、International Conference on Computer Vision、European Conference on Computer Vision、英国机器视觉会议、国际信息处理会议和人工智能国际联合大会等. 2016年以来, 有一项专门针对SR技术的国际比赛New Tr-ends in Image Restoration and Enhancement (NTIRE), 之后NTIRE逐渐被全球学者关注. 这些会议和比赛大大推动了图像SR重建技术的发展.
近年来, 各大研究机构和相关技术人员已经开放SR重建技术的数据库, 极大地推动了SR重建研究工作的进一步开展, 涌现了大量研究成果. 国外伊利诺伊大学厄巴纳香槟分校的Yang等[8-9]、加州大学圣克鲁兹分校的Nguyan等[10]、法国科学院的Yu等[11]、以色列理工学院的Elad等[12]和苏黎世联邦理工学院的Timofte等[13]等; 国内中国科学院的Cui等[14]、中国科学技术大学的Song等[15]、香港理工大学的Wang等[16]、香港中文大学的Dong等[17]、西北工业大学的Zhu等[18]、西安电子科技大学的Gao等[19]和Dong等[20]等, 在SR研究中都取得了显著的进展[21].
鉴于国内外SR图像重建领域取得的丰富成果, 近年来陆续有学者对这些研究成果进行了归纳和分析, 形成了一些优秀的综述文章. 文献[22]按照不同的低分辨率(Low-resolution, LR)输入和SR输出情况对传统SR重建方法进行分类整理, 文献[23]与文献[24]介绍了基于深度学习的图像SR复原方法的研究进展. 本文以单幅图像作为研究对象, 对基于传统方法和深度学习的SR重建方法进行归纳与分析, 从基于插值和基于学习两方面对单幅图像SR方法进行综述, 对目前各种SR方法按网络结构进行划分, 在此基础上按不同应用场景和不同降质方式进行分类讨论, 并对传统方法和深度学习方法之间的联系进行了介绍, 总结了传统理念在深度学习方法中的延续与应用. 文章最后结合数据集对方法的性能和鲁棒性进行了比较, 并展望了该领域未来的发展方向, 以供相关领域的研究者参考.
1. 图像SR重建概述
1.1 图像质量退化模型及SR重建思路
成像过程中, 由于设备本身存在缺陷并且受采集环境影响, 会导致得到的图像模糊、关键信息不详细等问题. 设低分辨率图像
$y$ 是由高分辨率图像$x$ 经过一系列变换得到的, 退化过程如下:$$y = {{DBW}}x + n$$ (1) 式中,
${{D}}$ 为亚采样矩阵,${{B}}$ 为光学模糊矩阵,${{W}}$ 为几何运动模糊矩阵,$n$ 为加性高斯白噪声. 由于从硬件方面改善上述不足所需要的成本较高, 因此, 通过软件完成后期图像处理来弥补设备采集的缺陷, 不仅可以降低成本, 还能满足学者们的需求. 图像SR重建是一种软件图像处理技术, SR重建为上述图像退化的逆过程, 旨在已知输入的低分辨率图像$y$ 的情况下, 通过不断优化SR重建模型, 获取更接近于高分辨率 (High-resolution, HR)图像x的SR图像${x^{sr}}$ . 由于上述SR重建自身的病态性[25]和较高的实用价值, 使其在计算机视觉领域具有很大的理论研究空间和应用空间, 因而受到长期关注.1.2 SR重建技术的发展及分类
起初在图像复原和图像增强技术中, 为了恢复单幅图像因超出光学系统传递函数极限而缺失的信息, 需要估计该图像上的频谱信息进行频谱外推[26-27]从而提高图像分辨率, 因而产生了一系列频域SR方法, 包括基于傅里叶变换的SR方法和基于小波变换的SR方法等. 后来, 由于空域法能够建立全面的观测模型, 还具有包含空域先验信息的能力, 所以众多学者针对空域法进行了大量研究.
本文主要论述基于单幅图像的空域SR重建(Single image super resolution, SISR), 将从基于插值和基于学习两方面介绍单幅图像SR重建技术, 方法分类如图1所示. 本文第2节介绍基于插值的SR方法, 第3节阐述基于学习的SR方法. 鉴于基于学习的SR方法是目前的研究热点, 内容较多, 本文在第3 ~ 4节由浅入深地进行重点阐述与分析. 第3节分析基于传统浅层学习的SR方法, 第4节对基于深度学习的SR方法展开探讨, 第5节阐述深度学习SR方法与传统SR方法的联系与区别, 第6节介绍图像SR重建数据集以及SR重建图像评价方法, 第7节进行总结和展望.
2. 基于插值的图像SR重建
基于插值的重建方法是根据放大因子在已有像素之间插入一定数量的新像素补充HR图像缺失的像素, 并且将插值后的图像像素数据与插值卷积核进行卷积, 相当于对图像进行平滑处理. 在传统插值方法中, 根据插值实现方式可分为最近邻插值[28]、双线性插值[29]、双三次插值(Bicubic interpolation, BI)[30]等. 基于插值的SR包括以下3个步骤:
1)上采样. 获得HR图像中与LR图像某些位置对应的已知像素;
2)插值. 补充HR图像中缺失的像素;
3)去模糊. 增强重建图像质量.
其中, 最近邻插值最简单, 每一个缺失的像素都采用与其最相邻像素相等的强度值, 但锯齿现象明显, 放大效果不理想. 双线性插值方法利用缺失像素点周围4个最邻近已知像素点的像素值, 采用水平和竖直两个方向上的线性插值结果补充缺失的像素, 放大的图像锯齿现象有改善, 但边缘模糊. 双三次插值利用待求像素点周围4 × 4邻域内的16个己知像素点的值加权内插得到待求点像素值, 其插值过程如图2所示. 由图2可以看出, 要想求得HR像素点
$\left( {i + u,j + v} \right)$ 的像素值, 需要用$( i + u, j + v)$ 点4 × 4邻域内的16个己知LR像素点的值进行加权运算.双三次插值方法是用一个三次多项式
$S\left( x \right)$ 来逼近理论上的最佳插值函数${{\sin \left( x \right)} / x}$ , 其数学表达式为:$$S(x) = \left\{ {\begin{aligned} & {1 - (a + 3){{\left| x \right|}^2} + (a + 2){{\left| x \right|}^3},}\;\;{0 \leq \left| x \right| < 1} \\ &{a(8\left| x \right| - 5{{\left| x \right|}^2} + {{\left| x \right|}^3} - 4),}\;\;\;\;\;\;\,{1 \leq \left| x \right| < 2} \\ & 0,\qquad\qquad\qquad\qquad\qquad\qquad{2 \leq \left| x \right| < + \infty } \end{aligned}} \right.$$ (2) 式中, a为自由变量, 其取值范围为
$\left[ { - 1,{{ - 1} / 2}} \right]$ , 一般取a为$ - 1$ , 将$a = - 1$ 代入式(2), 得到:$$S(x) = \left\{ {\begin{aligned} &{1 - 2{{\left| x \right|}^2} + {{\left| x \right|}^3},}&{0 \leq \left| x \right| < 1}\;\;\;\;\; \\ &{4 - 8\left| x \right| + 5{{\left| x \right|}^2} - {{\left| x \right|}^3},}&{1 \leq\left| x \right| < 2} \;\;\;\;\;\\ & 0,&{2 \leq \left| x \right| < + \infty } \end{aligned}} \right.$$ (3) 双三次插值方法的基本公式为:
$${{{I}}_h}(i + u,j + v) = {{A}} \times {{B}}\times {{C}}$$ (4) 其中
$${{A}} = \left[ {S\left( {1 + u} \right),S\left( u \right),S\left( {1 - u} \right),S\left( {2 - u} \right)} \right]$$ (5) $$ \begin{split} {{B}} =\;& \left[ {\begin{array}{*{20}{c}} {{I_l}(i - 1,j - 1)}&{{I_l}(i - 1,j)}\\ {{I_l}(i,j - 1)}&{{I_l}(i,j)}\\ {{I_l}(i + 1,j - 1)}&{{I_l}(i + 1,j)} \\ {{I_l}(i + 2,j - 1)}&{{I_l}(i + 2,j)}\end{array}} \right.\\ &\qquad\quad\left. {\begin{array}{*{20}{c}} {{I_l}(i - 1,j + 1)}&{{I_l}(i - 1,j + 2)} \\ {{I_l}(i,j + 1)}&{{I_l}(i,j + 2)} \\ {{I_l}(i + 1,j + 1)}&{{I_l}(i + 1,j + 2)} \\ {{I_l}(i + 2,j + 1)}&{{I_l}(i + 2,j + 2)} \end{array}} \right] \end{split}$$ (6) $${{C}} = {\left[ {S(1 + v),S(v),S(1 - v),S(2 - v)} \right]^{\rm{T}}}$$ (7) 相对最近邻插值和双线性插值方法, 双三次插值能够利用图像中更多细节信息, 有效地抑制图像的块儿效应和边缘阶梯失真现象, 但运算复杂度较高, 当输出图像不连续时会导致输出图像出现振铃噪声和边缘模糊现象, 需要通过图像恢复进行修复.
为了克服以上传统插值方法中的振铃模糊问题, 研究者们提出了一些针对图像边缘增强的非线性插值方法, 包括基于边缘的插值方法和基于小波变换的插值方法(见第5.1节). 基于边缘的方法指的是利用图像中像素的边缘方向来控制插值方向对图像进行插值. Kwok等[31]通过定向插值改善了锯齿伪影现象, 插值的方向由边缘方向决定. Li等[32]提出了一种基于边缘指导的图像插值(New edge directed interpolation, NEDI)算法, 该方法假设LR和HR图像在边缘处具有相同的边缘信息, 从而通过计算LR图像边缘的局部协方差来推导出最佳线性超分辨映射的预测系数. 虽然上述方法可以实现图像边缘处的锐化, 但其算法复杂度高, 为此, Chen等[33]对NEDI算法进行了相应的改进, 提出了一种快速边缘导向的插值算法. 针对NEDI算法只是单独针对LR图像中某一个像素值进行预测的缺陷, Zhang等[34]提出用图像的局部方差对插值函数进行优化得到更好的插值结果, 采用软判决自适应插值算法来分析LR图像中相邻像素之间的结构, 从而实现一次性估计一组缺失像素的值, 其中像素预测是由一个自适应不可分的2D滤波器滤波实现的. 这些方法可以得到较为完整的局部结构和比较锐利的边缘.
基于插值方法属于无样本的单图像超分方法, 本质上属于一种图像增强.
3. 基于传统浅层学习的图像SR重建
为了解决SISR重建这类欠定性问题, 一个有效策略是在求解过程中引入图像的先验信息来正则解空间, 更好地逼近真实解, 从而获得理想的HR图像. 基于正则化约束的SR方法将先验信息作为正则化约束项加入到图像重构过程中, 将图像重构问题转换为寻求满足特定限制条件解的最优化问题, 在求解方程中引入代价函数, 然后迭代求解得到重建图像, 其求解表达式为:
$$ \widehat{X}={\rm{arg}}\;{\rm{min}}{\Vert Y-{{DB}}X\Vert }_{2}^{2}+\lambda \times R(X)$$ (8) 式中,
$R\left( X \right)$ 是正则化项,$\lambda $ 是决定正则化约束强度的参数.正则化思想作为超分目标函数项, 在基于样例的方法和基于稀疏编码的方法等基于浅层学习的SR重建方法中均有大量的使用. 常用的正则项包括2范数形式的Tikhonov正则项[35]、1范数形式的全变差正则项[36]以及双边全变差正则项[37]等. Tikhonov代价函数
$R\left( X \right){\rm{ = }}\left\| {\Gamma X} \right\|_2^2$ ,$\Gamma $ 是单位矩阵或有限差分矩阵, 对重建图像中的高频部分进行约束, 从而减少重建过程中可能引入的高频噪声, 但会使重建图像变得光滑, 趋向模糊. 基于全变分模型的SR方法将图像梯度的范数作为正则化约束项[36, 38], 其正则化式为$R\left( X \right)= {\left\| {\nabla X} \right\|_{\rm{1}}}$ , 其中$\nabla $ 是梯度算子. 正则化方法能直接加入先验约束, 有唯一解, 收敛稳定性高, 且具有较强的去噪能力.基于学习的SR方法通过机器学习算法从大量训练样本中获得LR图像和HR图像之间的对应关系, 并把这种关系运用到重建过程中, 实现图像的SR重建, 因此这类方法往往需要一个样本库来提供相应信息以供重建方法充分学习先验知识. 从解决此类基于样本库训练问题的角度出发, 本文将传统SR重建方法划分为三类进行阐述: 第1类方法是基于样例学习的方法, 采用马尔科夫随机场和流形学习中局部线性嵌入的思想完成重建; 第2类方法是基于稀疏表示的方法, 结合图像稀疏编码、字典学习以及图像相似性的思想完成重建; 第3类是基于回归的方法, 建立高斯回归、岭回归、随机森林与卷积神经网络等回归模型的方法完成重建.
3.1 基于样例学习的SR重建方法
基于样例学习的方法主要包括建立样本库和构建高频子带(重建)两个独立步骤. 主要思想是: 首先通过样本学习建立LR与HR图像之间的关系, 然后利用此关系实现LR图像的SR重建. 此类方法最早源于Freeman等[39]提出基于马尔科夫网络的SR重建方法, 即利用马尔科夫网络最优化求解相关示例样本. 首先将HR图像块与其对应的LR图像块作为样本, 通过马尔科夫网络模型建立原始图像与样本块之间的关系, 然后采用置信传播算法对候选样本进行近似求解完成学习过程, 最后通过样本中的高频信息实现图像的SR重建.
将输入的LR图像与目标HR图像都分割成小块, 每个图像块用一个马尔科夫网络节点表示, 每个HR节点与其对应的LR节点相连, 也与其相邻的HR节点相连, 这两类节点的联合概率分别用
$\Phi \left( {{x_k},{y_k}} \right)$ 和$\Psi \left( {{x_k},{y_k}} \right)$ 表示. 这样就把HR重建的问题变成求解后验概率的局部最大值, 公式如下:$$\max \left\{ {\prod\limits_{i,j = 1}^N {\Psi ({x_i},x{}_j)} \prod\limits_k {\Phi ({x_k},{y_k})} } \right\}$$ (9) 式中, N为相邻域的大小. 将马尔科夫网络中的每个LR图像块
$\Phi \left( {{x_k},{y_k}} \right)$ 作为索引, 在样本库中搜索最佳匹配样本中对应的HR图像块, 记为$\Psi \left( {{x_k},{y_k}} \right)$ . 根据样本库采用置信传播算法对其进行近似求解. 在重建时, 利用马尔科夫网络最优化求解(最大化马尔科夫网络的概率)找到最优的HR样本块, 将高频信息加到插值放大后的图像上, 得到重建的HR图像.马尔科夫网络中的LR节点只能从与其相连的一个HR节点获取到高频信息, 因此只能计算图像块局部关系, Wang等[40]使用条件随机场引入多个新的节点, 将每一个新的节点作为HR节点和与其相邻的所有LR节点的桥梁, 加强了节点间的相关性, 从而建立高低分辨率样本的全局关系. 此外, 由于人类视觉对异常的高频信息比较敏感, 而马尔科夫网络没有阻止异常候选图像块的能力, 所以该算法的重建结果中容易产生噪声. 为了解决这个问题, Chang等[41]提出一种利用局部线性嵌入来获取k个近邻点权重的方法, 假设训练样本中的HR图像块集合和与之对应的LR图像块集合分别构成两个具有相同局部线性结构的流形. 根据此假设, HR图像块便可以被其邻域的相似结构线性表示, 且权重系数相同, 即求出k个最邻近低分辨图像块的权重, 并利用该组权重与对应的HR图像块相乘求得最终的HR图像. 邻域嵌入方法可以利用较少的样本表示出较多的变化模式, 从而大幅降低计算量, 但由于k值是固定的, 因此会出现欠拟合或过拟合的现象. 为此, Chan等[42]通过直方图配准选择相似的训练图像, 选择不同特征, 并通过边缘检测针对不同类型的图像块选择不同的邻域数目, 从而更好地完成图像重建. Gao等[43]提出联合学习的方法, 将LR图像和HR图像的特征投影到统一空间, 提高近邻保持率.
3.2 基于稀疏表示的SR重建方法
与Chang等[41]的流形假设不同, Yang等[8-9]提出了一种基于稀疏表示的SR重建方法. 该方法对训练样本集的几何特征结构未做出任何假设, 而是认为可以从同一场景的HR图像块集合和与之相对应的LR图像块集合中分别学习出一组耦合字典, 并且任何一个HR图像块和其对应的LR图像块在耦合字典下具有近似相同的稀疏表示系数, 通过这种思想来建立LR图像块与HR图像块之间所对应的一种特定映射关系(成对的字典). 根据得到的LR字典对输入的LR图像进行稀疏编码(求得输入LR图像的稀疏系数), 依据该编码和HR字典重建出HR图像.
自然图像在某种字典下具有稀疏性, 可以将这种稀疏性作为正则化约束项. 稀疏表示是在给定的超完备字典中用尽可能少的原子来表示图像, 图像经过稀疏表示后可以获得更为简洁的表示方式, 从而更容易获取图像中所蕴含的信息. 信号
$x \in {{\bf{R}}^N}$ 的稀疏表示过程可以用一个过完备字典$\Phi \in {{\bf{R}}^{N \times M}}$ ($N \ll M$ )的几个基元的线性组合描述, 公式如下:$$x = \Phi \alpha $$ (10) 式中,
$\alpha$ 是稀疏系数, 大部分元素为零或接近零. x的稀疏表示系数正则化形式为:$$\hat \alpha = \mathop {\arg \min }\limits_\alpha \{ \left\| {x - \Phi \alpha } \right\|_2^2 + \lambda {\left\| \alpha \right\|_1}\} $$ (11) 式中,
$\lambda $ 是用来权衡稀疏表示误差和稀疏程度的正则化系数.基于稀疏表示的图像SR重建方法包括字典训练和稀疏编码两个重要步骤. 字典训练有以下两种方式: 1)由已知信号变换构造字典, 例如离散余弦变换、离散傅里叶变换、小波变换、Curvelet变换、Contourlet变换等, 但这种方法字典中的所有原子都是由少量的几个参数决定或由简单的仿射变换形成, 因此原子形态不够丰富, 不能对图像本身的复杂结构进行最优表示; 2)通过对样本集的学习构造字典, 即字典学习算法, 该方法构造的字典原子数量更多, 形态更丰富, 能更好地对信号或图像本身的结构进行稀疏表示, 其中K次迭代奇异值分解(K-singular value decomposition, K-SVD)算法[44]和主成分分析算法[45]最为常见. 稀疏分解算法主要有正交匹配追踪算法[46]和迭代收缩算法[47]. 正交匹配追踪算法的求解过程是先对所选原子进行Gram-Schmidt正交化处理, 然后将待求信号投影到正交化后的原子形成的空间上, 得到待求信号在各个已选原子上分解的分量和余量, 迭代分解使余量最小化, 直到满足预先设定的条件为止. 正交匹配追踪算法可以保证迭代最优, 但其固有的局限性使得算法在K-SVD字典学习时必须严格限制图像块的稀疏性, 导致字典学习的精度降低, 文献[48]利用迭代收缩算法取代正交匹配追踪算法构建稀疏表示系数, 求解凸优化问题. 在后续的研究工作中, 此类方法的改进主要在这两方面展开.
1)字典训练优化
Yang等[9]提出的字典训练方法在训练阶段可以在很好地表示LR和HR图像空间的同时保证其具有相同的稀疏表示系数, 但是由于重建阶段对输入LR图像稀疏表示系数的求解过程无法施加与训练阶段相同的约束, 并不能保证求得稀疏表示系数是LR和HR图像共有的系数, 导致重建精度降低. 为此众多研究者提出一系列的高低分辨率字典训练方法, 来缓解LR和HR图像空间稀疏表示系数的不一致问题, 有效提升了重建的结果. Wang等[16]提出了一种半耦合字典的学习算法, 这种算法假设LR图像块和HR图像块在相应字典下的稀疏表示系数存在线性关系, 该算法放宽了约束条件的同时增强了图像块之间的映射能力, 缓解了稀疏表示系数的不一致问题. Zeyde等[49]使用主成分分析算法投射LR特征向量寻找对应子空间, 使得LR特征能够被LR字典更加精确地表示, 同时, 通过采用维度约减预处理和正交匹配追踪算法计算LR图像块的策略来提高稀疏表示模型的计算效率. Yang等[50]提出一种交错空间的优化方法来训练高低分辨率字典, 其核心是把同步的联合字典训练方式变为交错空间优化问题, 但是由于该优化问题的高度非线性的非凸函数优化问题, 很难找到一个较为理想的局部优化解, 算法的时间复杂性也较高. He等[51]提出一种基于Bata先验的耦合字典训练方式, 有效缓解稀疏表示系数的不一致问题, 改善了重建HR图像效果. 此外, 稀疏编码的优化算法也相继提出, 文献[52]针对耦合特征空间的HR重建, 提出了一种基于一致性稀疏编码的SR重建方法, 主要思想是先独立地训练HR字典和LR字典, 然后分别求得训练HR和LR图像的稀疏表示系数, 把图像变换到稀疏表示空间, 最后再通过最小二乘法建立两个空间稀疏表示系数之间的映射关系. 虽然该方法可以提高重建精度, 但是独立的稀疏编码方式, 增加了其稀疏表示系数映射关系建立的难度. Zhao等[53]提出了一种基于自适应稀疏表示的SR重建方法, 通过产生一个合适的系数来平衡稀疏表示和协同表示之间的关系. Wang等[54]提出从训练样本集中学习到更有效的过完备字典, 具有分辨率无关性的图像表达(Resolution-invariant image represen-tation, RIIR), 被应用于快速的多级超分辨率图像重建任务中.
2)稀疏编码优化
一些研究工作指出, 重建质量很大程度上取决于数据的几何结构[55]. 因此, 重点是探索这些潜在的几何结构以增强现有的稀疏编码稳定性. 通过将图像补丁的非局部信息转换成稀疏系数, 非局部稀疏编码方法[56-57]被广泛地提出用于图像重建.
与上述通过外部数据集学习字典的方法不同, Glasner等[58]结合自相似思想和样本学习的方法, 利用图像块的冗余性和不同尺度的图像块来重建未知的HR图像块, 字典是从输入图像本身及其降质的图像中学习到. 需要重建的LR图像的结构模式没有出现在一般的图像数据集中, 那么从这个数据集中学习到的映射关系就不能很好地恢复图像的纹理细节, 因此在通过改进高低分辨率字典训练方式来提升重建质量的同时, 文献[55-65]也在基于稀疏表示模型的基础上引入图像结构先验约束来有效保持图像的几何结构来有效地避免此问题. Dong等[20]结合自适应稀疏领域选择和自适应正则项重建出清晰的图像边缘, 视觉效果良好. 文献[59]利用图像的非局部自相似性来获得原始图像的稀疏编码系数的良好估计, 然后将观测图像的稀疏编码系数集中到这些估计上. Yang等[60]利用了图像的双重稀疏性和非局部相似性约束, 为了自适应地调整并表示HR图像块的字典. 上述常规模型仅考虑列非局部相似稀疏表示系数中的先验, 而没有考虑稀疏表示系数的所有条目(或行)中的先验, 建模能力会受到限制. 实际上, 如果在稀疏表示系数空间中将相似表示系数的簇重新排列为矩阵, 则列和行之间都存在非局部相似先验. Li等[61]使用行非局部相似性先验, 探索具有l1范数约束的行非局部相似性正则化项. 通过将引入到常规的列非局部相似性稀疏表示模型, 提出了一个双稀疏正则化稀疏表示模型. 引入基于代理函数的迭代收缩算法来有效地解决该模型. Shi等[62]提出了一种基于低秩稀疏表示和自相似的SR重建算法, 然而该算法从字典对中学习大量原子的过程需要往往会消耗较长的时间. Li等[63]结合稀疏表示和非局部自相似性, 提出了一种自学习的SR重建算法, 将字典学习和迭代过程融合到一起, 能够有效地减少训练时间并提高算法的鲁棒性. 随后, 李进明等[64]通过增加低秩和非局部自相似性来约束LR和HR图像的稀疏分解, 这保证了稀疏求解的准确性, 从而提高了传统稀疏表示方法的重建性能. Lu等[65]引入非局部自相似和流形学习用于约束双字典的几何结构, 从而保证图像恢复细节的准确性. 但是人为设计图像先验只针对少量特定图像有较好效果, 对普通自然复杂背景的图像, 重建HR图像质量显著下降, HR图像重建模型的鲁棒性较差.
3.3 基于回归的SR重建方法
使用稀疏字典进行SR重建可以大幅提高图像重建质量, 但存在如下问题: 1)稀疏字典在计算稀疏系数时计算量很大; 2)不存在能够稀疏表示所有图像块的全局字典, 这不仅会使得SR重建的先验信息不准确, 还会带来因图像块过小限制模型感受野的问题. 为了解决稀疏系数计算量大的问题, Kim等[66]提出仅训练一个岭回归函数来预测HR特征, 结合核匹配追踪和梯度下降的思想来降低核岭回归(Kernel ridge regression, KRR)训练和测试的时间复杂度. 对于字典不完备的问题, 可以通过建立回归模型把一系列的非线性变换转化成对数据的拟合, 学习数据的内在分布. 例如, Kim等[67]利用支持向量回归(Support vector regression, SVR)来估计图像的高频细节. Deng等[68]在文献[67]的基础上, 提出了基于多输出二次支持向量回归的SR重建算法, 这种方法将从低分辨率图像空间到HR图像空间的非线性映射问题转换为线性映射问题, 有效地减少了参数的数量, 同时能够确保同一图像补丁中各个像素点之间的关联性. He等[69]通过高斯过程回归(Gaussian process regression, GPR), 选择一个适当的协方差函数来估计HR图像的像素值. Wang等[70]在高斯回归的基础上, 提出了一种基于字典样本和Student-t似然高斯过程回归的SR重建算法. Timofte等[71]将协同表示[72]应用到SR重建, 提出了基于固定邻域回归的SR重建算法, 这种算法通过学习锚定在字典原子上的稀疏表示系数和投影矩阵, 实现快速地SR图像重建. 随后, Yang等[73]提出使用多元线性回归从众多图像子空间中学习一组简单映射函数. Zhang等[74]受此启发将多元线性回归的思想与分类相结合, 直接使用多元线性回归构建每一组特征子空间之间的映射关系. 尽管基于回归的方法与其他基于学习的方法相比, 在性能上取得了显著提高, 但仍存在特定的线性函数对不同退化情况难以建模的问题. 而深度学习技术中的运用激活函数进行非线性特征表示的方法很好地解决了此问题. 有效防止数据过拟合. 例如Dong等[17]提出基于卷积神经网络的非线性回归SR重建方法, 使得图像的质量得到进一步改善.
3.4 基于传统学习的SR重建方法的讨论
综合以上分析, 基于插值的SR重建方法利用待重建HR图像中未知像素和LR图像中已知像素之间的线性或者非线性关系来估计其像素值, 达到分辨率增强的目标. 虽算法简单、易于并行计算, 执行速度快, 但是随着图像放大倍数增加, 重建HR图像会出现边缘平滑、模糊及振铃和锯齿效应等缺陷, 特别是对于场景复杂的自然图像, 重建图像质量较差. 因此, 基于插值的方法比较适合对实时性要求较高、对于放大倍数要求较小、对重建质量效果要求也较低的简单场景下图像的重建. 此类方法属于无样本的单图像超分方法, 未利用高低分辨率样本之间的先验信息进行约束.
基于学习的SR方法是一种有样本的单幅图像SR方法, 通过学习高、低分辨率图像之间的统计关系, 并把这种关系运用到重建过程中, 实现图像的SR重建. 基于样本学习的SR重建方法可细分为基于样例学习、基于稀疏表示和基于回归3种方法.
基于马尔科夫网络的样例学习方法提出了从大量样本中学习LR和HR图像之间先验信息并约束HR重建的思想, 采用马尔科夫网络构建图像和场景的局部区域之间的关系模型, 为基于学习的SR重建奠定了理论基础. 由于训练样本量较大并且学习模型有限, 此类方法的计算量大且泛化性较差. 邻域嵌入法从流形学习中引入局部线性嵌入来处理图像SR任务, 虽在计算量和重建性能上较文献[39]方法有所改善, 但未解决LR和HR图像块的邻域数量和特征表示的问题, 导致模型缺乏纹理和细节的先验性.
相比样例学习通过人为设计的基信号(字典原子)表示信号的方法, 稀疏表示的字典原子是通过建立稀疏先验约束, 由稀疏编码过程中自动学习字典原子. 基于稀疏表示的SR重建认为目标图像可以由过完备稀疏字典中少量原子的线性组合构成, 其他原子的系数为零或近似为零. 考虑到稀疏表示能够通过基本原子信号结构化来表示原信号, 在其表示空间有利于映射关系的学习和建立, 并构建先验信息保持图像的边缘和纹理结构. 但是由于LR和HR图像空间映射关系的多样性、复杂性、空间变化性及高度非线性, 导致重建结果过分依赖训练图像, 对真实自然场景图像的重建效果并不理想.
基于回归的SR重建方法直接建立高低分辨率图像之间的回归模型, 通过回归构建特征子空间之间的非线性映射关系来重建图像. 与样例学习、稀疏表示的方法相比, 虽然基于回归的方法在性能上有显著提升, 但特定的线性回归函数对于非线性数据或者数据特征间具有相关性多项式回归的情况难以建模, 并且难以表达图像块间复杂的特征数据, 未考虑图像场景的复杂性和多样性, 导致映射函数的精度仍然不高, 重建HR图像存在较多的平滑边缘和模糊纹理细节.
4. 基于深度学习的图像SR重建
随着深度学习技术的不断更新, 基于深度学习的SR重建方法在最近几年得到了蓬勃发展. 利用深度学习技术, 不再需要单独的图像块特征提取等预处理过程和后续的HR图像块聚合过程, 利用非线性变换自动学习多层次特征, 更深入地挖掘高、低分辨率图像之间的内在联系. 实践证明, 深度学习方法可用来解决低层视觉问题, 如图像去噪和去模糊[75]. 对于自然图像SR重建, 深层卷积神经网络可以直接学习LR图像和HR图像之间的端到端映射, 重建出LR图像丢失的高频细节信息. 本节将对基于深度学习的图像SR重建的网络模型及其各部分特性进行归纳.
2015年, Dong等[17]首次将卷积神经网络应用于SR重建中, 提出一种端到端的网络结构−−基于CNN的超分辨模型(Super-resolution convolutional neural network, SRCNN), 每个卷积层应用多个不同的滤波器, 这些滤波器在训练期间会自动提取分层特征. 该方法将基于传统的稀疏编码方法与基于深度学习的SR方法联系在一起, 相对于传统稀疏表示的字典学习方法, 过程大大简化. 利用深度学习的方法对图像进行SR重建时的基本思路为: 首先, 将LR图像作为网络的输入, 然后通过卷积层形成特征矩阵, 并对其进行卷积滤波处理形成特征图作为下一层的输入层; 在此期间, 被处理的LR图像特征矩阵和HR图像形成的特征矩阵通过激活函数进行非线性映射, 这是一个复杂的细节预测过程, 将映射后得到的特征矩阵通过重建层获得HR图像, 这属于正向传播过程. 通常在输出HR图像之前还要加入损失函数进行像素比对, 通过反向传播算法来优化网络内部参数和节点模型不断减小输出图像和理想图像之间的差距, 直至损失函数收敛. 近年来出现的深度学习SR网络包括快速超分辨率(Fast super-resolution by CNN, FSRCNN)[76]、亚像素卷积网络(Efficient sub-pixel convolutional neural network, ESPCN)[77]、非常深度卷积网络(VDSR)[78]、深度递归卷积网络(Deeply recursive convolutional network, DRCN)[79]、拉普拉斯金字塔超分辨网络(Laplacian pyramid super-resolution networks, LapSRN)[80]、非常深的残差编码器−解码器网络(Very deep residual encoder-decoder network, RED-Net)[81]、深度递归残差网络(Deep recursive residual network, DRRN)[82]、密集连接超分辨网络(Super-resolution dense convolutional network, SRDenseNet)[83]、生成对抗超分辨网络(Super-resolution generative adversarial network, SRGAN)[84]、记忆网络(Memory network, MemNet)[85]、残差密集网络(Residual dense network, RDN)[86]等. 深度学习SR网络的结构主要由特征提取、细节预测、重建输出等部分组成, 如图3所示.
4.1 网络模型
在深度学习方法中, 图像的特征提取与表示、信息预测以及信息的传递与重建均在复杂的网络架构展现. 与HR图像相比, 其相对应的LR图像丢失了许多细节. 深度卷积神经网络(Convolutional neural network, CNN)采用网络级联的方式来预测LR图像中丢失的细节并重建相应的HR图像, 但这种方式也存在弊端. 如前所述, 网络层数的增多势必会增加参数量, 网络的性能也会随着参数量的增加而降低. 研究表明, 在深度CNN中引入稀疏先验[87]、残差网络(Residual Neural Network, ResNet)[88]、密集连接卷积网络(Dense convolutional network, DenseNet)[89]、生成对抗网络(Generative adversarial networks, GAN)[90]等各种网络, 残差块[91]、密集连接块[92]、跳转连接以及递归单元[79]等多种结构, 会使得SR网络模型更加稳定, 性能更加优越. 基于深度学习的SR模型将以上提到的各种网络与结构进行整合, 通过联合优化获得更好的重建性能.
1)残差学习在图像SR中的应用
残差学习的思想是将前一层的信息与当前层的信息相结合, 并将它们一起传递到下一层. 残差学习是SR重建中用到的最广泛的连接结构, 该结构增强层与层之间学习信息的质量, 同时可以确保前期训练层的信息传递到更深层. Kim等[78]第一次将残差学习融入CNN网络, 提出一种深度卷积神经网络, 用以学习原始LR图像的边缘信息. 残差块是将卷积层、批归一化层(Batch normalization, BN)和线性整流函数(Rectified linear unit, Re-LU)激活层组合在一起的结构. 该网络最早用于分类任务, 而将其直接用于SR效果并不好, 因此不断有学者对其内部进行微调改进. 增强深度超分辨网络(Enhanced deep super-resolution network, EDSR)对残差块内部结构进行改进, Lim等[91]将其中的BN层去掉, 该操作有两点好处: 一是可以减少内存使用量, 从而加快运行时间; 二是去掉归一化后增加了网络范围灵活性. Yu等[93]提出的WDSR使用权重归一化层代替BN, 该操作不仅在网络尺度范围上没有限制, 而且还通过限制权重参数范围有效地减轻了深度SR网络的训练难度. 除了对残差块内部结构进行调整外, 还可以对网络的局部结构或整体结构进行调整. 文献[94]提出深度平行残差网络(Deep parallel residual network, DP-RN)网络, 这是一种深度并行残差网络, 该网络是将每个残差分支初始特征映射到残差组合中进行并行卷积训练, 第一个卷积层将利用此输出进行局部残差学习, 每个分支的输出用于全局残差学习达到提升网络速度和精度的目的.
2)递归神经网络在图像SR中的应用
递归神经网络在SR重建中是以递归单元形式展现, 通过使用递归块来增强输入特征映射的表示, 其原理是接受前一部分输出的浅层特征映射, 并递归地使用特征映射中的代表特征来挖掘LR和HR对之间的内在关系. 文献[79, 92, 95]均以递归网络为原型, 引用该结构进行重建的最大特点是可以实现信息的跨层传递, 减少网络参数. 随着网络的加深, 添加更多的权重层会引入更多的参数, 其模型可能会过度拟合, 对此文献[79]通过一个嵌入网络进行特征提取, 首次在网络中引入递归单元, 当执行更多的递归时, 模型参数不会增加. 随后出现的DRRN、深度递归上下采样网络(Deep recursive up-down sampling network, DRUDN)均是在递归单元内部进行有效调整后, 完成高质量的重建. 在DRUDN中, 每个递归块由一对卷积和反卷积层组成, 所有展开的块通过权值共享减少参数量. 此外, 循环神经网络(Recurrent neural network, RNN)是一种以输入数据的演进方向进行递归且所有循环单元按链式连接的递归神经网络. Li等[96]以RNN结构为核心思想提出一种反馈网络(Super-resolution feedback network, SRFBN), 以细化具有高级信息的低级表示, 该网络结构引入的反馈机制允许该网络携带当前的输出纠正之前的输出状态, 同时对每次迭代施加损失函数促使输出的反馈模块学习到HR图像特征.
3)生成对抗网络在图像SR中的应用
生成对抗网络(GAN)是由Goodfellow等[90]提出并在计算机视觉任务中逐渐发展起来的网络模型. GAN的原理是生成网络和判别网络之间进行相互博弈, 判别器用来区分生成的样本和真实数据, 而生成器学习生成新样本并将判别器的错误最大化. 2017年, GAN网络被应用到SR重建中, Ledig等[84]提出的超分辨率GAN (Super-resolution GAN, SRGAN)利用感知损失和对抗损失来提升恢复出的图片的真实感. 感知损失是利用CNN提取的特征, 通过比较生成图像经过CNN后的特征和目标图片经过CNN后的特征的差异, 使生成图片和目标图片在语义和风格上更相似. 但由于感知质量问题和训练不稳定问题[97]造成输出图片缺乏高频纹理细节, SRGAN生成的图像存在平滑现象. 针对上述问题, 文献[98]提出一种多样化的GAN架构DGAN, 包含多个生成器和一个判别器. 利用多个生成器共享信息和参数, 虽然输入相同, 但每个分支生成的图像不同, 并且会对生成假样本的生成器进行实时更新以得到更为真实的生成图像.
实际上, 为了设计出性能好的SR网络, 将以上提到的网络、单元以及结构相融合是当下一种流行且有效的方式, 例如将全局残差学习和递归单元相结合, 用于缓解网络加深引起的梯度消失和信息缺失等问题. 为了获得更高的重建精度, Tai等[82]设计出52层DRRN模型, 将递归结构引入到残差分支当中, 该模型采用局部和全局残差学习、递归层以及80层MemNet模型, 其中包含长时间存储单元和多个监督. RDN网络[86]将残差块和密集块相结合, 其原理是通过单元与结构之间形成一种连续记忆机制, 首先是局部特征融合, 然后通过局部残差学习传递信息, 接着网络以一种全局特征融合的方式挖掘分层信息, 最后通过全局残差学习将特征映射到高维HR进行上采样操作, 输出重建结果. 以上典型网络的内部结构如表1所示.
表 1 典型深度学习网络内部结构Table 1 The internal structure of a typical deep learning network方法 网络结构 作用 VDSR[78] 残差学习 加快深度网络收敛 DRCN[79] 递归监督、跳跃连接 减缓梯度爆炸或梯度消失, 存储输入信号用于目标预测 DRRN[82] 全局残差学习 学习复杂特征, 帮助梯度传播 局部残差学习 携带丰富的细节信息 递归块 权值共享, 多路径递归连接 SRDenseNet[83] 密集跳跃连接 增强不同层间的特征融合 EDSR[91] 残差块 增强初始层级与深度层级的联系 MemNet[85] 内存块 自适应地学习不同内存的不同权重 递归单元 控制应该保留多少长期内存 门单元 存储多少短期内存 RDN[86] 残差密集块 读取前一个RDN状态, 增强层间连接 连续记忆机制 全局特征融合, 挖掘分层信息 SRFBN[96] 反馈块、反馈机制 共享权重, 帮助更好的高级信息表达; 高级信息回传给低级信息 RCAN[99] 通道注意力机制 分级标定图像低级和高级语义信息 4.2 特征提取
以上提到的深度学习SR方法中, 按空间分辨率来划分, 特征提取分为在LR空间提取特征和在HR空间提取特征两种情况. HR空间特征提取意味着要在HR空间进行卷积操作, 此类方法需要先对LR图像进行双三次插值BI得到与期望的HR图像相同大小的图像, 再输入到网络中进行特征提取, 这种输入与输出相同尺寸的网络结构有利于全局残差结构的构建, 但在较高的分辨率上进行卷积操作, 计算复杂度会随HR图像的空间尺度增大而增长. LR空间特征提取, 就是将LR图像作为网络输入, 在未经插值的原始LR图像上直接提取特征, 重建效率提高, 但网络的输入特征图较小时, 随着网络层数的加深, 容易丢失细节信息. 在基于深度学习的SR发展过程中, 这两种方法都得到广泛应用. 已有的基于深度学习的SR方法的网络输入如表2所示.
表 2 SR网络输入及层数对照表Table 2 Comparison of SR network input and layer number方法 网络输入 网络层数 SRCNN LR + BI 3 FSRCNN LR 8 ESPCN LR 3 VDSR LR + BI 20 DRCN LR + BI 20 LapSRN LR 27 RED LR 30 DRRN LR + BI 52 SRDenseNet LR 64 SRGAN LR + BI 54 MemNet LR + BI 80 RDN LR 20 (RDB) 4.3 模型多尺度化
如何使训练模型多尺度化, 也是众多研究者们关心的问题. 当单尺度模型只可用于与其相对应的比例因子重建HR图像时(如图4(a)所示), 网络训练的参数会随着尺度因子的增多而增多, 虽然增强网络性能最直接的方式是增加参数量(特征层数和特征通道数), 但特征映射层过多将直接导致计算成本加大, 网络性能不稳定. 因此, 建立一种能适用于多尺度因子的网络模型可以在很大程度上提高网络性能[78, 80, 91]. 主要思想是在某一尺度训练模型上测试不同缩放倍数的图像, 如图4(b)所示, 采用多尺度特征映射和子网络并行策略, 使所有预定义的尺度因子共享网络参数. 这种特定尺度多路径学习是在网络的开头和结尾附加特定尺度的预处理路径和上采样路径, 主要共享特征提取的中间部分. 因此, 在训练期间, 只更新与所需尺度对应的路径, 来实现大多数参数在不同尺度上共享. 例如受空间金字塔池化[100]方法的启发, LapSRN采用多尺度权值共享的策略, 通过同一个网络处理不同尺度的图像放大问题. 文献[101]提出的元学习超分辨(Meta-SR)结构, 采用Meta-SR上采样模块动态预测上采样滤波器权重, 以任意上采样因子放大任意LR图像来实现模型多尺度化.
通过文献[102]单尺度模型和多尺度模型的对比实验发现, 单一尺度模型能够很好地恢复具有相应比例因子的HR图像, 多尺度模型实现的结果与相应比例的单尺度模型所获得的结果相当, 但比模型尺度与图像尺度不一致时的结果要好很多. 所以, 用多尺度训练模型来恢复具有不同尺度因子的HR图像, 在不影响重建性能的前提下, 同时能够节约成本, 提高模型稳定性.
4.4 不同应用场景下的SR重建
以上讨论的图像SR重建方法中, 在构建数据集时因无法直接获取高低分辨率图像对, 所采用的做法是在收集HR图像后, 通过双三次下采样人工生成LR图像. 但该下采样方法改变了LR图像的底层特征. 因此, 用上述图像对训练出的SR模型鲁棒性较差, 导致提出的SR方法很难泛化到真实场景中. 近两年, 图像SR重建方法主要针对现实场景下未知退化因子的单图像SR, 称为真实图像SR.
基于真实图像的SR重建的关键是数据集, 采取的网络模型仍以残差块、密集残差结构以及注意力机制[99]等网络内部结构为基础, 如表1所示, 使用多尺度结构对图像特征进行上下采样完成图像SR重建. Cai等[103]提出了基于拉普拉斯金字塔的核预测网络(Laplacian pyramid based kernel prediction network, LP-KPN), 在RealSR数据集上能够有效地学习像素卷积核的权重用于HR图像的重建. Wang 等[104]将残差学习的思想用于立体声图像SR, 提出一个视差注意力立体声SR网络, 该网络采用残差思想以提取丰富的上下文信息, 引入视差注意力机制以建立立体图像的对应关系, 减小计算和存储成本. Pan等[105]对在实际场景中捕获的LR图像进行SR重建, 使用基于高斯过程的神经架构搜索(Gaussian process based neural architecture search, GP-NAS)通过异构模型实现真实图像SR, 基于现有的密集残差网络, 通过改变密集残差块的数量、大小以及特征数量, 利用基于高斯过程的神经体系结构搜索方案GP-NAS, 使用较大的搜索空间来查找候选网络体系结构. Zhang等[106]构建了的真实图像CUFFED5数据集, 并且提出神经纹理迁移的思想实现真实图像SR重建, 该思想包含局部纹理特征匹配和纹理迁移两个部分, 利用参考图像中的纹理以弥补LR图像的细节信息. Bulat等[107]针对真实的人脸图像进行SR重建, 以生成对抗网络(GAN)为基础提出了一个两阶段的重建过程. 同样, 针对人脸和通用场景建立了一个标基于归一化流的超分辨率模型, 在感知质量指标方面也表现出了良好的性能.
4.5 不同降质方式的SR重建
图像降质分为已知降质和未知降质两种. 已知降质是指对图像进行不同尺度、模糊核以及噪声方面的降质. 对于不同降质方式得到的LR图像建立不同的SR模型是近几年的一个发展方向.
对于模糊降质, Zhang等[108]通过研究高斯模糊、运动模糊、Disk模糊, 提出可以去任意模糊核的DPSR模型, 在BSD68数据集上得到了清晰的重建结果. 对于下采样降质, 除双三次插值下采样降质外, Song等[109]针对带噪声的非线性下采样和间隔下采样方式, 提出基于迭代残差学习的框架实现深度图SR重建, 在该框架中, 利用通道注意力机制、多阶段融合、权重共享以及深度细化等粗略到精细的方式学习HR深度图. 对于噪声降质, 哈尔滨工业大学张凯团队提出的去噪卷积神经网络(Denoising onvolutional neural network, DnCNN)[110]、快速灵活的去噪卷积神经网络(Fast and flexible denoising convolutional neural network, FFDN-et)[111]和卷积盲去噪网络(Convolutional blind denoising network, CBDNet)[112]是针对噪声降质图像SR重建的递进的三种方法, 重建对象从均匀的高斯噪声变成更加复杂的真实噪声. DnCNN利用归一化和残差学习可以有效地去除均匀高斯噪声. 然而真实噪声具有信号依赖性、颜色通道相关性以及不均匀性, 基于此FFDNet使用噪声估计作为输入, 在抑制均匀分布的噪声的同时保留细节信息, 实现更加复杂的真实场景的超分辨重建. 在FFDNet的基础上, CBDNet将噪声水平估计过程也用一个子网络实现, 从而使得整个网络实现盲去噪. Zamir等[113]提出的 MIRNet, 是在非常深的残差通道卷积网络 (Very deep residual channel attention networks, RCAN)的基础上通过整个网络维护空间精确的HR表示, 并从LR表示接收强大的上下文信息多尺度特征聚合, 学习丰富的特征以修复和增强真实图像, 同时达到图像去噪的目的. 此外, 上述的LP-KPN、SRFlow也可以完成去噪. Zhang等[114]提出的展开超分辨网络(Unfolding super-resolution network, USRNet)可同时解决不同尺度、模糊、噪声等多种降质问题, 该方法集成了基于学习与基于建模的方法. 通过半二次分裂算法将最大后验概率估计(Maximum a posteriori estimation, MAP)推理展开, 采用固定次数的迭代来求解数据子问题与先验子问题, 通过神经网络模块进行求解两个子问题, 从而得到一个可端到端训练的迭代网络.
5. 基于传统与深度学习SR的联系
基于深度学习实现图像SR重建, 之所以能取得良好的效果, 一方面是因为深层卷积神经网络能够深入挖掘图像的细节特征, 可以直接、自主地学习LR图像和HR图像之间的映射关; 另一方面是因为深度学习方法在应用于SR的过程中, 遵循了图像降质和重建的客观规律, 实际上深度学习的很多做法都是传统方法的延伸, 与传统SR方法既有区别又存在很多关联. 图5展示了上述基于插值、基于浅层学习以及基于深度学习的SR重建方法本质的联系和差异.
5.1 小波变换与深度学习的结合
基于离散小波变换(Discrete wavelet transfo-rm, DWT)的SR重建方法基本思想是将信号分解到不同的分辨率上, 这样分解可以在不同尺度上独立地对信号进行分析和研究, 并且对高频信号采用逐渐精细的频域或时域采样, 从而聚焦到对象的任意细节. 最初将DWT与SR相结合应用的是Ford等[115]提出的基于小波变换的一维信号非均匀采样重建, 而后Nguyen等[116]将该方法拓展到二维信号, 在多分辨率框架下得到了基于小波变换的SR图像重建算法, 取得良好效果并得到了广泛的应用, 随后一些国内研究者[117-120]和国外研究者[121-126]进一步完善了基于小波变换的SR方法. 总之, 基于DWT的SR重建方法包括以下4步:
1)先对原始图像进行降质处理, 得到LR图像.
2)借助小波变换, 将图像分解为水平低频垂直低频分量LL和三个高频分量, 分别为水平高频垂直低频分量HL、水平低频垂直高频分量LH、水平高频垂直高频分量HH. 如图6虚线部分所示.
3)借助SR算法, 有针对性地对每个分量进行算法重建.
4)借助逆离散小波变换(Inverse DWT, IDWT)将重建后得到的分量再重构, 从而得到HR图像.
在以上传统的子带插值SR重建方法的基础上, 有些学者将DWT与深度学习SR算法相结合, 利用小波变换将高低频分离, 运用深度学习方法重建小波域子带, 完成单幅图像SR重建, 如图6阴影区域所示. 例如, Zhang等[120]实验验证了SRGAN恢复的图像纹理细节鲁棒性较差, 为了得到更丰富的高频细节, 将小波变换引入以得到具有丰富全局信息和局部纹理细节的HR图像. 张丽[127]将小波变换和VDSR结合, 研究在不同小波域子带进行内插和深度学习的SR效果, 并探讨了两者相结合的五种SR算法, 将所构造的SR算法应用于一个面向交通监管的SR重建系统. 段立娟等[128]采用多阶段学习策略, 首先推理出HR图像对应的小波系数, 然后重建SR图像, 并且网络模型采用结合图像空域与小波域的损失函数进行优化求解. 孙超等[129]发现基于深度学习的单图像SR方法仅研究图像空域, 忽略了图像频域中高频信息的重要性, 从而导致生成的图像相对平滑, 因此, 其利用小波变换能够提取图像细节的特性, 使用Tai等[82]提出的DR-RN网络模型完成对高频子带的重建, 相比于原始DRRN结构峰值信噪比(Peak signal-to-noise rat-io, PSNR)值提高了26.8%.
5.2 稀疏编码与深度学习的联系
自然图像中的稀疏先验以及源于此先验的HR和LR空间之间的关系被广泛应用于SR重建中. 在传统方法的启发下, 深度学习网络对这个关系进行了深度挖掘. 以深度学习与传统的稀疏编码之间的关系作为依据, 可以将SR重建过程分为图像块提取、非线性映射、上采样重建三个阶段. 在特征提取方面, 传统的SR方法通过邻域嵌入(第4.2节)和构造字典(第4.3节)等方法完成人工设计图像块特征提取. 深度学习技术可以通过多层卷积操作和网络的反复训练自动提取特征, 再结合激活函数层完成对数据的拟合和非线性映射, 以实现图像多层次特征的学习和提取. 例如Wang等[130]提出基于稀疏编码网络的方法(Sparse coding based network, SCN), 借鉴基于稀疏表示SR重建的思想, 将原方法中稀疏表示、映射、重建三个独立优化的模块集成到一个稀疏网络中. 网络的训练相当于对三个模块协同优化, 因而可得到全局最优解. 该方法首先通过特征提取层得到图像的稀疏先验信息; 然后, 通过基于学习的迭代收缩和阈值算法(Learned iterative shrinkage and thresholding algorithm, LISTA)[131]建立了一个稀疏网络SCN, 该网络可实现图像的稀疏编码和解码; 最后, 采用级联网络完成图像放大, 该方法能够在更高放大倍数下提高PSNR值, 且算法运行速度进一步提升. 作者进一步推出了使用多个SCN的级联版本[132], 在客观评价和主观评价上都得到了改进. 因此, SCN实际上可看作通过CNN实现了基于稀疏编码SR方法, 采用LISTA得到基于神经网络产生稀疏编码的近似估计, 解决基于传统稀疏编码SISR的时间消耗推理问题.
5.3 上采样重建方法的发展
通常在SR网络末端, 为了构建HR图像都会进行解码, 即上采样过程. 基于传统方法的上采样采用的方法通常为插值法(第2节), 包括最邻近插值、双线性插值和双三次插值, 但插值上采样通常信息冗余大, 映射能力小. 为解决上述问题, SR领域出现几种可以嵌入到深度学习网络模型中的上采样方法, 分别是转置卷积层[76, 82, 102]、亚像素卷积层[77, 91, 102]、任意尺度缩放(Meta-Upscale)[100]、内容感知特征重组(Content-aware reassembly of features, CAPAFE)[133]. 1)转置卷积层将被下采样的小尺度抽象信息上采样到原来的分辨率. FSRCNN首次将转置卷积层引入SR网络中, 提出通过改变反卷积层滤波器的大小将图像上采样到不同的尺度, 从而实现输出多尺度. 2) ESPCN中亚像素卷积结构, LR图像经特征提取后得到一个通道数为、大小和输入图像相同的特征图像, 再将将不同通道上同一个位置的r的平方个像素排列成r × r的区域, 对应HR的的子块, 最终输出HR图像. 3) Meta-SR中提出的上采样模块可以完成图像任意尺度缩放, 动态预测放缩的权值及像素的对应关系, 实现较好效果的非整数倍放缩. 4) CAPAFE提出一种内容感知重组模块进行上采样, 该模块用于利用计算得到的权重将通道转化成一个 的矩阵作为内核, 与原本输入的特征图上的对应点及以其为中心点的区域做卷积计算来获得输出, 计算速度快.
6. 数据集及SR图像评价方法
6.1 图像SR重建数据集
目前, 已经公布了许多专门用于图像SR重建的数据集. 深度学习出现之前, 大部分超分辨重建方法都是采用人工特征, 并在小型数据集上验证了方法的性能. 文献[134]详细介绍了传统SR算法中最常用的数据集, 本文重点介绍基于深度学习SR算法中常用的9个数据集及其主要参数.
首先介绍Yang等[9]的数据集、Berkeley Segmentation的数据集[135]和DIV2K数据集[136], 这些是供训练使用的数据集. Yang等[9]的数据集有91幅图像, Berkeley Segmentation数据集有200幅SR重建基准图像, 包含一些人像、植物和动物等, 这两个数据集使用最为广泛; DIV2K是近两年SR重建研究中广泛使用的较大型数据集, 用于挑战NTIRE比赛(例如CVPR 2017和CVPR 2018)和Perceptual Image Restoration and Manipulation (PIRM)比赛(例如ECCV 2018), 其中包含1000幅2K高清晰度RGB图像, 并提供降尺度因子为2、3和4的HR和LR图像.
除上述三个训练数据集之外, Set5[137]、Set14[49]、BSD100[135]、Urban100[138]、manga109[139]和Sun-80[140]测试集均是供测试使用的数据集. Set5、Set14、BSD100、Urban100是SR重建的4个基准数据集, 其中Set5、Set14分别包含5幅、14幅图像, BSD100是来自Berkeley Segmentation数据集的100幅自然图像, Urban100包含100幅具有挑战性的不同时间段的城市场景图像, Manga109是日本漫画数据集. Sun80数据集具有80幅自然图像, 每个图像都带有一系列的网络搜索参考.
近几年, 研究者们构建了一些用于SR重建的真实图像数据集, 其中包括CUFED5[106]、RealSR[103]、DRealSR[141]、City100[142]、SR-Row[142]、LOL数据集[143]和MIT-Adobe FiveK数据集[144]等. CU-FED5数据集提供了训练和测试集, 并在内容、纹理、颜色、照明和视点等方面具有不同相似度的参考. RealSR数据集是在相同场景下通过调整单反相机的焦距获取真实图像数据集, 在长焦距下获得HR图像, 在短焦距下获得对应的LR图像. DRealSR由5种不同的单反相机(佳能、索尼、尼康、奥林巴斯和松下)拍摄的室内外广告海报、植物、办公室、建筑物等构成. City100数据集是在室内环境下拍摄的纸质明信片图像. 大型数据集对于提高深度卷积神经网络的性能非常重要, 所以在数据集较少的情况下会对数据集进行扩充, 一方面可以对数据集中图片进行0.5、0.6、0.7、0.8、0.9等倍数的缩小; 另一方面可对数据集中图像进行不同角度的旋转.
6.2 常用图像SR重建评价指标和方法
在SR重建方法不断发展的过程中, 研究者们提出了一系列评价指标来评估各种方法对图像进行SR重建的效果, 表3从方法特点、方法类别以及方法适用场景等多方面对SR重建质量评价方法进行了多维度的总结. 常用评估方法包括: 平均主观得分(Mean opinion score, MOS)、平均主观得分差异(Dierential mean opinion score, DMOS)、均方误差(Mean square error, MSE)、结构相似性(Structural similarity index, SSIM)、多尺度结构相似性(Multi-scale structural similarity, MS-SSIM)、特征结构相似性(Feature structural similarity, FSIM)、视觉信息保真度(Visual information fidelity, VIF)、信息保真度准则(Information fidelity criterion, IFC)、非对齐参考图像质量评估(Non-aligned reference image quality assessment, NAR-DCNN)[145]、主观感知质量(Perceptual index, PI)[147]、Ma[148]、自然图像质量评估器(Natural image quality evaluator, NIQE)、图像完整性标注器(Image integrity notator using DCT Statistics, BLIINDS)[149]、盲图像质量指标(Blind image quality index, BIQI)[150]、盲/无参考图像空间质量评估器(Blind reference image spatial quality evaluator, BRISQUE)[151]、学习感知图像块相似度(Lear-ned perceptual image patch similarity, LPIPS)[146]、深度双线性CNN图像质量评价(Deep bilinear CNN, DB-CNN)[152]、基于排名学习的无参考图像质量评估(Rankings image quality assessment, Rank-IQA)[153]、基于深度学习的图像质量指数(Deep learning based Image quality index, DIQI)[154].
表 3 SR重建图像常用质量评价方法Table 3 Common quality evaluation methods for SR reconstructed images特点 类别 常用评估方法 适用场景 优缺点 使用方法 主观 全参考 基于评分 MOS/DMOS 不受距离、设备、光照、及观测者的视觉能力、情绪等因素影响的情况 优点: 能够真实的反映图像的直观质量, 评价结果可靠, 无技术障碍. 缺点: 无法应用数学模型对其进行描述, 耗时多、费用高. 易受观测动机、观测环境等诸多因素的影响. 根据评分表分别对参考图像和待测图像评分 客观 全参考
(真值图像 + 失真图像)基于像素 MSR/PSNR — 优点: 计算形式上非常简单, 物理意义理解也很清晰. 缺点: 未考虑将人类视觉系统特性, 单纯从数学角度来分析差异, 未与图像的感知质量产生联系. — 基于人类视觉系统 (结构和特征) SSIM/MS-SSIM/
FSIM/VIF/IFC参考图像完整的情况 优点: 从整体上直接模拟HVS(人类视觉系统)抽取对象结构的人类视觉功能, 更符合视觉感知. 缺点: 从图像像素值的全局统计出发, 未考虑人眼的局部视觉因素, 对于图像局部质量无从把握. 所有像素点对应比较 基于深度学习 NAR-DCNN[145]/
LPIPS[146]— — — — 盲参考
(失真图像)基于感知/概率模型 PI[147]/Ma[148]/
NIQE[149]/
BLIINDS[150]/
BIQI[151]/
BRISQUE[151]无参考图像的情况. 无需参考图像, 灵活性强. 优点: 直接从原始图像像素学习判别图像特征, 而不使用手工提取特征. 共性: 首先对理想图像的特征做出某种假设, 转化成一个分类或回归问题; 再为该假设建立相应的数学分析模型, 学习特征; 最后通过计算待评图像在该模型下的表现特征, 从而得到图像的质量评价结果. 特征由自然场景统计提取 基于深度学习
(网络模型)DB-CNN[152]/
RankIQA[153]/
DIQI[154]CNN/CNN+回归模型提取特征 7. 结束语
SR重建是计算机视觉领域中的一个典型问题, SR重建技术在实际生活中具有良好的应用前景, 因此目前SR图像重建, 尤其是结合深度学习技术的SR图像重建处于深度研究阶段. 之前, 无论是传统的SR重建方法还是基于深度学习的SR重建方法, 研究工作均围绕提高图像重建准确性、节约计算成本和提高时间效率等方面展开. 近年来, 随着真实图像数据集的不断扩大和硬件设备性能的不断提升, 基于深度学习的真实图像SR重建技术获得了良好发展. 今后的研究可以从应用场景、降质方式、网络设计和评价指标四个方面展开:
1)针对不同应用场景, 设计更具针对性的网络模型. 目前SR重建方法的研究多是基于特定自然图像数据集, 与各种各样的深度学习网络模型结合取得了良好效果, 例如由于LR和HR有非常高的关联度, 残差网络的思想在图像SR中应用效果良好; 为了减少参数量, 采用递归神经网络; 近几年, GAN网络也不断发展并成功应用于SR重建中. 由于不同领域的图像有各自的特点, 例如医学图像、SAR图像、交通监控图像、夜视图像等, 针对具体应用领域有针对性地选择和设计网络是提高重建性能、提高技术实用性的关键因素.
2)针对不同降质方式建立自适应的退化模型提高SR网络的针对性, 或者建立普适的退化模型提高SR网络的泛化能力. 首先, 在建立成像退化模型的过程中, 研究者对图像噪声以及图像模糊核的估计鲜有研究和讨论, 往往将噪声默认为加性高斯白噪声, 并未考虑系统噪声和量化噪声等. 所以, 在SR重建研究中, 针对不同降质方式建立适合的模型会大大增强重建的针对性与准确性. 其次, 设计适应性强的模型来处理任意噪声和模糊核是提高SR网络泛化能力的重要手段.
3)网络模型的设计. SR重建网络大多由特征提取与重建两部分构成. 在后续研究中, 对于前者需要探索更多卷积模式和特征提取方法, 例如局部、全局与多尺度特征融合, 自适应卷积核、通道和空间注意力机制以及空洞卷积的合理使用等; 对于后者, 在不增添冗余且无效信息的情况下改进上采样层, 使其充分利用特征提取部分提取到的特征完成特征图大尺度上采样重建, 尽量减少图像特征的损失, 提升网络的鲁棒性.
4)图像的盲超分和盲评估. 若想应用于实际场景, 设计一种对单幅图像进行盲SR重建的技术是未来的趋势, 即一幅低质量图像的重建不依靠高低分辨率图像对的学习, 而是通过对不成对图像的学习与表示或者对单幅图像周围像素点的充分学习来训练模型, 以供未知降质图像完成重建. 对于重建结果的评价指标, 全参考评级指标若想保证评价结果公正且合理, 后续的设计应权衡主观和客观两方面完成, 无参考评价指标(盲评估)是现在和未来用于评估真实图像SR方法性能的趋势.
-
表 1 典型深度学习网络内部结构
Table 1 The internal structure of a typical deep learning network
方法 网络结构 作用 VDSR[78] 残差学习 加快深度网络收敛 DRCN[79] 递归监督、跳跃连接 减缓梯度爆炸或梯度消失, 存储输入信号用于目标预测 DRRN[82] 全局残差学习 学习复杂特征, 帮助梯度传播 局部残差学习 携带丰富的细节信息 递归块 权值共享, 多路径递归连接 SRDenseNet[83] 密集跳跃连接 增强不同层间的特征融合 EDSR[91] 残差块 增强初始层级与深度层级的联系 MemNet[85] 内存块 自适应地学习不同内存的不同权重 递归单元 控制应该保留多少长期内存 门单元 存储多少短期内存 RDN[86] 残差密集块 读取前一个RDN状态, 增强层间连接 连续记忆机制 全局特征融合, 挖掘分层信息 SRFBN[96] 反馈块、反馈机制 共享权重, 帮助更好的高级信息表达; 高级信息回传给低级信息 RCAN[99] 通道注意力机制 分级标定图像低级和高级语义信息 表 2 SR网络输入及层数对照表
Table 2 Comparison of SR network input and layer number
方法 网络输入 网络层数 SRCNN LR + BI 3 FSRCNN LR 8 ESPCN LR 3 VDSR LR + BI 20 DRCN LR + BI 20 LapSRN LR 27 RED LR 30 DRRN LR + BI 52 SRDenseNet LR 64 SRGAN LR + BI 54 MemNet LR + BI 80 RDN LR 20 (RDB) 表 3 SR重建图像常用质量评价方法
Table 3 Common quality evaluation methods for SR reconstructed images
特点 类别 常用评估方法 适用场景 优缺点 使用方法 主观 全参考 基于评分 MOS/DMOS 不受距离、设备、光照、及观测者的视觉能力、情绪等因素影响的情况 优点: 能够真实的反映图像的直观质量, 评价结果可靠, 无技术障碍. 缺点: 无法应用数学模型对其进行描述, 耗时多、费用高. 易受观测动机、观测环境等诸多因素的影响. 根据评分表分别对参考图像和待测图像评分 客观 全参考
(真值图像 + 失真图像)基于像素 MSR/PSNR — 优点: 计算形式上非常简单, 物理意义理解也很清晰. 缺点: 未考虑将人类视觉系统特性, 单纯从数学角度来分析差异, 未与图像的感知质量产生联系. — 基于人类视觉系统 (结构和特征) SSIM/MS-SSIM/
FSIM/VIF/IFC参考图像完整的情况 优点: 从整体上直接模拟HVS(人类视觉系统)抽取对象结构的人类视觉功能, 更符合视觉感知. 缺点: 从图像像素值的全局统计出发, 未考虑人眼的局部视觉因素, 对于图像局部质量无从把握. 所有像素点对应比较 基于深度学习 NAR-DCNN[145]/
LPIPS[146]— — — — 盲参考
(失真图像)基于感知/概率模型 PI[147]/Ma[148]/
NIQE[149]/
BLIINDS[150]/
BIQI[151]/
BRISQUE[151]无参考图像的情况. 无需参考图像, 灵活性强. 优点: 直接从原始图像像素学习判别图像特征, 而不使用手工提取特征. 共性: 首先对理想图像的特征做出某种假设, 转化成一个分类或回归问题; 再为该假设建立相应的数学分析模型, 学习特征; 最后通过计算待评图像在该模型下的表现特征, 从而得到图像的质量评价结果. 特征由自然场景统计提取 基于深度学习
(网络模型)DB-CNN[152]/
RankIQA[153]/
DIQI[154]CNN/CNN+回归模型提取特征 -
[1] Park S C, Park M K, Kang M G. Super-resolution image reconstruction: A technical overview. IEEE Signal Processing Magazine, 2003, 20(3): 21-36. doi: 10.1109/MSP.2003.1203207 [2] Morin R, Basarab A, Kouame D. Alternating direction method of multipliers framework for super-resolution in ultrasound imaging. In: Proceedings of the 9th IEEE International Symposium on Biomedical Imaging. Barcelona, Spain: IEEE, 2012. 1595−1598 [3] Cui J, Wang Y, Huang J, Tan T, Sun Z. An iris image synthesis method based on PCA and super-resolution. In: Proceedings of the 17th International Conference on Pattern Recognition. Cambridge, UK: 2004. 471−474 [4] Nguyen K, Sridharan S, Denman S, Fookes C. Feature domain super-resolution framework for Gabor-based face and iris recognition. In: Proceedings of the 25th IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012. 2642−2649 [5] Harris J L. Diffraction and resolving power. Journal of the Optical Society of America, 1964, 54(7): 931-933. doi: 10.1364/JOSA.54.000931 [6] Goodman J W. Introduction to Fourier Optics. New York: McGraw-Hill, 1968. [7] Tsai R, Huang T. Multiframe image restoration and registration. Computer Vision and Image Processing, 1984, 1(2): 317-339. [8] Yang J, Wright J, Huang T S, Ma Y. Image super-resolution as sparse representation of raw image patches. In: Proceedings of the 26th IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008. [9] Yang J, Wright J, Huang T S, Ma Y. Image super-resolution via sparse representation. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873. doi: 10.1109/TIP.2010.2050625 [10] Nguyan N, Golub G, Milanfar P. Preconditioners for regularized image super resolution. In: Proceedings of the 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, USA: IEEE, 1999. 3249−3252 [11] Yu G, Sapiro G, Mallat S. Solving inverse problems with piecewise linear estimators: From gaussian mixture models to structured sparsity. IEEE Transactions on Image Processing, 2012, 21(5): 2481-2499. doi: 10.1109/TIP.2011.2176743 [12] Elad M, Feuer A. Restoration of a single super resolution image from several blurred, noisy, and under sampled measured images. IEEE Transactions on Image Processing, 1997, 6(12): 1646-1658. doi: 10.1109/83.650118 [13] Timofte R, De Smet V, Van Gool L. A+: Adjusted anchored neighborhood regression for fast super-resolution. In: Proceedings of the 12th Asian Conference on Computer Vision. Singapore: 2014. 111−126 [14] Cui Z, Chang H, Shan S, Zhong B, Chen X. Deep network cascade for image super-resolution. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: 2014. 49−64 [15] Song H, Zhang L, Wang P, Zhang K, Li X. AN adaptive L1-L2 hybrid error model to super-resolution. In: Proceedings of the 2010 IEEE International Conference on Image Processing. Hong Kong, China: IEEE, 2010. 2821−2824 [16] Wang S, Zhang L, Liang Y, Pan Q. Semi-coupled dictionary learning with applications to image super-resolution and photo-sketch synthesis. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012. 2216−2223 [17] Dong C, Loy C C, He K, Tang X. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(2): 295-307. [18] Zhu Y, Zhang Y, Yuille A L. Single image super-resolution using deformable patches. In: Proceedings of the 27th IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 2917−2924 [19] Gao X, Zhang K, Tao D, Li X. Image super-resolution with sparse neighbor embedding. IEEE Transactions on Image Processing, 2012, 21(7): 3194-3205. doi: 10.1109/TIP.2012.2190080 [20] Dong W, Zhang L, Shi G, Wu X. Image deblurring and super-resolution by adaptive sparse domain selection and adaptive regularization. IEEE Transactions on Image Processing, 2011, 20(7): 1838-1857. doi: 10.1109/TIP.2011.2108306 [21] 岳波. 基于学习的图像超分辨率重建方法研究[博士论文], 西安电子科技大学, 中国, 2019Yue Bo. Study on Learning-Based Image Super-Resolution Method [Ph.D. dissertation], Xidian University, China, 2019 [22] 苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, 2013, 39(8): 1202-1213.Su Heng, Zhou Jie, Zhang Zhi-Hao. Survey of Super-resolution Image Reconstruction Methods. Acta Automatica Sinica, 2013, 39(8): 1202-1213(in Chinese) [23] 孙旭, 李晓光, 李嘉锋, 卓力. 基于深度学习的图像超分辨率复原研究进展[J]. 自动化学报, 2017, 43(5): 697-709.Sun Xu, Li Xiao-Guang, Li Jia-Feng, Zhuo Li. Review on Deep Learning Based Image Super-resolution Restoration Algorithms. Acta Automatica Sinica, 2017, 43(5): 697-709(in Chinese) [24] Wang Z H, Chen J, C. H. Hoi S. Deep Learning for Image Super-resolution: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence2021, 43(10): 3365-3387 [25] Baker S, Kanade T. Limits on super-resolution and how to break them. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(9): 1167-1183. doi: 10.1109/TPAMI.2002.1033210 [26] Gerchberg R W. Super-resolution through error energy reduction. Journal of Modern Optics, 1974, 21(9): 709-720. [27] Santis P D, Gori F. On an iterative method for super-resolution[J]. Journal of Modern Optics, 1975, 22(8): 691-695. [28] Prashanth H S, Shashidhara H L, Balasubramanya M K N. Image scaling comparison using universal image quality index. In: Proceedings of the 2009 International Conference on Advances in Computing, Control and Telecommunication Technologies. Trivandrum, India: IEEE, 2009. 859−863 [29] Gribbon K T, Bailey D G. A novel approach to real-time bilinear interpolation. In: Proceedings of the 2nd IEEE International Workshop on Electronic Design, Test and Application. Perth, Australia: IEEE, 2004. 126−131. [30] Keys R G. Cubic convolution interpolation for digital image processing. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1981, 29(6): 1153-1160. doi: 10.1109/TASSP.1981.1163711 [31] Kwok W, Sun H. Multi-directional interpolation for spatial error concealment. IEEE Transactions on Consumer Electronics, 1993, 39(3): 455-460. doi: 10.1109/30.234620 [32] Li X, Orchard M T. New edge-directed interpolation. IEEE Transactions on Image Processing, 2001, 10(10): 1521-1527. doi: 10.1109/83.951537 [33] Chen M J, Huang C H, Lee W L. A fast edge-oriented algorithm for image interpolation. Image and Vision Computing, 2005, 23(9): 791-798. doi: 10.1016/j.imavis.2005.05.005 [34] Zhang X, Wu X. Image interpolation by adaptive 2D autoregressive modeling and soft-decision estimation. IEEE Transactions on Image Processing, 2008, 17(6): 887-896. doi: 10.1109/TIP.2008.924279 [35] Hennings-Yeomans P H, Baker S, Kumar B V K V. Simultaneous super-resolution and feature extraction for recognition of low-resolution faces. In: Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE, 2008. [36] Babacan S D, Molina R, Katsaggelos A K. Total variation super resolution using a variational approach. In: Proceedings of the 15th IEEE International Conference on Image Processing. San Diego, USA: IEEE, 2008. 641−644 [37] Farsiu S, Robinson M D, Elad M, Milanfar P. Fast and robust multiframe super resolution. IEEE Transactions on Image Processing, 2004, 13(10): 1327-1344. doi: 10.1109/TIP.2004.834669 [38] Aly H A, Dubois E. Image up-sampling using total-variation regularization with a new observation model. IEEE Transactions on Image Processing, 2005, 14(10): 1647-1659. doi: 10.1109/TIP.2005.851684 [39] Freeman W T, Pasztor E C, Carmichael O T. Learning low-level vision. In: Proceedings of the 7th IEEE International Conference on Computer Vision. Piscataway, USA: 1999. 1182− 1189 [40] Wang Q, Tang X, Shum H. Patch based blind image super resolution. In: Proceedings of the 10th IEEE International Conference on Computer Vision. Beijing, China: IEEE, 2005. 709−716 [41] Chang H, Yeung D Y, Xiong Y. Super resolution through neighbor embedding. In: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington DC, USA: IEEE, 2004. 1275−1282 [42] Chan T M, Zhang J, Pu J, Huang H. Neighbor embedding based super-resolution algorithm through edge detection and feature selection. Pattern Recognition Letters, 2009, 30(5): 494-502. doi: 10.1016/j.patrec.2008.11.008 [43] Gao X, Zhang K, Tao D, Li X. Joint Learning for single-image super-resolution via a coupled constraint. IEEE Transactions on Image Processing, 2012, 21(2): 469-480. doi: 10.1109/TIP.2011.2161482 [44] Aharon M, Elad M, Bruckstein A. K-SVD: an algorithm for designing overcompletes dictionaries for sparse representation. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322. doi: 10.1109/TSP.2006.881199 [45] Zhang L, Dong W, Zhang D, Shi G. Two-stage image denoising by principal component analysis with local pixel grouping[J]. Pattern Recognition, 2010, 43(4): 1531-1549. doi: 10.1016/j.patcog.2009.09.023 [46] Tropp J, Gilbert A. Signal Recovery from Random Measurements via Orthogonal Matching pursuit. IEEE Transactions Information Theory, 2007, 53(12): 4655-4666. doi: 10.1109/TIT.2007.909108 [47] Daubechies, Defrise M, Mol C D. An iterative thresholding algorithm for linear inverse problems with a sparsity constraint. Communications on Pure and Applied Mathematics, 2004, 57(11): 1413-1457. doi: 10.1002/cpa.20042 [48] 潘宗序, 禹晶, 胡少兴, 孙卫东. 基于多尺度结构自相似性的单幅图像超分辨率算法. 自动化学报, 2014, 40(04): 594-603.Pan Zong-Xu, Yu Jing Hu Shao-Xing, Sun Wei-Dong. Single Image Super Resolution Based on Multi-scale Structural Self-similarity. Acta Automatica Sinica, 2014, 40(04): 594-603. [49] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations. In: Proceedings of the 7th International Conference on Curves and Surfaces, Curves and Surfaces. Avi-gnon, France: 2012. 711−730 [50] Yang J, Wang Z, Lin Z, Cohen S, Huang T. Couple dictionary training for image super-resolution[J]. IEEE Transactions on Image Processing, 2012, 21(8): 3467-3487. doi: 10.1109/TIP.2012.2192127 [51] He L, Qi H, Zaretzki R. Beta process joint dictionary learning for coupled feature spaces with application to single image super-resolution. In: Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: 2013. 345−352 [52] Yang W, Tian Y, Zhou F. Consistent coding scheme for single image super-resolution via independent dictionaries[J]. IEEE Transactions on Multimedia, 2016, 18 (3): 313-325. doi: 10.1109/TMM.2016.2515997 [53] Zhao J, Hu H, Cao F. Image super-resolution via adaptive sparse representation[J]. Knowledge-Based Systems, 2017, 124(5): 23-33. [54] Wang J, Zhu S, Gong Y. Resolution-invariant image representation and its applications. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Mia-mi, USA: IEEE, 2009. 2512−2519 [55] Lu X, Yuan H, Yan P, Yuan Y, Li X. Geometry constrained sparse coding for single image super resolution. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012. 1648−1655 [56] Dong W, Zhang L, Shi G. Centralized sparse representation for image restoration. In: Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: 2011. 1259−1266 [57] Dong W S, Zhang L, Lukac R, Shi G. Sparse representation based image interpolation with nonlocal autoregressive modeling. IEEE Transactions on Image Processing, 2013, 22(4): 1382-1394. doi: 10.1109/TIP.2012.2231086 [58] Glasner D, Bagon S, Irani M. Super-resolution from a single image. In: Proceedings of the 12th IEEE International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009. 349−356 [59] Dong W, Zhang L, Shi G, Li X. Nonlocally centralized sparse representation for image restoration. IEEE Transactions on Image Processing, 2013, 22(4): 1620-1630. doi: 10.1109/TIP.2012.2235847 [60] Yang S. Wang, M. Sun Y, Sun F, Jiao L. Compressive sampling based single-image super-resolution reconstruction by dual-sparsity and non-local similarity regularizer. Pattern Recognition Letters, 2012, 33(9): 1049-1059. [61] Li J, Gong W, Li W. Dual-sparsity regularized sparse representation for single image super-resolution. Information Sciences, 2015, 298(3): 257-273. [62] Shi J, Qi C. Low-rank sparse representation or single image super-resolution via self-similarity learning. In: Proceedings of the 23rd IEEE International Conference on Image Processing. Pho-enix, USA: IEEE, 2016. 1424−1428 [63] Li J, Wu J, Deng H, Liu J. A self-learning image super-resolution method via sparse representation and non-local similarity. Neurocomputing, 2016, 184(5): 196-206. [64] 李进明. 基于稀疏表示的图像超分辨率重建方法研究[博士论文]. 重庆大学, 中国, 2015Li Jin-Ming. Research on Sparse Representation Based Image Super-Resolution Reconstruction Method[Ph.D. dissertation], Chongqing University, China, 2015 [65] Lu X, Yuan Y, Yan P. Alternatively constrained dictionary learning for image super resolution. IEEE transactions on Cybernetics, 2014, 44(3): 366-377. doi: 10.1109/TCYB.2013.2256347 [66] Kim K I, Kwon Y. Single-image super-resolution using sparse regression and natural image prior. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(6): 1127-1133. doi: 10.1109/TPAMI.2010.25 [67] Kim K I, Kwon Y. Example-based learning for single-image super-resolution. In: Proceedings of the 30th DAGM Symposium on Pattern Recognition. Munich, Germany: 2008. 456−465 [68] Deng C, Xu J, Zhang K, Tao D, Gao X, Li X. Similarity constraints-based structured output regression machine: An approach to image super-resolution. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(12): 2472-2485. doi: 10.1109/TNNLS.2015.2468069 [69] He H, Siu W C. Single image super-resolution using Gaussian process regression. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA: IEEE, 2011. 449−456 [70] Wang H, Gao X, Zhang K, Li J. Single image super-resolution using Gaussian process regression with dictionary-based sampling and student-t likelihood. IEEE Transactions on Image Processing, 2017, 26(7): 3556-3568. [71] Timofte R, De V, Gool L V. Anchored neighborhood regression for fast example-based super-resolution. In: Proceedings of the 14th IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 1920−1927 [72] Timofte R, Van Gool L. Adaptive and weighted collaborative representations for image classification. Pattern Recognition Letters, 2014, 43(1): 127-135. [73] Yang C Y, Yang M H. Fast direct super-resolution by simple functions. In: Proceedings of the 14th IEEE International Conference on Computer Vision. Sydney, Australia: 2014. 561−568 [74] Zhang K, Tao D, Gao X, Li X, Xiong Z. Learning multiple linear mappings for efficient single image super- resolution. IEEE Transactions on Image Processing, 2015, 24(3): 846-861. doi: 10.1109/TIP.2015.2389629 [75] Sun J, Cao W, Xu Z, Sun J, Cao W, Xu Z, et al. Learning a convolutional neural network for non-uniform motion blur removal. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: 2015. 769−777 [76] Dong C, Loy C C, Tang X. Accelerating the super-resolution convolutional neural network. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: 2016. 391−407 [77] Shi W, Caballero J, Huszar F, Totz J, Aitken A, Bishop R, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1874−1883 [78] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1646−1654 [79] Kim J, Lee J M, Lee K M. Deeply-recursive convolutional network for image super-resolution. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recogniti-on. Las Vegas, USA: IEEE, 2016. 1637−1645 [80] Lai W S, Huang J B, Ahuja N, Yang M H. Deep laplacian pyramid networks for fast and accurate super-resolution. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 5835−5843 [81] Mao X J, Shen C, Yang Y B. Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections. In: Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain: 2016. 2810−2818 [82] Tai Y, Yang J, Liu X. Image super-resolution via deep recursive residual network. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 2790−2798 [83] Tong T, Li G, Liu X, Gao Q. Image super-resolution using dense skip connections. In: Proceedings of the 16th IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 4799−4807 [84] Ledig C, Theis L, Huszar F, Caballero J, Cunningham A, Acosta A, et al. Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 105−114 [85] Tai Y, Yang J, Liu X, Xu C. MemNet: A persistent memory network for image restoration. In: Proceedings of the 16th International Conference on Computer Vision. Venice, Italy: 2017. 4539−4547 [86] Zhang Y, Tian Y, Kong Y, Zhong B, Fu Y. Residual dense network for image super-resolution. In: Proceedings of the 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 2472−2481 [87] Wang Z, Liu D, Yang J, Han W, Huang T. Deep networks for image super-resolution with sparse prior. In: Proceedings of the 15th IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 370−378 [88] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 770−778 [89] Huang G, Liu Z, Weinberger K Q. Densely connected convolutional networks. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 2261−2269 [90] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 28th Annual Conference on Neural Information Processing Systems. Montreal, Canada: 2014. 2672−2680 [91] Lim B, Son S, Kim H, Nah S, Lee K M. Enhanced deep residual networks for single image super-resolution. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: 2017. 1132−1140 [92] Feng Z, Lai J, Xie X, Zhu J. Image super-resolution via a densely connected recursive network. Neurocomputing, 2018, 316(11): 270-276. [93] Yu J, Fan Y, Yang J, Xu N. Wide activation for efficient and accurate image super-resolution, Technical report and factsheet [Online], available: https://arxiv.org/abs/1808.08718, December 21, 2018. [94] Sha F, Zandavi S M, Chung Y Y. Fast deep parallel residual network for accurate super resolution image processing. Expert Systems with Applications, 2019, 128(8): 157-168. [95] Li Z, Li Q, Wu W, Yang J, Li Z, Yang X. Deep recursive up-down sampling networks for single image super-resolution. Neurocomputing, 2020, 398(7): 377-388. [96] Li Z, Yang J, Liu Z, Yang X, Jeon G, Wu W. Feedback network for image super-resolution. In: Proceedings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 3862−3871 [97] Cao Y, He Z, Ye Z, Li X, Cao Y, Yang J. Fast and accurate single image super-resolution via an energy-aware improved deep residual network. Signal Processing, 2019, 162(9): 115-125. [98] Zareapoor M, Celebi M. E, Yang J. Diverse adversarial network for image super resolution. Signal Processing: Image Communication, 2019, 74(5): 191-200. [99] Zhang Y, Li K, Li K, Wang L, Zhong B, Fu Y. Image super-resolution using very deep residual channel attention networks. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 294−310 [100] He K, Zhang X, Ren S, Sun J. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. doi: 10.1109/TPAMI.2015.2389824 [101] Hu X, Mu H, Zhang X, Wang Z, Tan T, Sun J. Meta-SR: A magnification-arbitrary network for super-resolution. In: Proce-edings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 1575−1584 [102] Zhang F, Cai N, Cen G, Li F, Wang H, Chen X. Image super-resolution via a novel cascaded convolutional neural network framework. Signal Processing Image Communication, 2018, 63(4): 9-18. [103] Cai J, Zheng H, Yong H, Cao Z, Zhang L. Toward real-world single image super-resolution: A new benchmark and a new model. In: Proceedings of the 17th IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 3086−3095 [104] Wang L, Wang Y, Liang Z, Lim Z, Yang J, An W, et al. Learning parallax attention for stereo image super-resolution. In: Proceedings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: 2019. 12242−12251 [105] Pan Z, Li B, Xi T, Fan Y, Zhang G, Liu J, et al. Real image super resolution via heterogeneous model using GP-NAS. In: Proceedings of the the 16th European Conference on Compu-ter Vision. Glasgow, United kingdom: Springer, 2020. 423− 436 [106] Zhang Z, Wang Z, Lin Z, Qi H. Image super-resolution by neural texture transfer. In: Proceedings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 7974−7983 [107] Bulat A, Ynag J, Tzimiropoulos G. To learn image super-resolution, use a GAN to learn how to do image degradation first. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: 2018. 187−202 [108] Zhang K, Zuo W, Zhang L. Deep plug-and-play super-resolution for arbitrary blur kernels. In: Proceedings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 1671−1681 [109] Song X, Dai Y, Zhou D, Liu L, Li W, Li H, et al. Channel attention based iterative residual learning for depth map super-resolution. In: Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual Event: IEEE, 2020. 5631−5640 [110] Zhang K, Zuo W, Chen Y, Meng D, Zhang L. Beyond a gaussian denoiser: Residual learning of deep CNN for image denoising. IEEE Transactions on Image Processing, 2017, 26(7): 3142-3155. doi: 10.1109/TIP.2017.2662206 [111] Zhang K, Zuo W M, Zhang L. FFDNet: Toward a fast and flexible solution for CNN-based image denoising. IEEE Transactions on Image Processing, 2018, 27(9): 4608-4622. doi: 10.1109/TIP.2018.2839891 [112] Guo S, Yan Z, Zhang K, Zuo W, Zhang L. Toward convolutional blind denoising of real photographs. In: Proceedings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 1712−1722 [113] Zamir S W, Arora A, Khan S, Hayat M, Khan F S, Yang M H, et al. Learning enriched features for real image restoration and enhancement. In: Proceedings of the 16th European Conferen-ce on Computer Vision. Glasgow, UK: 2020. 492−511 [114] Zhang K, Gool L V, Timofte R. Deep unfolding network for image super-resolution. In: Proceedings of the 33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual Event: IEEE, 2020. 3214−3223 [115] Ford C, Etter D M. Wavelet basis reconstruction of nonuniformly sampled data. IEEE Transactions on Circuits and Systems II Analog and Digital Signal Processing, 1998, 45(8): 1165-1168. doi: 10.1109/82.718832 [116] Nguyen N, Milanfar P. A wavelet-based interpolation-restoration method for super resolution. Circuits Systems & Signal Processing, 2000, 19(4): 321-338. [117] 汪雪林, 文伟, 彭思龙. 基于小波域局部高斯模型的图像超分辨率. 中国图象图形学报, 2004, 9(8): 941-946. doi: 10.3969/j.issn.1006-8961.2004.08.008Wang Xue-Lin, Wen Wei, Peng Si-Long. Image super resolution based on wavelet-domain local gaussian model. Journal of Image and Graphics, 2004, 9(8): 941-946(in Chinese) doi: 10.3969/j.issn.1006-8961.2004.08.008 [118] Shen L X, Sun Q X. Biorthogonal wavelet system for high-resolution image reconstruction. IEEE Transactions on Signal Processing, 2004, 52(7): 1997-2011. doi: 10.1109/TSP.2004.828939 [119] Zhao S, Han H, Peng S. Wavelet-domain HMT-based image super-resolution. In: Proceedings of the 2003 IEEE International Conference on Image Processing. Barcelona, Spain: IEEE, 2003. 656−953 [120] Zhang Q, Wang H, Yang S. Image super-resolution using a wavelet-based generative adversarial network. Computer Vision and Pattern Recognition [Online], available: https://arxiv. org/abs/1907.10213, May 6, 2021. [121] Demirel H, Anbarjafari G. Image resolution enhancement by using discrete and stationary wavelet decomposition. IEEE Transactions on Image Processing, 2011, 20(5): 1458-1460. doi: 10.1109/TIP.2010.2087767 [122] Mallat S. A theory for multiresolution in signal decomposition: the wavelet representation. IEEE Transactions. on Pattern Analysis and Machine Intelligence, 1989, 11(7): 674-683. doi: 10.1109/34.192463 [123] Chavez-Roman H, Ponomaryov V. Super resolution image generation using wavelet domain interpolation with edge extraction via a sparse representation. IEEE Geoscience and Remote Sensing Letters, 2014, 11(10): 1777-1781. doi: 10.1109/LGRS.2014.2308905 [124] Patil V H, Bormane D S, Pawar V S. Super-resolution using neural network. In: Proceedings of the 2nd Asia International Conference on Modeling and Simulation. Kuala Lumpur, Mal-aysia: IEEE, 2008. 492−496 [125] Asokan A, Anitha J. Lifting wavelet and discrete cosine transform-based super-resolution for satellite image fusion. In: Proce-eding of the 2021 International Conference on Computational Methods and Data Engineering. Sonipat, India: Springer, 2021. 5−12 [126] Ji H, Fermüller C. Robust wavelet-based super-resolution reconstruction: Theory and algorithm. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(4): 649-660. doi: 10.1109/TPAMI.2008.103 [127] 张丽. 小波变换和深度学习单幅图像超分辨率算法研究[硕士论文], 信阳师范学院, 中国, 2019Zhang Li. Research on Wavelet Transform and Deep Learning Super-Resolutiom Algorithm for Single Image[Master thesis], Xinyang Normal University, China, 2019 [128] 段立娟, 武春丽, 恩擎, 乔元华, 张韵东, 陈军成. 基于小波域的深度残差网络图像超分辨率算法. 软件学报, 2019, 30(4): 941-953.Duan Li-Juan, Wu Chun-Li En Qing, Qiao Yuan-Hua, Zhang Yun-Dong, Chen Jun-Cheng. Deep residual network in wavelet domain for image super-resolution. Journal of Software, 2019, 30(4): 941-953 (in Chinese) [129] 孙超, 吕俊伟, 宫剑, 仇荣超, 李健伟, 伍恒. 结合小波变换与深度网络的图像超分辨率方法[J]. 激光与光电子学进展, 2018, 55(121006): 1-8.Sun Chao, Lv Jun-Wei, Gong Jian, Qiu Rong-Chao, Li Jian-Wei, Wu Heng. Image super-resolution method combining wavelet transform with deep network. Laser& Optoelectronics Progress, 2018, 55(121006): 1-8(in Chinese) [130] Wang Z, Liu D, Yang J, Han W, Huang T. Deep networks for image super-resolution with sparse prior. In: Proceedings of the 15th IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 370−378 [131] Gregor K, LeCun Y. Learning fast approximations of sparse coding. In: Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel, 2010. 399−406 [132] Liu D, Wang Z, Wen B, Yang J, Han W, Huang T. Robust single image super-resolution via deep networks with sparse prior. IEEE Transactions on Image Processing, 2016, 25(7): 3194-3207. doi: 10.1109/TIP.2016.2564643 [133] Wang J, Chen K, Xu R, Liu Z, Loy C C, Lin D. CARAFE: content-aware reassembly of features. In: Proceedings of the 17th IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 3007−3016 [134] Nasrollahi K, Moeslund T B. Super-resolution: a comprehensive survey. Machine Vision and Applications, 2014, 25(8): 1423-1468. [135] Martin D, Fowlkes C, Tal D. Malik J. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: Proceedings of the 8th International Conference on Computer Vision. Vancouver, USA: IEEE 2001. 416−423 [136] Timofte R, Agustsson E. NTIRE 2017 challenge on single image super-resolution: Dataset and study. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE, 2017. 1122−1131 [137] Bevilacqua M, Roumy A, Guillemot C, Morel M L A. Low-complexity single-image super-resolution based on nonnegative neighbor embedding. In: Proceedings of the 23rd British Machine Vision Conference. Surrey, UK: 2012. [138] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 5197−5206 [139] Fujimoto A, Ogawa T, Yamamoto K, Matsui Y, Yamasaki T, Aizawa K. Manga109 dataset and creation of metadata. In: Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. New York, USA: 2016. [140] Sun L, Hays J. Super-resolution from internet-scale scene matching. In: Proceedings of the 2012 IEEE International Conference on Computational Photography. Seattle, USA: IEEE, 2012. [141] Wei P, Xie Z, Lu H, Zhan Z, Ye Q, Zuo W, et al. Component divide and-conquer for real-world image super-resolution. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: 2020. 101−117 [142] Chen C, Xiong Z, Tian X, Zha Z J, Wu F. Camera lens super-resolution. In: Proceedings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 1652−1660 [143] Bychkovsky V, Paris S, Chan E, Durand F. Learning photographic global tonal adjustment with a database of input/output image pairs. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA: IEEE, 2011. 97−104 [144] Wei C, Wang W, Yang W, Liu J. Deep retinex decomposition for low-light enhancement. In: Proceedings of the 29th British Machine Vision Conference. Newcastle, UK: 2018. [145] Liang Y. Wang J, Wan X, Gong Y, Zheng N. Image quality assessment using similar scene as reference. In: Proceedings of the 21st ACM Conference on Computer and Communications Security. Scottsdale, USA: 2016. 3−18 [146] Zhang R, Isola P, Efros A A, Shechtman E, Wang O. The unreasonable effectiveness of deep features as a perceptual metric. In: Proceedings of the 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 586−595 [147] Blau Y, Mechrez R, Timofte R, Michaeli T, Zelnik-Manor L. The 2018 PIRM challenge on perceptual image super-resolution. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: 2018. 334−355 [148] Ma C, Yang C Y, Yang X, Ynag M. Learning a no-reference quality metric for single-image super-resolution. Computer Vision and Image Understanding, 2017, 158(5): 1-16. [149] Mittal A, Soundararajan R, Bovik A C. Making a "completely blind" image quality analyzer. IEEE Signal Processing Letter, 2013, 20(3): 209-212. doi: 10.1109/LSP.2012.2227726 [150] Saad M A, Bovik A C, Charrier C. A DCT statistics-based blind image quality index. IEEE Signal Processing Letters, 2010, 17(6): 583-586. doi: 10.1109/LSP.2010.2045550 [151] Ma K, Wu Q, Wang Z, Duanmu Z, Yong H, Li J, et al. Group MAD competition: A new methodology to compare objective image quality models. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Veg-as, USA: IEEE, 2016. 1664−1673 [152] Zhang W, Ma K, Yan J, Deng D, Wang Z. Blind image quality assessment using a deep bilinear convolutional neural network. IEEE Transactions on Circuits and Systems for Video Technology, 30(1): 36−47 [153] Liu X, Weijer J V D, Bagdanov A D. RankIQA: Learning from rankings for no-reference image quality assessment. In: Proceedings of the 16th IEEE International Conference on Computer Vision. USA: IEEE, 2017. 1040−1049 [154] Gu K, Zhai G, Yang X, Zhang W. Deep learning network for blind image quality assessment. In: Proceedings of the 2014 IEEE International Conference on Image Processing. USA: 2014. 511−515 期刊类型引用(17)
1. 张睿,惠永科,张延军,潘理虎. 基于多维空间卷积信息增强的低质车牌信息超分辨率重建. 计算机应用. 2025(01): 301-307 . 百度学术
2. 薛彤丹,王红,齐林海,闫江毓,姜美静,陶顺. 基于改进扩散模型的电力数据超分辨率重建技术. 电力系统自动化. 2025(04): 214-223 . 百度学术
3. 倪劼,柳青远,周莉. 利用改进的Real-ESRGAN模型进行历史图像超分辨率重建研究. 信息与管理研究. 2025(01): 65-77 . 百度学术
4. 李嫣,任文琦,张长青,张金刚,聂云峰. 基于真实退化估计与高频引导的内窥镜图像超分辨率重建. 自动化学报. 2024(02): 334-347 . 本站查看
5. 张思言,杜周南,任一心,邓涛,唐曦. 一种双三次插值实时超分辨率VLSI设计. 西南大学学报(自然科学版). 2024(04): 202-212 . 百度学术
6. 黄波,赵新辉. 改进残差网络下体操动作逆光图像超分辨增强. 计算机仿真. 2024(05): 231-235+309 . 百度学术
7. 李京安,杨越程,刘宇晨,康子律. 基于FPGA的图像上采样IP核设计与实现. 电脑知识与技术. 2024(17): 43-45 . 百度学术
8. 王梓歌,葛利跃,陈震,张聪炫,王子旭,舒铭奕. 联合深度超参数卷积和交叉关联注意力的大位移光流估计. 自动化学报. 2024(08): 1631-1645 . 本站查看
9. 何伟,杨大伟,马天福,马崇瑞,苑学贺. 基于多模态深度学习的特定虚拟图像视觉特征自动补偿. 计算技术与自动化. 2024(03): 102-107 . 百度学术
10. 李长冬,龙晶晶,刘勇,易书帆,冯鹏飞. 基于EfficientNet的滑坡遥感图像识别方法——以贵州省毕节市为例. 华南地质. 2023(03): 403-412 . 百度学术
11. 刘志坚,陶韵旭,刘航,罗灵琳,张德春,何蔚. 融合残差密集与生成对抗网络的红外巡检图像超分辨率重建. 昆明理工大学学报(自然科学版). 2023(05): 120-129 . 百度学术
12. 董振龙,李昂,周凯,张庆杰,徐亮. 基于深度学习的无人机航拍图像超分辨率提升算法. 无人系统技术. 2023(05): 40-49 . 百度学术
13. 竺可沁,林珊玲,林志贤,郭太良. 基于多层次特征提取的轻量级超分辨率重建算法. 信息技术与网络安全. 2022(05): 38-44 . 百度学术
14. 钟梦圆,姜麟. 超分辨率图像重建算法综述. 计算机科学与探索. 2022(05): 972-990 . 百度学术
15. 祝旭阳,于俊洋,郝艳艳. 基于多尺度融合CNN的图像超分辨率重建. 计算机系统应用. 2022(07): 217-223 . 百度学术
16. 曹春阳,胡诚,徐洪雨,徐晨光,邓承志. 基于卷积神经网络的单幅图像超分辨率重建算法综述. 中国高新科技. 2022(12): 105-110+128 . 百度学术
17. 高志军,冯娇娇. 基于生成对抗网络的煤矿工人脸图像超分辨方法. 黑龙江科技大学学报. 2022(06): 828-835 . 百度学术
其他类型引用(34)
-