2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多尺度特征融合反投影网络的图像超分辨率重建

孙超文 陈晓

孙超文,  陈晓.  基于多尺度特征融合反投影网络的图像超分辨率重建.  自动化学报,  2021,  47(7): 1689−1700 doi: 10.16383/j.aas.c200714
引用本文: 孙超文,  陈晓.  基于多尺度特征融合反投影网络的图像超分辨率重建.  自动化学报,  2021,  47(7): 1689−1700 doi: 10.16383/j.aas.c200714
Sun Chao-Wen,  Chen Xiao.  Multiscale feature fusion back-projection network for image super-resolution.  Acta Automatica Sinica,  2021,  47(7): 1689−1700 doi: 10.16383/j.aas.c200714
Citation: Sun Chao-Wen,  Chen Xiao.  Multiscale feature fusion back-projection network for image super-resolution.  Acta Automatica Sinica,  2021,  47(7): 1689−1700 doi: 10.16383/j.aas.c200714

基于多尺度特征融合反投影网络的图像超分辨率重建

doi: 10.16383/j.aas.c200714
基金项目: 江苏省333高层次人才培养工程项目(2625); 江苏高校优势学科建设工程资助项目资助
详细信息
    作者简介:

    孙超文:南京信息工程大学电子与信息工程学院硕士研究生. 2018年获得南京理工大学紫金学院电子工程与光电技术系学士学位. 主要研究方向为深度学习和计算机视觉. E-mail: 20181219071@nuist.edu.cn

    陈晓:南京信息工程大学电子与信息工程学院教授. 主要研究方向为现代电子系统设计, 信号与信息处理, 图像处理, 超声成像等. 本文通信作者. E-mail: chenxiao@nuist.edu.cn

Multiscale Feature Fusion Back-projection Network for Image Super-resolution

Funds: Supported by 333 High Level Personnel Training Project Jiangsu Province of China (2625); the Priority Academic Program Development of Jiangsu Higher Education Institutions
More Information
    Author Bio:

    SUN Chao-Wen Master student at the School of Electronic and Information Engineering, Nanjing University of Information Science and Technology. She received her bachelor degree in Electronic Engineering and Optoelectronic Technology from Zijin College, Nanjing University of Science and Technology in 2018. Her research interest covers deep learning and computer vision

    CHEN Xiao Professor at the School of Electronic and Information Engineering, Nanjing University of Information Science and Technology. His research interest covers modern electronic system design, signal and information processing, image processing, and ultrasonic imaging. Corresponding author of this paper

  • 摘要:

    针对现有图像超分辨率重建方法恢复图像高频细节能力较弱、特征利用率不足的问题, 提出了一种多尺度特征融合反投影网络用于图像超分辨率重建. 该网络首先在浅层特征提取层使用多尺度的卷积核提取不同维度的特征信息, 增强跨通道信息融合能力; 然后,构建多尺度反投影模块通过递归学习执行特征映射, 提升网络的早期重建能力; 最后,将局部残差反馈结合全局残差学习促进特征的传播和利用, 从而融合不同深度的特征信息进行图像重建. 对图像进行×2 ~ ×8超分辨率的实验结果表明, 本方法的重建图像质量在主观感受和客观评价指标上均优于现有图像超分辨率重建方法, 超分辨率倍数大时重建性能相比更优秀.

  • 图像的超分辨率重建(Super-resolution, SR)主要分为单图像超分辨率重建和多图像超分辨率重建[1], 本文研究单图像超分辨率重建. 作为一种重要的图像处理技术, SR从低分辨率(Low-resolution, LR)图像生成对应的高分辨率(High-resolution, HR)图像[2]. 它在图像压缩[3]、医学成像[4]、安全监控[5]、卫星遥感图像[6]等领域有着广泛的应用. 近年来基于深度学习的图像超分辨率重建方法由于其优秀的重建性能受到广泛关注[7].

    SRCNN[8-9]首次将卷积神经网络(Convolutional neural network, CNN)用于SR. 此后许多研究提出了一系列基于CNN的SR算法. 增加CNN网络的深度虽然可以提供更大的感受野和更多的上下文信息, 但是容易引起两个问题: 梯度消失和大量参数[10]. 为了有效地缓解梯度消失的问题, VDSR[11]和EDSR[12]算法借助残差学习[13]训练了更深层的网络; SR-DenseNet[14]、RDN[15]和DBPN[16]算法则引入密集连接缓解梯度消失的问题[17]. 为了减少网络参数, DRCN[18]和DRRN[19]等网络采用递归学习实现权重共享. 但只是以递归的方式堆叠多个相同的层或单元, 容易导致出现深度网络模型的退化问题. 基于递归网络的SR算法以前馈的方式从输入的LR图像中学习分层表示, 这种单向映射依赖于LR图像中的有限特征. 基于插值的前馈网络如FSRCNN[20]和EPSCN[21], 迁移到其他放大倍数需要繁琐的预处理, 容易引入新的噪声, 难以适应更大倍数的放大. 虽然MSRN[22]和LapSRN[23]可以执行8倍放大但重建效果仍有很大的改善空间. 尽管DBPN算法[16]引入反投影机制实现了深度SR, 却需要庞大的训练集和时间, 包括DIV2K (800张2K图像)[24], Flickr2K (2650张2K图像)[12]和ImageNet数据集(超过1400万张图像)[25]. 并且, 以单一尺寸卷积提取图像特征减弱网络恢复高频细节的能力, 以单尺度的投影单元执行特征映射降低网络的学习能力, 在放大倍数大时这个问题更突出.

    针对以上问题, 本文提出了一种多尺度特征融合反投影网络用于图像超分辨率重建, 其结构如图1所示. 作为一种模块化的端到端网络, 只需对参数进行少量调整就可以扩展到任意放大倍数, 实现了灵活地定义和训练不同深度的网络. 本文主要工作如下:

    图 1  本文算法网络结构图
    Fig. 1  The structure of the proposed network

    1) 在浅层特征提取阶段, 基于GoogleNet的思想[26], 设计多尺度特征提取模块. 采用多个不同的卷积核对输入LR图像进行卷积操作, 提取图像的多种底层特征, 再进行特征级联实现多尺度特征融合, 最后利用1×1卷积进行降维. 多尺度特征提取模块使得网络在浅层特征提取阶段获取不同维度的特征信息, 可以使网络学习到图像更多的高频信息, 提高重建性能.

    2) 在特征映射阶段, 构建多尺度投影单元实现自适应获取不同尺度的图像特征. 在两条支路分别引入不同大小的卷积核进行上(下)采样, 不同支路间可以信息共享, 实现充分利用图像的局部特征. 采用1×1卷积完成数据降维和特征的跨通道融合, 在学习前一层的表示中添加非线性激励来提高网络的泛化能力. 这种局部多路径学习方式增强了支路信息交流, 丰富了投影特征, 进一步增大网络的感受野和提高模型学习复杂映射的能力.

    3) 实现高层信息和低层信息的融合. 多尺度上下投影单元通过递归学习从输入的LR图像中生成HR特征再投影回LR空间, 实现残差反馈过程. 这种反馈机制将高层信息传输回前层并调整输入, 在丰富高层特征的同时完善低层特征表示. 携带反馈的递归结构不断调整LR和HR图像之间的相互关系, 在增加网络深度的同时有效地减少网络冗余. 网络通过组合不同深度的HR特征生成重建图像, 高层与低层特征信息的融合使得网络具有强大的早期重建能力.

    4) 实现全局信息和局部信息的融合. 局部残差信息结合全局残差信息可以极大程度地利用图像特征并克服特征在传输过程中消失的缺陷. 本网络不仅应用迭代上下采样方法为特征映射模块的投影残差提供局部残差反馈, 为早期层的学习提供丰富的局部特征信息, 还在重建阶段通过全局残差跳跃连接将残差图像从LR输入添加到全局恒等映射中, 使得网络仅需要学习图像残差, 极大地降低学习难度并加速了网络的收敛. 局部残差反馈和全局残差学习的结合促进了特征的传播和利用, 为最终的重建提供更多的特征信息.

    多尺度特征融合反投影网络主要由3个部分组成, 分别为浅层特征提取模块, 特征映射模块和重建模块, 如图1所示.

    由于应用了全局残差学习, 因此整个网络将LR图像作为输入, 仅需要学习HR图像和插值LR图像之间的残差. 令conv(f, n)表示卷积层, 其中f为卷积核大小, n为通道数, 三个模块的详细阐述如下.

    首先, 使用不同尺度的卷积核在三条支路中分别对输入的LR图像${I^{LR}}$进行卷积操作提取图像初始特征, 然后将特征图级联实现多特征的跨通道融合并利用1×1卷积层进行数据降维, 得到浅层LR特征图${L^0}$:

    $$\begin{split} & L_{1 \times 1}^0={f_{1 \times 1}}({I^{LR}}) \\ & L_{{\rm{3}} \times {\rm{3}}}^0={f_{{\rm{3}} \times {\rm{3}}}}({I^{LR}}) \\ & L_{{\rm{5}} \times {\rm{5}}}^0={f_{{\rm{5}} \times {\rm{5}}}}({I^{LR}}) \end{split} $$ (1)
    $${L^0}={f_0}([L_{1 \times 1}^0,L_{3 \times 3}^0,L_{5 \times 5}^0])$$ (2)

    式中, ${f_{1 \times 1}}$${f_{{\rm{3}} \times {\rm{3}}}}$${f_{{\rm{5}} \times {\rm{5}}}}$分别表示conv(1, ${n_0})$conv(3, ${n_0})$conv(5, ${n_0})$, ${n_0}$为初始特征提取阶段的通道数, ${f_{\rm{0}}}$表示conv(1, n), n是多尺度投影单元的输入通道数, ${f_{\rm{0}}}$将总通道数3×${n_0}$降为n.

    LR特征图${L^{\rm{0}}}$流入特征映射模块得到多个不同深度的HR特征图${H^{\rm{g}}}$:

    $${H^g}=f_{FM}^g({L^{g - 1}}),\quad 1 \leq g \leq G$$ (3)

    式中, G表示递归总次数; 当g = 1时, 浅层LR特征图${L^{\rm{0}}}$作为当前输入; 当g>1时, 将第g−1次递归产生的LR特征图${L^{g - 1}}$作为本次输入. $f_{FM}^g$表示第g次递归的特征投影过程, 详细解释如下: 将一个多尺度上投影单元级联一个多尺度下投影单元实现将LR特征投影到HR空间, 再投影回LR空间. 本网络仅使用一对多尺度上下投影单元, 通过递归学习实现权重共享并构成迭代反馈机制. 在多尺度投影单元中构建两条支路并且对不同的支路应用不同尺度的卷积核. 这种局部多路径学习方式可以实现不同旁路之间的信息共享并充分利用图像局部特征. 基于迭代上下采样框架, 设计多尺度上投影单元和多尺度下投影单元分别用于上采样和下采样操作.

    1.2.1   多尺度上投影单元

    多尺度上投影单元是将LR特征图${L^{g - 1}}$映射到HR空间中, 计算流程如下:

    步骤 1. 输入LR特征图${L^{g - 1}}$, 利用不同尺度的反卷积在两条支路上分别进行上采样操作, 生成HR特征图$H_{u1}^g$$H_{u2}^g$.

    $$\begin{split} &H_{u{\rm{1}}}^g=D_{u1}^ \uparrow ({L^{g - 1}}) \\ &H_{u{\rm{2}}}^g=D_{u{\rm{2}}}^ \uparrow ({L^{g - 1}}) \end{split} $$ (4)

    其中, $D_{u1}^ \uparrow $$D_{u{\rm{2}}}^ \uparrow $分别表示反卷积层Deconv1(k1, n)和Deconv2(k2, n), k1k2表示卷积核大小, n表示卷积核数量.

    步骤 2. 级联HR特征图$H_{u1}^g$$H_{u{\rm{2}}}^g$, 在两条支路上利用不同尺度的卷积分别进行下采样操作, 将产生的LR特征图级联实现跨通道信息融合, 然后利用1×1卷积进行特征池化和降维并生成LR特征图$L_u^g$.

    $$\begin{split} L_u^g=\;&{C_u}([C_{u1}^ \downarrow ([H_{u1}^g,H_{u2}^g]), \\ &C_{u2}^ \downarrow ([H_{u1}^g,H_{u2}^g])]) \end{split} $$ (5)

    其中, $C_{u1}^ \downarrow $$C_{u{\rm{2}}}^ \downarrow $分别表示卷积层Conv1(k1, 2n)和Conv2(k2, 2n). 每条支路的通道数由n变成2n. ${C_u}$表示Conv(1, n), 将两条支路的总通道数由4n降为n. 所有1×1卷积在前一层的学习表示上添加了非线性激励, 提升网络的表达能力.

    步骤 3. 计算输入的LR特征图${L^{g - 1}}$和重建的LR特征图$L_u^g$之间的残差, 并构建两条支路利用不同尺度的反卷积分别进行上采样操作, LR空间中的残差被映射到HR空间中, 生成新的残差特征$H_{e1}^g$$H_{e{\rm{2}}}^g$.

    $$\begin{split} & H_{e1}^g=D_{e1}^ \uparrow (L_u^g - {L^{g - 1}}) \\ &H_{e{\rm{2}}}^g=D_{e{\rm{2}}}^ \uparrow (L_u^g - {L^{g - 1}}) \end{split} $$ (6)

    其中, $D_{e1}^ \uparrow $$D_{e{\rm{2}}}^ \uparrow $分别表示反卷积层Deconv1(k1, n)和Deconv2(k2, n), 每条支路的通道数为n.

    步骤 4. 级联$H_{e1}^g$$H_{e{\rm{2}}}^g$并与级联的$H_{u1}^g$$H_{u{\rm{2}}}^g$进行叠加, 通过1×1卷积进行特征融合和降维, 多尺度上投影单元输出HR特征图${H^g}$.

    $${H^g}={C_h}([H_{u1}^g,H_{u2}^g]{\rm{ }} + [H_{e1}^g,H_{e2}^g])$$ (7)

    其中, ${C_h}$表示Conv(1, n), 叠加后总通道数为2n, 通过${C_h}$输出通道数变为n, 与输入通道数保持一致.

    1.2.2   多尺度下投影单元

    多尺度下投影单元与多尺度上投影单元十分相似, 是多尺度上投影单元的逆过程, 目的是将HR特征投影到LR空间中, 计算过程如下:

    步骤 1. 将HR特征图${H^g}$作为输入, 利用不同尺度的卷积在两条支路上分别进行下采样操作, 生成LR特征图$L_{d1}^g$$L_{d2}^g$.

    $$\begin{split} & L_{d1}^g=C_{d1}^ \downarrow ({H^g}) \\ &L_{d2}^g=C_{d2}^ \downarrow ({H^g}) \end{split} $$ (8)

    其中, $C_{d1}^ \downarrow $$C_{d2}^ \downarrow $分别表示卷积层Conv1(k1, n)和Conv2(k2, n).

    步骤 2. 级联LR特征图$L_{d1}^g$$L_{d2}^g$, 在两条支路上利用不同尺度的卷积分别进行上采样操作, 将产生的HR特征图级联实现跨通道信息融合, 然后利用1×1卷积进行特征池化和降维并生成HR特征图$H_d^g$.

    $$\begin{split} H_d^g=\;&{C_d}([D_{d1}^ \uparrow ([L_{d1}^g,L_{d2}^g]), \\ &D_{d2}^ \uparrow ([L_{d1}^g,L_{d2}^g])]) \end{split} $$ (9)

    其中, $D_{d1}^ \uparrow $$D_{d{\rm{2}}}^ \uparrow $分别表示反卷积层Deconv1(k1, 2n)和Deconv2(k2, 2n). 每条支路的通道数由n变成2n, ${C_u}$表示Conv(1, n), 将两条支路的总通道数由4n降为n.

    步骤 3. 计算输入的HR特征图${H^{g}}$和重建的HR特征图$H_d^g$之间的残差, 并构建两条支路利用不同尺度的卷积分别进行下采样操作, HR空间中的残差被反投影回LR空间中, 生成新的残差特征$L_{e1}^g$$L_{e2}^g$.

    $$\begin{split} &L_{e1}^g=C_{e1}^ \downarrow (H_d^g - {H^{g}}) \\ & L_{e2}^g=C_{e2}^ \downarrow (H_d^g - {H^{g}}) \end{split} $$ (10)

    其中, $C_{e1}^ \downarrow $$C_{e2}^ \downarrow $分别表示具有不同尺度卷积核的卷积层Conv1(k1, n)和Conv2(k2, n), 每条支路的通道数为n.

    步骤 4. 级联LR残差特征$L_{e1}^g$$L_{e2}^g$, 并与步骤2中级联的LR特征图$L_{d1}^g$$L_{d2}^g$进行叠加, 通过1×1卷积进行特征融合和降维, 得到多尺度下投影单元最终的输出LR图${L^g}$.

    $${L^g}={C_l}([L_{d1}^g,L_{d2}^g] + [L_{e1}^g,L_{e2}^g])$$ (11)

    其中, ${C_l}$表示Conv(1, n), 相加后总通道数为2n, 通过Conv(1, n)输出通道数降低为n, 输入和输出保持相同的通道数.

    令多尺度上、下投影单元的输入和输出都具有相同的通道数, 这种结构允许多个多尺度投影单元相互交替连接.

    为了控制参数数量并降低计算复杂度, 许多网络往往避免使用大尺寸卷积进行特征映射, 这虽然可以从一定程度上提升收敛速度减少运算成本, 但却以牺牲重建性能为代价. 而以递归学习的方式实现多尺度上、下投影单元的迭代能够大大促进权重共享减少网络冗余. 这种设计不仅可以抑制由大尺寸卷积核带来的收敛速度慢的缺陷, 还可以通过扩大感受野提取更多图像特征以提高重建效果. 因此多尺度投影单元的每条支路均使用了大尺寸卷积核.

    重建模块融合特征映射模块生成的不同深度的HR特征图并输出残差图像${I^{{\rm{Re}} s}}$,

    $${I^{{\rm{Re}} s}}={f_{RB}}([{H^1},{H^2},\cdots,{H^g}])$$ (12)

    其中, $[{H^1},{H^2},\cdots,{H^g}]$表示多个HR特征的深度级联, ${f_{RB}}$表示重建模块的操作, 即对级联的HR特征应用conv(3, 3)进行卷积处理实现分层特征融合.

    最后, 通过全局残差跳跃连接输出超分辨率图像${I^{SR}}$, 其过程表示为:

    $${I^{SR}}={I^{{\rm{Re}} s}} + {f_{US}}({I^{LR}})$$ (13)

    其中, ${f_{US}}$表示插值上采样操作, 采用双线性插值将原始输入图像${I^{LR}}$放大至目标尺寸(也可以选用其他插值算法, 如双三次插值法等), 然后绕过网络主体部分将插值LR图像传递到网络末端与${I^{{\rm{Re}} s}}$相加, 生成最终的重建图像${I^{SR}}$.

    实验平台的CPU为Intel Core i5-7500, GPU为NVIDIA RTX-2080. 使用深度学习框架Pytorch 1.2.0.

    把DIV2K中的800张训练图像作为训练集[24], 为了充分利用数据, 采用了旋转和翻转进行了数据扩充[12]. 选用5个标准数据集评估模型性能, 分别为Set5[27], Set14[28], BSD100[29], Urban100[30]和Manga109[31]. 用峰值信噪比(PSNR)和结构相似性(SSIM)[32]作为客观性能评价指标. 批处理大小设置为16. 为了提高计算效率, 根据不同的放大倍数选择输入不同大小的RGB图像, 如表1所示. 将Bicubic作为退化模型, 采用He等[33]提出的方法初始化权重, 使用ADAM[34]优化器优化参数. 将学习率初始化为0.0001, 每200轮学习率衰减为原来的一半, 总共训练1000轮. 选择L1损失来训练本文提出的网络.

    表 1  输入块大小、参数数量和网络超参数设置
    Table 1  The settings of input patch size, number of parameters and network hyperparameters
    放大倍数× 2× 3× 4× 8
    参数数量50162116490771816193916812691
    输入块尺寸60 × 6050 × 5040 × 4020 × 20
    特征提取模块特征提取层${f_{1 \times 1}}$: Conv(128, 1, 1, 0); ${f_{{\rm{3}} \times {\rm{3}}}}$: Conv (128, 3, 1, 1); ${f_{{\rm{5}} \times {\rm{5}}}}$: Conv(128, 5, 1, 2)
    特征融合层Conv(128×3, 1, 1, 1)
    特征映射模块支路1Conv1(64, 6, 2, 2)Conv1(64, 7, 3, 2)Conv1(64, 8, 4, 2)Conv1(64, 12, 8, 2)
    支路2Conv2(64, 8, 2, 3)Conv2(64, 9, 3, 3)Conv2(64, 10, 4, 3)Conv2(64, 14, 8, 3)
    重建模块Conv(64×7, 3, 1, 1)
    递归次数7
    深度73
    注: Conv(C, K, S, P): C表示通道数, K表示卷积核大小, S表示步长, P表示填充.
    下载: 导出CSV 
    | 显示表格

    在多尺度投影单元的两条支路中设计不同大小的卷积核, 并对应4种放大倍数设置了相应的卷积核和步幅. 在最终模型中, 将递归参数设置为7, 多尺度投影单元的通道数设置为64, 即输出64个HR特征图, 因此64个特征进行7次迭代产生448个HR特征图作为重建模块的输入. 表1详细列出了不同放大倍数下的超参数设置. 网络的输入和输出均使用RGB通道. 除网络末端的重建层外, 所有卷积和反卷积层后面的激活函数都使用参数校正线性单元(PReLU)[32].

    首先对本文算法进行模型分析, 然后与其他SR算法的重建结果(×2、×3、×4和×8)进行定性和定量比较.

    2.2.1   特征提取模块卷积核尺寸分析

    卷积核大小能够直接改变网络的感受野, 从而对网络的超分辨率性能产生重要影响[35-36]. 为了达到最佳实验结果, 本文对特征提取层三条支路上的卷积核大小进行研究. 将卷积核大小分别设置1×1、3×3和5×5表示为Ours_135, 将卷积核大小分别设置3×3、5×5和7×7表示为Ours_357, 结合图2表2, 对于8倍放大, 在Set5测试集下当网络收敛后Ours_135比Ours_357的PSNR结果高0.04 dB; Ours_135在5个标准测试集中获得了最高的SSIM值, 在4个测试集中均具有最佳的PSNR值, 仅在Set14中比Ours_357低0.01 dB, 总体平均仍高出0.051 dB. 此外, 更大的卷积核意味着更多的参数, 从而降低网络的推理速度. 实验表明, 当采用1×1、3×3和5×5的卷积组合时, 网络能够充分提取特征, 并获得更高的评价指标, 具有更高的泛化能力.

    图 2  8倍放大下对特征提取模块卷积核大小的分析
    Fig. 2  Analysis of kernel size in the feature extraction module on ×8 enlargement
    表 2  对特征提取模块卷积核大小的分析
    Table 2  Analysis of the kernel size of the feature extraction module
    ScaleMethodSet5 PSNR/SSIMSet14 PSNR/SSIMBSD100 PSNR/SSIMUrban100 PSNR/SSIMManga109 PSNR/SSIM
    ×8Ours_13527.13/0.781925.02/0.644524.86/0.599222.59/0.623124.85/0.7885
    Ours_35727.09/0.780625.03/0.643724.86/0.598622.57/0.621924.78/0.7859
    下载: 导出CSV 
    | 显示表格
    2.2.2   多尺度投影单元的卷积核分析

    为了分析多尺度投影单元两条支路上的卷积核大小对重建性能的影响, 我们选取了(8×8, 10×10)、(10×10, 12×12)和(12×12, 14×14)三种不同的多尺度卷积组合在×8 SR上进行研究, 实验结果如表3所示, 当采用大尺度卷积核(12×12, 14×14)的组合方案时, 网络具有最佳的重建结果.

    表 3  对多尺度投影单元的卷积核大小分析
    Table 3  Analysis of the kernel size of the multi-scale projection unit
    Scale(卷积核尺寸、步长、填充)PSNR (dB)
    支路1支路2Set5Set14BSD100Urban100Manga109
    ×8(8, 8, 0)(10, 8, 1)27.0024.9524.8222.4524.68
    (10, 8, 1)(12, 8, 2)27.0824.9924.8422.5324.77
    (12, 8, 2)(14, 8, 3)27.1325.0224.8622.5924.85
    下载: 导出CSV 
    | 显示表格
    2.2.3   多尺度投影单元数量分析

    为了分析多尺度投影单元数量对超分辨率性能的影响, 本文采用set5测试集在8倍放大下对多尺度投影单元数量进行实验, 递归次数对应了网络中一个多尺度上、下投影单元的数量. 实验结果如表4所示, 每增加1次递归, 网络增加10层, 参数数量增加1728, 但随着网络的逐渐加深, 网络之间的性能差距越来越小, 7次递归和8次递归的网络重建结果几乎相同, 考虑到模型复杂度和计算成本, 最终选了7次递归的模型.

    表 4  ×8模型在Set5和Set14测试集上的深度分析
    Table 4  The depth analysis of the ×8 model on Set5 and Set14 datasets
    递归次数网络层数参数数量PSNR (dB)
    Set5Set14
    1131680232326.5024.53
    3331680577926.9824.89
    4431680750727.0324.94
    5531680923527.0524.96
    6631681096327.0724.98
    7731681269127.1325.02
    8831681441927.1325.02
    下载: 导出CSV 
    | 显示表格
    2.2.4   参数规模分析

    表1显示了本算法在不同放大倍数下的参数数量, 为了进一步对本文算法的复杂度进行分析, 本文选取了6种主流的基于深度学习的SR算法和本算法的参数数量进行对比, 包括SRCNN、FSRCNN、VDSR、LapSRN、MSRN和EDSR. 如图3所示, 本文算法重建图像的质量比EDSR的重建结果提高了0.17 dB, 但参数数量却减少了约61%; DBPN算法虽然通过训练庞大的图像集获得了比本文算法略高的重建性能(0.08 dB), 但同时参数规模也提升了38%. 综上所述, 本文算法属于中等规模网络, 与EDSR和DBPN等具有大规模参数的网络相比, 仍然可以产生具有竞争力的重建结果, 在网络性能和参数量之间具有最佳的平衡.

    图 3  主流重建算法在Set5数据集上对于×8 SR的平均PSNR和参数数量对比
    Fig. 3  Comparison of the average PSNR and the number of parameters of the mainstream reconstruction algorithm for ×8 SR on Set5
    2.3.1   定量分析

    DBPN算法使用了大量的训练图像实现了复杂深度模型的高性能. 为公平起见, 本文对DBPN算法进行了参数调整和重新训练, 保持和本文算法相同的训练集和迭代次数, 使用一对单尺度投影单元进行7次递归, 每个投影单元输出的64个HR特征图, 共448个特征图作为重建层的输入, 并将其命名为DBPN-R64-7. 本文算法与DBPN算法的对比结果如图4所示.

    图 4  Set5测试集下对不同网络的性能分析
    Fig. 4  Analysis of different networks under Set5

    图4(b) ~ (d)训练时损失函数的迭代结果可以看出, 本算法相比DBPN-R64-7具有更快的收敛速度, 收敛后的loss值更低. 随着放大倍数的增加, 这种优势更加明显. 根据图4(a) ~ (d)对客观评价指标的分析可以得出, 在Set 5数据集上, 对于2到8倍多个放大倍数, 网络收敛后本文算法比DBPN-R64-7获得了更好的PSNR和SSIM值, 尤其在放大倍数大时. 放大倍数越大重建难度也越大. 而本算法具有更好的重建性能, 比DBPN-R64-7算法能够更好地适应重建难度大的放大倍数.

    对于×2、×3、×4的SR, 将本文算法与13种SR方法进行了对比, 如表5所示. 由于很多算法不适用于8倍放大, 因此在×8 SR中与10种方法进行了对比, 如表6所示. 在对比算法中, Bicubic为传统的双三次插值算法, SRCNN、ESPCN和FSRCNN为基于CNN的浅层线性网络, VDSR为深层线性网络, DRCN、DRRN和DRFN[37]为递归网络, 其中DRFN是设计处理大放大倍数SR的深度网络, LapSRN为渐进式重建网络, IDN[38]和MSRN为多路径网络, SRMDNF[39]为多重退化网络, MRFN[40]和EDSR为残差网络. 结合表5表6可以看出, 本文算法仅在2倍放大时与MRFN存在微弱的差距, 但×3、×4和×8 SR时在5个具有不同图像特点的数据集中均具有最高的客观评价指标, 显示了在处理大放大倍数SR时的有效性, 能够比其他算法更好地保存HR分量. 在5个数据集中, Set5、Set14和B100主要包含自然场景; Urban100由城市场景中的规则图案和人造结构组成, 包含不同频段的细节特征; Manga109是漫画数据集. 本文算法不仅擅长重建规则的人工图案, 还擅长不规则的自然图案. 尤其是本训练集中没有包含任何漫画图像, 但在Manga109中展现出出色的实验性能. 这表明本文算法在处理漫画人物等具有精细结构的图像上也具有优秀的重建效果.

    表 5  不同SR算法在×2、×3和×4上的定量评估
    Table 5  Quantitative comparison of different algorithms on ×2, ×3, and ×4
    ScaleMethodSet5 PSNR/SSIMSet14 PSNR/SSIMBSD100 PSNR/SSIMUrban100 PSNR/SSIMManga109 PSNR/SSIM
    × 21. Bicubic33.68/0.930430.24/0.869129.56/0.843526.88/0.840531.05/0.9350
    × 22. SRCNN36.66/0.954232.45/0.906731.36/0.887929.51/0.894635.72/0.9680
    × 23. ESPCN37.00/0.955932.75/0.909831.51/0.893929.87/0.906536.21/0.9694
    × 24. FSRCNN37.06/0.955432.76/0.907831.53/0.891229.88/0.902429.88/0.9024
    × 25. VDSR37.53/0.958733.05/0.912731.90/0.896030.77/0.914137.16/0.9740
    × 26. DRCN37.63/0.958833.06/0.912131.85/0.894230.76/0.913337.57/0.9730
    × 27. LapSRN37.52/0.959132.99/0.912431.80/0.894930.41/0.910137.53/0.9740
    × 28. DRRN37.74/0.959133.23/0.913632.05/0.897331.23/0.918837.92/0.9760
    × 29. DBPN-R64-737.57/0.958933.09/0.913231.83/0.895130.75/0.913337.65/0.9747
    × 210. IDN37.83/0.960033.30/0.914832.08/0.898531.27/0.919638.02/0.9749
    × 211. SRMDNF37.79/0.960133.32/0.915932.05/0.898531.33/0.920438.07/0.9761
    × 212. DRFN37.71/0.959533.29/0.914232.02/0.897931.08/0.917933.42/0.9123
    × 213. MRFN37.98/0.961133.41/0.915932.14/0.899731.45/0.922138.29/0.9759
    × 2Ours37.82/0.959933.35/0.915632.04/0.898031.49/0.921838.23/0.9762
    × 31. Bicubic30.40/0.868627.54/0.774127.21/0.738924.46/0.734926.95/0.8560
    × 32. SRCNN32.75/0.909029.29/0.821528.41/0.786326.24/0.799130.48/0.9120
    × 33. ESPCN33.02/0.913529.49/0.827128.50/0.793726.41/0.816130.79/0.9181
    × 34. FSRCNN33.20/0.914929.54/0.827728.55/0.794526.48/0.817530.98/0.9212
    × 35. VDSR33.66/0.921329.78/0.831828.83/0.797627.14/0.827932.01/0.9340
    × 36. DRCN33.82/0.922629.77/0.831428.80/0.796327.15/0.827732.31/0.9360
    × 37. LapSRN33.82/0.922729.79/0.832028.82/0.797327.07/0.827132.21/0.9350
    × 38. DRRN34.03/0.924429.96/0.834928.95/0.800427.53/0.837732.74/0.9390
    × 39. DBPN-R64-733.90/0.923629.99/0.835328.87/0.799127.35/0.833632.59/0.9373
    × 310. IDN34.11/0.925329.99/0.835428.95/0.801327.42/0.835932.69/0.9378
    × 311. SRMDNF34.12/0.925430.04/0.838228.97/0.802527.57/0.839833.00/0.9403
    × 312. DRFN34.01/0.923430.06/0.836628.93/0.801027.43/0.835930.59/0.8539
    × 313. MRFN34.21/0.926730.03/0.836328.99/0.802927.53/0.838932.82/0.9396
    × 3Ours34.31/0.926530.29/0.840829.05/0.803527.94/0.847233.37/0.9433
    × 41. Bicubic28.43/0.810926.00/0.702325.96/0.667823.14/0.657425.15/0.7890
    × 42. SRCNN30.48/0.862827.50/0.751326.9/0.710324.52/0.722627.66/0.8580
    × 43. ESPCN30.66/0.864627.71/0.756226.98/0.712424.60/0.736027.70/0.8560
    × 44. FSRCNN30.73/0.860127.71/0.748826.98/0.702924.62/0.727227.90/0.8517
    × 45. VDSR31.35/0.883828.02/0.767827.29/0.725225.18/0.752528.82/0.8860
    × 46. DRCN31.53/0.885428.03/0.767327.24/0.723325.14/0.751128.97/0.8860
    × 47. LapSRN31.54/0.886628.09/0.769427.32/0.726425.21/0.755329.09/0.8900
    × 48. DRRN31.68/0.888828.21/0.772027.38/0.728425.44/0.763829.46/0.8960
    × 49. DBPN-R64-731.92/0.891528.41/0.777027.42/0.730425.59/0.768129.92/0.9003
    × 410. IDN31.82/0.890328.25/0.773027.41/0.729725.41/0.7632
    × 411. SRMDNF31.96/0.892528.35/0.778727.49/0.733725.68/0.773130.09/0.9024
    × 412. DRFN31.55/0.886128.30/0.773727.39/0.729325.45/0.762928.99/0.8106
    × 413. MRFN31.90/0.891628.31/0.774627.43/0.730925.46/0.765429.57/0.8962
    × 4Ours32.31/0.896328.71/0.784327.66/0.738326.30/0.792230.84/0.9126
    下载: 导出CSV 
    | 显示表格
    表 6  不同SR算法在×8上的定量评估
    Table 6  Quantitative comparison of different algorithms on ×8
    ScaleMethodSet5 PSNR/SSIMSet14 PSNR/SSIMBSD100 PSNR/SSIMUrban100 PSNR/SSIMManga109 PSNR/SSIM
    × 81. Bicubic24.40/0.658023.10/0.566023.67/0.548020.74/0.516021.47/0.6500
    × 82. SRCNN25.33/0.690023.76/0.591024.13/0.566021.29/0.544022.46/0.6950
    × 83. ESPCN25.75/0.673824.21/0.510924.37/0.527721.59/0.542022.83/0.6715
    × 84. FSRCNN25.42/0.644023.94/0.548224.21/0.511221.32/0.509022.39/0.6357
    × 85. VDSR25.93/0.724024.26/0.614024.49/0.583021.70/0.571023.16/0.7250
    × 86. LapSRN26.15/0.738024.35/0.620024.54/0.586021.81/0.581023.39/0.7350
    × 87. DRFN26.22/0.740024.57/0.625024.60/0.5870
    × 88. MSRN26.59/0.725424.88/0.596124.70/0.541022.37/0.597724.28/0.7517
    × 89. DBPN-R64-726.82/0.770024.77/0.634624.72/0.592822.22/0.603324.19/0.7664
    × 810. EDSR26.96/0.776224.91/0.642024.81/0.598522.51/0.622124.69/0.7841
    × 8Ours27.13/0.781925.02/0.644524.86/0.599222.59/0.623124.85/0.7885
    下载: 导出CSV 
    | 显示表格

    纵向来看, 在Set5数据集上对于×2 ~ ×8 SR, 本文算法的PSNR值相较于DBPN-R64-7分别提高了0.25 dB、0.41 dB、0.39 dB、0.31 dB. 横向来看, 当放大倍数为8时, 本文算法PSNR值在5个数据集上比EDSR算法分别提高了0.17 dB、0.11 dB、0.05 dB、0.08 dB和0.16 dB. 实验结果表明, 在2到8倍超分辨率重建时, 本文算法对于不同类型的图像和不同的放大倍数均具有良好的重建性能, 更好地适应重建难度更大的放大倍数, 而且放大倍数越大本文算法的优势相比越明显.

    2.3.2   定性分析

    选取Bicubic、SRCNN、FSRCNN、DRCN、DRRN、VDSR和LapSRN这7种算法与本文算法进行了定性对比, 图5图9显示了在8倍放大下对于5个标准测试集的超分辨率视觉效果对比图.

    图 5  在Set5上×8 SR的可视化结果(woman)
    Fig. 5  Visualized results of ×8 SR on Set5 (woman)
    图 9  在Manga109上×8 SR的可视化结果(TouyouKidan)
    Fig. 9  Visualized results of ×8 SR on Manga109 (TouyouKidan)

    图5显示了对于自然图像“Woman”的可视化结果, 本文算法重建出更加清晰准确的眉毛图案, 而其他算法损失了更多的细节; 图6显示了对于自然图像“Zebra”的可视化结果, 其他算法由于对高频分量的恢复能力较弱所以重建出了错误的条纹方向, 并且遭受不同程度的模糊和棋盘伪影, 而本文算法则成功消除了这些负面干扰并重建出更接近原始HR图像的纹理信息. 从图7可以看出, 本文算法对于不规则图案超越了其他算法, 可以预测更多的边缘细节. 从图8可以看出, 本文算法对包含更多中频和高频信息的规则结构图案的重建性能具有出色的效果, 最大程度地还原了高频细节并极大减少振铃效应的干扰. 图9显示了对于漫画图像“TouyouKidan”的可视化结果. 对于包含更多复杂结构和精细纹理的漫画图像, 其他算法由于特征利用不足难以估计高频信息, 降低了对文本细节的重建能力, 重建图像易遭受平滑边缘和严重的模糊伪像, 但本文算法抑制了平滑分量, 重建出清晰锐利的文字, 明显预测了更多高频细节, 具有更加清晰的边缘和轮廓特征.

    图 6  在Set14上×8 SR的可视化结果(zebra)
    Fig. 6  Visualized results of ×8 SR on Set14 (zebra)
    图 7  在BSD100上×8 SR的可视化结果(210779)
    Fig. 7  Visualized results of ×8 SR on BSD100 (210779)
    图 8  在Urban100上×8 SR的可视化结果(img005)
    Fig. 8  Visualized results of ×8 SR on Urban100 (img005)

    综上所述, 由于图像退化过程中信息的丢失, 尤其是高频信息的丢失, 这些基于CNN的SR算法只能还原平滑的图像边缘, 并且放大倍数越大, 边缘模糊越为严重. 而本文算法能够抑制平滑分量, 预测更多的高频分量和细化特征, 使SR图像具有更加清晰锐利的边缘和轮廓, 在很大程度上缓解棋盘伪影和振铃效应的干扰, 并且在8倍放大中仍然保留这种优势, 产生最接近原始真实图像的结果.

    本文中提出了一种基于多尺度特征融合反投影网络用于图像的超分辨率重建. 与单尺度网络相比, 网络中的多尺度特征提取模块在多个上下文尺度上提取图像特征, 捕获更多的细节信息, 还可以从输入的LR图像中创建上下文信息, 促进LR图像的恢复; 与前馈网络相比, 本网络可以利用高层特征细化低层表示, 并进一步丰富高级信息, 更深层次的挖掘LR和HR图像间的相互依赖关系. 本文算法不仅注重局部信息和全局信息的融合, 还侧重于将低级细节与高级抽象语义相结合, 面对8倍放大仍能很好地生成HR图像. 实验分析表明, 本文算法减轻了边缘结构的锯齿效应和模糊伪影的影响, 具有优秀的重建性能, 优于其他SR方法, 尤其在8倍放大中. 未来研究方向是将其应用于更高倍数(如16倍)的SR. 此外, 实际情况中往往需要使用任意放大倍数进行超分辨率重建, 因此设计和实现图像任意放大倍数超分辨率重建的单个网络也是潜在的研究方向.

  • 图  1  本文算法网络结构图

    Fig.  1  The structure of the proposed network

    图  2  8倍放大下对特征提取模块卷积核大小的分析

    Fig.  2  Analysis of kernel size in the feature extraction module on ×8 enlargement

    图  3  主流重建算法在Set5数据集上对于×8 SR的平均PSNR和参数数量对比

    Fig.  3  Comparison of the average PSNR and the number of parameters of the mainstream reconstruction algorithm for ×8 SR on Set5

    图  4  Set5测试集下对不同网络的性能分析

    Fig.  4  Analysis of different networks under Set5

    图  5  在Set5上×8 SR的可视化结果(woman)

    Fig.  5  Visualized results of ×8 SR on Set5 (woman)

    图  9  在Manga109上×8 SR的可视化结果(TouyouKidan)

    Fig.  9  Visualized results of ×8 SR on Manga109 (TouyouKidan)

    图  6  在Set14上×8 SR的可视化结果(zebra)

    Fig.  6  Visualized results of ×8 SR on Set14 (zebra)

    图  7  在BSD100上×8 SR的可视化结果(210779)

    Fig.  7  Visualized results of ×8 SR on BSD100 (210779)

    图  8  在Urban100上×8 SR的可视化结果(img005)

    Fig.  8  Visualized results of ×8 SR on Urban100 (img005)

    表  1  输入块大小、参数数量和网络超参数设置

    Table  1  The settings of input patch size, number of parameters and network hyperparameters

    放大倍数× 2× 3× 4× 8
    参数数量50162116490771816193916812691
    输入块尺寸60 × 6050 × 5040 × 4020 × 20
    特征提取模块特征提取层${f_{1 \times 1}}$: Conv(128, 1, 1, 0); ${f_{{\rm{3}} \times {\rm{3}}}}$: Conv (128, 3, 1, 1); ${f_{{\rm{5}} \times {\rm{5}}}}$: Conv(128, 5, 1, 2)
    特征融合层Conv(128×3, 1, 1, 1)
    特征映射模块支路1Conv1(64, 6, 2, 2)Conv1(64, 7, 3, 2)Conv1(64, 8, 4, 2)Conv1(64, 12, 8, 2)
    支路2Conv2(64, 8, 2, 3)Conv2(64, 9, 3, 3)Conv2(64, 10, 4, 3)Conv2(64, 14, 8, 3)
    重建模块Conv(64×7, 3, 1, 1)
    递归次数7
    深度73
    注: Conv(C, K, S, P): C表示通道数, K表示卷积核大小, S表示步长, P表示填充.
    下载: 导出CSV

    表  2  对特征提取模块卷积核大小的分析

    Table  2  Analysis of the kernel size of the feature extraction module

    ScaleMethodSet5 PSNR/SSIMSet14 PSNR/SSIMBSD100 PSNR/SSIMUrban100 PSNR/SSIMManga109 PSNR/SSIM
    ×8Ours_13527.13/0.781925.02/0.644524.86/0.599222.59/0.623124.85/0.7885
    Ours_35727.09/0.780625.03/0.643724.86/0.598622.57/0.621924.78/0.7859
    下载: 导出CSV

    表  3  对多尺度投影单元的卷积核大小分析

    Table  3  Analysis of the kernel size of the multi-scale projection unit

    Scale(卷积核尺寸、步长、填充)PSNR (dB)
    支路1支路2Set5Set14BSD100Urban100Manga109
    ×8(8, 8, 0)(10, 8, 1)27.0024.9524.8222.4524.68
    (10, 8, 1)(12, 8, 2)27.0824.9924.8422.5324.77
    (12, 8, 2)(14, 8, 3)27.1325.0224.8622.5924.85
    下载: 导出CSV

    表  4  ×8模型在Set5和Set14测试集上的深度分析

    Table  4  The depth analysis of the ×8 model on Set5 and Set14 datasets

    递归次数网络层数参数数量PSNR (dB)
    Set5Set14
    1131680232326.5024.53
    3331680577926.9824.89
    4431680750727.0324.94
    5531680923527.0524.96
    6631681096327.0724.98
    7731681269127.1325.02
    8831681441927.1325.02
    下载: 导出CSV

    表  5  不同SR算法在×2、×3和×4上的定量评估

    Table  5  Quantitative comparison of different algorithms on ×2, ×3, and ×4

    ScaleMethodSet5 PSNR/SSIMSet14 PSNR/SSIMBSD100 PSNR/SSIMUrban100 PSNR/SSIMManga109 PSNR/SSIM
    × 21. Bicubic33.68/0.930430.24/0.869129.56/0.843526.88/0.840531.05/0.9350
    × 22. SRCNN36.66/0.954232.45/0.906731.36/0.887929.51/0.894635.72/0.9680
    × 23. ESPCN37.00/0.955932.75/0.909831.51/0.893929.87/0.906536.21/0.9694
    × 24. FSRCNN37.06/0.955432.76/0.907831.53/0.891229.88/0.902429.88/0.9024
    × 25. VDSR37.53/0.958733.05/0.912731.90/0.896030.77/0.914137.16/0.9740
    × 26. DRCN37.63/0.958833.06/0.912131.85/0.894230.76/0.913337.57/0.9730
    × 27. LapSRN37.52/0.959132.99/0.912431.80/0.894930.41/0.910137.53/0.9740
    × 28. DRRN37.74/0.959133.23/0.913632.05/0.897331.23/0.918837.92/0.9760
    × 29. DBPN-R64-737.57/0.958933.09/0.913231.83/0.895130.75/0.913337.65/0.9747
    × 210. IDN37.83/0.960033.30/0.914832.08/0.898531.27/0.919638.02/0.9749
    × 211. SRMDNF37.79/0.960133.32/0.915932.05/0.898531.33/0.920438.07/0.9761
    × 212. DRFN37.71/0.959533.29/0.914232.02/0.897931.08/0.917933.42/0.9123
    × 213. MRFN37.98/0.961133.41/0.915932.14/0.899731.45/0.922138.29/0.9759
    × 2Ours37.82/0.959933.35/0.915632.04/0.898031.49/0.921838.23/0.9762
    × 31. Bicubic30.40/0.868627.54/0.774127.21/0.738924.46/0.734926.95/0.8560
    × 32. SRCNN32.75/0.909029.29/0.821528.41/0.786326.24/0.799130.48/0.9120
    × 33. ESPCN33.02/0.913529.49/0.827128.50/0.793726.41/0.816130.79/0.9181
    × 34. FSRCNN33.20/0.914929.54/0.827728.55/0.794526.48/0.817530.98/0.9212
    × 35. VDSR33.66/0.921329.78/0.831828.83/0.797627.14/0.827932.01/0.9340
    × 36. DRCN33.82/0.922629.77/0.831428.80/0.796327.15/0.827732.31/0.9360
    × 37. LapSRN33.82/0.922729.79/0.832028.82/0.797327.07/0.827132.21/0.9350
    × 38. DRRN34.03/0.924429.96/0.834928.95/0.800427.53/0.837732.74/0.9390
    × 39. DBPN-R64-733.90/0.923629.99/0.835328.87/0.799127.35/0.833632.59/0.9373
    × 310. IDN34.11/0.925329.99/0.835428.95/0.801327.42/0.835932.69/0.9378
    × 311. SRMDNF34.12/0.925430.04/0.838228.97/0.802527.57/0.839833.00/0.9403
    × 312. DRFN34.01/0.923430.06/0.836628.93/0.801027.43/0.835930.59/0.8539
    × 313. MRFN34.21/0.926730.03/0.836328.99/0.802927.53/0.838932.82/0.9396
    × 3Ours34.31/0.926530.29/0.840829.05/0.803527.94/0.847233.37/0.9433
    × 41. Bicubic28.43/0.810926.00/0.702325.96/0.667823.14/0.657425.15/0.7890
    × 42. SRCNN30.48/0.862827.50/0.751326.9/0.710324.52/0.722627.66/0.8580
    × 43. ESPCN30.66/0.864627.71/0.756226.98/0.712424.60/0.736027.70/0.8560
    × 44. FSRCNN30.73/0.860127.71/0.748826.98/0.702924.62/0.727227.90/0.8517
    × 45. VDSR31.35/0.883828.02/0.767827.29/0.725225.18/0.752528.82/0.8860
    × 46. DRCN31.53/0.885428.03/0.767327.24/0.723325.14/0.751128.97/0.8860
    × 47. LapSRN31.54/0.886628.09/0.769427.32/0.726425.21/0.755329.09/0.8900
    × 48. DRRN31.68/0.888828.21/0.772027.38/0.728425.44/0.763829.46/0.8960
    × 49. DBPN-R64-731.92/0.891528.41/0.777027.42/0.730425.59/0.768129.92/0.9003
    × 410. IDN31.82/0.890328.25/0.773027.41/0.729725.41/0.7632
    × 411. SRMDNF31.96/0.892528.35/0.778727.49/0.733725.68/0.773130.09/0.9024
    × 412. DRFN31.55/0.886128.30/0.773727.39/0.729325.45/0.762928.99/0.8106
    × 413. MRFN31.90/0.891628.31/0.774627.43/0.730925.46/0.765429.57/0.8962
    × 4Ours32.31/0.896328.71/0.784327.66/0.738326.30/0.792230.84/0.9126
    下载: 导出CSV

    表  6  不同SR算法在×8上的定量评估

    Table  6  Quantitative comparison of different algorithms on ×8

    ScaleMethodSet5 PSNR/SSIMSet14 PSNR/SSIMBSD100 PSNR/SSIMUrban100 PSNR/SSIMManga109 PSNR/SSIM
    × 81. Bicubic24.40/0.658023.10/0.566023.67/0.548020.74/0.516021.47/0.6500
    × 82. SRCNN25.33/0.690023.76/0.591024.13/0.566021.29/0.544022.46/0.6950
    × 83. ESPCN25.75/0.673824.21/0.510924.37/0.527721.59/0.542022.83/0.6715
    × 84. FSRCNN25.42/0.644023.94/0.548224.21/0.511221.32/0.509022.39/0.6357
    × 85. VDSR25.93/0.724024.26/0.614024.49/0.583021.70/0.571023.16/0.7250
    × 86. LapSRN26.15/0.738024.35/0.620024.54/0.586021.81/0.581023.39/0.7350
    × 87. DRFN26.22/0.740024.57/0.625024.60/0.5870
    × 88. MSRN26.59/0.725424.88/0.596124.70/0.541022.37/0.597724.28/0.7517
    × 89. DBPN-R64-726.82/0.770024.77/0.634624.72/0.592822.22/0.603324.19/0.7664
    × 810. EDSR26.96/0.776224.91/0.642024.81/0.598522.51/0.622124.69/0.7841
    × 8Ours27.13/0.781925.02/0.644524.86/0.599222.59/0.623124.85/0.7885
    下载: 导出CSV
  • [1] 张宁, 王永成, 张欣, 徐东东. 基于深度学习的单幅图片超分辨率重构研究进展. 自动化学报, 2020, 46(12): 2479−2499

    Zhang Ning, Wang Yong-Cheng, Zhang Xin, Xu Dong-Dong. A review of single image super-resolution based on deep learning. Acta Automatica Sinica, 2020, 46(12): 2479−2499
    [2] 张毅锋, 刘袁, 蒋程, 程旭. 用于超分辨率重建的深度网络递进学习方法. 自动化学报, 2020, 46(2): 274−282

    Zhang Yi-Feng, Liu Yuan, Jiang Cheng, Cheng Xu. A curriculum learning approach for single image super resolution. Acta Automatica Sinica, 2020, 46(2): 274−282
    [3] Tan Y, Cai J, Zhang S, Zhong W, Ye L. Image compression algorithms based on super-resolution reconstruction technology. In: Proceedings of the 2019 IEEE 4th International Conference on Image, Vision and Computing (ICIVC), 2019. 162−166
    [4] You C, Li G, Zhang Y Zhang, X, Shan H, Li M, Ju S, Zhao Z, Zhang Z, Cong W, Vannier M W, Saha P K, Hoffman E A, Wang G. CT super-resolution GAN constrained by the identical, residual, and cycle learning ensemble (GAN-CIRCLE). IEEE Transactions on Medical Imaging, 2020, 39(1): 188−203 doi: 10.1109/TMI.2019.2922960
    [5] Pang Y, Cao J, Wang J, Han J. JCS-Net: Joint classification and super-resolution network for small-scale pedestrian detection in surveillance images. IEEE Transactions on Information Forensics and Security, 2019, 14(12): 3322−3331 doi: 10.1109/TIFS.2019.2916592
    [6] 周登文, 赵丽娟, 段然, 柴晓亮. 基于递归残差网络的图像超分辨率重建. 自动化学报, 2019, 45(6): 1157−1165

    Zhou Deng-Wen, Zhao Li-Juan, Duan Ran, Chai Xiao-Liang. Image super-resolution based on recursive residual networks. Acta Automatica Sinica, 2019, 45(6): 1157−1165
    [7] 孙旭, 李晓光, 李嘉锋, 卓力. 基于深度学习的图像超分辨率复原研究进展. 自动化学报, 2017, 43(5): 697−709

    Sun Xu, Li Xiao-Guang, Li Jia-Feng, Zhuo Li. Review on deep learning based image super-resolution restoration algorithms. Acta Automatica Sinica, 2017, 43(5): 697−709
    [8] Dong C, Loy C C, He K, Tang X. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295−307 doi: 10.1109/TPAMI.2015.2439281
    [9] Dong C, Loy C C, He K, Tang X. Learning a deep convolutional network for image super-resolution. In: Proceedings of the 2014 European Conference on Computer Vision (ICCV), Springer, Cham, 2014. 184−199
    [10] 刘建伟, 赵会丹, 罗雄麟, 许鋆. 深度学习批归一化及其相关算法研究进展. 自动化学报, 2020, 46(6): 1090−1120

    Liu Jian-Wei, Zhao Hui-Dan, Luo Xiong-Lin, Xu Jun. Research progress on batch normalization of deep learning and its related algorithms. Acta Automatica Sinica, 2020, 46(6): 1090−1120
    [11] Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deep convolutional networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016. 1646–1654
    [12] B. Lim, S. Son, H. Kim, S. Nah, and K. M. Lee. Enhanced deep residual networks for single image super-resolution. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, 2017. 136–144
    [13] K. He, X. Zhang, S. Ren and J. Sun. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, 770−778
    [14] Tong T, Li G, Liu X, Gao Q. Image super-resolution using dense skip connections. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017. 4809−4817
    [15] Zhang Y, Tian Y, Kong Y, Zhong B, Fu Y. Residual dense network for image super-resolution. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018. 2472−2481
    [16] Haris M, Shakhnarovich G, Ukita N. Deep back-projection networks for single image super-resolution. IEEE Transactions on Pattern Analysis and Machine Intelligence, DOI: 10.1109/TPAMI.2020.3002836, 2020.
    [17] Huang G, Liu Z, Van Der Maaten L, Weinberger K Q, Densely connected convolutional networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017. 2261−2269
    [18] Kim J, Lee J K, Lee K M. Deeply-recursive convolutional network for image super-resolution. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016. 1637−1645
    [19] Tai Y, Yang J, Liu X. Image super-resolution via deep recursive residual network. In: Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017. 2790−2798
    [20] Dong C, Loy C C, Tang X. Accelerating the super-resolution convolutional neural network. In: Proceedings of the European Conference on Computer Vision, Springer, Cham, 2016. 391–407
    [21] Shi W, Caballero J, Huszár F, Totz J, Aitken A P, Bishop R, Rueckert D, Wang Z. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016. 1874−1883
    [22] Li Jun-Cheng, Fang Fa-Ming, Mei Kang-Fu, Zhang Gui-Xu. Multiscale residual network for image super-resolution. In: Proceedings of the European Conference on Computer Vision, Springer, Cham, 2018. 527−542
    [23] Lai W, Huang J, Ahuja N, Yang M. Deep Laplacian pyramid networks for fast and accurate super-resolution. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017. 5835−5843
    [24] Agustsson E, Timofte R. NTIRE 2017 challenge on single image super-resolution: Dataset and study. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, HI, 2017. 1122−1131
    [25] Deng J, Dong W, Socher R, Li L, Li Kai and Li Fei-Fei. ImageNet: A large-scale hierarchical image database. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 2009. 248−255
    [26] Szegedy C, Liu Wei, Jia Yang-Qing, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015. 1−9
    [27] Bevilacqua M, Roumy A, Guillemot C, Alberi-Morel M L, Low-complexity single image super-resolution based on nonnegative neighbor embedding. In: Proceedings of the British Machine Vision Conference, 2012. 1–10
    [28] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations. In: Proceedings of the International Conference on Curves and Surfaces, Springer, Berlin, Heidelberg, 2010. 711–730
    [29] Arbeláez P, Maire M, Fowlkes C, Malik J. Contour detection and hierarchical image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898−916 doi: 10.1109/TPAMI.2010.161
    [30] Huang J, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015. 5197−5206
    [31] Matsui Y, Ito K, Aramaki Y, Fujimoto A, Ogawa T, Yamasaki T, Aizawa K. Sketch-based manga retrieval using Manga109 dataset. Multimedia Tools & Applications, 2017, 76(20): 21811−21838
    [32] Zhou Wang, Bovik A C, Sheikh H R, Simoncelli E P. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 2004, 13(4): 600−612
    [33] He K, Zhang X, Ren S, Sun J. Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2015. 1026−1034
    [34] Kingma D P, Ba J. Adam: A method for stochastic optimization, arXiv preprint, arXiv: 1412.6980, 2014.
    [35] 毕敏敏. 基于深度学习的图像超分辨率技术研究[硕士学位论文]. 哈尔滨工业大学, 中国, 2020.

    Bi Min-Min. Research on image super-resolution technology based on deep learning [Master thesis]. Harbin Institute of Technology, China, 2020.
    [36] 李彬, 喻夏琼, 王平, 傅瑞罡, 张虹. 基于深度学习的单幅图像超分辨率重建综述. 计算机工程与科学, 2021, 43(01): 112−124

    Li Bin, Yu Xia-Qiong, Wang Ping, Fu Rui-Gang, Zhang Hong. A survey of single image super-resolution reconstruction based on deep learning. Computer Engineering and Science, 2021, 43(01): 112−124
    [37] Yang X, Mei H, Zhang J, Xu K, Yin B, Zhang Q, Wei X. DRFN: Deep recurrent fusion network for single-image super-resolution with large factors. IEEE Transactions on Multimedia, 2019, 21(2): 328−337 doi: 10.1109/TMM.2018.2863602
    [38] Hui Z, Wang X, Gao X. Fast and accurate single image super-resolution via information distillation network. In: Proceeding of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018.723−731
    [39] Zhang K, Zuo W, Zhang L. Learning a single convolutional super-resolution network for multiple degradations. In: Proceeding of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018. 3262−3271
    [40] He Z, Cao Y, Du L, Xu B, Yang J, Cao Y, Tang S, Zhuang Y. MRFN: Multi-receptive-field network for fast and accurate single image super-resolution. IEEE Transactions on Multimedia, 2020, 22(4): 1042−1054 doi: 10.1109/TMM.2019.2937688
  • 期刊类型引用(30)

    1. 江奎,王中元,黄文心,贾雪梅,王正,胡瑞敏. 一种基于降质学习的低光照图像增强方法. 小型微型计算机系统. 2025(02): 353-364 . 百度学术
    2. 刘田岩诗,李宇航,丁友东. 基于内卷特征提取和前景细节增强的图像协调化方法. 工业控制计算机. 2024(02): 119-121 . 百度学术
    3. 陈晓,曾昭优. 基于特征融合和B-SVM的鸟鸣声识别算法. 声学技术. 2024(01): 119-126 . 百度学术
    4. 彭青梅. 基于多尺度学习、特征映射网络的图像超分辨率重建研究. 长江信息通信. 2024(04): 89-91 . 百度学术
    5. 陈晓,曾昭优. 基于声音特征优化和改进支持向量机的鸟声识别. 测控技术. 2024(06): 21-25+32 . 百度学术
    6. 陈晓,王志雄,杨瑶. 基于BiLRCN和注意力机制的脉搏波血压测量. 测控技术. 2024(07): 23-30+70 . 百度学术
    7. 嵇伟明,陈晓. 基于红外通信的环境监测系统. 信息技术. 2024(08): 181-188 . 百度学术
    8. 陈晓,嵇伟明,张凯. 基于置信规则库气象站故障检测专家系统. 信息技术. 2024(09): 161-167 . 百度学术
    9. 王云涛,赵蔺,刘李漫,陶文兵. 基于组-信息蒸馏残差网络的轻量级图像超分辨率重建. 自动化学报. 2024(10): 2063-2078 . 本站查看
    10. 陈晓,华天昊. 优化形状因子的超声兰姆波损伤概率成像. 声学与电子工程. 2024(03): 48-53 . 百度学术
    11. 陈晓,戴杰. 基于预测兰姆波参考信号的缺陷概率成像. 电子学报. 2024(09): 3262-3271 . 百度学术
    12. 陈晓,毛烨炳,王超. 基于改进双层蚁群进化算法的无人机路径规划. 测控技术. 2024(12): 13-23+44 . 百度学术
    13. 李培育,张雅丽. 基于改进SRGAN模型的人脸图像超分辨率重建. 计算机工程. 2023(04): 199-205 . 百度学术
    14. 陈晓,夏颖. 基于改进MobileViT网络的番茄叶片病害识别. 电子测量技术. 2023(14): 188-196 . 百度学术
    15. 崔立尉,高宏伟. 基于先验信息与密集连接网络的人脸超分辨率重建方法. 光电子·激光. 2023(10): 1097-1104 . 百度学术
    16. 陈晓,戴杰. 基于相同传播距离路径的兰姆波无基准损伤概率成像. 电子测量与仪器学报. 2023(08): 94-104 . 百度学术
    17. 张剑,高云,何栋. 基于彩色-深度传感器的电容层析成像图像重建方法. 传感技术学报. 2023(11): 1788-1793 . 百度学术
    18. 何涛. 多工件拼接焊缝面结构光滑度的视觉检测技术研究. 计算机测量与控制. 2023(12): 90-96+166 . 百度学术
    19. 赵苏徽,陈晓. 基于树莓派和云平台的智能灌溉系统. 计算机系统应用. 2022(04): 123-129 . 百度学术
    20. 陈晓,杨瑶. 基于长期递归卷积网络的无创血压测量. 电子测量技术. 2022(04): 139-146 . 百度学术
    21. 吴瀚霖,李宛谕,张立保. 跨尺度耦合的连续比例因子图像超分辨率. 中国图象图形学报. 2022(05): 1604-1615 . 百度学术
    22. 陈晓,荆茹韵. 单图像超分辨率方法综述. 电子测量技术. 2022(09): 104-112 . 百度学术
    23. 朱妍妍,陈晓. 超声兰姆波检测电路板缺陷的有限元仿真研究. 计算机与数字工程. 2022(06): 1371-1376 . 百度学术
    24. 方金生,朱古沛. 轻型金字塔池化注意力机制网络实现图像超分. 计算机工程与应用. 2022(20): 197-205 . 百度学术
    25. 仝卫国,蔡猛,庞雪纯,翟永杰. 基于多尺度特征融合的超分辨率重建算法研究. 科学技术与工程. 2022(26): 11507-11514 . 百度学术
    26. 韩鹏飞,陈晓. 基于MFCC-IMFCC和GA-SVM的鸟声识别. 计算机系统应用. 2022(11): 393-399 . 百度学术
    27. 陈晓,毛烨炳. ADS-B技术在低空空域安全中应用的现状与展望. 电子测量技术. 2022(20): 61-67 . 百度学术
    28. 陈晓,杨瑶. 融合注意力机制的BiLSTM网络实现无创血压测量. 电子测量技术. 2022(23): 59-65 . 百度学术
    29. 王子轩,汤健,夏恒,张晓晓,荆中岭,韩红桂. 基于并行差分进化–梯度特征深度森林的废旧手机识别方法. 控制理论与应用. 2022(11): 2137-2148 . 百度学术
    30. 陈晓,张凯. 嵌入式自动气象站故障检测系统研究. 电子测量技术. 2021(23): 158-164 . 百度学术

    其他类型引用(29)

  • 加载中
图(9) / 表(6)
计量
  • 文章访问数:  1570
  • HTML全文浏览量:  514
  • PDF下载量:  288
  • 被引次数: 59
出版历程
  • 收稿日期:  2020-09-02
  • 录用日期:  2021-02-09
  • 网络出版日期:  2021-03-17
  • 刊出日期:  2021-07-27

目录

/

返回文章
返回