2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于自适应级联的注意力网络的超分辨重建

陈一鸣 周登文

陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035
引用本文: 陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035
Chen Yi-Ming, Zhou Deng-Wen. Adaptive attention network for image super-resolution. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035
Citation: Chen Yi-Ming, Zhou Deng-Wen. Adaptive attention network for image super-resolution. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035

基于自适应级联的注意力网络的超分辨重建


DOI: 10.16383/j.aas.c200035
详细信息
    作者简介:

    北京大学信息科学技术学院硕士研究生. 主要研究方向为计算机视觉、深度学习和生物计算. E-mail: 88143221@163.com

    华北电力大学控制与计算机工程学院教授. 长期从事图像处理方面的研究工作, 包括图像去噪、图像去马赛克、图像插值和图像超分辨率等. 当前的主要研究方向是神经网络和深度学习在图像处理和计算机视觉中的应用, 特别是, 图像超分辨率技术. 本文通信作者. E-mail: zdw@ncepu.edu.cn

Adaptive Attention Network for Image Super-Resolution

More Information
  • 摘要: 深度卷积神经网络(CNNs)显著提升了单图像超分辨率的性能. 通常, 网络越深, 性能越好. 然而加深网络往往会急剧增加参数量和计算负荷, 这限制了它在资源受限的移动设备上的应用. 本文中, 我们提出了一个基于轻量级自适应级联的注意力网络(ACAN)的单图像超分辨率方法. 特别地, 我们提出了局部像素级注意力(LPA)模块, 它给输入特征的每一个特征通道上的像素点都赋以不同的权值, 从而为重建高质量图像选取更精确的高频信息. 此外, 我们设计了自适应的级联残差(ACR)连接, 它可以自适应地结合网络产生的层次特征, 能够更好地进行特征重用. 最后, 为了充分利用网络产生的信息, 我们提出了多尺度全局自适应重建(MGAR)模块. MGAR模块使用不同大小的卷积核处理网络在不同深度处产生的信息, 提高了重建质量. 与当前最好的类似方法相比, 我们方法的参数量更小, 客观和主观度量显著更好.
  • 图  1  (a) 自适应级联的注意力网络(ACAN)结构 (b) 符号说明

    Fig.  1  (a) The architecture of adaptive cascading attention network (ACAN) (b) Sign description

    图  2  (a) 提取及掩模模块 (b)符号说明

    Fig.  2  (a) The architecture of extract-and-mask block (b) Sign description

    图  3  特征提取模块

    Fig.  3  Feature extracting block

    图  4  局部像素级注意力模块

    Fig.  4  Local pixel-wise attention block

    图  5  多尺度全局自适应重建模块

    Fig.  5  Multi-scale global adaptive reconstruction block

    图  6  非线性映射模块中每个HFEB输出特征的可视化结果

    Fig.  6  Visual results of each HFEB's output feature in non-linear mapping

    图  7  包含不同个数的HFEB的ACAN在验证集上的性能比较

    Fig.  7  Performance comparison of ACAN on validation set with different number of HFEB.

    图  8  包含不同个数的HFEB的ACAN在Set5测试集上的性能比较

    Fig.  8  Performance comparison of ACAN on Set5 testing set with different number of HFEB.

    图  9  视觉比较结果(1) 第一组图是Urban100数据集中的“image024”在×4下的比较结果; (2) 第二组图是Urban100数据集中的“image061”在×4下的比较结果; (3) 第三组图是Urban100数据集中的“image092”在×4下的比较结果.

    Fig.  9  Visual comparison (1) the first set of images show img024 (Urban100 with scale factor ×4); (2) the second set of images show img061 (Urban100 with scale factor ×4); (3) the third set of images show img092 (Urban100 with scale factor ×4).

    表  1  不同卷积核的排列顺序对重建效果的影响

    Table  1  Effect of convolution kernels with different order on reconstruction performance

    卷积组排列顺序 9753 3579 3333 9999
    PSNR(dB) 35.569 35.514 35.530 35.523
    下载: 导出CSV

    表  2  不同层次特征对重建效果的影响

    Table  2  Impact of different hierarchical features on reconstruction performance

    移除的卷积组大小 3 5 7 9
    PSNR(dB) 35.496 35.517 35.541 35.556
    下载: 导出CSV

    表  3  原始的DBPN(O-DBPN)和使用MGAR模块的DBPN(M-DBPN)的客观效果比较

    Table  3  Objective comparison between original DBPN (O-DBPN) and DBPN (M-DBPN) using MGAR module

    使用不同重建模块的DBPN PSNR(dB)
    O-DBPN 35.343
    M-DBPN 35.399
    下载: 导出CSV

    表  4  Sigmoid门函数的有无对LPA模块性能的影响

    Table  4  Influence of Sigmoid gate function to LPA block

    Sigmoid门函数 PSNR(dB)
    $\times$ 35.569
    $\checkmark$ 35.497
    下载: 导出CSV

    表  5  不同残差的连接方式对重建效果的影响

    Table  5  Effect of different residual connection methods on reconstruction performance

    不同种类的残差连接 PSNR(dB)
    残差连接 35.515
    无残差连接 35.521
    带自适应参数的残差连接 35.569
    下载: 导出CSV

    表  6  使用LPA模块和未使用LPA模块的客观效果比较

    Table  6  Comparison of objective effects of ACAN with and without LPA module

    LPA模块 PSNR(dB)
    $\checkmark$ 35.569
    $\times$ 35.489
    下载: 导出CSV

    表  7  NLMB使用三种不同连接方式对重建效果的影响

    Table  7  Impact of using three different connection methods on NLMB on reconstruction performance

    使用的跳跃连接 PSNR(dB)
    残差连接 35.542
    级联连接 35.502
    自适应级联残差连接 35.569
    下载: 导出CSV

    表  8  不同网络模型深度对重建性能的影响

    Table  8  Impact of different network depths on reconstruction performance

    T 6 7 8 9
    PSNR(dB) 35.530 35.538 35.569 35.551
    下载: 导出CSV

    表  9  各种SISR方法的平均PSNR值与SSIM值, 最好结果与次好结果分别用加粗和下划线标出.

    Table  9  Average PSNR/SSIM of various SISR methods. Best and second best results are higntlighted and underline.

    放大倍数 模型 参数量 Set5 PSNR/SSIM Set14 PSNR/SSIM B100 PSNR/SSIM Urban100 PSNR/SSIM Manga109 PSNR/SSIM
    $\times$ 2 SRCNN 57K 36.66/0.9524 32.42/0.9063 31.36/0.8879 29.50/0.8946 35.74/0.9661
    FSRCNN 12K 37.00/0.9558 32.63/0.9088 31.53/0.8920 29.88/0.9020 36.67/0.9694
    VDSR 665K 37.53/0.9587 33.03/0.9124 31.90/0.8960 30.76/0.9140 37.22/0.9729
    DRCN 1774K 37.63/0.9588 33.04/0.9118 31.85/0.8942 30.75/0.9133 37.63/0.9723
    LapSRN 813K 37.52/0.9590 33.08/0.9130 31.80/0.8950 30.41/0.9100 37.27/0.9740
    DRRN 297K 37.74/0.9591 33.23/0.9136 32.05/0.8973 31.23/0.9188 37.92/0.9760
    MemNet 677K 37.78/0.9597 33.28/0.9142 32.08/0.8978 31.31/0.9195 37.72/0.9740
    SRMDNF 1513K 37.79/0.9600 33.32/0.9150 32.05/0.8980 31.33/0.9200 38.07/0.9761
    CARN 1592K 37.76/0.9590 33.52/0.9166 32.09/0.8978 31.92/0.9256 38.36/0.9765
    SRFBN-S 282K 37.78/0.9597 33.35/0.9156 32.00/0.8970 31.41/0.9207 38.06/0.9757
    ACAN(Ours) 800K 38.10/0.9608 33.60/0.9177 32.21/0.9001 32.29/0.9297 38.81/0.9773
    ACAN+(Ours) 800K 38.17/0.9611 33.69/0.0.9182 32.26/0.9006 32.47/0.9315 39.02/0.9778
    $\times$ 3 SRCNN 57K 32.75/0.9090 29.28/0.8209 28.41/0.7863 26.24/0.7989 30.59/0.9107
    FSRCNN 12K 33.16/0.9140 29.43/0.8242 28.53/0.7910 26.43/0.8080 30.98/0.9212
    VDSR 665K 33.66/0.9213 29.77/0.8314 28.82/0.7976 27.14/0.8279 32.01/0.9310
    DRCN 1774K 33.82/0.9226 29.76/0.8311 28.80/0.7963 27.15/0.8276 32.31/0.9328
    DRRN 297K 34.03/0.9244 29.96/0.8349 28.95/0.8004 27.53/0.8378 32.74/0.9390
    MemNet 677K 34.09/0.9248 30.00/0.8350 28.96/0.8001 27.56/0.8376 32.51/0.9369
    SRMDNF 1530K 34.12/0.9250 30.04/0.8370 28.97/0.8030 27.57/0.8400 33.00/0.9403
    CARN 1592K 34.29/0.9255 30.29/0.8407 29.06/0.8034 27.38/0.8404 33.50/0.9440
    SRFBN-S 376K 34.20/0.9255 30.10/0.8372 28.96/0.8010 27.66/0.8415 33.02/0.9404
    ACAN(Ours) 1115K 34.46/0.9277 30.39/0.8435 29.11/0.8055 28.28/0.8550 33.61/0.9447
    ACAN+(Ours) 1115K 34.55/0.9283 30.46/0.8444 29.16/0.8065 28.45/0.8577 33.91/0.9464
    $\times$ 4 SRCNN 57K 30.48/0.8628 27.49/0.7503 26.90/0.7101 24.52/0.7221 27.66/0.8505
    FSRCNN 12K 30.71/0.8657 27.59/0.7535 26.98/0.7150 24.62/0.7280 27.90/0.8517
    VDSR 665K 31.35/0.8838 28.01/0.7674 27.29/0.7251 25.18/0.7524 28.83/0.8809
    DRCN 1774K 31.53/0.8854 28.02/0.7670 27.23/0.7233 25.14/0.7510 28.98/0.8816
    LapSRN 813K 31.54/0.8850 28.19/0.7720 27.32/0.7280 25.21/0.7560 29.09/0.8845
    DRRN 297K 31.68/0.8888 28.21/0.7720 27.38/0.7284 25.44/0.7638 29.46/0.8960
    MemNet 677K 31.74/0.8893 28.26/0.7723 27.40/0.7281 25.50/0.7630 29.42/0.8942
    SRMDNF 1555K 31.96/0.8930 28.35/0.7770 27.49/0.7340 25.68/0.7730 30.09/0.9024
    CARN 1592K 32.13/0.8937 28.60/0.7806 27.58/0.7349 26.07/0.7837 30.47/0.9084
    SRFBN-S 483K 31.98/0.8923 28.45/0.7779 27.44/0.7313 25.71/0.7719 29.91/0.9008
    ACAN(Ours) 1556K 32.24/0.8955 28.62/0.7824 27.59/0.7366 26.17/0.7891 30.53/0.9086
    ACAN+(Ours) 1556K 32.35/0.8969 28.68/0.7838 27.65/0.7379 26.31/0.7922 30.82/0.9117
    下载: 导出CSV
  • [1] Freeman W T, Pasztor E C, Carmichael O T. Learning lowlevel vision. International Journal of Computer Vision, 2000, 40(1): 25−47 doi:  10.1023/A:1026501619075
    [2] PeyréG, Bougleux S, Cohen L. Non-local regularization of inverse problems. In: Proceedings of the European Conference on Computer Vision. Berlin, Germany: Springer, Heidelberg, 2008. 57−68
    [3] LeCun Y, Bengio Y, Hinton G. Deep learning. nature, 2015, 521(7553): 436−444 doi:  10.1038/nature14539
    [4] Dong C, Loy C C, He K, et al. Learning a deep convolutional network for image super-resolution. In: Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer, Cham, 2014. 184−199
    [5] Li Z, Yang J, Liu Z, et al. Feedback network for image superresolution. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 3867−3876
    [6] Kim J, Kwon Lee J, Mu Lee K. Deeply-recursive convolutional network for image super-resolution. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1637−1645
    [7] Tai Y, Yang J, Liu X. Image super-resolution via deep recursive residual network. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 3147−3155
    [8] Tai Y, Yang J, Liu X, et al. Memnet: A persistent memory network for image restoration. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 4539−4547
    [9] Ahn N, Kang B, Sohn K A. Fast, accurate, and lightweight super-resolution with cascading residual network. In: Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer, Cham, 2018. 252−268
    [10] Cao C, Liu X, Yang Y, et al. Look and think twice: Capturing top-down visual attention with feedback convolutional neural networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 2956−2964
    [11] Wang F, Jiang M, Qian C, et al. Residual attention network for image classification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 3156−3164
    [12] Hu J, Shen L, Sun G. Squeeze-and-excitation networks. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 7132−7141
    [13] Li K, Wu Z, Peng K C, et al. Tell me where to look: Guided attention inference network. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 9215−9223
    [14] Liu Y, Wang Y, Li N, et al. An attention-based approach for single image super resolution. In: Proceedings of the 2018 24th International Conference on Pattern Recognition. Beijing, China: IEEE, 2018. 2777−2784
    [15] Zhang Y, Li K, Li K, et al. Image super-resolution using very deep residual channel attention networks. In: Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer, Cham, 2018. 286−301
    [16] Kim J, Kwon Lee J, Mu Lee K. Accurate image superresolution using very deep convolutional networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1646−1654
    [17] Wang Z, Chen J, Hoi S C H. Deep learning for image superresolution: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020
    [18] Dong C, Loy C C, Tang X. Accelerating the super-resolution convolutional neural network. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Zurich, Switzerland: Springer, Cham, 2016. 391−407
    [19] Shi W, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1874−1883
    [20] Tong T, Li G, Liu X, et al. Image super-resolution using dense skip connections. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 4799−4807
    [21] Li J, Fang F, Mei K, et al. Multi-scale residual network for image super-resolution. In: Proceedings of the European Conference on Computer Vision. Zurich, Switzerland: Springer, Cham, 2018. 517−532
    [22] Haris M, Shakhnarovich G, Ukita N. Deep back-projection networks for super-resolution. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018. 1664−1673
    [23] Agustsson E, Timofte R. Ntire 2017 challenge on single image super-resolution: Dataset and study. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE, 2017. 126−135
    [24] Bevilacqua M, Roumy A, Guillemot C, et al. Lowcomplexity single-image super-resolution based on nonnegative neighbor embedding. In: Proceedings of the 23rd British Machine Vision Conference. Guildford, UK: BMVA Press, 2012. 135.1−135.10
    [25] Zeyde R, Elad M, Protter M. On single image scale-up using sparse-representations. In: Proceedings of International Conference on Curves and Surfaces. Berlin, Germany: Springer, Heidelberg, 2010. 711−730
    [26] Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 5197−5206
    [27] Martin D, Fowlkes C, Tal D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: Proceedings of the 2001 International Conference on Computer Vision. Vancouver, Canada: IEEE, 2015. 416−423
    [28] Matsui Y, Ito K, Aramaki Y, et al. Sketch-based manga retrieval using manga109 dataset. Multimedia Tools and Applications, 2017, 76(20): 21811−21838 doi:  10.1007/s11042-016-4020-z
    [29] Kingma D P, Ba J. Adam: A method for stochastic optimization. arXiv preprint arXiv: 1412.6980, 2014
    [30] Lai W S, Huang J B, Ahuja N, et al. Deep laplacian pyramid networks for fast and accurate super-resolution. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 5835−5843
    [31] Zhang K, Zuo W, Zhang L. Learning a single convolutional super-resolution network for multiple degradations. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3262−3271
    [32] Timofte R, Rothe R, Van Gool L. Seven ways to improve example-based single image super resolution. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1865−1873
    [33] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 2004, 13(4): 600−612 doi:  10.1109/TIP.2003.819861
    [34] Wu H, Zou Z, Gui J, et al. Multi-grained Attention Networks for Single Image Super-Resolution. IEEE Transactions on Circuits and Systems for Video Technology, 2020
    [35] 孙旭, 李晓光, 李嘉锋, 卓力. 基于深度学习的图像超分辨率复原研 究进展. 自动化学报, 2017, 43(5): 697−709

    SUN Xu, LI Xiao-Guang, LI Jia-Feng, ZHUO Li. Review on deep learning based image super-resolution restoration algorithms. Acta Automatica Sinica, 2017, 43(5): 697−709
    [36] 周登文, 赵丽娟, 段然, 柴晓亮. 基于递归残差网络的图像超分辨率 重建. 自动化学报, 2019, 45(6): 1157−1165

    ZHOU Deng-Wen, ZHAO Li-Juan, DUAN Ran, CHAI XiaoLiang. Image super-resolution based on recursive residual networks. Acta Automatica Sinica, 2019, 45(6): 1157−1165
    [37] 张毅锋, 刘袁, 蒋程, 程旭. 用于超分辨率重建的深度网络递进学习 方法. 自动化学报, 2020, 46(2): 274−282

    ZHANG Yi-Feng, LIU Yuan, JIANG Cheng, CHENG Xu. A curriculum learning approach for single image super resolution. Acta Automatica Sinica, 2020, 46(2): 274−282
  • [1] 周勇, 王瀚正, 赵佳琦, 陈莹, 姚睿, 陈思霖. 基于可解释注意力部件模型的行人重识别方法[J]. 自动化学报, doi: 10.16383/j.aas.c200493
    [2] 王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170295
    [3] 肖进胜, 申梦瑶, 江明俊, 雷俊峰, 包振宇. 融合包注意力机制的监控视频异常行为检测[J]. 自动化学报, doi: 10.16383/j.aas.c190805
    [4] 汤文兵, 任正云, 韩芳. 基于注意力机制的协同卷积动态推荐网络[J]. 自动化学报, doi: 10.16383/j.aas.c190820
    [5] 张毅锋, 刘袁, 蒋程, 程旭. 用于超分辨率重建的深度网络递进学习方法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c180158
    [6] 金侠挺, 王耀南, 张辉, 刘理, 钟杭, 贺振东. 基于贝叶斯CNN和注意力网络的钢轨表面缺陷检测系统[J]. 自动化学报, doi: 10.16383/j.aas.c190143
    [7] 周登文, 赵丽娟, 段然, 柴晓亮. 基于递归残差网络的图像超分辨率重建[J]. 自动化学报, doi: 10.16383/j.aas.c180334
    [8] 冯冲, 康丽琪, 石戈, 黄河燕. 融合对抗学习的因果关系抽取[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170481
    [9] 胡长胜, 詹曙, 吴从中. 基于深度特征学习的图像超分辨率重建[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150634
    [10] 李滔, 何小海, 卿粼波, 滕奇志. 基于自适应块组割先验的噪声图像超分辨率重建[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160268
    [11] 潘宗序, 禹晶, 肖创柏, 孙卫东. 基于光谱相似性的高光谱图像超分辨率算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.02797
    [12] 张东晓, 鲁林, 李翠华, 金泰松. 基于亚像素位移的超分辨率图像重建算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.02851
    [13] 潘宗序, 禹晶, 胡少兴, 孙卫东. 基于多尺度结构自相似性的单幅图像超分辨率算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00594
    [14] 潘宗序, 禹晶, 肖创柏, 孙卫东. 基于多尺度非局部约束的单幅图像超分辨率算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.02233
    [15] 练秋生, 张钧芹, 陈书贞. 基于两级字典与分频带字典的图像超分辨率算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.01310
    [16] 张地, 何家忠. 基于特征空间的人脸超分辨率重构[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.01145
    [17] 安耀祖, 陆耀, 赵红. 一种自适应正则化的图像超分辨率算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00601
    [18] 孙琰玥, 何小海, 宋海英, 陈为龙. 一种用于视频超分辨率重建的块匹配图像配准方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00037
    [19] 孙玉宝, 费选, 韦志辉, 肖亮. 基于前向后向算子分裂的稀疏性正则化图像超分辨率算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.01232
    [20] 张冬明, 潘炜, 陈怀新. 基于MAP框架的时空联合自适应视频序列超分辨率重建[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00484
  • 加载中
计量
  • 文章访问数:  11
  • HTML全文浏览量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-01-16
  • 录用日期:  2020-06-28

基于自适应级联的注意力网络的超分辨重建

doi: 10.16383/j.aas.c200035
    作者简介:

    北京大学信息科学技术学院硕士研究生. 主要研究方向为计算机视觉、深度学习和生物计算. E-mail: 88143221@163.com

    华北电力大学控制与计算机工程学院教授. 长期从事图像处理方面的研究工作, 包括图像去噪、图像去马赛克、图像插值和图像超分辨率等. 当前的主要研究方向是神经网络和深度学习在图像处理和计算机视觉中的应用, 特别是, 图像超分辨率技术. 本文通信作者. E-mail: zdw@ncepu.edu.cn

摘要: 深度卷积神经网络(CNNs)显著提升了单图像超分辨率的性能. 通常, 网络越深, 性能越好. 然而加深网络往往会急剧增加参数量和计算负荷, 这限制了它在资源受限的移动设备上的应用. 本文中, 我们提出了一个基于轻量级自适应级联的注意力网络(ACAN)的单图像超分辨率方法. 特别地, 我们提出了局部像素级注意力(LPA)模块, 它给输入特征的每一个特征通道上的像素点都赋以不同的权值, 从而为重建高质量图像选取更精确的高频信息. 此外, 我们设计了自适应的级联残差(ACR)连接, 它可以自适应地结合网络产生的层次特征, 能够更好地进行特征重用. 最后, 为了充分利用网络产生的信息, 我们提出了多尺度全局自适应重建(MGAR)模块. MGAR模块使用不同大小的卷积核处理网络在不同深度处产生的信息, 提高了重建质量. 与当前最好的类似方法相比, 我们方法的参数量更小, 客观和主观度量显著更好.

English Abstract

陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035
引用本文: 陈一鸣, 周登文. 基于自适应级联的注意力网络的超分辨重建. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035
Chen Yi-Ming, Zhou Deng-Wen. Adaptive attention network for image super-resolution. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035
Citation: Chen Yi-Ming, Zhou Deng-Wen. Adaptive attention network for image super-resolution. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200035
  • 单图像超分辨率(SISR: Single image super-resolution)[1]技术是一个经典的计算机视觉任务, 旨在从一个低分辨率(LR: Low-resolution)图像生成对应的高分辨率(HR: High-resolution)图像, 它在医学成像、监控和遥感等领域有十分广泛的应用. SISR是一个病态的逆问题, 要重建逼真的HR图像非常困难, 因为一个LR图像可与多个HR图像对应, 需要假定的先验知识, 正则化原HR图像解[2].

    近年来, 深度学习(DL: Deep learning)[3]技术显著改进了SISR性能, 并主导了当前SISR技术的研究. Dong等[4]提出了第一个基于卷积神经网络(CNN: Convolutional Neural Network)的SISR算法, 称之为SRCNN. SRCNN只有三个卷积层, 感受野较小. 之后的SISR方法的一个趋势是: 逐步加深网络, 从而获得更强的LR-HR映射能力, 同时拥有更大的感受野, 能够融入更多的背景信息(contextual information), 改进了SISR性能[5]. 然而加深网络也会带来一些问题: 更大的网络(更深或更宽), 会有更多的参数, 需要更大的内存和更强的计算力, 这阻碍了它在资源受限的设备, 如移动设备上的实际应用. 当前已有一些引人注意的基于轻量级网络的SISR方法被提出. Kim等[6]提出的DRCN方法, 使用深度递归的方法, 在卷积层之间共享参数, 在加深网络的同时, 尽可能不增加网络参数量. Tai等[7]提出的DRRN, 也使用了深度递归的方法. 与DRCN的区别在于DRRN在残差块之间共享参数, 不仅显著地减少了参数量, 而且性能也显著更好. Tai等[8]也提出了MemNet方法, 使用记忆模块, 并多次递归, 既能控制参数量, 也能更好地利用多层特征信息. Ahn等[9]提出的CARN方法, 使用级联残差的形式, 重用不同层次的信息. Li等[5]提出的SRFBN-S方法, 使用循环神经网络结构, 共享隐藏层的参数, 并多次利用各个隐藏层的输出, 从而改进了网络性能.

    本文提出了一个新的轻量级SISR模型, 称为自适应级联的注意力网络(ACAN). 与当前类似的尖端SISR方法相比, ACAN有更好的性能和参数量平衡. 我们的主要贡献包括: (1) 提出了自适应级联的残差(ACR: Adaptive Cascading Residual) 连接. 残差块之间的连接权重, 是在训练中学习的, 能够自适应结合不同层次的特征信息, 以利于特征重用. (2) 提出了局部像素级注意力(LPA: Local Pixel-wise Attention)模块. 其对输入特征的每一个特征通道(Channel)的空间位置赋予不同的权重, 以关注更重要的特征信息, 更好地重建高频信息. (3) 提出了多尺度全局自适应重建(MGAR: Multi-scale Global Adaptive Reconstruction)模块, 不同尺寸的卷积核处理不同层次的特征信息, 并自适应地组合处理结果, 以产生更好的重建图像.

    • 注意力机制在计算机视觉领域中已经引起了越来越多的关注[10][11][12]. 在图像分类问题中, Wang等[11]设计了软掩模(Soft mask)支路, 同时探索特征在空间维度和通道维度上的关系. Hu等[12]提出了轻量级的挤压和激励(SE: Squeeze-and-Excitation)模块, 在网络训练过程中探索特征通道之间的内在联系. 在图像理解问题中, Li等[13]提出了引导的注意推理网络, 网络预测结果能够聚焦于感兴趣的区域(ROI). Liu等[14]首次将注意力机制引入到SISR中, 提出了全局的注意力产生网络(Attention producing network), 能够定位输出特征的高频信息, 以改进SISR性能. Zhang等[15]提出的RCAN方法, 使用通道注意力机制, 能够选择携带信息丰富的特征通道. 本文中, 我们主要受Wang等[11]和Liu等[14]的启发, 提出了局部像素级注意力模块. 在像素级别上定位高频信息丰富的区域, 以更好地利用特征.

    • 上采样层是SISR重建中很重要的一个组成部分. 早期基于深度学习的SISR方法[4][16][8], 一般先将LR图像, 用双三次插值到目标HR图像的尺寸, 再输入到网络模型. 这有助于减轻学习难度, 但大大增加了网络的计算量与参数量[17]. 目前常用的重建方法是直接输入原始的LR图像[18][19], 再将网络模型的输出上采样得到重建的HR图像. 文献[20][18]使用转置的卷积作为上采样层, 文献[19][15]使用亚像素卷积进行上采样. 这些单尺度上采样能缓解预上采样的弊端, 但是, 其同样存在难以充分利用网络模型产生的丰富的特征信息的问题. 本文提出了一种多尺度全局自适应的上采样方式: 针对不同的层次特征使用不同尺寸的卷积核, 多尺度地利用网络模型产生的特征信息, 并能够根据自适应参数, 自适应选择不同层次特征的结合方式, 以改进超分辨率的重建效果.

    • 我们的ACAN网络模型主要包括: 浅层特征提取模块(SFEB: Shallow Features Extract Block)、非线性映射模块(NLMB: Non-Linear Mapping Block)、多尺度全局自适应重建(MGAR)模块和全局残差连接, 如图1所示. SFEB是一个3×3卷积层, 提取输入LR图像的浅层特征, 并将提取的特征输入到NLMB模块. 在本文中使用的所有大小的卷积层的尾部都伴随着激活层, 并且使用PReLU作为所有激活层的激活函数, 在后文不再详细说明. 受SRFBN[5]的启发, 我们在NLMB中采用类似的结构, 并在层次特征提取模块(HFEB: Hierarchical Features Extract Block)之间参数共享, 以减少参数量. NLMB是HFEB的多次递归, 在SFEB的基础上进一步进行深层特征的提取. HFEB由两个3×3的卷积层和一个提取及掩模(EM: Extract-and-mask)模块组成. 由于我们设计的ACR连接, 第一个HFEB的输入仅为SFEB的输出, 之后递归的每一次, HFEB的输入都包含两个部分: 1) 上一层HFEB的输出; 2) 前面所有HFEB的输出与对应的自适应参数相乘后的和, 并直接输入到当前HFEB的EM模块中. MGAR模块则接收NLMB的所有输出重建残差图像. 最后, 全局残差连接产生双三次插值的LR图像, 其与残差图像相加之后即为重建的HR图像. 由于之前的工作[21], 已经指出L2函数作为损失函数的缺点, 我们最终使用L1函数作为本文的损失函数, 如下所示:

      图  1  (a) 自适应级联的注意力网络(ACAN)结构 (b) 符号说明

      Figure 1.  (a) The architecture of adaptive cascading attention network (ACAN) (b) Sign description

      $$ Loss(\hat{I}, I) = {\begin{Vmatrix} \hat{I} - I \end{Vmatrix}}_1 $$ (1)

      此处 $ \hat{I} $ $ I $ 分别代表模型产生的HR图像和真实的HR图像.

      下面分别详细介绍HFEB、EM模块和MGAR模块.

    • HFEB的重要特征是: 每个HFEB的输入来源不同. 由于信息在流动过程中会不断损耗, 因此我们希望使用跳跃连接解决这个问题. 为了有效地进行特征重用, 同时考虑参数量的问题, 我们最终搭建了自适应级联残差(ACR)连接, 如图1(a)所示. ACR连接结构上类似于级联连接(Cascading connection), 但本质上仍为残差连接, 并通过自适应参数控制信息流动. 由图1(a)可知, 由于ACR连接, 除第一个HFEB的输入只接收SFEB的输出外, 之后的每个HFEB的输入都包括两个部分: 1) 上一层HFEB的输出. 2) 前面所有HFEB的输出与对应的自适应参数相乘后的和.

      在第 $ t $ 个HFEB中, 第一部分输入(即第 $ t-1 $ 个HFEB的输出), 先经过两个3×3的卷积层, 然后将输出乘上对应的自适应参数, 并与第二部分输入相加, 再输入到其中的EM模块进行高频信息的定位与提取. 第 $ t $ 个HFEB的表达式如下所示:

      $$ I_{SR}^{t} = f_{HFEB}(I_{inter\_in}^{t},I_{SR}^{t-1}) $$ (2)

      $ f_{HFEB} $ 表示HFEB, $ I_{SR}^{t-1} $ $ I_{inter\_in}^{t} $ 分别为第 $ t $ 个HFEB的第一部分输入和第二部分输入, $ I_{SR}^{t} $ 为第 $ t $ 个HFEB的输出.

    • 在每个HFEB中, 我们使用EM模块选择和提取高频特征信息. EM模块主要由三个部分组成: 特征预处理单元、特征提取模块以及局部像素级注意力模块, 如图2所示.

      图  2  (a) 提取及掩模模块 (b)符号说明

      Figure 2.  (a) The architecture of extract-and-mask block (b) Sign description

      如前所述, 第 $ t $ 个EM模块的输入来自两个部分: 1) 当前HFEB中, 经过两个3×3卷积层的输出 $ I_{in}^{t} $ , 乘上对应的自适应参数 $ \alpha_{t} $ 后的积; 2) 前面所有HFEB的输出与对应的自适应参数相乘后的和 $ I_{inter\_in}^{t} $ . 二者之和为当前EM模块的输入. EM模块的输入可表示如下:

      $$ I_{inter\_in}^{t} = \sum\limits_{i = 1}^{t-1}\Phi_{i}^{t-i} * I_{SR}^{i} $$ (3)
      $$ I_{sum\_in}^t = I_{inter\_in}^{t} + \alpha_{t} * I_{in}^{t} $$ (4)

      其中, $ I_{sum\_in}^{t} $ 是第 $ t $ 个EM模块最终的输入, $ I_{SR}^{i} $ 是第 $ i $ 个EM模块的输出, 同时也是第 $ i $ 个HFEB的输出, $ \Phi_{i}^{t-i} $ 是第 $ i $ 个HFEB的输出输入到第 $ t $ 个EM模块时, 对应的自适应参数.

      为了缓解梯度消失的问题, 我们在EM模块外增加了局部残差连接. 第 $ t $ 个HFEB中EM模块的输出可表示如下:

      $$ I_{SR}^t = f_{EM}(I_{sum\_in}^t) + I_{sum\_in}^t $$ (5)

      下面详细介绍EM模块的各个组成部分.

    • 为了初步选择信息更丰富的特征, 先在EM模块中, 使用类似于Hu等[12]提出的SE模块, 进行通道级的特征选择. 为了加权各个特征通道, 我们将SE模块中的Sigmoid门函数替换成Softmax门函数. 同时为了减少因Softmax门函数引起的信息损失, 增加了局部残差连接. 修改的SE模块, 可以表示如下:

      $$ I_{SE*} = f_{SE*}(I_{sum\_in}) + I_{sum\_in} $$ (6)

      $ f_{SE*} $ 表示修改后的SE模块, $ I_{sum\_in} $ $ I_{SE*} $ 是EM模块的输入和输出.

    • 修改后的SE模块的输出 $ I_{SE*} $ , 输入至特征提取模块, 进行高频信息的提取, 如图3所示.

      图  3  特征提取模块

      Figure 3.  Feature extracting block

      Haris等[22]已经证明了使用递归的上下采样进行特征提取的有效性. 因此, 我们也使用这种采样方式进行特征提取. 输入特征 $ I_{SE*} $ , 先通过4×4的转置卷积层上采样得到 $ I_{up}^0 $ , 然后, 经过6×6的卷积层下采样得到 $ I_{down}^0 $ , 如下所示:

      $$ I_{up}^0 = f_\uparrow(I_{SE*}) $$ (7)
      $$ I_{down}^0 = f_\downarrow(I_{up}^0) $$ (8)

      之后使用局部残差连接将 $ I_{down}^0 $ 与输入 $ I_{SE*} $ 相减, 再使用转置卷积层上采样得到 $ I_{up}^1 $ . 最后, 再次通过局部残差连接, 将 $ I_{up}^0 $ $ I_{up}^1 $ 相加, 经卷积层下采样, 得到输出 $ I_{out} $ :

      $$ I_{up}^1 = f_\uparrow(I_{down}^0 - I_{SE*}) $$ (9)
      $$ I_{out} = f_\downarrow(I_{up}^1 + I_{up}^0) $$ (10)

      特征提取模块中, 使用的两次转置卷积和两次卷积, 都使用了参数共享. 特征提取模块 $ f_{up\_down} $ 可表示如下:

      $$ I_{out} = f_{up\_down}(I_{SE*}) $$ (11)
    • 由于通道注意力机制只按通道携带的信息量多少进行选择, 对于高频信息的定位可能不够准确. 受Wang等[11]及Liu等[14]的启发, 我们提出局部像素级注意(LPA)模块, 进行像素级的高频信息定位. LPA模块如图4所示, 为了减小参数量, 各卷积层的参数都是共享的.

      图  4  局部像素级注意力模块

      Figure 4.  Local pixel-wise attention block

      在压缩阶段, 使用了2个连续的3×3卷积层-最大池化操作. 最大池化下采样有助于扩大感受野和定位高频特征信息区域. 压缩阶段可表示如下:

      $$ I_{exp} = f_\downarrow(W_0*f_\downarrow(W_0*I_{SE*})) $$ (12)

      $ I_{SE*} $ $ I_{exp} $ 分别是LPA模块的输入特征和压缩阶段的输出特征. $ W_0 $ 是卷积层的参数(省略偏差以简化符号), $ f_{\downarrow} $ 表示最大池化的下采样.

      在扩张阶段, 设置与压缩阶段对称的2个连续的上采样−3×3卷积层, 并使用双三次插值作为上采样方式. 考虑到下采样会造成部分信息丢失, 我们在扩张阶段和压缩阶段的对应位置处建立了跳跃连接, 并且引入了可学习的自适应参数 $ \alpha $ , 调节从压缩阶段连接到扩张阶段的特征信息. 扩张阶段如下所示:

      $$ I_{mask} = W_0 * f_\uparrow(W_0*f_\uparrow(I_{ext}+\alpha_2 * I_2)+\alpha_1 * I_1) $$ (13)

      $ I_{ext} $ $ I_{mask} $ 分别是扩张阶段的输入(即压缩阶段的输出 $ I_{exp} $ 再经过3×3的卷积层之后的输出)和扩张阶段的输出, $ I_{mask} $ 同时也是LPA模块的输出. $ I_1 $ , $ I_2 $ 分别是压缩阶段第一次和第二次卷积层的输出, $ \alpha_1 $ $ \alpha_2 $ 是自适应参数. $ f_{\uparrow} $ 是双三次插值上采样.

    • 之前的工作大多是单尺度的重建, 受MSRN[21]的启发, 我们提出了多尺度重建的MGAR模块, 可以利用NLMB中提取的层次特征, 进一步改进SISR重建性能. MGAR模块与MSRN中MSRB的区别在于: MGAR模块是一个SISR重建模块, 多尺度利用之前的层次特征, 重建残差图像; MSRB是一个特征提取模块, 仅处理前一个MSRB输出的特征.

      MGAR模块如图5所示. 由于NLMB中低层HFEB的感受野较小, 故在MGAR模块中使用较大的卷积核与之对应, 然后, 逐渐减少卷积核的大小. 考虑到参数量的约束, 选取最大的卷积核尺寸为9, 最小的卷积核尺寸为3. 假定NLMB中有 $ T $ 个HFEB, 第 $ t $ ( $ 1\le T\le 8 $ )个HFEB的输出 $ I_{SR}^{t} $ 在MGAR模块中对应的卷积核的尺寸计算为:

      图  5  多尺度全局自适应重建模块

      Figure 5.  Multi-scale global adaptive reconstruction block

      $$ S_t = \left\lfloor\dfrac{((T-t) od 8)}{2}\right\rfloor*2+3 $$ (14)

      $ T>8 $ 时, 由于此时网络已经有足够的深度, 所以设置MGAR模块中前8层的卷积核大小与 $ T = 8 $ 时相同, 之后的卷积核大小均设置为3.

      MGAR模块的每一个输入, 与对应卷积核卷积后, 再与一个可学习的自适应参数相乘, 作为当前支路的输出. 各个分支的和, 经过亚像素卷积[19]的上采样之后, 作为MGAR模块的最终输出. 对输入的LR图像进行双三次上采样后, 与MGAR模块的输出求和, 得到重构的HR图像, 用公示表示如下:

      $$ I_{SR} = f_{MGAR}(I_{SR}^1, I_{SR}^2, \cdots, I_{SR}^t) + f_{up}(I_{LR}) $$ (15)

      $ I_{SR} $ 是输出的HR图像, $ I_{LR} $ 是输入的LR图像, $ f_{MGAR} $ $ f_{up} $ 分别表示MGAR模块和双三次插值的上采样.

    • 我们尽可能保持与之前的工作设置相同. 训练图像: DIV2k数据集[23]中800张高质量图像; 测试图像: 共同使用的Set5[24], Set14[25], Urban100[26], B100[27]和Manga109[28]测试集; 验证图像: DIV2k数据集中第801至810张高质量图像; 训练图像增扩: 进行90, 180, 270度旋转, 水平翻转, 以及随机裁剪. 训练阶段: 在RGB颜色空间上进行训练, 并且使用梯度裁剪策略稳定训练过程. 测试阶段: 所有彩色图像均转换到YCrCb颜色空间, 在亮度通道Y上进行测试. 每一个最小批训练输入: 16个48×48的图像. 使用Adam优化器[29]训练网络, 其中设置 $ \beta_1 = 0.9 $ , $ \beta_2 = 0.999 $ , $ \epsilon = {10}^{-8} $ . 初始学习率 $ e = {10}^{-4} $ , 每经过200个回合(epoch), 学习率 $ e $ 衰减一半. 我们使用NVIDIA GeForce RTX 2080Ti GPU (11GB内存)和PyTorch框架构建网络.

      在NLMB中, 每个HFEB的第一个卷积层, 输出通道数为128, 其余卷积层的输出通道数均为64. ACR连接中, 所有自适应参数的初始值为0.2. 在MGAR模块中, 所有的自适应参数初始化为 $ \dfrac{1}{n} $ , $ n $ 是NLMB中HFEB的个数, 并且每个卷积层的输入通道数为64, 输出通道数为 $ 3\times r\times r $ , 此处的 $ r $ 代表放大因子. 除网络模型深度对图像重建的影响的对比实验外, 其它所有试验中, 均设置 $ n = 8 $ 个HFEB. 我们使用测试图像进行客观定量比较, 使用验证图像选择模型参数及相关结构.

    • 在MGAR模块中, 选择卷积核尺寸为9, 7, 5, 3的排列顺序, 具体参见2.3节. 下面分析不同排列顺序对重建结果的影响, MGAR模块结构参见图5. MGAR模块的输入来自NLMB的HFEB, 浅层HFEB的感受野较小, 我们使用较大的卷积核, 以提取更加全局的背景信息; 深层HFEB的感受野较大, 我们使用较小的卷积核, 防止提取不相关的背景信. 在MGAR模块中, 每个卷积层的输出特征如图6所示. 浅层HFEB输出的特征包含更多连续的高频信息, 深层HFEB输出的特征包含更多分散的高频信息. 不同层次特征信息互补, 可以增强HR图像的重建效果.

      图  6  非线性映射模块中每个HFEB输出特征的可视化结果

      Figure 6.  Visual results of each HFEB's output feature in non-linear mapping

      下面, 我们设置四组对比实验, 进一步量化卷积核的排列顺序对重建结果的影响. 四组实验使用的卷积核尺寸分别是: 1) 9, 7, 5, 3; 2) 3, 5, 7, 9; 3) 均为3; 4) 均为9. 实验结果如表1所示, 由于第一组实验合理设置了卷积核的尺寸, 因此获得最好的重建效果.

      表 1  不同卷积核的排列顺序对重建效果的影响

      Table 1.  Effect of convolution kernels with different order on reconstruction performance

      卷积组排列顺序 9753 3579 3333 9999
      PSNR(dB) 35.569 35.514 35.530 35.523
    • 为了分析NLMB中不同层次特征对重建结果的影响, 我们依次移除MGAR模块中不同大小的卷积层, 计算重建HR图像的峰值信噪比(PSNR: peak signal-to-noise ratio). 计算结果如表2所示, 与越小卷积核对应的HFEB产生的层次特征对重建结果影响更大, 即更深层的HFEB产生的层次特征, 对重建结果的影响更大.

      表 2  不同层次特征对重建效果的影响

      Table 2.  Impact of different hierarchical features on reconstruction performance

      移除的卷积组大小 3 5 7 9
      PSNR(dB) 35.496 35.517 35.541 35.556
    • 下面分析MGAR模块相比于普通单尺度重建模块的优势. 由于我们使用了类似DBPN[22]方法中的采样方式, 所以我们在DBPN上进行实验, 并且用MGAR模块替换原有的单尺度重建模块. 在DBPN中设置 $ T = 6 $ , 假定原DBPN方法称为O-DBPN; 用MGAR模块替换后的DBPN方法称为M-DBPN. 重建结果如表3所示, 使用了MGAR模块的DBPN方法, 较原DBPN方法的重建性能更好.

      表 3  原始的DBPN(O-DBPN)和使用MGAR模块的DBPN(M-DBPN)的客观效果比较

      Table 3.  Objective comparison between original DBPN (O-DBPN) and DBPN (M-DBPN) using MGAR module

      使用不同重建模块的DBPN PSNR(dB)
      O-DBPN 35.343
      M-DBPN 35.399
    • LPA模块中未包含Sigmoid门函数. 为了解Sigmoid门函数的作用, 我们进行了两种情形的实验: LPA模块末尾包含和不包含Sigmoid门函数. 实验结果如表4所示, 带有Sigmoid门函数的LPA模块性能要低一些.

      表 4  Sigmoid门函数的有无对LPA模块性能的影响

      Table 4.  Influence of Sigmoid gate function to LPA block

      Sigmoid门函数 PSNR(dB)
      $\times$ 35.569
      $\checkmark$ 35.497

      LPA模块另一个考虑的因素是: 压缩阶段和扩张阶段对应位置的跳跃连接方式, 具体参见2.2.3小节. 我们设计了三个对比实验: 1) 直接使用残差连接; 2) 去掉残差连接; 3) 带有自适应参数的残差连接. 实验结果如表5所示, 情形2) 比情形1) 效果好一些, 情形3) 效果最好. 说明直接引入压缩阶段的特征确实会影响LPA模块对高频信息的定位, 并且加入自适应参数能够很好的缓解这个问题.

      表 5  不同残差的连接方式对重建效果的影响

      Table 5.  Effect of different residual connection methods on reconstruction performance

      不同种类的残差连接 PSNR(dB)
      残差连接 35.515
      无残差连接 35.521
      带自适应参数的残差连接 35.569
    • 为验证LPA模块对重建效果的影响, 我们进行以下两种情形的对比试验: 在HFEB的EM模块中, 包含和不包含LPA模块. 实验结果如表6所示, 可以看出有LPA模块效果更好. 说明LPA模块确实对重建效果有帮助.

      表 6  使用LPA模块和未使用LPA模块的客观效果比较

      Table 6.  Comparison of objective effects of ACAN with and without LPA module

      LPA模块 PSNR(dB)
      $\checkmark$ 35.569
      $\times$ 35.489
    • ACR连接参见图1(a). 为了观察ACR连接的有效性, 我们分别在NLMB中使用ACR连接、残差连接和级联连接进行对比实验, 实验结果如表7所示.

      表 7  NLMB使用三种不同连接方式对重建效果的影响

      Table 7.  Impact of using three different connection methods on NLMB on reconstruction performance

      使用的跳跃连接 PSNR(dB)
      残差连接 35.542
      级联连接 35.502
      自适应级联残差连接 35.569

      表7可以看出, 残差连接优于级联连接, ACR连接效果最好. 由此可见, 使用自适应的级联残差能更有利的进行特征重用, 改进了SISR的重建性能.

    • 为了探索NLMB中HFEB的个数(表示为 $ T $ ), 对于重建性能的影响. 我们设置了4组对比实验: 在放大因子为2的情况下, $ T = 1, 3, 6, 8 $ , 对应的训练曲线及测试曲线如图7图8所示. 由图中可以明显看出: HFEB的多次级联有利于提高重建效果.

      图  7  包含不同个数的HFEB的ACAN在验证集上的性能比较

      Figure 7.  Performance comparison of ACAN on validation set with different number of HFEB.

      图  8  包含不同个数的HFEB的ACAN在Set5测试集上的性能比较

      Figure 8.  Performance comparison of ACAN on Set5 testing set with different number of HFEB.

      为了进一步精确 $ T $ 的选择, 我们在放大因子为2的情况下设置 $ T = 6, 7, 8, 9 $ 进行对比实验. 从表8中可以看出 $ T = 8 $ 似乎是一个合理的选择.

      表 8  不同网络模型深度对重建性能的影响

      Table 8.  Impact of different network depths on reconstruction performance

      T 6 7 8 9
      PSNR(dB) 35.530 35.538 35.569 35.551
    • 客观定量结果: 我们的方法(ACAN)与其他10个当前类似的先进的方法进行比较: SRCNN[4]、FSRCNN[18]、VDSR[16]、DRCN[6]、LapSRN[30]、DRRN[7]、MemNet[8]、SRMDNF[31]、CARN[9]和SRFBN-S[5]. 同时, 我们也采用自组(self-ensemble)方法[32], 进一步提高ACAN的性能(ACAN+). 我们采用共同的客观度量标准: 平均峰值信噪比(PSNR)和结构相似性(SSIM: structural similarity index)[33], 计算结果如表9所示. ACAN+的平均PSNR和SSIM度量, 显著优于其它方法, 包括之前最好的方法CARN, 而在×2情况下参数量大约只有其一半. 即使未使用自组方法, 我们的ACAN方法也优于其它所有的方法. 我们认为我们的方法性能提升的原因主要是: ACR连接、LPA模块和MGAR模块发挥了作用. 正如之前分析的那样, LPA模块能够更加精准地选择高频特征信息, MGAR模块能够充分利用多尺度的特征信息, ACR连接更有效的进行特征重用, 导致了性能的显著改进.

      表 9  各种SISR方法的平均PSNR值与SSIM值, 最好结果与次好结果分别用加粗和下划线标出.

      Table 9.  Average PSNR/SSIM of various SISR methods. Best and second best results are higntlighted and underline.

      放大倍数 模型 参数量 Set5 PSNR/SSIM Set14 PSNR/SSIM B100 PSNR/SSIM Urban100 PSNR/SSIM Manga109 PSNR/SSIM
      $\times$2 SRCNN 57K 36.66/0.9524 32.42/0.9063 31.36/0.8879 29.50/0.8946 35.74/0.9661
      FSRCNN 12K 37.00/0.9558 32.63/0.9088 31.53/0.8920 29.88/0.9020 36.67/0.9694
      VDSR 665K 37.53/0.9587 33.03/0.9124 31.90/0.8960 30.76/0.9140 37.22/0.9729
      DRCN 1774K 37.63/0.9588 33.04/0.9118 31.85/0.8942 30.75/0.9133 37.63/0.9723
      LapSRN 813K 37.52/0.9590 33.08/0.9130 31.80/0.8950 30.41/0.9100 37.27/0.9740
      DRRN 297K 37.74/0.9591 33.23/0.9136 32.05/0.8973 31.23/0.9188 37.92/0.9760
      MemNet 677K 37.78/0.9597 33.28/0.9142 32.08/0.8978 31.31/0.9195 37.72/0.9740
      SRMDNF 1513K 37.79/0.9600 33.32/0.9150 32.05/0.8980 31.33/0.9200 38.07/0.9761
      CARN 1592K 37.76/0.9590 33.52/0.9166 32.09/0.8978 31.92/0.9256 38.36/0.9765
      SRFBN-S 282K 37.78/0.9597 33.35/0.9156 32.00/0.8970 31.41/0.9207 38.06/0.9757
      ACAN(Ours) 800K 38.10/0.9608 33.60/0.9177 32.21/0.9001 32.29/0.9297 38.81/0.9773
      ACAN+(Ours) 800K 38.17/0.9611 33.69/0.0.9182 32.26/0.9006 32.47/0.9315 39.02/0.9778
      $\times$3 SRCNN 57K 32.75/0.9090 29.28/0.8209 28.41/0.7863 26.24/0.7989 30.59/0.9107
      FSRCNN 12K 33.16/0.9140 29.43/0.8242 28.53/0.7910 26.43/0.8080 30.98/0.9212
      VDSR 665K 33.66/0.9213 29.77/0.8314 28.82/0.7976 27.14/0.8279 32.01/0.9310
      DRCN 1774K 33.82/0.9226 29.76/0.8311 28.80/0.7963 27.15/0.8276 32.31/0.9328
      DRRN 297K 34.03/0.9244 29.96/0.8349 28.95/0.8004 27.53/0.8378 32.74/0.9390
      MemNet 677K 34.09/0.9248 30.00/0.8350 28.96/0.8001 27.56/0.8376 32.51/0.9369
      SRMDNF 1530K 34.12/0.9250 30.04/0.8370 28.97/0.8030 27.57/0.8400 33.00/0.9403
      CARN 1592K 34.29/0.9255 30.29/0.8407 29.06/0.8034 27.38/0.8404 33.50/0.9440
      SRFBN-S 376K 34.20/0.9255 30.10/0.8372 28.96/0.8010 27.66/0.8415 33.02/0.9404
      ACAN(Ours) 1115K 34.46/0.9277 30.39/0.8435 29.11/0.8055 28.28/0.8550 33.61/0.9447
      ACAN+(Ours) 1115K 34.55/0.9283 30.46/0.8444 29.16/0.8065 28.45/0.8577 33.91/0.9464
      $\times$4 SRCNN 57K 30.48/0.8628 27.49/0.7503 26.90/0.7101 24.52/0.7221 27.66/0.8505
      FSRCNN 12K 30.71/0.8657 27.59/0.7535 26.98/0.7150 24.62/0.7280 27.90/0.8517
      VDSR 665K 31.35/0.8838 28.01/0.7674 27.29/0.7251 25.18/0.7524 28.83/0.8809
      DRCN 1774K 31.53/0.8854 28.02/0.7670 27.23/0.7233 25.14/0.7510 28.98/0.8816
      LapSRN 813K 31.54/0.8850 28.19/0.7720 27.32/0.7280 25.21/0.7560 29.09/0.8845
      DRRN 297K 31.68/0.8888 28.21/0.7720 27.38/0.7284 25.44/0.7638 29.46/0.8960
      MemNet 677K 31.74/0.8893 28.26/0.7723 27.40/0.7281 25.50/0.7630 29.42/0.8942
      SRMDNF 1555K 31.96/0.8930 28.35/0.7770 27.49/0.7340 25.68/0.7730 30.09/0.9024
      CARN 1592K 32.13/0.8937 28.60/0.7806 27.58/0.7349 26.07/0.7837 30.47/0.9084
      SRFBN-S 483K 31.98/0.8923 28.45/0.7779 27.44/0.7313 25.71/0.7719 29.91/0.9008
      ACAN(Ours) 1556K 32.24/0.8955 28.62/0.7824 27.59/0.7366 26.17/0.7891 30.53/0.9086
      ACAN+(Ours) 1556K 32.35/0.8969 28.68/0.7838 27.65/0.7379 26.31/0.7922 30.82/0.9117

      主观效果比较:图9所示, ACAN显著优于其它的方法. 以Urban100中的"img061"图像为例, 在放大因子为4的情况下, 对于图中玻璃上, 难以恢复的网格细节, SRFBN-S、CARN和SRMDNF方法都遭遇了严重的失真, SRCNN方法的重建图像, 则遭遇到严重模糊. 相比于这些方法, ACAN几乎完美地恢复了原HR图像中纹理和网格信息. 在放大因子为4的情况下, 另外两个图像的结果也与"img061"图像的结果类似. 我们的方法之所以能够更好地重建纹理和网格信息, 我们认为: 主要得益于ACR连接、LPA模块和MGAR模块. ACR连接能够有效地重用特征; LPA模块能够准确定位特征中的高频信息; MGAR模块能够利用多尺度层次特征. 因此, 能够更好地恢复规则的形状和结构[34]. 由于Urban100数据集中, 包含较多建筑物的规则结构[22], 我们的方法性能提升显著. 如何进一步提升不规则的形状和结构重建效果, 仍是有待研究和解决的问题.

      图  9  视觉比较结果(1) 第一组图是Urban100数据集中的“image024”在×4下的比较结果; (2) 第二组图是Urban100数据集中的“image061”在×4下的比较结果; (3) 第三组图是Urban100数据集中的“image092”在×4下的比较结果.

      Figure 9.  Visual comparison (1) the first set of images show img024 (Urban100 with scale factor ×4); (2) the second set of images show img061 (Urban100 with scale factor ×4); (3) the third set of images show img092 (Urban100 with scale factor ×4).

    • 我们提出了一个新的轻量级单图像超分辨率方法, 使用自适应级联的注意力网络(ACAN) 能够高质量重建超分辨率图像. 我们的局部像素级注意力(LPA)模块, 通过对输入特征进行像素级的高频信息定位, 加强了特征流动过程中对高频特征信息的选择能力; 我们的多尺度全局自适应重建(MGAR)模块, 使用不同尺寸的卷积核, 能够自适应地选择和组合多尺度的特征信息; 我们的自适应级联残差(ACR)连接能够自适应地组合不同层次特征. 充分的实验结果, 也验证了我们ACAN方法的良好性能.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回