2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于混合生成对抗网络的多视角图像生成算法

卫星 李佳 孙晓 刘邵凡 陆阳

卫星, 李佳, 孙晓, 刘邵凡, 陆阳. 基于混合生成对抗网络的多视角图像生成算法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743
引用本文: 卫星, 李佳, 孙晓, 刘邵凡, 陆阳. 基于混合生成对抗网络的多视角图像生成算法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743
Wei Xing, Li Jia, Sun Xiao, Liu Shao-Fan, Lu Yang. Cross-view image generation via mixture generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743
Citation: Wei Xing, Li Jia, Sun Xiao, Liu Shao-Fan, Lu Yang. Cross-view image generation via mixture generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743

基于混合生成对抗网络的多视角图像生成算法


DOI: 10.16383/j.aas.c190743
详细信息
    作者简介:

    博士, 2009年于中国科技大学获得博士学位, 现为合肥工业大学副教授, 主要研究方向为深度学习与物联网工程, 无人驾驶解决方案等等. E-mail: weixing@hfut.edu.cn

    合肥工业大学计算机与信息学院硕士研究生. 主要研究方向为自然语言处理、情感对话生成. E-mail: lijiajia@mail.hfut.edu.cn

    博士, 合肥工业大学计算机与信息学院情感计算研究所副教授, 主要研究方向包括情感计算, 自然语言处理, 机器学习与人机交互, 本文通讯作者. E-mail: sunx@hfut.edu.cn

    出生于1996年, 2018年毕业于合肥工业大学获得学士学位, 现为合肥工业大学研究生, 他的主要研究方向是目标检测和领域自适应. E-mail: frank-uzi@hotmail.com

    出生于1967年, 于2002年在合肥工业大学获得博士学位. 他现在是合肥工业大学的一名教授和博士生导师. 他的研究兴趣包括物联网工程和分布式控制系统. E-mail: luyang.hf@126.com

  • 基金项目:  安徽省重点研发计划项目(201904d07020008), 国家重点研发计划专项(2018YFC0604404), 合肥工业大学2018年国家级大学生创新创业训练计划项目(201810359019S)资助

Cross-view Image Generation via Mixture Generative Adversarial Network

More Information
  • Fund Project:  Supported by the Anhui Program on Key Research Project(201904d07020008), the National Program on Key Research Project(2018YFC0604404), Hefei University of Technology 2018 National Undergraduate Training Programs for Innovation and Entrepreneurship(201810359019S)
  • 摘要: 多视角图像生成即基于某个视角图像生成其他多个视角图像, 是多视角展示和虚拟现实目标建模等领域的基本问题, 已引起研究人员的广泛关注. 近年来, 生成对抗网络在多视角图像生成任务上取得了不错的成绩, 但目前的主流方法局限于固定领域, 很难迁移至其他场景, 且生成的图像存在模糊、失真等弊病. 为此本文提出了一种基于混合对抗生成网络的多视角图像生成模型ViewGAN, 它包括多个生成器和一个多类别判别器, 可灵活迁移至多视角生成的多个场景. 在ViewGAN中, 多个生成器被同时训练, 旨在生成不同视角的图像. 此外我们提出了一种基于蒙特卡洛搜索的惩罚机制来促使每个生成器生成高质量的图像, 使得每个生成器更专注于指定视角图像的生成. 在DeepFashion, Dayton, ICG Lab6数据集上的大量实验证明: 我们的模型在Inception Score和Top-k Accuracy上的性能优于目前的主流模型, 并且在SSIM上的分数提升了32.29%, PSNR分数提升了14.32%, SD分数提升了10.18%.
  • 图  1  本文模型ViewGAN在DeepFashion、Dayton和ICG Lab6数据集上的测试样例. 本文模型采用由粗到精的生成方法, 首先生成低分辨率目标图像(LR Image), 之后进一步填补细节得到高分辨率目标图像(HR Image).

    Fig.  1  Examples of ViewGAN on three datasets i.e. DeepFashion, Dayton and ICG Lab6. It employs the coarse-to-fine generation method. The LR images are firstly generated and the HR images are generated by further filling the details.

    图  2  ViewGAN模型的整体框架. 它包含k个生成器 $ \left\{G_{i}\right\}_{i = 1}^{i = k} $ 和一个多类别判别器, 其中每个生成器负责生成某种视角的图像

    Fig.  2  The framework of ViewGAN with k generator $ \left\{G_{i}\right\}_{i = 1}^{i = k} $ and one multi-class discriminator. Each of these generators is responsible for generating images of a certain view.

    图  3  生成器 $ \left(G_{j}\right) $ 的整体框架. 它包含三个部分: 粗粒度生成模块、蒙特卡洛搜索模块和细粒度生成模块. 训练时粗粒度生成模块首先生成低分辨率目标图像(LR Image), 之后使用蒙特卡洛模块进行N次搜索, 然后利用注意力机制综合N次采样结果, 将注意力机制的输出接入到细粒度生成模块中, 最后调用细粒度生成模块生成高分辨率目标图像(HR Image).

    Fig.  3  The framework of the generator $ G_j $ . It consists of three modules: coarse image module, Monte Carlo search module, fine image module. During training, a LR image is firstly generated by the coarse image module conditioned on the target image, conditioned image. The Monte Carlo search module is designed to perform N searches and pass to the attention mechanism. Finally, a HR image is generated by fine image module conditioned on the output of attention mechanism.

    图  4  各模型在DeepFashion数据集上的测试样例

    Fig.  4  Results generated by different models on DeepFashion dataset

    图  5  各模型在Dayton数据集上的测试样例

    Fig.  5  Results generated by different models on Dayton dataset

    图  6  各模型在ICG Lab6数据集上的测试样例

    Fig.  6  Results generated by different models on ICG Lab6 dataset

    图  7  ViewGAN生成图像的可视化过程. (a)表示输入的图像, (b)表示粗粒度模块合成的低分辨率目标图像, (c)表示蒙特卡洛搜索的结果, (d)表示细粒度模块合成的高分辨率目标图像.

    Fig.  7  Visualization of the process of ViewGAN generating images. (a) is the input image. (b) is the LR image generated by coarse image module. (c) are intermediate results generated by Monte Carlo search module. (d) is the HR image generated by fine image module

    表  1  生成器网络结构

    Table  1  Generator network architecture

    网络 层次 输入 输出
    Down-Sample CONV(N64, K4x4, S1, P3)-BN-Leaky Relu (256, 256, 3) (256, 256, 64)
    CONV(N128, K4x4, S2, P1)-BN-Leaky Relu (256, 256, 64) (128, 128, 128)
    CONV(N256, K4x4, S2, P1)-BN-Leaky Relu (128, 128, 128) (64, 64, 256)
    CONV(N512, K4x4, S2, P1)-BN-Leaky Relu (64, 64, 256) (32, 32, 512)
    Residual Block CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
    CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
    CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
    CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
    CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
    Up-Sample DECONV(N256, K4x4, S2, P1)-BN-Leaky Relu (32, 32, 512) (64, 64, 256)
    DECONV(N128, K4x4, S2, P1)-BN-Leaky Relu (64, 64, 256) (128, 128, 128)
    DECONV(N64, K4x4, S1, P3)-BN-Leaky Relu (128, 128, 128) (256, 256, 64)
    CONV(N3, K4x4, S1, P3)-BN-Leaky Relu (256, 256, 64) (256, 256,3)
    下载: 导出CSV

    表  2  判别器网络结构

    Table  2  Discriminator network architecture

    网络 层次 输入 输出
    Input Layer CONV(N64, K3x3, S1, P1)-Leaky Relu (256, 256, 3) (256, 256, 64)
    CONV BLOCK (256, 256, 64) (256, 256, 64)
    CONV BLOCK (256, 256, 64) (128, 128 128)
    CONV BLOCK (128, 128 128) (64, 64 256)
    Inner Layer HIDDEN LAYER (64, 64 256) (32, 32 512)
    HIDDEN LAYER (32, 32 512) (32, 32 64)
    DECONV BLOCK (32, 32 64) (64, 64 64)
    DECONV BLOCK (64, 64 64) (128, 128, 64)
    DECONV BLOCK (128, 128, 64) (256, 256, 64)
    Output layer CONV(N64, K3x3, S1, P1)-Leaky Relu (256, 256, 64) (256, 256, 3)
    CONV(N64, K3x3, S1, P1)-Leaky Relu
    CONV(N3, K3x3, S1, P1)-Tanh
    下载: 导出CSV

    表  3  各模型Inception Score统计表, 该指标越高表明模型性能越好

    Table  3  Inception Score of different models. For this metric, higher is better.

    模型 DeepFashion Dayton ICG Lab6
    all classes Top-1 class Top-5 class all classes Top-1 class Top-5 class all classes Top-1 class Top-5 class
    Pix2Pix 3.37 2.23 3.44 2.85 1.93 2.91 2.54 1.69 2.49
    X-Fork 3.45 2.57 3.56 3.07 2.24 3.09 4.65 2.14 3.85
    X-Seq 3.83 2.68 4.02 2.74 2.13 2.77 4.51 2.05 3.66
    VariGAN 3.79 2.71 3.94 2.77 2.19 2.79 4.66 2.15 3.72
    SelectionGAN 3.81 2.72 3.91 3.06 2.27 3.13 5.64 2.52 4.77
    ViewGAN 4.10 2.95 4.32 3.18 2.27 3.36 5.92 2.71 4.91
    Real Data 4.88 3.31 5.00 3.83 2.58 3.92 6.46 2.86 5.47
    下载: 导出CSV

    表  4  各模型Top-k预测准确率统计表, 该指标越高表明模型性能越好

    Table  4  Accuracies of different models. For this metric, higher is better.

    模型 DeepFashion Dayton ICG Lab6
    Top-1 class Top-5 class Top-1 class Top-5 class Top-1 class Top-5 class
    Pix2Pix 7.34 9.28 25.79 32.68 6.80 9.15 23.55 27.00 1.33 1.62 5.43 6.79
    X-Fork 20.68 31.35 50.45 64.12 30.00 48.68 61.57 78.84 5.94 10.36 20.83 30.45
    X-Seq 16.03 24.31 42.97 54.52 30.16 49.85 62.59 80.70 4.87 8.94 17.13 24.47
    VariGAN 25.67 31.43 55.52 63.70 32.21 52.69 67.95 84.31 10.44 20.49 33.45 41.62
    SelectionGAN 41.57 64.55 72.30 88.65 42.11 68.12 77.74 92.89 28.35 54.67 62.91 76.44
    ViewGAN 65.73 95.77 91.65 98.21 69.39 89.88 93.47 98.78 58.97 83.20 88.74 93.25
    下载: 导出CSV

    表  5  各模型SSIM, PSNR, SD和速度统计表, 其中FPS表示测试时每秒处理的图像数量, 所有指标得分越高表明模型性能越好

    Table  5  SSIM, PSNR, SD of different models. FPS is the number of images processed per second during testing. For all metrics, higher is better.

    模型 DeepFashion Dayton ICG Lab6 速度(FPS)
    SSIM PSNR SD SSIM PSNR SD SSIM PSNR SD
    Pix2Pix 0.39 17.67 18.55 0.42 17.63 19.28 0.23 15.71 16.59 166(±)5
    X-Fork 0.45 19.07 18.67 0.50 19.89 19.45 0.27 16.38 17.35 87(±)7
    X-Seq 0.42 18.82 18.44 0.50 20.28 19.53 0.28 16.38 17.27 75(±)3
    VariGAN 0.57 20.14 18.79 0.52 21.57 19.77 0.45 17.58 17.89 70(±)5
    SelectionGAN 0.53 23.15 19.64 0.59 23.89 20.02 0.61 26.67 19.76 66(±)6
    ViewGAN 0.70 26.47 21.63 0.74 25.97 21.37 0.80 28.61 21.77 62(±)2
    下载: 导出CSV

    表  6  最小数据量实验结果

    Table  6  Minimum training data experimental results

    数据量(张) SSIM PSNR SD
    6000(100%) 0.70 26.47 21.63
    5400(90%) 0.68 26.08 20.95
    4800(80%) 0.66 24.97 20.31
    4200(70%) 0.59 23.68 20.00
    3600(60%) 0.51 21.90 18.89
    下载: 导出CSV

    表  7  消融分析实验结果

    Table  7  Ablations study of the proposed ViewGAN

    模型 结构 SSIM PSNR SD
    A Pix2Pix 0.46 19.66 18.89
    B A+由粗到精生成方法 0.53 22.90 19.31
    C B+混合生成对抗网络 0.60 23.77 20.03
    D C+类内损失 0.60 23.80 20.11
    E D+惩罚机制 0.70 26.47 21.63
    下载: 导出CSV
  • [1] Zhu X, Yin Z, Shi J, et al. Generative adversarial frontal view to bird view synthesis. In: 2018 International Conference on 3D Vision (3DV). Verona, Italy: IEEE, 2018: 454−463.
    [2] Regmi K, Borji A. Cross-view image synthesis using conditional gans. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah: IEEE, 2018: 3501−3510.
    [3] Zhai M, Bessinger Z, Workman S, et al. Predicting ground-level scene layout from aerial imagery. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 867−875.
    [4] Zhao B, Wu X, Cheng Z Q, et al. Multi-view image generation from a single-view. In: 2018 ACM Multimedia Conference on Multimedia Conference. Seoul, Republic of Korea: ACM, 2018: 383−391.
    [5] Tang H, Xu D, Sebe N, et al. Multi-channel attention selection gan with cascaded semantic guidance for cross-view image translation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 2417−2426.
    [6] D. P. Kingma and M. Welling. Auto-encoding variational bayes. In: International Conference on Learning Representations. Banff, Canada, 2014.
    [7] Park E, Yang J, Yumer E, et al. Transformation-grounded image generation network for novel 3d view synthesis. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 3500−3509.
    [8] Choy C B, Xu D, Gwak J Y, et al. 3d-r2n2: A unified approach for single and multi-view 3d object reconstruction. In: European conference on computer vision. Springer, Cham: Springer, Cham, 2016: 628−644.
    [9] 王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃. 生成式对抗网络GAN的研究进展与展望. 自动化学报, 2017, 43(3): 321−332 doi:  10.16383/j.aas.2017.y000003

    WANG Kun-Feng, GOU Chao, DUAN Yan-Jie, LIN Yi-Lun, ZHENG Xin-Hu, WANG Fei-Yue. Generative Adversarial Networks: The State of the Art and Beyond. ACTA AUTOMATICA SINICA, 2017, 43(3): 321−332 doi:  10.16383/j.aas.2017.y000003
    [10] Browne C B, Powley E, Whitehouse D, et al. A survey of monte carlo tree search methods. IEEE Transactions on Computational Intelligence and AI in games, 2012, 4(1): 1−43 doi:  10.1109/TCIAIG.2012.2186810
    [11] Srivastava A, Valkov L, Russell C, et al. Veegan: Reducing mode collapse in gans using implicit variational learning. In: Advances in Neural Information Processing Systems. Long Beach, CA, USA: Curran Associates, Inc., 2017: 3308−3318.
    [12] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, HI, USA: IEEE, 2017: 1125−1134.
    [13] Yan X, Yang J, Sohn K, et al. Attribute2image: Conditional image generation from visual attributes. In: European Conference on Computer Vision. Amsterdam, Netherlands: Springer, Cham, 2016: 776−791.
    [14] Gregor K, Danihelka I, Graves A, et al. Draw: A recurrent neural network for image generation. In: International Conference on Machine Learning. Lille, France: PMLR, 2015.
    [15] 唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法. 自动化学报, 2018, 44(5): 855−864 doi:  10.16383/j.aas.2018.c170470

    TANG Xian-Lun, DU Yi-Ming, LIU Yu-Wei, LI Jia-Xin, MA Yi-Wei. Image Recognition With Conditional Deep Convolutional Generative Adversarial Networks. ACTA AUTOMATICA SINICA, 2018, 44(5): 855−864 doi:  10.16383/j.aas.2018.c170470
    [16] Dumoulin V, Belghazi I, Poole B, et al. Adversarially learned inference.[Online], available: https://arxiv.gg363.site/abs/1606.00704, February 21, 2017
    [17] Chen X, Duan Y, Houthooft R, et al. Infogan: Interpretable representation learning by information maximizing generative adversarial nets. In: Advances in neural information processing systems. Centre Convencions Internacional Barcelona, Barcelona: Curran Associates, Inc., 2016: 2172−2180.
    [18] Zhang H, Xu T, Li H, et al. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 5907−5915.
    [19] Johnson J, Gupta A, Fei-Fei L. Image generation from scene graphs. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 1219−1228.
    [20] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the IEEE international conference on computer vision. Venice, Italy: IEEE, 2017: 2223−2232.
    [21] Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 8789−8797.
    [22] Dosovitskiy A, Springenberg J T, Tatarchenko M, et al. Learning to generate chairs, tables and cars with convolutional networks. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(4): 692−705
    [23] Wu J, Xue T, Lim J J, et al. Single image 3d interpreter network. In: European Conference on Computer Vision. Amsterdam, Netherlands: Springer, Cham, 2016: 365−382.
    [24] Salimans T, Goodfellow I, Zaremba W, et al. Improved techniques for training gans. In: Advances in neural information processing systems. Centre Convencions Internacional Barcelona, Barcelona: Curran Associates, Inc., 2016: 2234−2242.
    [25] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation. In: International Conference on Medical image computing and computer-assisted intervention. Munich, Germany: Springer, Cham, 2015: 234−241.
    [26] Liu Z, Luo P, Qiu S, et al. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations. In: Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA: IEEE, 2016: 1096−1104.
    [27] Vo N N, Hays J. Localizing and orienting street views using overhead imagery. In: European conference on computer vision. Amsterdam, Netherlands: Springer, Cham, 2016: 494−509.
    [28] Possegger H, Sternig S, Mauthner T, et al. Robust real-time tracking of multiple objects by volumetric mass densities. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 2395−2402.
    [29] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition. Miami, FL, USA: IEEE, 2009: 248−255.
    [30] Zhou B, Lapedriza A, Khosla A, et al. Places: A 10 million image database for scene recognition. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(6): 1452−1464
    [31] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems. Harrahs and Harveys, Lake Tahoe: Curran Associates, Inc., 2012: 1097−1105.
    [32] Yamaguchi K, Hadi Kiapour M, Berg T L. Paper doll parsing: Retrieving similar styles to parse clothing items. In: Proceedings of the IEEE international conference on computer vision. Sydney, Australia: IEEE, 2013: 3519−3526.
    [33] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, HI, USA: IEEE, 2017: 4681−4690.
    [34] 唐祎玲, 江顺亮, 徐少平, 刘婷云, 李崇禧. 基于眼优势的非对称失真立体图像质量评价. 自动化学报, 2019, 45(11): 2092−2106 doi:  10.16383/j.aas.c190124

    TANG Yi-Ling, JIANG Shun-Liang, XU Shao-Ping, LIU Ting-Yun, LI Chong-Xi. Asymmetrically Distorted Stereoscopic Image Quality Assessment Based on Ocular Dominance. ACTA AUTOMATICA SINICA, 2019, 45(11): 2092−2106 doi:  10.16383/j.aas.c190124
    [35] Mathieu M, Couprie C, LeCun Y. Deep multi-scale video prediction beyond mean square error.[Online], available: https://arxiv.gg363.site/abs/1511.05440, February 26, 2016
  • [1] 付晓, 沈远彤, 李宏伟, 程晓梅. 基于半监督编码生成对抗网络的图像分类模型[J]. 自动化学报, doi: 10.16383/j.aas.c180212
    [2] 陈小鼎, 盛常冲, 匡纲要, 刘丽. 唇读研究进展与展望[J]. 自动化学报, doi: 10.16383/j.aas.c190531
    [3] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展[J]. 自动化学报, doi: 10.16383/j.aas.c180154
    [4] 陈加, 张玉麒, 宋鹏, 魏艳涛, 王煜. 深度学习在基于单幅图像的物体三维重建中的应用[J]. 自动化学报, doi: 10.16383/j.aas.2018.c180236
    [5] 张号逵, 李映, 姜晔楠. 深度学习在高光谱图像分类领域的研究现状与展望[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170190
    [6] 田娟秀, 刘国才, 谷珊珊, 鞠忠建, 刘劲光, 顾冬冬. 医学图像分析深度学习方法研究与挑战[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170153
    [7] 刘丽, 赵凌君, 郭承玉, 王亮, 汤俊. 图像纹理分类方法研究进展和展望[J]. 自动化学报, doi: 10.16383/j.aas.2018.c160452
    [8] 刘畅, 刘勤让. 使用增强学习训练多焦点聚焦模型[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160643
    [9] 陈伟宏, 安吉尧, 李仁发, 李万里. 深度学习认知计算综述[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160690
    [10] 胡长胜, 詹曙, 吴从中. 基于深度特征学习的图像超分辨率重建[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150634
    [11] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160822
    [12] 罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160425
    [13] 常亮, 邓小明, 周明全, 武仲科, 袁野, 杨硕, 王宏安. 图像理解中的卷积神经网络[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150800
    [14] 唐朝辉, 朱清新, 洪朝群, 祝峰. 基于自编码器及超图学习的多标签特征提取[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150736
    [15] 耿杰, 范剑超, 初佳兰, 王洪玉. 基于深度协同稀疏编码网络的海洋浮筏SAR图像目标识别[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150425
    [16] 苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.01202
    [17] 张天序, 翁文杰, 冯军. 三维运动目标的多尺度智能递推识别新方法[J]. 自动化学报
    [18] 卢汉清, 孔维新, 廖明, 马颂德. 基于内容的视频信号与图像库检索中的图像技术[J]. 自动化学报
    [19] 邱茂林, 马颂德, 李毅. 计算机视觉中摄像机定标综述[J]. 自动化学报
    [20] 徐文立. 计算机视觉的PNP问题的最优解[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  5
  • HTML全文浏览量:  2
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-10-25
  • 录用日期:  2020-02-23

基于混合生成对抗网络的多视角图像生成算法

doi: 10.16383/j.aas.c190743
    基金项目:  安徽省重点研发计划项目(201904d07020008), 国家重点研发计划专项(2018YFC0604404), 合肥工业大学2018年国家级大学生创新创业训练计划项目(201810359019S)资助
    作者简介:

    博士, 2009年于中国科技大学获得博士学位, 现为合肥工业大学副教授, 主要研究方向为深度学习与物联网工程, 无人驾驶解决方案等等. E-mail: weixing@hfut.edu.cn

    合肥工业大学计算机与信息学院硕士研究生. 主要研究方向为自然语言处理、情感对话生成. E-mail: lijiajia@mail.hfut.edu.cn

    博士, 合肥工业大学计算机与信息学院情感计算研究所副教授, 主要研究方向包括情感计算, 自然语言处理, 机器学习与人机交互, 本文通讯作者. E-mail: sunx@hfut.edu.cn

    出生于1996年, 2018年毕业于合肥工业大学获得学士学位, 现为合肥工业大学研究生, 他的主要研究方向是目标检测和领域自适应. E-mail: frank-uzi@hotmail.com

    出生于1967年, 于2002年在合肥工业大学获得博士学位. 他现在是合肥工业大学的一名教授和博士生导师. 他的研究兴趣包括物联网工程和分布式控制系统. E-mail: luyang.hf@126.com

摘要: 多视角图像生成即基于某个视角图像生成其他多个视角图像, 是多视角展示和虚拟现实目标建模等领域的基本问题, 已引起研究人员的广泛关注. 近年来, 生成对抗网络在多视角图像生成任务上取得了不错的成绩, 但目前的主流方法局限于固定领域, 很难迁移至其他场景, 且生成的图像存在模糊、失真等弊病. 为此本文提出了一种基于混合对抗生成网络的多视角图像生成模型ViewGAN, 它包括多个生成器和一个多类别判别器, 可灵活迁移至多视角生成的多个场景. 在ViewGAN中, 多个生成器被同时训练, 旨在生成不同视角的图像. 此外我们提出了一种基于蒙特卡洛搜索的惩罚机制来促使每个生成器生成高质量的图像, 使得每个生成器更专注于指定视角图像的生成. 在DeepFashion, Dayton, ICG Lab6数据集上的大量实验证明: 我们的模型在Inception Score和Top-k Accuracy上的性能优于目前的主流模型, 并且在SSIM上的分数提升了32.29%, PSNR分数提升了14.32%, SD分数提升了10.18%.

English Abstract

卫星, 李佳, 孙晓, 刘邵凡, 陆阳. 基于混合生成对抗网络的多视角图像生成算法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743
引用本文: 卫星, 李佳, 孙晓, 刘邵凡, 陆阳. 基于混合生成对抗网络的多视角图像生成算法. 自动化学报, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743
Wei Xing, Li Jia, Sun Xiao, Liu Shao-Fan, Lu Yang. Cross-view image generation via mixture generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743
Citation: Wei Xing, Li Jia, Sun Xiao, Liu Shao-Fan, Lu Yang. Cross-view image generation via mixture generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−14. doi: 10.16383/j.aas.c190743
  • 多视角图像生成指的是基于某个视角的图像生成其他视角的图像, 该问题在实际生活中具有很多应用, 例如: 电商网站上商品的多视角展示、虚拟现实中的目标建模和和数据集扩充等等. 目前多视角图像生成已经吸引了来自计算机视觉、虚拟现实等众多领域研究人员的兴趣, 并取得了一定的进展[1, 2, 3, 4, 5].

    早期工作中, 研究人员尝试使用变分自编码器(Variational Autoencoder, VAE)[6]生成多视角图像. 变分自编码器采用变分推断和深度表示学习来得到一个复杂的生成模型, 从而摆脱了传统耗时的采样过程. 但变分自编码器并不能很好的补充生成图像中的细节. 此外, 研究人员[7, 8]还尝试先建立目标的3D模型, 再生成目标视角的图像, 但这种方法的灵活性较弱, 只适合于合成椅子、杯子等简单物体的图像.

    近年来, 有研究人员提出使用生成对抗网络(Generative Adversarial Network, GAN)[9]来生成多视角图像. 在[4]中, 研究人员将变分自编码器与生成对抗网络相结合, 提出了一种面向服装的多视角图像生成模型VariGANs. VariGAN模型将图像生成分为两步, 采用由粗到精的方式生成高分辨率的多视角图像, 本文模型也参考了这种由粗到精的生成方式. 但VariGAN模型局限于服装的多视角图像生成, 并不能有效迁移至其他领域.

    [2]中, 研究人员尝试在图像生成中引入语义指导, 提出了两种多视角图像生成模型X-Fork和X-Seq. 这两个模型将已知视角的图像与目标视角的语义分割图共同输入模型, 填补了生成图像中的语义结构, 使得生成的图像更加真实. 受到[2]中工作的启发,[5]中的研究人员提出了一种基于多通道注意力机制的SelectionGAN模型. SelectionGAN模型将语义生成空间进一步扩大, 模型通过参考生成的中间结果, 进一步完善了图像中的语义细节, 在卫星图与地面图的翻译任务中取得了很好的成绩. 但以上的工作对于多视角生成任务中其他场景的兼容性较差, 因为并不是所有场景下都有充足的语义分割图来进行训练模型.

    为解决上述问题, 本文提出了一种基于混合生成对抗网络的多视角图像生成模型ViewGAN, 该模型可以灵活迁移至多视角生成任务中的各个场景. ViewGAN包含多个生成器和一个多类别判别器, 每一个生成器负责生成某一视角的图像. 如图1所示, 模型分两步生成图像: 第一步, 模型运用粗粒度模块(coarse image module)生成低分辨率下的目标图像(LR Image); 第二步, 在低分辨率目标图像的基础上, 模型运用细粒度模块(fine image module)完善图像的语义结构, 生成高分辨率下的目标图像(HR Image).

    图  1  本文模型ViewGAN在DeepFashion、Dayton和ICG Lab6数据集上的测试样例. 本文模型采用由粗到精的生成方法, 首先生成低分辨率目标图像(LR Image), 之后进一步填补细节得到高分辨率目标图像(HR Image).

    Figure 1.  Examples of ViewGAN on three datasets i.e. DeepFashion, Dayton and ICG Lab6. It employs the coarse-to-fine generation method. The LR images are firstly generated and the HR images are generated by further filling the details.

    本文的ViewGAN模型与以往工作的不同之处在于: 第一, ViewGAN包含多个生成器和一个判别器, 每一个生成器负责生成某一视角的图像, 这保证了ViewGAN模型可以灵活迁移至各种多视角生成任务中, 甚至还可以运用到图像翻译的其他领域, 例如风格转换等等; 第二, 为了加强图像生成过程中的语义约束, 我们使用蒙塔卡罗搜索方法(Monte Carlo search, MCS)[10]对低分辨率目标图像进行多次采样, 并根据采样结果计算相应的惩罚值. 惩罚机制可以迫使每个生成器生成语义更加丰富的图像, 避免出现模式崩塌(mode collapse)[11]; 第三, 模型中的多类别判别器使每个生成器更加专注于生成它们指定视角的图像, 避免生成与其他视角相似的图像, 从而进一步完善了图像的语义结构; 第四, 我们将ViewGAN模型与目前主流的图像生成模型(例如: Pix2Pix[12], VariGAN[4], X-Fork和X-Seq[2], SelectionGAN[5])进行了对比, 并在三个公开数据集上进行了大量的实验, 实验结果表明: 本文模型在三个数据集上都取得了最好成绩, 这表明了本文模型的灵活性和生成图像的高质量.

    综上所述, 本文的主要贡献总结如下:

    1. 本文提出了一种基于混合生成对抗网络的多视角图像生成模型ViewGAN, 该模型包括多个生成器和一个判别器, 采用由粗到精的方式生成不同视角下的高质量图像, 且可灵活迁移至多视角生成的各个场景.

    2. 本文提出了一种基于蒙特卡洛搜索的惩罚机制来加强图像生成过程中的约束, 这使得每个生成器能够获得更充足的语义指导, 在对应视角的图像中增加更多的语义细节.

    3. 我们在三个数据集上与目前的主流模型进行了大量的对比实验, 实验结果证明了我们模型的有效性与灵活性. 我们将在论文接收后开源相关的模型和代码.

    • 图像生成: 随着深度学习技术的发展, 图像生成已经变成了一个火热的话题. 变分自编码器(VAE)[6]是一种基于概率图模型的生成模型. 在[13]中, 研究人员提出了一种可由视觉特征生成图像的Attribute2Image模型, 该模型通过合成前景和背景来建模图像. 之后研究人员[14]尝试在VAE中引入注意力机制, 提出了一种DRAW模型, 该模型在一定程度上提升了图像的质量.

      近年来, 研究人员在采用生成对抗网络[9]在图像生成方向取得了不错的成绩, 生成器被训练生成图像来欺骗判别器, 判别器被训练区分真实图像和虚假图像. 之后大量基于GAN的变体被提出, 例如条件生成对抗网络(Conditional GANs)[15], Bi-GANs[16], InfoGANs[17]等等. GANs还可以基于标签[15], 文本[18, 19]或者图[12, 21, 22]来生成图像.

      但上述模型生成的图像普遍存在模糊、失真等问题, 模型并没有学会如何生成图像, 而是简单地重复训练集中图像的内容. 本文模型也是一种基于输入图像的条件生成对抗网络, 但本文模型凭借新颖的惩罚机制引入了更充足的语义指导, 进一步完善了图像的语义结构, 在一定程度上克服了图像失真的问题.

      多视角图像生成: 早期的研究人员通过对物体进行3D建模来合成不同视角的图像[7, 8, 23]. 在[8]中, 研究人员提出一种3D-2D映射机制, 从而使模型可以从2D数据中学习到3D特征. 之后有研究人员[23]提出一种3D-GAN模型, 该模型可以依据复杂的概率空间生成3D物体.

      [2]中, 研究人员尝试使用图像翻译的方法进行多视角生成, 使用条件生成对抗网络在卫星图-街景图转换任务中取得了不错的成绩. 之后在[4]中, 研究人提出了一种面向服装的多视角图像生成模型VariGANs. VariGAN模型将图像生成分为两步, 采用由粗到精的方式生成高分辨率的多视角图像. 受到上述工作的启发,[5]中的研究人员提出了一种基于多通道注意力机制的SelectionGAN模型. SelectionGAN模型将语义生成空间进一步扩大, 模型通过充分参考生成的中间结果, 进一步完善了图像中的语义细节, 在卫星图与街景图的翻译任务中取得了很好的成绩.

      但上述模型对于数据的要求极为严格, 模型需要大量的数据或者辅助的语义分割图进行训练, 这大大限制了模型的灵活性和兼容性. 为解决这个问题, 本文提出了一种基于混合生成对抗网络的多视角图像生成模型, 本文模型包括多个生成器和一个判别器, 这使得模型可以同时训练生成多个视角的图像. 大量实验结果证明, 在不需要大量的数据或者语义分割图辅助训练的前提下, 本文模型在三个数据集上都取得了不错的成绩.

    • 生成对抗网络(GAN)[9]包括两个对抗学习的子网络: 一个生成器和一个判别器, 它们基于最大-最小博弈理论同时进行训练. 生成器G的目的在于将一个d维的噪声向量映射成一幅图像, 并尽可能的使生成的图像接近真实图像. 另一方面, 判别器D被用来鉴别图像是来自于生成器的虚假图像还是来自真实数据的真实图像. 整个生成对抗网络的目标函数如下所示:

      $$ \begin{split} \min\limits_{\bf{G}} \max _{\bf{D}} L_{G A N}(G, D) & = E_{x \sim p_{{\rm {data}}}(x)} [\log D(x)]+\\ E_{z \sim p_{z}(z)} & [\log (1-D(G(z)))] \end{split} $$ (1)

      其中 $ x $ 表示由真实数据 $ p_{\rm {data}} $ 采样得到的真实数据, $ z $ 表示从高斯分布 $ p_{z} $ 采样得到的d维噪声向量.

      条件生成对抗网络(Conditional GANs)[15]通过引入辅助变量来控制模型的生成结果. 在条件生成对抗网络中, 生成器基于辅助信息生成图像, 判别器基于辅助信息和图像(虚假图像或者真实图像)做出判断. 整个网络的目标函数如下所示:

      $$ \begin{split} \min\limits_{\bf{G}} \max\limits_{\bf{D}} &L_{CGAN}(G,D) = E_{x,c \sim {p_{\rm {data}}(x,c)}} [\log D(x, c)] +\\ &E_{x^{\prime},c \sim p_{{\rm {data}}\left(x^{\prime}, c\right)}} \left[\log \left(1- D\left(x^{\prime}, c\right)\right)\right]\\[-10pt] \end{split} $$ (2)

      其中 $ c $ 表示引入的辅助变量, $ x^{\prime} = G(z, c) $ 表示生成器生成的图像.

      除对抗损失外, 以往的工作[20, 21]还尝试最小化真实图像和虚假图像之间的L1或者L2距离, 这能够帮助生成器合成与真实图像更加相似的图像. 以往工作证明: 相比于最小化L2距离, 最小化L1距离更能够帮助模型减少图像中的模糊和失真, 因此我们在本文模型中也使用了L1距离. 最小化L1距离的表示如下所示:

      $$ \min\limits_{\bf{G}} L_{L 1}(G) = E_{x, x^{\prime} \sim p_{d a t a}\left(x, x^{\prime}\right)}\left[\left\|x-x^{\prime}\right\|_{1}\right] $$ (3)

      因此这类条件生成对抗网络的目标函数就是等式(2)和等式(3)之和.

    • 这里首先对多视角生成任务进行简短的定义. 假设我们拥有一个多视角集合 $V = \big{\{}v_{1}, \cdots, v_{i}, \cdots, v_{n}\big{\}}$ , 其中 $ v_{i} $ 对应某一具体视角, 例如正面或者侧面. 一个物体在视角 $ v_{i} $ 下的图像被定义为 $ I_{v_{i}} $ . 给定某个视角的图像 $ I_{v_{i}} $ , 多视角图像生成任务是指生成其他不同视角的图像 $ I_{v_{j}} $ , 其中 $ v_{j} \in V, j \neq i $ .

    • 本文提出的ViewGAN模型的整体框架如图2所示. 假设我们要生成k种不同视角的图像(例如: 正面、侧面和背面三种视角), 我们使用k个生成器 $ \left\{G_{i}\left(I_{g_{i}} ; \theta_{g}^{i}\right)\right\}_{i = 1}^{i = k} $ 和一个判别器 $D\big(\left(I_{v_{i}}, I_{v_{j}}\right) ; \theta_{d}\big)$ , 其中 $ \theta_{g}^{i}, \theta_{d} $ 分别表示第i个生成器和判别器的网络参数. $ I_{v_{i}}, I_{v_{j}} $ 表示从真实数据分布中采样得到的某一视角的图像, $ I_{g_{i}} $ 表示第i个生成器 $ G_{i} $ 生成的图像.

      图  2  ViewGAN模型的整体框架. 它包含k个生成器 $ \left\{G_{i}\right\}_{i = 1}^{i = k} $ 和一个多类别判别器, 其中每个生成器负责生成某种视角的图像

      Figure 2.  The framework of ViewGAN with k generator $ \left\{G_{i}\right\}_{i = 1}^{i = k} $ and one multi-class discriminator. Each of these generators is responsible for generating images of a certain view.

      整个模型的训练可以被分为两个对抗学习过程: 生成器的学习和判别器的学习. 第i个生成器 $ G_{i} $ 的目标是生成视角 $ v_{i} $ 下的图像, 并使得生成的图像能够欺骗判别器. 换句话说, 生成器的目标在于最小化合成图像与真实图像之间的距离. 与之相反, 判别器的目的在于尽可能的区分k种视角下的虚假图像和真实图像, 并针对虚假图像计算出准确的惩罚值.

    • 生成器的整体框架如图3所示, 图中展示的是第j个生成器. 训练时中生成图像的过程分为三步: 第一步, 输入已知视角 $ v_{i} $ 下的图像 $ I_{v_{i}} $ 和目标视角 $ v_{j} $ 下的图像 $ I_{v_{j}} $ , 生成器首先使用粗粒度生成模块生成低分辨率的目标图像 $ I^{\prime}_{g_{j}} $ ; 第二步, 采用蒙特卡洛搜索策略对低分辨率目标图像进行N次采样, 从而得到N张中间结果图像; 第三步, 引入注意力机制提取N张中间结果图像的特征, 并将注意力机制的输出与已知视角 $ v_{i} $ 下的图像 $ I_{v_{i}} $ 输入到细粒度生成模块中, 细粒度生成模块生成最终结果, 即高分辨率的目标图像 $ I_{g_{i}} $ .

      图  3  生成器 $ \left(G_{j}\right) $ 的整体框架. 它包含三个部分: 粗粒度生成模块、蒙特卡洛搜索模块和细粒度生成模块. 训练时粗粒度生成模块首先生成低分辨率目标图像(LR Image), 之后使用蒙特卡洛模块进行N次搜索, 然后利用注意力机制综合N次采样结果, 将注意力机制的输出接入到细粒度生成模块中, 最后调用细粒度生成模块生成高分辨率目标图像(HR Image).

      Figure 3.  The framework of the generator $ G_j $ . It consists of three modules: coarse image module, Monte Carlo search module, fine image module. During training, a LR image is firstly generated by the coarse image module conditioned on the target image, conditioned image. The Monte Carlo search module is designed to perform N searches and pass to the attention mechanism. Finally, a HR image is generated by fine image module conditioned on the output of attention mechanism.

      惩罚机制: 为加强图像生成过程中的语义约束, 进一步完善图像中的语义细节, 我们提出了一种基于蒙特卡洛搜索策略的惩罚值机制. 它使混合生成对抗网络中每个生成器更加专注于生成相应视角的图像.

      我们对粗粒度生成模块输出的低分辨率目标图像 $ I_{g_j}^{\prime} $ 进行N次蒙特卡洛搜索, 具体过程为:

      $$ \left\{I_{g_{j}}^{1}, \cdots, I_{g_{j}}^{N}\right\} = M C^{G_{\beta}}\left(I_{g_j}^{\prime} ; N\right) $$ (4)
      $$ I_{g_{j}}^{i} = G_{\beta}(I_{g_j}^{\prime},z) $$ (5)

      其中 $I_{g_{j}}^{i}(i = 1, \cdots, N)$ 表示采样得到的图像, $ M C^{G_{\beta}} $ 表示使用蒙特卡洛搜索模拟的状态. $ G_{\beta} $ 表示通过蒙特卡洛搜索技术虚拟出的另一个生成模块, 它与细粒度生成模块共享参数, 连续生成N次得到N张中间结果图像. 其中 $ z \sim N(0,1) $ 是为保证采样结果多样性而引入的噪声向量, 我们将编码器的输出与噪声向量之和作为解码器的输入, 噪声向量使得每次采样时模型对特征向量的着重点不同, 从而从低分辨率目标图像中挖掘出更细致、丰富的语义细节.

      之后我们将N张中间结果图像和已知视角的图像送入判别器, 根据判别器的输出结果计算惩罚值. 计算过程图下所示:

      $$ V_{D_{j}}^{G_{j}} = \frac{1}{N} \sum\limits_{i = 1}^{N}\left(1-D_{j}\left(I_{g_{j}}^{i} ; \theta_{d}\right)\right)+\left\|I_{g_{j}}-I_{v_{j}}\right\|_{1} $$ (6)

      其中 $ I_{g_{j}} $ 表示第j个生成器生成的最终结果, $ I_{v_{j}} $ 表示对应的真实目标图像. $ D_{j}\left(I_{g_{j}}^{i};\theta_{d}\right) $ 表示多类别判别器输出的概率分布中图像 $ I_{g_{j}}^{i} $ 是视角 $ v_{j} $ 下的真实图像的概率.

      注意力机制: 通过采样得到N张中间结果图像后, 我们希望参考中间结果图像为下一步的生成提供充足的语义指导. 因此我们提出一种基于多通道的注意力机制, 区别于以往工作中合成图像仅从RGB三通道空间中生成的方法, 我们将采样得到的N张中间结果作为特征集来构建更大的语义生成空间, 模型通过参考不同通道的信息来提取更加细粒度的信息. 并将计算结果输入到细粒度生成模块中, 从而得到高分辨率目标图像.

      首先在N张中间结果图像上进行一次卷积操作来得到相应的注意力权重矩阵 $ \left\{I_{A}^{i}\right\}_{i = 1}^{N} $ , 计算结果如下所示:

      $$ I_{A}^{i} = {\rm{Softmax}}\left(I_{g_{j}}^{i} W_{A}^{i}+b_{A}^{i}\right), \;{\rm{for}}\;{\rm{i}} = 1, \cdots ,{\rm{N}}$$ (7)

      其中 $ \left\{W_{A}^{i}, b_{A}^{i}\right\}_{i = 1}^{N} $ 表示卷积操作的参数, Softmax( $ \cdot $ )表示用于归一化的softmax函数. 最终, 我们将得到的注意力权重矩阵与相应的中间结果图像相乘, 从而得到最终输出:

      $$ I_{g_{j}}^{\prime \prime} = \left(I_{A}^{1} \otimes I_{g_{j}}^{1}\right) \oplus \cdots \oplus\left(I_{A}^{N} \otimes I_{g_{j}}^{N}\right) $$ (8)

      其中 $ I_{g_{j}}^{\prime \prime} $ 表示注意力机制的最终输出结果, 符号 $ \oplus $ $ \otimes $ 分别表示矩阵的元素加法和元素乘法.

      目标函数: 综上所述, 生成器通过最小化以下目标函数来不断优化:

      $$ \begin{split} J_{G_{j}}\left(\theta_{g}^{j}\right) = &{\mathbb E}_{\left(I_{v_{i}}, I_{v_{j}}\right) \sim p_{\rm {data}}}\\ &\left[\log \left(1-D_{k+1}\left(I_{v_{i}}, G_{j}\left(I_{v_{i}}, I_{v_{j}}\right)\right)\right)\right] +V_{G_{j}}^{D_{j}} \end{split} $$ (9)

      其中 $ D_{k+1}\left(I_{v_{i}},G_{j}\left(I_{v_{i}},I_{v_{j}}\right)\right) $ 表示生成器 $ G_{j} $ 生成的图像被判别器认为是虚假图像的概率, $ \theta_{g}^{j} $ 表示第j个生成器 $ G_{j} $ 的参数. $ V_{G_{j}}^{D_{j}} $ 表示使用公式(5)得到的针对生成器 $ G_{j} $ 的惩罚值.

    • 参考[24]中有关半监督学习的工作, 我们使用了一种多类别判别器用来区分不同视角下的真实图像和虚假图像, 判别器的输入包括已知视角的图像和目标视角的图像.

      目标函数: 模型中包含k个生成器, 每个生成器负责生成某一视角下的图像, 所以判别器要输出k+1种类的概率分布. 前k个类别的概率值 $D_{i}(i \in 1, \cdots k)$ 分别表示输入图像属于第i种视角的概率, 第k+1个类别的概率值表示输入图像是虚假图像的概率. 判别器通过最小化以下目标来进行优化:

      $$ \begin{split} J_{D}\left(\theta_{d}\right) = &-{\mathbb E}_{I_{v} \sim P_{d a t a}, I_{g} \sim P_{g}} \log D_{k+1}\left(\left(I_{v}, I_{g}\right) ; \theta_{d}\right)- \\ &\sum\limits_{i = 1}^{k} {\mathbb E}_{\left(I_{v}, I_{v_{i}}\right) \sim P_{d a t a}} \!\log D_{i}\!\left(\left(I_{v}, I_{v_{i}}\right) ; \theta_{d}\right)\!+\!\lambda L_{c} \end{split} $$ (10)

      其中 $ P_{g} $ 表示生成器生成的图像, $ P_{\rm {data}} $ 表示真实数据分布. $ I_{v} $ 表示任一视角的真实图像, $ I_{g} $ 表示以 $ I_{v} $ 作为输入时生成器生成的图像, $ I_{v_{i}} $ 表示视角 $ v_{i} $ 下的真实图像. $ D_{i}(\cdot) $ 表示判别器输出结果中第i个类别的概率值. $ L_{c} $ 表示类内损失, 我们下面将会详细阐述类内损失的含义, 参数 $ \lambda $ 用于控制两种损失的平衡.

      下面我们将详细论述多类别判别器是如何协助每个生成器更专注于生成指定视角的图像, 避免出现图像模糊或者模式崩塌现象. 为了便于描述, 这里使用 $ {\rm{X}} $ 表示采样得到的图像对, 例如虚假图像对 $ \left(I_{v}, I_{g}\right) $ 或者真实图像对 $ \left(I_{v}, I_{v_{i}}\right) $ .

      首先, 理想情况下第i个生成器可以学习到视角 $ v_{i} $ 下图像的真实分布 $ P_{r_{i}} $ . 判别器的目标函数如等式(9)所示, 且 $ \sum_{i = 1}^{k+1} D_{i} = 1, D_{i} \in[0,1], \forall i $ . 由此我们可以得到判别器学习到的最优分布: $D_{i}\left(X ; \theta_{d}\right) = \dfrac{P_{r_{i}(X)}}{\sum_{i = 1}^{k} P_{r_{i}}(X)+P_{g}(X)}$ , $i = \{1, \cdots k\}, D_{k+1}\left(X ; \theta_{d}\right) = \dfrac{P_{g}(X)}{\sum_{i = 1}^{k} P_{r_{i}}(X)+P_{g}(X)}$ . 基于公式(5), 生成器的目标是最小化以下等式:

      $$ \begin{split}&{{\mathbb E}_{X \sim P_{g}} \log \left[\frac{P_{g}(X)}{P_{a v g}(X)}\right]+\sum_{i = 1}^{k} {\mathbb E}_{X \sim P_{r_{i}}} \log \left[\frac{P_{r_{i}}(X)}{P_{a v g}(X)}\right]}- \\ &{(k+1) \log (k+1)}= \\& { K L\left(\sum_{i = 1}^{k} P_{g_{i}}(X) \| P_{a v g}(X)\right)}+ \\&{\sum_{i = 1}^{k} K L\left(P_{r_{i}}(X) \| P_{a v g}(X)\right)}- \\ &{(k+1) \log (k+1)} \\[-10pt]\end{split} $$ (11)

      其中 $P_{a v g}(x) = \dfrac{\sum\nolimits_{i = 1}^{k} P_{r_{i}}(X)+P_{g}(X)}{k+1}$ , KL表示KL散度(Kullback-Leibler divergence). 以上目标函数当 $P_{g_{i}} = P_{r_{i}},(i = 1, \cdots, k)$ 时取得全局最小值 $-(k+1) \log (k+1)$ . 当只有一个生成器时(k = 1), 公式(6)以JS散度(Jensen-Shannon divergence)取得最小值 $ -\log 4 $ .

      第二, 当保持判别器参数 $ \theta_{d} $ 不变时, 第i个生成器旨在最小化由判别器给出的惩罚值 $ V_{D_{i}}^{G_{i}} $ . 由于在判别器中 $ \sum_{i = 1}^{k+1} D_{i} = 1 $ , 所以生成器等同于最小化 $ \sum_{j = 1, j \neq i}^{k+1} D_{j}\left(X ; \theta_{d}\right) $ . 换句话说, 为了降低判别器给出的惩罚值, 第i个生成器生成的视角 $ v_{i} $ 的图像必须与视角 $ v_{i} $ 的真实图像保持一致, 生成器将尽可能的完善图像的语义结构, 与其他视角的图像保持距离.

      类内损失: 判别器要对多个生成器生成的视角图像进行判断, 而每个视角的图像之间具有一定的重合部分, 仅采用GAN网络对抗损失进行监督学习容易导致图像的视角类别预测错误, 因此我们在对抗损失的基础上引入了类内损失用于减小类内特征差异, 并增加类间差异. 类内损失如公式(11)所示:

      $$ L_{c} = \frac{1}{2} \sum\limits_{i = 1}^{m}\left\|I_g^{(i)}-c_{I_{g}}\right\|_{2}^{2} $$ (12)

      Algorithm 1: ViewGAN的对抗学习过程

      Input: k种视角下的真实图像数据集, $I_{v}= \left\{I_{v_{1}}, \cdots, I_{v_{k}}\right\}$ ; 生成器, $ \left\{G_{i}\right\}_{i=1}^{i=k} $ ; 判别器, $ D $ ; g-step, 生成器的训练步长; d-step, 判别器的训练步长;

      Output: 训练完成的生成器, $ \left\{G_{i}\right\}_{i=1}^{i=k} $

      1: 初始化生成器 $ \left\{G_{i}\right\}_{i=1}^{i=k} $ 和判别器 $ D $ 随机权重;

      2: repeat

      3: for g-steps do

      4: for i in 1 $ \sim $ k do

      5: 利用生成器 $ {G_{i}} $ 生成虚假图像;

      6: 使用公式(5)计算惩罚项 $ V_{G_{i}}^{D_{i}} $ ;

      7: 通过最小化公式(8)更新生成器 $ {G_{i}} $ 的参数;

      8: end for

      9: end for

      10: for d-steps do

      11: 使用生成器 $ \left\{G_{i}\right\}_{i=1}^{i=k} $ 生成虚假图像 $I_{g}= \left\{I_{g_{1}}, \cdots, I_{g_{k}}\right\}$ ;

      12: 使用真实图像 $I_v=\{I_{v_1},\cdots,I_{v_k}\}$ 和虚假图像 $I_g=\{I_{g_1},\cdots,I_{g_k}\}$ 通过最小化公式(9)更新判别器参数;

      13: end for

      14: until ViewGAN收敛;

      15: return

      其中 $ I_g^{(i)} $ 表示一个batch中第i张生成的图像, $ c_{I_{g}} \in R^{d} $ 表示当前图像 $ I_g^{(i)} $ 的特征中心, 其中d表示特征的维度, 共有k个特征中心分别对应k种视角图像.

      理想情况下, $ c_{I_{g}} $ 应该在每次迭代更新特征时改变, 并使用整个训练集来计算特征中心, 但是由于训练集数量庞大, 这样计算的效率很低, 因此我们采用一个batch的数据来代替整个训练集的数据. 每次特征中心位置的变化增量如公式(12)所示, 其中 $ I_g^{(i)} $ 表示一个batch中第i张生成的图像, $ v_{i} $ 表示图像 $ I_g^{(i)} $ 对应的视角, $ c_{j} $ 表示视角 $ v_{j} $ 下样本的特征中心,

      $$ \Delta c_{j} = \frac{\sum\limits_{i = 1}^{m} \delta\left(v_{i} = v_{j}\right)\left(c_{j}-I_g^{(i)}\right)}{1+\sum\limits_{i = 1}^{m} \delta\left(v_{i} = v_{j}\right)} $$ (13)

      其中 $ \delta(\cdot) $ 是条件表达式, 当 $ v_{i} = v_{j} $ 即当前图像 $ I_g^{(i)} $ 属于视角 $ v_{j} $ 时, 条件 $ \delta\left(v_{i} = v_{j}\right) $ 为1, 其他情况下条件 $ \delta\left(v_{i} = v_{j}\right) $ 为0.

      训练时我们将k个生成器与多类别判别器进行对抗学习, 并交替训练它们, 优化算法如算法1所示.

    • 对于多视角生成问题, 输入和输出之间存在大量底层特征共享, 应该直接将特征在网络之间传递. 为了解决网络特征传递问题, 我们采用U-Net[25]作为生成器和判别器的基础结构并使用Conv-BN-ReLu模块作为中间结构, 网络结构如表1, 表2所示. 其中CONV BLOCK卷积块由3个串联的卷积核大小为3的卷积层和滤波器大小为2的平均池化层组成, 其中卷积层的步长等于1并采用1个像素填充; DECONVBLOCK由2个串联的卷积核大小为3的卷积层和滤波器大小为2的上采样层组成, 卷积层的设置与CONV BLOCK相同; HIDDEN LAYER由1个大小为3的卷积核的卷积层组成.

      表 1  生成器网络结构

      Table 1.  Generator network architecture

      网络 层次 输入 输出
      Down-Sample CONV(N64, K4x4, S1, P3)-BN-Leaky Relu (256, 256, 3) (256, 256, 64)
      CONV(N128, K4x4, S2, P1)-BN-Leaky Relu (256, 256, 64) (128, 128, 128)
      CONV(N256, K4x4, S2, P1)-BN-Leaky Relu (128, 128, 128) (64, 64, 256)
      CONV(N512, K4x4, S2, P1)-BN-Leaky Relu (64, 64, 256) (32, 32, 512)
      Residual Block CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
      CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
      CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
      CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
      CONV(N512, K4x4, S1, P1)-BN-Leaky Relu (32, 32, 512) (32, 32, 512)
      Up-Sample DECONV(N256, K4x4, S2, P1)-BN-Leaky Relu (32, 32, 512) (64, 64, 256)
      DECONV(N128, K4x4, S2, P1)-BN-Leaky Relu (64, 64, 256) (128, 128, 128)
      DECONV(N64, K4x4, S1, P3)-BN-Leaky Relu (128, 128, 128) (256, 256, 64)
      CONV(N3, K4x4, S1, P3)-BN-Leaky Relu (256, 256, 64) (256, 256,3)

      表 2  判别器网络结构

      Table 2.  Discriminator network architecture

      网络 层次 输入 输出
      Input Layer CONV(N64, K3x3, S1, P1)-Leaky Relu (256, 256, 3) (256, 256, 64)
      CONV BLOCK (256, 256, 64) (256, 256, 64)
      CONV BLOCK (256, 256, 64) (128, 128 128)
      CONV BLOCK (128, 128 128) (64, 64 256)
      Inner Layer HIDDEN LAYER (64, 64 256) (32, 32 512)
      HIDDEN LAYER (32, 32 512) (32, 32 64)
      DECONV BLOCK (32, 32 64) (64, 64 64)
      DECONV BLOCK (64, 64 64) (128, 128, 64)
      DECONV BLOCK (128, 128, 64) (256, 256, 64)
      Output layer CONV(N64, K3x3, S1, P1)-Leaky Relu (256, 256, 64) (256, 256, 3)
      CONV(N64, K3x3, S1, P1)-Leaky Relu
      CONV(N3, K3x3, S1, P1)-Tanh

      U-Net是一种在编码器和解码器之间具有跳跃连接的网络, 这种网络结构允许更多的原图像纹理的信息在高层特征层中进行传播. 对于每个生成器 $ G_{i} $ , 编码器第一层卷积层滤波器大小为64, 解码器最后一层卷积层用于将通道数映射为输出图片通道数(彩色图片为3通道, 黑白图片为2通道). 除了编码器的第一层卷积层, 其余所有卷积层后都连接BatchNorm层进行特征归一化.

    • DeepFashion[26]: 该数据集包含8,697件服饰的多视角图像, 每件服饰具有三个视角: 正面、侧面和背面. 从中挑选出6,000张图像作为训练集, 2,000张图像作为测试集, 图像尺寸为256*256.

      Dayton[27]: 该数据集包含超过13万张街道视角-鸟瞰视角的图像, 从中挑选出55,000张图像作为训练集, 5,000张图像作为测试集. 图像的原始尺寸为354*354, 我们将图像尺寸调整为256*256.

      ICG Lab6[28]: 该数据集包含6名人员的室内场景活动图, 共使用四个不同方位的静态摄像头进行拍摄. 从中挑选6,000张图像作为训练集, 1,500张图像作为测试集. 图像的原始尺寸为1024*768, 我们将图像尺寸调整为256*256.

    • 我们将本文模型与目前主流的多视角图像生成、图像翻译模型进行对比:

      Pix2Pix[12]: 采用对抗损失学习从 $ x \in X $ $ y \in Y $ 的映射, 其中x和y分别表示不同域X和Y中的图像, 在图像翻译任务上取得了较好成绩.

      X-Fork[2]: 与Pix2Pix结构类似, 生成器通过学习映射: $ G:\left\{I_{a}\right\} \rightarrow\left\{I_{b}, S_{b}\right\} $ 来生成多视角图像. 其中 $ I_{a} $ , $ I_{b} $ 分别表示视角a和视角b下的图像, $ S_{a} $ 表示视角b下的语义分割图.

      X-Seq[2]: 两个CGAN(G1,G2)的组合模型, 其中G1合成目标视角的图像, G2基于G1的输出图像合成目标视角的语义分割图. 两个生成器之间的输入-输出依赖约束了生成的图像和语义分割图, 有效的提升了图像的质量.

      VariGAN[4]: 变分自编码器和GAN网络的组合模型, 采用由粗到精的方法生成高分辨率的多视角图像, 在DeepFashion等服饰数据集上取得了较好的结果.

      SelectionGAN[5]: 在X-Seq模型的基础上引入了一种多通道注意力机制来选择性地学习模型的中间结果, 从而实现了一种由粗到精的级联式语义指导, 使合成图像具有更丰富的语义细节.

    • 在定量实验中, 我们采用Inception Score[24], Top-k预测准确率指标从高层特征空间的角度来评估合成图像. 此外, 我们还采用一些像素级别的相似度指标来衡量生成的图像, 例如: 结构相似性(SSIM)、峰值信噪比(PSNR)和Sharpness Difference(SD).

    • 指标: Inception Score(IS)是一种面向生成模型的常见定量指标, 它可以衡量模型生成的图像是否清晰、生成的图像是否多样. 其计算公式如下:

      $$ {\bf{I S}}(G) = \exp \left({\mathbb E}_{{\bf{x}} \sim p_{g}} D_{K L}(p(y | {\bf{x}}) \| p(y))\right) $$ (14)

      其中G表示生成器, x表示生成的图像, y表示合成图像的预测标签.

      因为Dayton数据集和DeepFashion数据集中包含了ImageNet数据集[29]中未标注的户外物体类别和服装类别, 所以我们不能直接使用预训练的Inception模型. 对于Dayton数据集, 我们使用在Places数据集[30]上训练的AlexNet模型[31]进行打分. 对于DeepFashion数据集, 我们使用预训练的PaperDoll[32]模型进行打分. 对于ICG Lab6数据集, 我们采用在ImageNet数据集上训练的Inception模型进行打分.

      同时我们注意到: 这些预训练模型针对合成图像输出的置信度分数较为分散, 合成图像并没有包含所有类别的目标. 因此我们只在Top-1和Top-5类别上计算Inception Score, 其中“Top-1”表示每张图像的预测标签中概率最大的k个标签不变, 其余标签的概率进行平滑处理.

      结果: 基于Inception Score的实验结果如表3所示. 从实验结果可以看出: 本文模型ViewGAN在DeepFashion数据集和ICG Lab6数据集上均优于基线模型. 其中DeepFashion数据集的图像风格、服装样式等变化较大, 以往模型很难生成这种多样性较强的图像, 而本文模型通过采用分布式生成的方法, 使模型有足够的内存来学习如何生成各种样式的服装以及同一服装不同视角下的变化. ICG Lab6数据集的图像取自复杂的室内环境, 对图像分辨率的要求较高. 以往模型缺乏对图像细节的补充, 导致生成模糊、失真的图像, 而本文模型采用惩罚机制加强了对图像语义细节的约束, 能够生成更加清晰的高质量图像.

      表 3  各模型Inception Score统计表, 该指标越高表明模型性能越好

      Table 3.  Inception Score of different models. For this metric, higher is better.

      模型 DeepFashion Dayton ICG Lab6
      all classes Top-1 class Top-5 class all classes Top-1 class Top-5 class all classes Top-1 class Top-5 class
      Pix2Pix 3.37 2.23 3.44 2.85 1.93 2.91 2.54 1.69 2.49
      X-Fork 3.45 2.57 3.56 3.07 2.24 3.09 4.65 2.14 3.85
      X-Seq 3.83 2.68 4.02 2.74 2.13 2.77 4.51 2.05 3.66
      VariGAN 3.79 2.71 3.94 2.77 2.19 2.79 4.66 2.15 3.72
      SelectionGAN 3.81 2.72 3.91 3.06 2.27 3.13 5.64 2.52 4.77
      ViewGAN 4.10 2.95 4.32 3.18 2.27 3.36 5.92 2.71 4.91
      Real Data 4.88 3.31 5.00 3.83 2.58 3.92 6.46 2.86 5.47

      同时我们注意到ViewGAN在Dayton数据集下Top-1类别的得分仅次于SelectionGAN. 这主要是因为Dayton数据集中的多视角图像是区别较大的户外图像, 这种多视角图像生成任务具有较大的难度, SelectionGAN中引入了目标图像的语义分割图来辅助生成, 本文模型却没有引入外部知识. 因此本文模型生成的图像具有一定的不确定性, 从而导致图像中存在模糊的区域, 但ViewGAN的得分与SelectionGAN的得分很接近, 这也表明了本文模型的潜力.

      指标: 此外, 我们还计算了真实图像和合成图像的Top-k预测准确率. 我们使用与Inception Score同样的与训练模型来获得真实图像的标注和合成图像的预测标签. 实验计算了Top-1预测准确率和Top-5预测准确率. 每种准确率的计算方法有两种方法: 1)考虑所有的测试图像; 2)只考虑那些预测标签概率值超过0.5的测试图像.

      结果: 基于Top-k的实验结果如表4所示. 由实验结果可知: 本文模型在三个数据集上的性能均优于基线模型, 显著提升了预测准确率. 这说明本文模型生成图像具有较高的清晰度、丰富的语义细节, 在复杂多变的DeepFashion数据集和Dayton数据集上表现出了较强的鲁棒性.

      表 4  各模型Top-k预测准确率统计表, 该指标越高表明模型性能越好

      Table 4.  Accuracies of different models. For this metric, higher is better.

      模型 DeepFashion Dayton ICG Lab6
      Top-1 class Top-5 class Top-1 class Top-5 class Top-1 class Top-5 class
      Pix2Pix 7.34 9.28 25.79 32.68 6.80 9.15 23.55 27.00 1.33 1.62 5.43 6.79
      X-Fork 20.68 31.35 50.45 64.12 30.00 48.68 61.57 78.84 5.94 10.36 20.83 30.45
      X-Seq 16.03 24.31 42.97 54.52 30.16 49.85 62.59 80.70 4.87 8.94 17.13 24.47
      VariGAN 25.67 31.43 55.52 63.70 32.21 52.69 67.95 84.31 10.44 20.49 33.45 41.62
      SelectionGAN 41.57 64.55 72.30 88.65 42.11 68.12 77.74 92.89 28.35 54.67 62.91 76.44
      ViewGAN 65.73 95.77 91.65 98.21 69.39 89.88 93.47 98.78 58.97 83.20 88.74 93.25

      值得注意的是本文模型在ICG Lab6数据集上的准确率要略低于在其他两个数据集的准确率. 这主要是因为ICG Lab6数据集中的图像包含较多小目标物体, 这对合成清晰图像来说本身就是一个很大的挑战, 因此以往模型最高只达到了76.44%的准确率. 而本文模型引入基于蒙特卡洛搜索的惩罚机制, 充分利用了模型的中间结果, 保证了图像具有更细致的语义细节, 最高达到了93.25%的准确率.

    • 指标: 参考[33, 34]中的工作, 我们利用结构相似性、峰值信噪比和Sharpness Difference指标来衡量合成图像与真实图像之间的像素级相似度.

      结构相似性(SSIM)基于图像的亮度、对比度等属性评估图像之间的相似度, 其取值范围为[-1, 1], 值越大则图像之间的相似度越高. 结构相似性的计算公式为:

      $$ S S I M\left(I_{g}, I_{v}\right) \!=\! \frac{\left(2 \mu_{I_{g}} \mu_{I_{v}}\!+\!c_{1}\right)\!\left(2 \sigma_{I_{g} I_{v}}\!+\!c_{2}\right)}{\left(\!\mu_{I_{g}}^{2}\!+\!\mu_{I_{v}^{2}}^{2}\!+\!c_{1}\!\right)\!\left(\!\sigma_{I_{g}}^{2}\!+\!\sigma_{I_{v}^{2}}^{2}\!+\!c_{2}\!\right)} $$ (15)

      其中 $ \mu_{I g} $ , $ \mu_{I_{v}} $ 分别表示合成图像 $ I_{g} $ 和真实图像 $ I_{v} $ 的均值, $ \sigma_{I_{g}} $ , $ \sigma_{I_{v}} $ 分别表示图像 $ I_{g} $ $ I_{I_{v}} $ 的标准差. $ c_{1} $ , $ c_{2} $ 是为了避免分母为0而引入的常数.

      峰值信噪比(PSNR)通过测量到达噪音比率的顶点信号来评估合成图像相对于真实图像的质量. 峰值信号比越大, 合成图像的质量越高. 峰值信号比的计算公式为:

      $$ P S N R\left(I_{g}, {I_{v}}\right) = 10 \log _{10}\left(\frac{\max _{I_{g}}^{2}}{mse}\right) $$ (16)

      其中 ${\rm{mse}}\left(I_{g}, {I_{v}}\right) = \dfrac{1}{n}\sum\nolimits_{i\! =\! 1}^{n}\!\left({I_{v}}[i]\!-\!I_{g}[i]\right)^{2},$ $\max _{I_{g}} \!=\! 255$

      Sharpness Difference(SD)测量图像生成过程中清晰度的损失, 为了计算合成图像和真实图像之间的清晰度差异, 我们参考[35]中的想法, 计算图像之间的梯度变化:

      $$ {\rm { SharpDiff. }}\left(I_{g}, {I_{v}}\right) = 10 \log _{10}\left(\frac{\max _{I_{g}}^{2}}{grads}\right) $$ (17)
      $$ {\rm{grads}} = \frac{1}{N} \sum\limits_{i} \sum\limits_{j}\left(\left|\left(\nabla_{i} I_{v}+\nabla_{j} I_{v}\right)-\left(\nabla_{i} I_{g}+\nabla_{j} I_{g}\right)\right|\right) $$ (18)

      其中 $ \nabla_{i} I = \left|I_{i, j}-I_{i-1, j}\right|, \nabla_{j} I = \left|I_{i, j}-I_{i, j-1}\right| $ . 公式(17)中的Sharpness Difference可看作是梯度的倒数, 我们希望图像之间的梯度越小, 所以Sharpness Difference就应该越大.

      结果: 基于SSIM, PSNR, SD的实验结果如表5所示. 由实验结果可以看出: 本文模型ViewGAN在三个数据集上的得分均高于基线模型的得分. 相比于目前主流的SelectionGAN模型, 本文模型ViewGAN在ICG Lab6数据集上的SSIM分数提升了32.29%, SD分数提升了10.18%, 在DeepFashion数据集上的PSNR得分提升了14.32%.

      表 5  各模型SSIM, PSNR, SD和速度统计表, 其中FPS表示测试时每秒处理的图像数量, 所有指标得分越高表明模型性能越好

      Table 5.  SSIM, PSNR, SD of different models. FPS is the number of images processed per second during testing. For all metrics, higher is better.

      模型 DeepFashion Dayton ICG Lab6 速度(FPS)
      SSIM PSNR SD SSIM PSNR SD SSIM PSNR SD
      Pix2Pix 0.39 17.67 18.55 0.42 17.63 19.28 0.23 15.71 16.59 166(±)5
      X-Fork 0.45 19.07 18.67 0.50 19.89 19.45 0.27 16.38 17.35 87(±)7
      X-Seq 0.42 18.82 18.44 0.50 20.28 19.53 0.28 16.38 17.27 75(±)3
      VariGAN 0.57 20.14 18.79 0.52 21.57 19.77 0.45 17.58 17.89 70(±)5
      SelectionGAN 0.53 23.15 19.64 0.59 23.89 20.02 0.61 26.67 19.76 66(±)6
      ViewGAN 0.70 26.47 21.63 0.74 25.97 21.37 0.80 28.61 21.77 62(±)2

      上述定量实验结果证明: 面向室内、室外等复杂环境, 本文模型能够学会如何生成高质量多视角图像, 而不是简单地重复训练集中的图像. 这种分布式的生成方式使每个生成器专注于学习固定视角的图像, 提出的惩罚机制能够进一步完善图像的语义细节, 使得生成的图像更加逼真, 显著地化解了图像中的人工痕迹.

      速度对比实验: 为验证各个模型在速度上的差异, 我们在Dayton数据集上对各个模型测试时的速度进行了对比实验. 实验结果如表5所示, 从实验结果看出: ViewGAN的测试速度低于所有基线模型, 这要是因为采用由粗到精的两阶段生成方法势必会造成计算量的增加, 此外蒙特卡洛搜索耗时较多. 但事实上, ViewGAN和SelectionGAN的速度差距不大, 且62FPS已足够满足在实际应用需要了.

      最小数据量实验: 为了验证训练集规模对于模型性能的影响, 我们在DeepFashion数据集上对ViewGAN的最小训练样本量进行了探究实验. 实验结果如表6所示, 从实验结果可以看出: 随着训练集规模的缩小, ViewGAN的性能下降较为缓慢. 直至训练集规模缩小至60%时, ViewGAN在各指标上的得分才低于基线模型SelectionGAN在完整数据集上的得分, 这表明ViewGAN具有较强的鲁棒性, 即使在小规模数据集上仍能学习到关键的特征信息, 在一定程度上克服了以往模型泛化能力不强的缺点.

      表 6  最小数据量实验结果

      Table 6.  Minimum training data experimental results

      数据量(张) SSIM PSNR SD
      6000(100%) 0.70 26.47 21.63
      5400(90%) 0.68 26.08 20.95
      4800(80%) 0.66 24.97 20.31
      4200(70%) 0.59 23.68 20.00
      3600(60%) 0.51 21.90 18.89
    • 在三个数据集上的定性评估结果如图4图5图6所示, 测试图像的分辨率均为256*256. 从实验结果可以看出: 本文模型ViewGAN生成的图像更加清晰, 有关物体或场景的细节更丰富. 在DeepFashion数据集中, 以往模型易生成模糊失真的图像, ViewGAN学会了如何生成多样性强的服饰图像, 在服饰的图案、人物的姿态上具有更多的语义细节. 在Dayton数据集中, ViewGAN能够生成更加自然的图像, 图像中的房屋、草木和汽车都更符合实际, 减轻了图像中的人工痕迹. 在ICG Lab6数据集中, ViewGAN在面对复杂环境时仍表现出较好的性能, 图像中的桌椅、电脑等小目标都十分的逼真, 在清晰度方面非常接近真实图像.

      图  4  各模型在DeepFashion数据集上的测试样例

      Figure 4.  Results generated by different models on DeepFashion dataset

      图  5  各模型在Dayton数据集上的测试样例

      Figure 5.  Results generated by different models on Dayton dataset

      图  6  各模型在ICG Lab6数据集上的测试样例

      Figure 6.  Results generated by different models on ICG Lab6 dataset

    • 为了分析本文模型中不同组件的功能, 我们在DeepFashion数据集上进行了消融分析实验. 实验结果如表7所示. 由实验结果可知: 相比于模型A, 模型B的性能更好, 这表明由粗到精的两阶段生成方法能够更好地提升图像的清晰度. 模型C的性能得到进一步的提升, 这是因为本文模型采用的混合生成对抗网络有效地扩充模型的内存容量, 使得每个生成器更擅长生成指定视角的图像. 模型D通过引入类内损失促进了每个生成器的学习, 在提升系统稳定性的同时提升了图像的质量. 而模型E的得分表明: 而本文提出的惩罚机制显著提升了模型的性能, 使模型在生成过程中得到了充足的语义约束, 这大大增强了合成图像的清晰度和真实感.

      表 7  消融分析实验结果

      Table 7.  Ablations study of the proposed ViewGAN

      模型 结构 SSIM PSNR SD
      A Pix2Pix 0.46 19.66 18.89
      B A+由粗到精生成方法 0.53 22.90 19.31
      C B+混合生成对抗网络 0.60 23.77 20.03
      D C+类内损失 0.60 23.80 20.11
      E D+惩罚机制 0.70 26.47 21.63

      为进一步探索本文提出的基于蒙特卡洛搜索的惩罚机制, 我们将ViewGAN生成图像的过程进行了可视化, 如图7所示. 从图中可以看出: 低分辨率目标图像仅仅画出了人物的基本轮廓, 缺乏服饰的细节. 而利用蒙特卡洛搜索进行多次挖掘后, 我们提取出了不同层次的语义信息, 如服饰的蕾丝边、手臂的轮廓等等, 之后调用细粒度模块将这些语义信息填补到目标图像中, 从而得到最终逼真的高分辨率目标图像.

      图  7  ViewGAN生成图像的可视化过程. (a)表示输入的图像, (b)表示粗粒度模块合成的低分辨率目标图像, (c)表示蒙特卡洛搜索的结果, (d)表示细粒度模块合成的高分辨率目标图像.

      Figure 7.  Visualization of the process of ViewGAN generating images. (a) is the input image. (b) is the LR image generated by coarse image module. (c) are intermediate results generated by Monte Carlo search module. (d) is the HR image generated by fine image module

    • 本文提出了一种多视角图像生成模型ViewGAN, 它可基于不同视角的图像合成新视角的图像. 模型首先利用粗粒度模块生成低分辨率目标图像, 之后利用蒙特卡洛搜索挖掘中间结果的语义信息, 细粒度模块基于搜索结果合成高分辨率目标图像. 在三个公开数据集DeepFashion, Dayton和ICG Lab6上的定量实验与定性实验证明: 相比于目前的主流模型, 本文模型能够生成更加清晰的、多样性的目标图像. 其中消融分析实验证明了本文提出的基于蒙塔卡罗搜索的惩罚机制显著提升了图像的质量. 此外, 本文模型可灵活迁移至多视角生成的各个场景, 未来我们将进一步探索该方法在图像风格迁移、图像翻译等领域的应用.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回