林泓 任硕 杨益 张杨忆

林泓, 任硕, 杨益, 张杨忆. 融合自注意力机制和相对鉴别的无监督图像翻译. 自动化学报, 2021, 47(9): 2226−2237 doi: 10.16383/j.aas.c190074
Lin Hong, Ren Shuo, Yang Yi, Zhang Yang-Yi. Unsupervised image-to-image translation with self-attention and relativistic discriminator adversarial networks. Acta Automatica Sinica, 2021, 47(9): 2226−2237 doi: 10.16383/j.aas.c190074
doi: 10.16383/j.aas.c190074

    林泓  武汉理工大学计算机科学与技术学院副教授.主要研究方向为图像处理, 数据挖掘, 计算机语言与编译技术.E-mail:linhong@whut.edu.cn

    任硕  武汉理工大学硕士研究生.主要研究方向为计算机视觉和模式识别. E-mail: rensho555@126.com

    张杨忆  武汉理工大学硕士研究生.主要研究方向为计算机视觉和模式识别. E-mail: whutzyy95@163.com


    杨益  武汉理工大学计算机学院讲师.主要研究方向为图像处理和模式识别.本文通信作者.E-mail: yang_yi@whut.edu.cn

Unsupervised Image-to-Image Translation With Self-Attention and Relativistic Discriminator Adversarial Networks

    Author Bio:

    LIN Hong   Associate professor at the College of Computer Science and Technology, Wuhan University of Technology. Her research interest covers image processing, data mining, computer language, and compilation technology

    REN Shuo   Master student at Wuhan University of Technology. His research interest covers computer vision and pattern recognition

    ZHANG Yang-Yi  Master student at Wuhan University of Technology. Her research interest covers computer vision and pattern recognition

    Corresponding author: YANG Yi  Lecturer at the College of Computer Science and Technology, Wuhan University of Technology. Her research interest covers image processing and pattern recognition. Corresponding author of this paper
  • 摘要: 无监督图像翻译使用非配对训练数据能够完成图像中对象变换、季节转移、卫星与路网图相互转换等多种图像翻译任务.针对基于生成对抗网络(Generative adversarial network, GAN)的无监督图像翻译中训练过程不稳定、无关域改变较大而导致翻译图像细节模糊、真实性低的问题, 本文基于对偶学习提出一种融合自注意力机制和相对鉴别的无监督图像翻译方法.首先, 生成器引入自注意力机制加强图像生成过程中像素间远近距离的关联关系, 在低、高卷积层间增加跳跃连接, 降低无关图像域特征信息损失.其次, 判别器使用谱规范化防止因鉴别能力突变造成的梯度消失, 增强训练过程中整体模型的稳定性.最后, 在损失函数中基于循环重构增加自我重构一致性约束条件, 专注目标域的转变, 设计相对鉴别对抗损失指导生成器和判别器之间的零和博弈, 完成无监督的图像翻译.在Horse & Zebra、Summer & Winter以及AerialPhoto & Map数据集上的实验结果表明:相较于现有GAN的图像翻译方法, 本文能够建立更真实的图像域映射关系, 提高了生成图像的翻译质量.
  • 图  1  模型整体结构

    Fig.  1  The structure of model

    图  2  生成器网络

    Fig.  2  Generator

    图  3  判别器网络

    Fig.  3  Discriminator

    图  4  相对对抗收敛效果

    Fig.  4  Relative discriminator convergence effect

    图  5  本文不同条件实验结果

    Fig.  5  Experimental results under different conditions

    图  6  卫星图与路网图翻译效果对比

    Fig.  6  Comparison of AerialPhoto & Map image translation

    图  7  多种方法翻译效果对比

    Fig.  7  Comparison of multiple image translation methods

    表  1  生成器网络结构参数设置

    Table  1  The parameter setting of generator

    序号 区域划分 层类型 卷积核 步长 深度 归一化 激活函数
    0 下采样 Convolution $ 7 \times 7 $ 1 64 IN ReLU
    1 下采样 Convolution $ 3 \times 3 $ 2 128 IN ReLU
    2 下采样 Convolution $ 3 \times 3 $ 2 256 IN ReLU
    3 中间区 Residual Block $ 3 \times 3 $ 1 256 IN ReLU
    4 中间区 Residual Block $ 3 \times 3 $ 1 256 IN ReLU
    5 中间区 Residual Block $ 3 \times 3 $ 1 256 IN ReLU
    6 中间区 Residual Block $ 3 \times 3 $ 1 256 IN ReLU
    7 中间区 Residual Block $ 3 \times 3 $ 1 256 IN ReLU
    8 中间区 Residual Block $ 3 \times 3 $ 1 256 IN ReLU
    9 上采样 Deconvlution $ 3 \times 3 $ 2 128 IN ReLU
    10 上采样 Self-Attention
    11 上采样 Deconvlution $ 3 \times 3 $ 2 64 IN ReLU
    12 上采样 Convolution $ 7 \times 7 $ 1 3 Tanh
    表  2  判别器网络结构参数设置

    Table  2  The parameter setting of discriminator

    序号 层类型 卷积核 步长 深度 归一化 激活函数
    0 Convolution $ 4 \times 4 $ 2 64 LeakyReLU
    1 Convolution $ 4 \times 4 $ 2 128 SN LeakyReLU
    2 Convolution $ 4 \times 4 $ 2 256 SN LeakyReLU
    3 Convolution $ 4 \times 4 $ 2 512 SN LeakyReLU
    4 Convolution $ 4 \times 4 $ 1 1
    表  3  本文不同条件分类准确率

    Table  3  CA under different conditions

    数据集 真实图像 相对对抗 自注意力 自注意力+相对对抗
    Horse&Zebra 0.985 0.849 0.862 0.873
    Summer&Winter 0.827 0.665 0.714 0.752
    表  4  用户调研评价(%)

    Table  4  User study (%)

    翻译任务 CycleGAN [7] UNIT [8] 本文方法
    Horse $ \rightarrow $ Zebra 10.6 13.3 76.1
    Zebra $ \rightarrow $ Horse 7.6 6.6% 85.8
    Summer $ \rightarrow $ Winter 24.6 19.3% 56.1
    Winter $ \rightarrow $ Summer 15 11.7% 73.3
    表  5  分类准确率对比

    Table  5  Classification accuracy comparison

    数据集 真实图像 CycleGAN [7] UNIT [8] 本文方法
    Horse&Zebra 0.985 0.850 0.789 0.873
    Summer&Winter 0.827 0.644 0.591 0.752
    表  6  感知距离对比

    Table  6  Perceptual distance comparison

    翻译任务 真实图像 CycleGAN [7] UNIT [8] 本文方法
    Horse $ \rightarrow $ Zebra 1.177 1.133 1.054 1.137
    Zebra $ \rightarrow $ Horse 1.198 1.141 1.056 1.147
    Summer $ \rightarrow $ Winter 1.824 1.189 1.153 1.211
    Winter $ \rightarrow $ Summer 1.272 1.223 1.209 1.259
