Research Progress on Application of Generative Adversarial Networks in Various Fields
摘要: 随着深度学习的快速发展, 生成式模型领域也取得了显著进展. 生成对抗网络(Generative adversarial network, GAN)是一种无监督的学习方法, 它是根据博弈论中的二人零和博弈理论提出的. GAN具有一个生成器网络和一个判别器网络, 并通过对抗学习进行训练. 近年来, GAN成为一个炙手可热的研究方向. GAN不仅在图像领域取得了不错的成绩, 还在自然语言处理(Natural language processing, NLP)以及其他领域崭露头角. 本文对GAN的基本原理、训练过程和传统GAN存在的问题进行了阐述, 进一步详细介绍了通过损失函数的修改、网络结构的变化以及两者结合的手段提出的GAN变种模型的原理结构, 其中包括: 条件生成对抗网络(Conditional GAN, CGAN)、基于Wasserstein 距离的生成对抗网络(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理论的生成对抗网络(Informational-GAN, InfoGAN)、序列生成对抗网络(Sequence GAN, SeqGAN)、Pix2Pix、循环一致生成对抗网络(Cycle-consistent GAN, Cycle GAN)及其增强Cycle-GAN (Augmented CycleGAN). 概述了在计算机视觉、语音与NLP领域中基于GAN和相应GAN变种模型的基本原理结构, 其中包括: 基于CGAN的脸部老化应用(Face aging CGAN, Age-cGAN)、双路径生成对抗网络(Two-pathway GAN, TP-GAN)、表示解析学习生成对抗网络(Disentangled representation learning GAN, DR-GAN)、对偶学习生成对抗网络(DualGAN)、GeneGAN、语音增强生成对抗网络(Speech enhancement GAN, SEGAN)等. 介绍了GAN在医学、数据增强等领域的应用情况, 其中包括: 数据增强生成对抗网络(Data augmentation GAN, DAGAN)、医学生成对抗网络(Medical GAN, MedGAN)、无监督像素级域自适应方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后对GAN未来发展趋势及方向进行了展望.Abstract: With the rapid development of deep learning, the field of generative models has also made significant progress. Generative adversarial network (GAN) is an unsupervised learning method based on the zero-sum game theory in game theory. GAN has a generator network and a discriminator network and trains through adversarial learning. In the past two years, GAN has become a hot research direction. GAN has not only achieved good results in the field of computer vision, but also emerged in natural language processing (NLP) and other fields. This paper expounds the basic principles of GAN, the training process and the problems existing in traditional GAN, and further introduces the principal structure of the GAN variant model proposed by the modification of the loss function, the change of the network structure and the combination of the two, e.g., conditional GAN (CGAN), Wasserstein-GAN (WGAN), WGAN-gradient penalty (WGAN-GP), informational GAN (InfoGAN), sequence GAN (SeqGAN), Pix2Pix, cycle-consistent GAN (CycleGAN) and augmented CycleGAN, and so on. Then in the areas of computer vision, speech synthetics and analysis and NLP, we review the structure of the principle networks and models, including Age-cGAN for face aging, two-pathway GAN (TP-GAN), disentangled representation learning GAN (DR-GAN), DualGAN, GeneGAN, speech enhancement GAN (SEGAN), gumbel-softmax GAN, and so forth. Then we also introduce the applications of GAN in the field of medicine, data enhancement,etc, including data augmentation GAN (DAGAN), medical GAN (MedGAN), unsupervised pixel-level domain adaptation method (PixelDA), and so on. Finally, the future trends and directions of GAN are prospected.
表 1 GAN模型变种
Table 1 Variant of GAN model
表 2 GAN在图像领域的应用
Table 2 GAN's application in the field of computer vision
内容 模型 人脸图像识别与图像生成 基于 CGAN 的人脸识别模型[28], Age-cGAN[29], GLCA-GAN[30], TP-GAN[31], DR-GAN[33], SGAN[34],
MGAN[35], BigGAN[37]图像超分辨率 SRGAN[38], c-CycleGAN[39] 图像复原与多视角图像生成 基于 GAN 的语义图像修复模型[41], PGGAN[42], VariGAN[45] 图像转换 DualGAN[47], GeneGAN[48], S2-GAN[49], DA-GAN[50] 文本描述到图像生成 Text to image GAN[52], GAWWN[53], RTT-GAN[54] 图像语义分割 基于GAN的语义分割模型[55-56], Contrast-GAN[57] 图像着色 Auto-painter[58], DCGAN 用于图像着色[59] 视频预测 基于GAN的下帧图像生成模型[61], 利用 3D-CNN 作为生成器的 GAN[62], Dual motion GAN[63] 视觉显著性预测 SalGAN[64], MC-GAN[65] 图像密写 S-GAN[66] 3D 图像生成 3D-GAN[67], VON[68] 表 3 GAN在语音与NLP领域的应用
Table 3 GAN's application in the field of speech and NLP
内容 模型 语音增强 SEGAN[69], 基于 Pix2Pix 的语音增强模型[71] 音乐生成 MuseGAN[72] 语音识别 基于 GAN 的语音识别模型[73], 基于多任务对抗学习模式的语音识别模型[74], WGAN 用于语音识别[75], VoiceGAN[76], MTGAN[77], Residual GAN[78] 对话模型的评估与生成 基于 SeqGAN 的对话评估模型[79], 基于 SeqGAN 的对话生成模型[80] 生成离散序列 Gumbel-softmax GAN[82] 双语字典 基于 GAN 的双语字典模型[83] 文本分类与生成 对抗多任务学习模型[86], 基于 WGAN 的文本生成模型[87], DP-GAN[88] 语篇分析 ADAN[89] 机器翻译 BR-CSGAN[92], Multi-CSGAN-NMT[93], Adversarial-NMT[94], BGAN-NMT[95] 表 4 GAN在其他领域的应用
Table 4 GAN's application in other fields
内容 模型 人体姿态估计 基于 RL 与 GAN 的姿态估计模型[96], 基于 GAN 的姿态估计模型[97], 基于双向 LSTM 的 CGAN 模型[98] 恶意软件检测 MalGAN[99] 数据集标记与数据增强 基于 GAN 的仿真无监督学习框架[100], RenderGAN[101], DAGAN[102] 物理应用 基于 GAN 的高能粒子物理图像生成模型[104] 医学领域 RefineGAN[105], 基于 CGAN 的多对比度 MRI 图像生成模型[106], MedGAN[107], 基于 GAN 的视网膜血管图像生成模型[108], 基于 WGAN 的 CCTA 模型[109] 隐私保护 基于 GAN 的用户信息攻击模型[110] 域适应学习领域 PixelDA[112], 基于 GAN 的域自适应分类任务[113], 基于 GAN 的域间联合嵌入特征空间模型[114] 自动驾驶 基于 GAN 的驾驶场景预测模型[115], 基于 VAE 与 GAN 的路况预测模型[116] -
