2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于子样本集构建的DCGANs训练方法

陈泓佑 和红杰 陈帆 朱翌明

陈泓佑, 和红杰, 陈帆, 朱翌明. 基于子样本集构建的DCGANs训练方法.自动化学报, 2021, 47(4): 913-923 doi: 10.16383/j.aas.c180677
引用本文: 陈泓佑, 和红杰, 陈帆, 朱翌明. 基于子样本集构建的DCGANs训练方法.自动化学报, 2021, 47(4): 913-923 doi: 10.16383/j.aas.c180677
Chen Hong-You, He Hong-Jie, Chen Fan, Zhu Yi-Ming. A training method of DCGANs based on subsample set construction. Acta Automatica Sinica, 2021, 47(4): 913-923 doi: 10.16383/j.aas.c180677
Citation: Chen Hong-You, He Hong-Jie, Chen Fan, Zhu Yi-Ming. A training method of DCGANs based on subsample set construction. Acta Automatica Sinica, 2021, 47(4): 913-923 doi: 10.16383/j.aas.c180677

基于子样本集构建的DCGANs训练方法

doi: 10.16383/j.aas.c180677
基金项目: 

国家自然科学基金 61872303

四川省科技厅科技创新人才计划 2018RZ0143

详细信息
    作者简介:

    陈泓佑  西南交通大学信息科学与技术学院博士研究生. 主要研究方向为机器学习, 图像处理. E-mail: chy2019@foxmail.com

    陈帆  西南交通大学信息科学与技术学院副教授. 主要研究方向为多媒体安全, 计算机应用. E-mail: fchen@home.swjtu.edu.cn

    朱翌明  西南交通大学信息科学与技术学院硕士研究生. 主要研究方向为深度学习, 图像处理. E-mail: swjtu163zym@163.com

    通讯作者:

    和红杰  西南交通大学信息科学与技术学院教授. 主要研究方向为图像取证, 图像处理. 本文通信作者. E-mail: hjhe@home.swjtu.edu.cn

A Training Method of DCGANs Based on Subsample Set Construction

Funds: 

National Natural Science Foundation of China 61872303

Technology Innovation Talent Program of Science & Technology Department of Sichuan Province 2018RZ0143

More Information
    Author Bio:

    CHEN Hong-You  Ph. D. candidate at the School of Information Science and Technology, Southwest Jiaotong University. His research interest covers machine learning, and image processing

    CHEN Fan  Associate professor at the School of Information Science and Technology, Southwest Jiaotong University. His research interest covers multimedia security and computer applications

    ZHU Yi-Ming  Master student at the School of Information Science and Technology, Southwest Jiaotong University. His research interest covers deep learning and image processing

    Corresponding author: HE Hong-Jie  Professor at the School of Information Science and Technology, Southwest Jiaotong University. Her research interest covers image forensics, and image processing. Corresponding author
  • 摘要: 深度卷积生成式对抗网络(Deep convolutional generative adversarial networks, DCGANs) 是一种改进的生成式对抗网络, 尽管生成图像效果比传统GANs有较大提升, 但在训练方法上依然存在改进的空间. 本文提出了一种基于训练图像子样本集构建的DCGANs训练方法. 推导给出了DCGANs的生成样本、子样本与总体样本的统计分布关系, 结果表明子样本集分布越趋近于总体样本集, 则生成样本集也越接近总体样本集. 设计了基于样本一阶颜色矩和清晰度的特征空间的子样本集构建方法, 通过改进的按概率抽样方法使得构建的子样本集之间近似独立同分布并且趋近于总体样本集分布. 为验证本文方法效果, 利用卡通人脸图像和Cifar10图像集, 对比分析本文构建子样本集与随机选取样本的DCGANs训练方法以及其他训练策略实验结果. 结果表明, 在Batchsize约为2 000的条件下, 测试误差、KL距离、起始分数指标有所提高, 从而得到更好的生成图像.
    Recommended by Associate Editor ZHANG Jun-Ping
  • 生成式对抗网络(Generative adversarial networks, GANs)[1]是2014年Goodfellow等依据零和博弈思想和纳什均衡原理提出的一种数据生成模型, 该模型[1-4]由生成器网络(Generative net)和判别器网络(Discriminative net)组成. 生成器$ G $网络通过输入随机向量$ z $使得输出值$ G (z) $尽可能符合训练图像分布, 判别器$ D $网络对输入的测试样本尽可能判别出测试样本的来源(即训练图像样本集或生成图像样本集). GANs的最终目的是通过充分训练, 使得$ G $网络和$ D $网络达到纳什均衡状态, 从而使得$ D $网络难以判别出输入的采样样本的来源, $ G $网络生成的样本分布逼近或相同于训练样本集分布.

    GANs是一种经典有效的新型数据生成模型, 但为使得生成样本集分布与训练样本集分布相近或相同, 在模型的优化与训练上依然比较困难[1]. 主要原因在于$ G $、$ D $网络通常使用深度神经网络, 因此会体现出深度神经网络训练中的问题, 如难以训练、学习时间长、收敛较慢、训练最终效果难以控制等; 在优化器优化损失函数的时候可能出现梯度消失的问题[1-2], 从而导致$ G $和$ D $网络未达到训练要求前过早进入平稳状态, 使得训练失效; GANs在优化器优化损失函数时只会找低损失点, 不会找真正意义上的纳什均衡点[5], 可能导致对抗学习偏离纳什均衡点, 增大生成图像分布与训练图像分布的差距.

    为使得GANs图像生成效果更好, 学者做出了一些改进工作, 通常改进的是网络结构、目标优化函数或网络的训练方式. Mirza等[6]提出一种CGANs模型, 它的损失函数带有条件约束, 在$ G $网络和$ D $网络之中引入条件变量, 从而将无监督GANs变成有监督GANs. Radford等[7]使用卷积神经网络(CNN)作为$ G $网络和$ D $网络, 提出了DCGANs (Deep convolutional generative adversarial networks)模型, 并且$ G $网络和$ D $网络中的CNN去掉了池化处理和全连接层使得GANs图像生成质量得以提高. Denton等[8]提出了一种金字塔LAPGANs模型, 其结合了CGANs和GANs的一些优点, 使用一系列的GANs来生成质量更高的自然图像. Odena[9]设计出SGANs, 使用半监督的方式使得$ G $网络和$ D $网络可以同时训练, 相互促进相互学习, 能够明显改变生成的图像质量和学习的时间代价. Donahue等[10]提出了一种双向结构的BiGANs, 增加了$ E $网络(编码机)作为特征提取器, 用于将GANs要生成的数据空间中的数据逆映射回隐藏编码空间, 能够在实际场景中的自然图像达到好的效果. Zhang等[11]提出的StackGAN由两层CGANs组成, 可以生成非常真实的自然图像. Chen等[12]提出的InfoGAN中, $ G $网络的输入信息$ z $加入了隐含约束信息$ c $, 能更好地解释$ z $的语义信息, 也能得到内容更丰富的生成图像. Qi[13]和Arjovsky等[14]分别提出的LSGANs和WGANs主要是通过优化函数进行性能提升, 前者主要针对了$ G $网络的过拟合问题, 后者主要针对了整个网络的梯度消失问题. Yu等[15]提出的SeqGANs通过改变网络结构和优化函数, 缓解了$ G $网络输出值离散化后, $ D $网络难以回传梯度对$ G $网络进行参数更新的问题. 王功明等[16]在借鉴EBGANs的思想, 重新设计了一种能量重构误差损失函数, 在学习效率和图像生成质量上有所提高.

    Salimans等[5]除将$ D $网络损失函数改为半监督形式外, 也更改了它的训练方式, 对其使用MiniBatch的训练方法, 每次判别网络输入一批图像进行判别, 更改$ D $网络损失函数正负样本概率权重, 在每次馈入的Batchsize个样本训练之前做Normalize处理. Do-Omri[17]将深度神经网络中的自训练(Self-training)过程融入到针对半监督任务GANs. Gulrajani等[18]使用梯度惩罚方法替代了$ D $网络中权重剪枝的过程, 提高了WGANs的稳定性. Daskalakis等[19]针对WGANs中的极限循环问题, 使用OMD (Optimistic mirror decent)来改进训练WGANs. Mescheder等[20]使用$ D $网络参数正则化策略稳定GANs的训练, 并且指出实例噪声(Instance noise)或零中心梯度惩罚的GANs训练上是收敛的.

    上述GANs相关文献从网络结构、优化函数、训练方式的改进使得GANs性能有所提升. 训练方式的改进主要对网络内部中间数据进行处理, 或网络中间层数据处理策略的改进. 本文通过对GANs外部数据(训练样本集)进行干预, 提出一种基于训练样本集特征分布的子样本集构建的训练方法. 先计算出整个训练样本集在选取的特征空间中的概率分布, 再对每次馈入(feed)生成器$ G $的Batchsize个数据构建成与训练集分布差异更小的子样本集. 使得在每次epoch内, 每个Batchsize大小的子样本集分布均与训练样本集分布相似. 最后在卡通人脸数据集和Cifar10数据集上的实验结果表明, 相对于原有的训练方法, 本文能够取得更好的生成图像.

    DCGANs模型的生成器$ G $和判别器$ D $使用了去除池化层和全连接层的深度卷积神经网络[7]代替多层感知机网络, 使得整个网络连续可微. $ G $网络和$ D $网络的损失函数分别为:

    $$ \begin{align} loss_D = \, &\frac{1}{b}\sum\limits_{j = 1}^{b} \left[\ln{D(x_j) + \ln{(1 - D(G(z_j)))}}\right] \end{align} $$ (1)
    $$ \begin{align} loss_G = \, & \frac{1}{b}\sum\limits_{j = 1}^{b} \ln{(1 - D(G(z_j)))} \end{align} $$ (2)

    其中, $ b $是每次馈入的数据量, 整个对抗网络的博弈损失函数为:

    $$ \begin{align} \min\limits_G \max\limits_D = \, & {\rm E}_{X \sim F_X(x)}\left[\ln{D(x)}\right] + \\& {\rm E}_{Z \sim F_Z(z)}\left[\ln(1 - D(G(z))) \right] \end{align} $$ (3)

    $ V(D, G) $是一个二元极小极大零和博弈函数, E$ (\cdot) $为期望函数. 损失函数最终目的为使得$ G(Z) $的分布函数$ F_G(x) $趋近于训练样本集$ X $的分布$ F_X(x) $, 或$ G(Z) $的概率密度函数$ f_G(x) $趋近于训练样本集$ X $的概率密度函数$ f_X(x) $.

    DCGANs的训练过程就是利用训练样本集$ X $对损失函数的优化过程. 主流的神经网络优化方法是梯度下降法[20-24], 它主要有全样本梯度下降(Gradient descent, GD)、随机梯度下降(Stochastic gradient descent, SGD)、批梯度下降(Batchsize gradient descent, BGD). 其中SGD[22]每次馈入极少量样本进行训练, 这种方法对内存要求少, 收敛速度很快, 但更容易陷入局部最优. BGD[21, 23-25]每次馈入较大数据量进行训练, 它综合考虑了梯度估计准确性、收敛速度、训练效果等因素. 在原DCGANs训练过程中使用的是动量最小批SGD方法[7].

    在选取优化方法后, 确定Batchsize、epoch、学习率等超参数, 下面分析数据的馈入过程. DCGANs的训练示意图如图 1所示. 每个epoch训练顺序馈入子样本集, $ X_i\; (i = 1, 2, \cdots, m) $.

    图 1  DCGANs训练示意图
    Fig. 1  Schematic diagram of DCGANs training
    $$ \begin{equation} m = \left\lfloor \frac{n }{\rm Batchsize} \right\rfloor \end{equation} $$ (4)

    其中, $ n $为训练样本总数, $ m $为子样本集个数, Batchsize为每次馈入的样本数量. 每次epoch训练, 遗漏的样本数为$ n\mod {\rm Batchsize} $. 所以每个epoch样本覆盖率为:

    $$ \begin{equation} \omega = \frac{(n - n\ \rm{mod\ Batchsize}) }{ n} \times 100\, \% \end{equation} $$ (5)

    每次epoch训练结束后, DCGANs的生成器网络$ G $对应一个生成样本分布$ f_G(x) $. 由于在每个epoch训练中, 每次馈入子样本集$ X_i $后$ G $网络将模拟$ X_i $的分布$ f_{X_i}(x) $. 因此每次epoch训练后$ G $网络模拟的分布是这$ m $个子分布$ f_{X_i}(x) $效果总和. 通过若干次epoch训练使得$ f_G(x) $与训练样本集$ f_X(x) $尽可能相似. 即:

    $$ \begin{equation} f_G(x) = \oplus_{i = 1}^m f_{X_i}(x) \end{equation} $$ (6)
    $$ \begin{equation} \min\limits_G \left( |f_G(x) - f_X(x)| \right) \end{equation} $$ (7)

    其中, 式$ (6) $中"$ \oplus $"指每个epoch内DCGANs模拟子分布$ f_{X_i}(x)\; (i = 1, 2, \cdots, m) $效果的总和. 式$ (7) $中$ |\cdot| $函数是分布距离度量函数.

    由式(6)可知, 生成样本集分布$ f_G(x) $与子样本集$ X_i $的分布$ f_{X_i}(x) $有直接关系. 本节将讨论子样本集分布对网络训练效果的影响. 命题2讨论每个epoch内馈入的子样本集$ X_i $对训练效果的影响. 由于上述问题均是在概率统计基础上的讨论, 因此需要先证明$ G(Z) $是随机变量(命题1), 证明命题1需要引用以下3个引理.

    引理1[26].  可测集上的连续函数是可测函数.

    引理2[27].  若$ X $为可测空间($ \Omega, F) $上的随机变量, $ g(x) $是可测函数, 则$ Y = g(X) $是($ \Omega, F) $上的随机变量.

    引理3[27].  设$ X_1, X_2, \cdots, X_k $是可测空间($ \Omega $, F) 上的随机变量, $ g(x_1, x_2, \cdots, x_k) $是$ k $元可测函数, 那么$ Y = g(X_1, X_2, \cdots, X_k) $是$ (\Omega, F) $上的随机变量.

    命题1.DCGANs  中$ G $网络生成的图像$ G(Z) = (Q_1, $ $ Q_2, \cdots, Q_l) $是$ l $维随机变量, 其中$ l $是$ G $网络输出神经元个数, $ Q_i $是第$ i $个像素值.

    证明.  $ G $网络的直接输出值$ G^*(z) $由多个神经元输出值$ N_i(z) $组成, 即,

    $$ \begin{equation} G^*(z) = \{ N_i(z) | i = 1, 2, 3, \cdots, l \} \end{equation} $$ (8)

    因为$ G $网络去掉了池化层[3], $ G $网络连续可微可导.

    所以$ N_i(z) $连续可微可导.

    将其展开即$ N_i(z_1, z_2, \cdots, z_k) $连续可微可导, 其中$ k $为随机向量$ z $的维度.

    又因为$ z_1, z_2, \cdots, z_k $各自的取值范围是可测集.

    从而由引理1可知$ N_i(z_1, z_2, \cdots, z_k) $是可测集上的$ k $元可测函数.

    因为$ Z_1, Z_2, \cdots, Z_k $是随机变量.

    由引理3可知$ N_i(Z_1, Z_2, \cdots, Z_k) $是随机变量.

    所以$ G^*(Z) $是$ l $维随机变量.

    将$ G $网络直接输出值$ G^*(z) $转化成图像样本$ G(z) $时, 需要对$ N_i(z) $函数值进行线性变换为[0, 255]区间的像素值, 记神经元$ N_i(z) $的值域为$ [n_1, n_2] $, 它的输出值为$ n_i $, 则线性变换函数为:

    $$ \begin{equation} q(n_i) = 255 \times \frac{n_i-n_1 }{ n_2-n_1} \end{equation} $$ (9)

    显然$ q(\cdot) $函数是可测集上的连续函数, 结合引理1知, 它是可测函数.

    因为$ N_i $是随机变量.

    那么由引理2知, $ Q_i = q(N_i) $为随机变量.

    所以$ G $网络的生成图像$ G(Z) = (Q_1, $ $ Q_2, \cdots, Q_l) $是$ l $维随机变量.

    由第1.2节分析可知, 神经网络每次epoch训练过程中需要馈入若干组Batchsize大小的子样本图像集$ X_i $. 因此将讨论$ X_i $和总体训练图像集$ X $的相似度与$ f_G(x) $和$ f_X(x) $相似度关系. 由于涉及概率分布之间相似度度量, 需先引入$ KL $距离概念.

    定义1.  $ KL $距离(Kullback-Leibler divergence), 也叫相对熵(Relative entropy), 其定量计算了同一事件空间中两个不同的概率分布的差异程度. 记两个概率密度函数分别为$ f_X(x) $和$ g_X(x) $, $ KL(f_X(x)||g_X(x)) $表示它们的$ KL $距离, 那么:

    $$ \begin{equation} KL(f_X(x) || g_X(x)) = \sum\limits_{x\in X}f_X(x) \ln{\frac{f_X(x)}{g_X(x)}} \end{equation} $$ (10)

    $ KL $距离具有非负性, 但不满足距离定义中的对称性和三角不等式. 在实际操作中, 生成图$ G(z) $和训练图像集$ x $是随机样本值, 计算它们两组同维度图片概率分布时, 为了降低难度可以使用其在特征空间中的概率分布表征.

    命题2.  DCGANs训练过程中依次馈入大小为Batchsize的训练图像子样本集$ X_i $时, 子样本集$ X_i $、训练集$ X $、生成集$ G(Z $)它们之间的关系为, $ KL(f_{X_i}(x)||f_X(x)) \propto KL(f_G(x)||f_X(x)) $.

    证明.  DCGANs训练过程中每次epoch依次馈入子样本集$ X_i $时$ (i \in [1, m]) $, 网络损失函数梯度估计值为$ g(X_i, Z_i) $.

    所以每训练一个epoch, 共训练$ m $个Batchsize大小的子样本集$ X_i $后, $ G $网络梯度估计值的总和为$ \sum_{i = 1}^{m}g(X_i, Z_i) $, 与之对应的梯度估计方差为var$ (\sum_{i = 1}^{m}g(X_i, Z_i)) $.

    继而讨论以下两种子样本集对训练结果的影响.

    记两种子样本集$ \{X_{1i}\}_m $和$ \{X_{2i}\}_m $, 满足如下两个条件:

    $$ \begin{equation} KL(f_{X_{1i}}(x)||f_X(x))\geq KL(f_{X_{2i}}(x)||f_X(x)) \end{equation} $$ (11)
    $$ \begin{equation} {\rm var}\left(\sum\limits_{i = 1}^m X_{1i}\right)\geq {\rm var}\left(\sum\limits_{i = 1}^m X_{2i}\right) \end{equation} $$ (12)

    两种子样本集对应的概率密度函数分别为$ \{f_{X_{1i}}(x)\}_m $和$ \{f_{X_{2i}}(x)\}_m $. 即相较于子样本集$ \{X_{1i}\}_m $, $ \{X_{2i}\}_m $有更好的同分布性以及更趋近于$ f_X(x) $.

    因为$ {\rm var}(g(X_i, Z_i)) $正相关于$ {\rm var}((X_i, Z_i)) $, 且式(12)为已知条件.

    所以,

    $$ \begin{equation} {\rm var}(\sum\limits_{i = 1}^m g(X_{1i}, Z_i)) \geq {\rm var}(\sum\limits_{i = 1}^m g(X_{2i}, Z_i)) \end{equation} $$ (13)

    所以在梯度估计精度及平稳性上, 子样本集$ \{X_{1i}\}_m $差于子样本集$ \{X_{2i}\}_m $.

    由式(6)可知, DCGANs是通过模拟$ f_{X_i}(x) $总的影响和得到$ f_G(x) $.

    那么$ KL(f_{G_1}(x)||f_X(x)) \geq KL(f_{G_2}(x)|| $ $ f_X(x)) $.

    又因为式(11)为已知条件.

    所以$ KL(f_{X_i}(x)||f_X(x)) $与$ KL(f_G(x)||f_X(x)) $是正相关, 即$ KL(f_{X_i}(x)||f_X(x)) \propto KL(f_G(x)|| $ $ f_X(x)) $.

    由上述2个命题的证明可知, DCGANs中的$ G $网络输出的生成样本$ G(Z) $是多维随机变量. 当$ KL(f_{X_i}(x)||f_X(x)) \propto KL(f_G(x)||f_X(x)) $时, 有利于达到DCGANs训练目的, 即$ f_G(x)\approx f_X(x) $. 也就是说, 子样本图像集$ X_i $与训练集$ X $的分布相似, 即$ f_{X_i}(x) $与$ f_X(x) $越相似, 越有利于$ f_G(x) $逼近$ f_X(x) $. 因此, 如果人为构建子样本集$ X_i $使其独立同分布且$ f_{X_i}(x) $尽量与$ f_X(x) $相似, 更有利于DCGANs的训练.

    在子样本集构建过程中先计算出总体样本集的概率分布, 然后改进按比例抽样方法从总体样本集$ X $中构建子样本集$ X_i $. 训练整个网络时, 依次馈入$ X_i $进行网络参数更新.

    对于$ f_X(x) $需在其特征空间上进行描述, 样本本身为样本的特征, 若不对$ X $进行任何处理, $ X $本身就能描述$ f_X(x) $. 由于训练样本数量有限, 在高维度特征空间中可能导致分布过于离散, 不利于利用$ X $的分布进行数据下采样构建$ X_i $.

    在计算$ f_X(x) $时, 应考虑特征空间的构建, 即特征向量$ V $的组成. 当确定$ V = (v_1, v_2, \cdots, v_n) $后对$ v_i $在样本集$ X $上提取特征得到特征值集$ V_i $, $ V_i $的元素个数与$ X $一致, 它的元素由$ X $中每个图像样本计算出的特征值$ v_i $组成. 为了便于子样本集$ X_i $的构建, 应对特征值$ v_i $进行尺度变换处理, 使得训练集$ X $在特征空间中的密度适当. 此时$ V_i $的每个元素值属于$ [0, m_i] $, 其中$ m_i $是$ v_i $特征值尺度变换的最大值. 最后计算出$ X $关于特征向量$ V $的联合概率密度函数$ f_V(v) $, 用它表征$ f_X(x) $.

    图 2是Batchsize = 128时$ G $网络的训练过程生成样本, 第$ 1\sim 8 $行分别是第0, 3, 6, 9, 12, 15, 18, 21个epoch的生成样本. 从图 2中可以看出, 在DCGANs训练过程中, $ G $网络先学习训练集样本的大体轮廓, 再学习样本的颜色, 最后学习样本的纹理, 与此同时样本的多样性也会逐步提高. 对于彩色图像, 人们最关注的部分也大体分解为三个方面, 轮廓特征、颜色特征和纹理特征. 由于图像轮廓特征难以用一个量进行描述, 并且三维特征空间构造及抽样难度比二维更复杂(需调节各特征属性的值域以使得$ X $在特征空间中密度适当以便于抽样), 因此选用颜色特征和纹理特征进行特征空间构建. 颜色一阶矩和清晰度(图像细节纹理的一种描述)在人工特征选取中经常被使用.

    图 2  G网络学习的中间效果
    Fig. 2  Intermediate effects of G net learning

    彩色图像颜色一阶矩特征如式(14)所示.

    $$ \begin{equation} \mu = \sum\limits_{i = 1}^3 c_i \left\{ \frac{1}{w \times h} \sum\limits_{x = 0}^{w-1} \sum\limits_{y = 0}^{h-1} I_i(x, y) \right \} \end{equation} $$ (14)

    其中$ c = \{0.30, 0.59, 0.11\} $为RGB彩色空间转灰度空间的系数. $ I_i(x, y) $是第$ i $个颜色通道坐标$ (x, y) $处的值. $ w, h $分别指图像的宽度和高度.

    清晰度评价函数选取广泛使用且函数曲线与清晰度正相关的能量梯度函数. 如式(15)所示.

    $$ \begin{align} F = \, & \sum\limits_{i = 1}^3 c_i \Big\{ \sum\limits_{x = 0}^{w-2} \sum\limits_{y = 0}^{h-2} \Big[( I_i(x+1, y) - I_i(x, y))^2 - \\& (I_i(x, y + 1) - I_i(x, y))^2\Big]\Big\} \end{align} $$ (15)

    在确定特征向量后, 按以下3个步骤计算$ X $在特征空间中的联合概率密度函数$ f_V(v) $.

    步骤1.  特征值计算: 按式(14)、(15)计算出$ X $中每个样本$ x $的特征值, 得到特征值集合$ V_1 $, $ V_2 $ (均为正值), 并分别计算出它们的最大值$ max_1 $, $ max_2 $.

    步骤2.  特征值尺度变换: 确定两种特征值的取值范围$ [0, m_i] $ $ (i = 1, 2) $, 按式(16)将特征值线性缩放到此区间中.

    $$ \begin{equation} v^*_{ij} = v_{ij} \times \frac{m_i }{ max_i} \end{equation} $$ (16)

    其中, $ j = 1, 2, \cdots, n $. $ n $为$ X $的规模. $ v^*_{ij} $表示第$ j $个样本$ x_j $的第$ i $类特征值变换后的特征值. $ v_{ij} $表示第$ j $个样本$ x_j $的第$ i $类特征的原始特征值. 将计算出的$ v^*_{ij} $值四舍五入后替代$ v_{ij} $, 从而更新$ V_1 $, $ V_2 $.

    步骤3.  样本频数统计: 建立表$ T(v_1, v_2) $, 初始值为0, 尺寸为$ m_1 \times m_2 $, 表中元素$ t_{ij} $表示特征值$ v_1 $ = $ i $, $ v_2 = j $的样本个数, $ v_k \in V_k $, $ k = 1, 2. $同时遍历$ V_1 $, $ V_2 $中所有元素, 若$ v_1 $ = $ i $, $ v_2 = j $则$ t_{ij} $自加1.

    步骤4.  $ f_V(v) $求取: 遍历表$ T(v_1, v_2) $, 将每个表中元素值$ t_{ij} $除以$ X $的样本数$ n $, 即$ t_{ij} \leftarrow t_{ij} / n $; 从而使用表$ T(v_1, v_2) $表示$ f_V(v) $.

    最终使用$ f_V(v) $表征$ f_X(x) $. 对$ n $维的特征空间计算$ f_X(x) $以此类推, 随着空间维度的提高, $ f_X(x) $将越来越稀疏. 在使用更高维特征空间时, 可以适当压缩特征值线性变换后的取值范围以增加$ f_X(x) $的稠密性, 便于子样本集构建.

    为使$ X_i $的分布$ f_{X_i}(x) $与$ f_X(x) $相似, 需人为构建$ X_i $. 在按概率抽样的基础上, 依据总体分布$ f_X(x) $

    构建训练子集如下所示:

    步骤1.  特征分布计算: 依据第2.1节, 计算出特征值联合概率分布$ f_V(v_1, v_2) $, $ V = (V_1, V_2) $. 将对应的统计概率值记录在表$ T_1(v_1, v_2) $中, 用它来表征$ f_X(x) $.

    步骤2.  获取抽样个数表: 计算每个Batchsize大小的子样本集$ X_i $对应概率的样本个数表, 使用Batchsize乘以$ T_1 $中每个元素值四舍五入后可得, 记为$ T_2(v_1, v_2) $.

    步骤3.  样本抽样: 遍历$ T_2 $中不为0的值, 在训练集$ X $中抽取$ T_2 $中对应元素个数且对应特征向量的样本, 例如$ T_{2_{ij}} = t $, 那么就在$ X $中选取$ t $个$ v_1 = i $, $ v_2 = j $的样本. 每次抽取样本时, 优先抽取先前未被抽取的样本.

    通过以上处理, 得到了一个子样本集$ X_i $, 一般地$ X_i $的样本个数$ num_i $小于Batchsize, 造成这种现象的主要原因在于: 1) $ f_X(x) $中概率值过小的样本可能无法采样. 2) $ f_X(x) $中乘以Batchsize后小数部分被截断.

    由于$ f_X(x) $中高频部分比较好采样, 并且高频部分对$ G $网络的贡献更大, 因此随机选取前$ k $个高频概率, 计算出它们的比重再对这Batchsize - $ num_i $进行补齐, 最后使得$ X_i $的规模为Batchsize (二次补齐后可能会与Batchsize有很小的差异, 再在这$ k $个概率对应的样本中随机选取补齐即可; 如果想进一步提高样本覆盖率, 可以随机采样未被采样到的极低概率值对应的样本).

    子样本集构建中, 未进行样本补齐操作前能保证$ X_i $之间独立同分布, 补齐后会有较少的交集部分, 整个下采样获取的$ X_i $可以近似看成独立同分, 且与$ f_X(x) $相似.

    通过以上描述可以得到整个训练方法如下所示:

    步骤1.  选定Batchsize和epoch参数值, 动量因子和学习率参考文献[7]选取; 通过总样本量和Batchsize大小计算出每个epoch馈入的子样本集个数$ m $. $ m $依据式(4)所得.

    步骤2.  依据第2.1节, 计算出总体样本集在特征空间中的统计概率分布$ f_X(x) $.

    步骤3.  依据第2.2节, 构建$ m $个子样本集分布$ f_{X_i}(x) $, 其对应的子样本集记为$ \{X_i\}_m $.

    步骤4.  每次epoch训练中依次馈入$ X_i $, 更新整个DCGANs网络参数, 直到达到epoch参数值为止.

    为验证本文方法对DCGANs训练的效果, 实验中选用卡通人脸, Cifar10数据集. 主要软硬件环境为: tensorflow1.4.0 GPU版本、英伟达gtx1060, gtx1080显卡、DDR4 2 400 MHz, 8 GB内存. 卡通人脸数据集有51 223张彩色卡通人脸图片, 每张图像大小为96 $ \times $ 96像素. 为便于选取较大Batchsize值, 将图像大小缩放到$ 48\times48 $像素. 生成数据规模为51 223, 每组训练耗时$ 1\sim 10 $小时左右. Cifar10图像数据集总共有60 000张彩色图片, 其中训练集50 000张, 测试集10 000张, 每张图像大小为32 $ \times $ 32像素. 在实验中, 选用Cifar10中训练集参与DCGANs训练, 生成数据规模为50 000, 每组训练耗时1~7小时左右. 图 3图 4分别给出了两种训练集的随机样本. 实验数据及分析如下所示.

    图 3  卡通人脸训练集样本
    Fig. 3  Training set samples of cartoon face
    图 4  Cifar10训练集样本
    Fig. 4  Training set samples of Cifar10

    为客观评价训练效果, 选取了测试误差[16]、$ KL $距离(式(10)), Inception score (IS)[28]共3种定量评价指标. 1) 测试误差: 均值和标准差越小越好, 均值越小, 生成集分布$ f_G(x) $越接近, 训练集分布$ f_X(x) $, 标准差越小, 表明批量生成图像样本时越稳定; 2) $ KL $距离: 越小越好, 它表明了$ f_G(x) $与$ f_X(x) $的差异程度; 3) IS指标: 越大越好, 它体现了GANs在生成图像质量和多样性方面的能力.

    为对比不同Batchsize下构建子样本集效果及随机子样本集与构建子样本集之间的差异, 做了如下实验. 表 1统计了不同Batchsize下构建子样本集总体覆盖率和随机子样本集总体覆盖率相关数据. 表 2统计了两个数据集不同Batchsize下各自所有子分布$ f_{X_i}(x) $与总体分布$ f_X(x) $的$ KL $距离统计值. 表 2中1~5行来自于卡通人脸数据集, 6~10行来自于Cifar10数据集.

    表 1  不同Batchsize下总体覆盖率
    Table 1  Total coverage rate of different Batchsize
    数据集 Batchsize 构建采样(%) 随机采样(%) 差距值(%)
    卡通人脸 512 80.68 99.96 19.28
    1 024 89.20 99.96 10.76
    2 000 93.20 97.59 4.39
    Cifar10 512 78.57 99.33 20.76
    1 024 87.54 98.30 10.76
    2 048 92.52 98.30 5.78
    下载: 导出CSV 
    | 显示表格
    表 2  不同Batchsize下$ KL(f_{X_i}(x)||f_X(x)) $数据
    Table 2  $ KL(f_{X_i}(x)||f_X(x)) $ data under difierent Batchsize
    数据集 Batchsize 均值 标准差 最小值 中值 最大值
    卡通人脸 128 1.3375 0.0805 1.1509 1.3379 1.6156
    1 024 0.3109 0.0147 0.2849 0.3110 0.3504
    1 024* 0.2366 0.0084 0.2154 0.2365 0.2579
    2 000 0.1785 0.0089 0.1652 0.1778 0.1931
    2 000* 0.1144 0.0042 0.1049 0.1150 0.1216
    Cifar10 128 1.4125 0.0772 1.1881 1.4155 1.6037
    1 024 0.3499 0.0155 0.3215 0.3475 0.3886
    1 024* 0.2692 0.0063 0.2552 0.2687 0.2836
    2 048 0.1994 0.0085 0.1830 0.2004 0.2148
    2 048* 0.1372 0.0040 0.1281 0.1372 0.1462
    带"*"项是构建子样本集相关数据, 下同
    下载: 导出CSV 
    | 显示表格

    表 1可以看出, Batchsize增大有利于构建子样本集后总体样本覆盖率的提升及减少与随机采样总体覆盖率的差距. 考虑到构建子样本集后的样本覆盖率, 选取较大Batchsize进行后继实验. 从表 2可看出Batchsize越大越有利于子分布趋近于总体分布, 并且子分布各自之间的差异会越来越小, 人为干预后子分布$ f_{X_i}(x) $各自之间的差异最小, 且与总体分布$ f_X(x) $最趋近. 这表明对样本子分布$ X_i $进行人为干预后能使得它们有更好的数理统计值(如均值、标准差等). 由大数定理可知, 子样本集尺寸越大越使它分布接近总体分布. 在特征空间中, 依然呈现了这种规律, 这也表明该特征空间上训练集的分布一定程度反映了训练集未降维时的分布.

    这些数据表明, 随机取样的子样本集分布比人为构建的子样本集分布一致性更弱, 而且子样本集分布之间的差异程度高于构建的子样本集分布之间的差异程度. 同时前者的分布与总体分布差异更大, 后者的分布与总体分布差异更小.

    通过表 1可知在子样本集构建的过程中, 有低频样本未被覆盖. 图 5展示了Batchsize为2 000左右时未被采样到的低频样本和采样到的普通样本示例. 其中第1、2行分别是卡通人脸数据集中的低频样本和普通样本; 第3、4行分别是Cifar10中的低频样本和普通样本.

    图 5  低频样本和普通样本
    Fig. 5  Low frequency and common samples

    图 5中可以看出, 子样本集构建中未参与训练的低频样本与普通样本有明显差别, 它们主要表现为颜色比较单一, 纹理信息也比较简单. 从数据分布的角度上看, 这类样本是属于分布上的离群点. 在神经网络训练中, 离群点容易对训练结果产生不利影响.

    为验证本文方法的有效性, 对比了在Batchsize为1 024, 2 000左右时构建子样本集及未构建子样本集的训练效果; 对比了本文方法与文献[7]及其他3种训练策略的训练效果.

    1) 构建与未构建子样本集对比

    对于卡通人脸数据集分别构建了Batchsize在1 024和2 000的子样本集. 对于Cifar10数据集分别构建了Batchsize为1 024和2 048的子样本集. 选取的学习率调参范围为$ 0.001 \sim 0.002 $之间, 动量因子为0.5, 使用BGD. 得到的实验数据如下所示.

    通过表 34可知, 在Batchsize为1 024时, 本文方法训练结果要稍差一点, 主要原因是样本覆盖率相对于随机子样本集差距较大, 在10 %左右, 导致子样本集构建后的总体分布与训练集分布差异较大导致的. 在Batchsize为2 000左右, 由于覆盖率差值为5 %左右, 这表明构建子样本集后的总体分布与训练集总体分布差异较小, 可以看出子样本集构建的训练方法在训练结果上有更好的生成效果.

    表 3  卡通人脸数据集实验结果对比
    Table 3  Experimental results comparison of cartoon face dataset
    Batchsize epoch 测试误差($ \times10^{-3} $) KL IS ($ \sigma\times10^{-2} $)
    1 024 135 8.03 $ \pm $ 2.12 0.1710 3.97 $ \pm $ 2.62
    1 024* 135 8.23 $ \pm $ 2.10 0.1844 3.82 $ \pm $ 2.02
    2 000 200 7.68 $ \pm $ 2.21 0.1077 3.95 $ \pm $ 2.32
    2 000* 200 7.18 $ \pm $ 2.13 0.0581 4.21 $ \pm $ 2.53
    下载: 导出CSV 
    | 显示表格
    表 4  Cifar10数据集实验结果对比
    Table 4  Experimental results comparison of Cifar10 dataset
    Batchsize epoch 测试误差($ \times10^{-2} $) KL IS ($ \sigma\times10^{-2} $)
    1 024 100 1.43 $ \pm $ 0.38 0.2146 5.44 $ \pm $ 6.40
    1 024* 100 1.48 $ \pm $ 0.35 0.2233 5.36 $ \pm $ 6.01
    2 048 200 1.40 $ \pm $ 0.39 0.2095 5.51 $ \pm $ 5.83
    2 048* 200 1.35 $ \pm $ 0.37 0.1890 5.62 $ \pm $ 5.77
    下载: 导出CSV 
    | 显示表格

    图 6~9直观展示了两种数据集在Batchsize大小为2 000左右训练所随机抽取的生成样本. 对比图 67可知, 两种生成样本风格都相差不大, 都能比较好地刻画出面部特征和头发等细节纹理. 但是图 7 (构建方法)的人脸轮廓学习得更到位一些, 并且面部特征消失的样本相对较少. 对比图 89可知, 依然出现了类似的实验现象, 图 9 (构建方法)能够辨别出大体类别的样本稍多, 如1行4列是鸟类, 1行7列是卡车, 2行3列是船, 2行6列是马. 在图 8 (随机方法)中2行1列是蛙类, 3行5列是狗.

    图 6  生成样本(随机, Batchsize = 2 000, 卡通人脸)
    Fig. 6  Generated samples (random, 2 000, cartoon face)
    图 7  生成样本(构建, Batchsize = 2 000, 卡通人脸)
    Fig. 7  Generated samples (constructing, 2 000, cartoon face)
    图 8  生成样本(随机, Batchsize 2 048, Cifar10)
    Fig. 8  Generated samples (random, 2 048, Cifar10)
    图 9  生成样本(构建, Batchsize = 2 048, Cifar10)
    Fig. 9  Generated samples (constructing, 2 048, Cifar10)

    综上所述, 适当选取Batchsize, 少量损失总体样本覆盖率, 构建子样本集训练方法具有较好的实验效果. 如果选取的Batchsize较小, 导致样本覆盖率偏低, 使得较多的样本不参与训练, 反而不利于$ G $网络模拟原训练集.

    2) 本文方法与其他训练策略对比

    为对比本文方法相对于文献[7]训练方法以及其他3种通过处理$ D $网络内部数据或梯度信息训练策略的训练效果, 做了以下实验. 包括$ D $网络批规范化(BN)、Adam、SGD, 对应表中128 (a)[7]; $ D $网络权重剪枝结合$ D $网络损失函数1中心梯度惩罚代替原训练方法[14, 18]、RMSProp、SGD、对应表中128 (b); $ D $网络权重参数正则化代替原训练方法[20]、RMSProp、SGD对应表中128 (c); $ D $网络真实样本对应的损失函数0中心梯度惩罚代替原训练方法[20]、RMSProp、SGD对应表中128 (d). RMSProp优化方法的学习率调参范围为0.00005~0.0001, 动量因子为0.9. 得出了实验数据如下所示. 带"*"项数据来自于本文方法实验结果.

    通过表 56可知, 即使在Batchsize为1 024时也能取得不错指标数据. 在Batchsize为2 000左右时有更好的实验指标数据, 并且明显优于文献[7]的实验效果. 在卡通人脸数据集中(单类别数据集) Batchsize为1 024时, 对除文献[7]外的其他3种学习策略并无优势, 但在Batchsize为2 000时有一定的优势. 在Cifar10数据集中(多类别数据集), 依然有类似的规律, 不同的是Batchsize无论为1 024或2 000左右均有相对较好的效果. 以上表明本文方法对于多类别数据集有更好的适应性. 通过对比表中3~6行还可以发现, 文献[7]的训练策略均差于其他3种训练策略. 实验也证明了这几种训练策略的有效性, 它们可以相互替代.

    表 5  卡通人脸数据集不同策略对比
    Table 5  Different strategies comparison of cartoon face dataset
    Batchsize epoch 测试误差($ \times10^{-3} $) KL IS ($ \sigma\times10^{-2} $)
    1 024* 135 8.23 $ \pm $ 2.10 0.1844 3.82 $ \pm $ 2.02
    2 000* 200 7.18 $ \pm $ 2.13 0.0581 4.21 $ \pm $ 2.53
    128 (a) 25 8.32 $ \pm $ 2.07 0.1954 3.62 $ \pm $ 2.59
    128 (b) 25 8.15 $ \pm $ 2.15 0.1321 3.92 $ \pm $ 4.59
    128 (c) 25 8.07 $ \pm $ 2.10 0.1745 3.89 $ \pm $ 4.45
    128 (d) 25 8.23 $ \pm $ 2.26 0.1250 4.02 $ \pm $ 3.97
    下载: 导出CSV 
    | 显示表格
    表 6  Cifar10数据集不同策略对比
    Table 6  Different strategies comparison of Cifar10 dataset
    Batchsize epoch 测试误差($ \times10^{-2} $) KL IS ($ \sigma\times10^{-2} $)
    1 024* 100 1.48 $ \pm $ 0.35 0.2233 5.36 $ \pm $ 6.01
    2 048* 200 1.35 $ \pm $ 0.37 0.1890 5.62 $ \pm $ 5.77
    128 (a) 25 1.81 $ \pm $ 0.41 0.2813 4.44 $ \pm $ 3.66
    128 (b) 25 1.64 $ \pm $ 0.40 0.2205 4.61 $ \pm $ 3.80
    128 (c) 25 1.70 $ \pm $ 0.41 0.2494 4.62 $ \pm $ 4.80
    128 (d) 25 1.63 $ \pm $ 0.42 0.2462 4.94 $ \pm $ 5.79
    下载: 导出CSV 
    | 显示表格

    图 10~13展示了文献[7]和$ D $网络权重参数正则化训练效果. 对比图 71011可以发现本文方法在直观效果上优于文献[7]和参数正则化训练策略. 可以看出和文献[7]和参数正则化策略直观效果大体相差不大, 瞳孔、头发纹理和眉毛等细节信息都丢失较多, 均要弱于本文方法. 对比图 91213可知, 本文方法生成的样本中, 能够区分出大体类别的数量相对较多.

    图 10  生成样本(128 (文献[7]), 卡通人脸)
    Fig. 10  Generated samples (128 (paper [7]), cartoon face)
    图 11  生成样本(128 (正则化), 卡通人脸)
    Fig. 11  Generated samples (128 (regularizer), cartoon face)
    图 12  生成样本(128 (文献[7]), Cifar10)
    Fig. 12  Generated samples (128 (paper [7]), Cifar10)
    图 13  生成样本(128 (正则化), Cifar10)
    Fig. 13  Generated samples (128 (regularizer), Cifar10)

    需要说明的是, 两种数据集上, 实验所生成图像中质量高的样本比例很少, 其中存在大量的结构失真和纹理信息丢失严重的图像, 这是很常见的现象[1, 7, 10]. 单类别数据集训练效果要明显优于多类别数据集训练效果. 本文方法由于Batchsize的增大, 每次epoch更新次数的减少, 会导致总的epoch数增多, 需要更多的训练时间. 以上数据表明, 本文方法相对于文献[7]的训练方法, 训练效果有明显提升; 并且在相同Batchsize, 保证有较大样本覆盖率的情况下是优于随机子样本集训练方法.

    为提高DCGANs训练的效果, 本文尝试通过对外部训练数据进行处理来影响最终的生成效果. 实验结果表明, 适当增加Batchsize大小, 对每次epoch馈入的子样本集经过人为构建能够影响生成结果, 与原有的训练方法比较, 提高了生成器网络生成的图像的效果, 这种处理方式能够减轻随机馈入数据对结果产生的不利影响. 同时也实践证明了在训练集概率统计分布过于抽象难以表达时, 其在特征空间中分布表达的有效性. 实验也证明了这几种训练策略的有效性, 它们可以相互替代. 当然本文方法也存在不足之处, 如由于加大了Batchsize大小, 导致了训练所需的时间更多. 训练之前需要对训练集进行较繁琐的预处理.


  • 本文责任编委 张军平
  • 图  1  DCGANs训练示意图

    Fig.  1  Schematic diagram of DCGANs training

    图  2  G网络学习的中间效果

    Fig.  2  Intermediate effects of G net learning

    图  3  卡通人脸训练集样本

    Fig.  3  Training set samples of cartoon face

    图  4  Cifar10训练集样本

    Fig.  4  Training set samples of Cifar10

    图  5  低频样本和普通样本

    Fig.  5  Low frequency and common samples

    图  6  生成样本(随机, Batchsize = 2 000, 卡通人脸)

    Fig.  6  Generated samples (random, 2 000, cartoon face)

    图  7  生成样本(构建, Batchsize = 2 000, 卡通人脸)

    Fig.  7  Generated samples (constructing, 2 000, cartoon face)

    图  8  生成样本(随机, Batchsize 2 048, Cifar10)

    Fig.  8  Generated samples (random, 2 048, Cifar10)

    图  9  生成样本(构建, Batchsize = 2 048, Cifar10)

    Fig.  9  Generated samples (constructing, 2 048, Cifar10)

    图  10  生成样本(128 (文献[7]), 卡通人脸)

    Fig.  10  Generated samples (128 (paper [7]), cartoon face)

    图  11  生成样本(128 (正则化), 卡通人脸)

    Fig.  11  Generated samples (128 (regularizer), cartoon face)

    图  12  生成样本(128 (文献[7]), Cifar10)

    Fig.  12  Generated samples (128 (paper [7]), Cifar10)

    图  13  生成样本(128 (正则化), Cifar10)

    Fig.  13  Generated samples (128 (regularizer), Cifar10)

    表  1  不同Batchsize下总体覆盖率

    Table  1  Total coverage rate of different Batchsize

    数据集 Batchsize 构建采样(%) 随机采样(%) 差距值(%)
    卡通人脸 512 80.68 99.96 19.28
    1 024 89.20 99.96 10.76
    2 000 93.20 97.59 4.39
    Cifar10 512 78.57 99.33 20.76
    1 024 87.54 98.30 10.76
    2 048 92.52 98.30 5.78
    下载: 导出CSV

    表  2  不同Batchsize下$ KL(f_{X_i}(x)||f_X(x)) $数据

    Table  2  $ KL(f_{X_i}(x)||f_X(x)) $ data under difierent Batchsize

    数据集 Batchsize 均值 标准差 最小值 中值 最大值
    卡通人脸 128 1.3375 0.0805 1.1509 1.3379 1.6156
    1 024 0.3109 0.0147 0.2849 0.3110 0.3504
    1 024* 0.2366 0.0084 0.2154 0.2365 0.2579
    2 000 0.1785 0.0089 0.1652 0.1778 0.1931
    2 000* 0.1144 0.0042 0.1049 0.1150 0.1216
    Cifar10 128 1.4125 0.0772 1.1881 1.4155 1.6037
    1 024 0.3499 0.0155 0.3215 0.3475 0.3886
    1 024* 0.2692 0.0063 0.2552 0.2687 0.2836
    2 048 0.1994 0.0085 0.1830 0.2004 0.2148
    2 048* 0.1372 0.0040 0.1281 0.1372 0.1462
    带"*"项是构建子样本集相关数据, 下同
    下载: 导出CSV

    表  3  卡通人脸数据集实验结果对比

    Table  3  Experimental results comparison of cartoon face dataset

    Batchsize epoch 测试误差($ \times10^{-3} $) KL IS ($ \sigma\times10^{-2} $)
    1 024 135 8.03 $ \pm $ 2.12 0.1710 3.97 $ \pm $ 2.62
    1 024* 135 8.23 $ \pm $ 2.10 0.1844 3.82 $ \pm $ 2.02
    2 000 200 7.68 $ \pm $ 2.21 0.1077 3.95 $ \pm $ 2.32
    2 000* 200 7.18 $ \pm $ 2.13 0.0581 4.21 $ \pm $ 2.53
    下载: 导出CSV

    表  4  Cifar10数据集实验结果对比

    Table  4  Experimental results comparison of Cifar10 dataset

    Batchsize epoch 测试误差($ \times10^{-2} $) KL IS ($ \sigma\times10^{-2} $)
    1 024 100 1.43 $ \pm $ 0.38 0.2146 5.44 $ \pm $ 6.40
    1 024* 100 1.48 $ \pm $ 0.35 0.2233 5.36 $ \pm $ 6.01
    2 048 200 1.40 $ \pm $ 0.39 0.2095 5.51 $ \pm $ 5.83
    2 048* 200 1.35 $ \pm $ 0.37 0.1890 5.62 $ \pm $ 5.77
    下载: 导出CSV

    表  5  卡通人脸数据集不同策略对比

    Table  5  Different strategies comparison of cartoon face dataset

    Batchsize epoch 测试误差($ \times10^{-3} $) KL IS ($ \sigma\times10^{-2} $)
    1 024* 135 8.23 $ \pm $ 2.10 0.1844 3.82 $ \pm $ 2.02
    2 000* 200 7.18 $ \pm $ 2.13 0.0581 4.21 $ \pm $ 2.53
    128 (a) 25 8.32 $ \pm $ 2.07 0.1954 3.62 $ \pm $ 2.59
    128 (b) 25 8.15 $ \pm $ 2.15 0.1321 3.92 $ \pm $ 4.59
    128 (c) 25 8.07 $ \pm $ 2.10 0.1745 3.89 $ \pm $ 4.45
    128 (d) 25 8.23 $ \pm $ 2.26 0.1250 4.02 $ \pm $ 3.97
    下载: 导出CSV

    表  6  Cifar10数据集不同策略对比

    Table  6  Different strategies comparison of Cifar10 dataset

    Batchsize epoch 测试误差($ \times10^{-2} $) KL IS ($ \sigma\times10^{-2} $)
    1 024* 100 1.48 $ \pm $ 0.35 0.2233 5.36 $ \pm $ 6.01
    2 048* 200 1.35 $ \pm $ 0.37 0.1890 5.62 $ \pm $ 5.77
    128 (a) 25 1.81 $ \pm $ 0.41 0.2813 4.44 $ \pm $ 3.66
    128 (b) 25 1.64 $ \pm $ 0.40 0.2205 4.61 $ \pm $ 3.80
    128 (c) 25 1.70 $ \pm $ 0.41 0.2494 4.62 $ \pm $ 4.80
    128 (d) 25 1.63 $ \pm $ 0.42 0.2462 4.94 $ \pm $ 5.79
    下载: 导出CSV
  • [1] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S et al. Generative adversarial nets. In: Proceedings of International Conference on Neural Information Processing Systems. Montreal, Canada: 2014. 2672-2680
    [2] Creswell A, White T, Dumoulin V, Arulkumaran K, Sengupta B, Bharath A A. Generative adversarial networks: An overview. IEEE Signal Processing Magazine, 2018, 35(1): 53-65 doi: 10.1109/MSP.2017.2765202
    [3] 王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃. 生成式对抗网络GAN的研究进展与展望. 自动化学报, 2017, 43(3): 321-332 doi: 10.16383/j.aas.2017.y000003

    Wang Kun-Feng, Gou Chao, Duan Yan-Jie, Lin Yi-Lun, Zheng Xin-Hu, Wang Fei-Yue. Generative adversarial networks: The state of the art and beyond. Acta Automatica Sinica, 2017, 43(3): 321-332 doi: 10.16383/j.aas.2017.y000003
    [4] 王万良, 李卓蓉. 生成式对抗网络研究进展. 通信学报, 2018, 39(2): 135-148 https://www.cnki.com.cn/Article/CJFDTOTAL-TXXB201802014.htm

    Wang Wan-Liang, Li Zuo-Rong. Advances in generative adversarial network. Journal of Communications, 2018, 39(2): 135-148 https://www.cnki.com.cn/Article/CJFDTOTAL-TXXB201802014.htm
    [5] Salimans T, Goodfellow I J, Zaremaba W, Cheung V, Radford A, Chen X. Improved techniques for training GANs. In: Proceedings of International Conference on Neural Information Processing Systems. Barcelona, Spain: 2016.
    [6] Mirza M, Osindero S. Conditional generative adversarial nets. arXiv preprint arXiv: 1411.1784v1, 2014.
    [7] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. In: Proceedings of International Conference on Learning Representations. San Juan, Puerto Rico: 2016.
    [8] Denton E, Chintala S, Szlam A, Fergus R. Deep generative image using a Laplacian pyramid of adversarial networks. In: Proceedings of International Conference on Neural Information Processing Systems. Montreal, Canada: 2015. 1486-1494
    [9] Odena A. Semi-Supervised learning with generative adversarial networks. arXiv preprint arXiv: 1606.01583v2, 2016.
    [10] Donahue J, Krahenbuhl K, Darrell T. Adversarial feature learning. In: Proceedings of International Conference on Learning Representations. Toulon, France: 2017.
    [11] Zhang H, Xu T, Li H S, Zhang S T, Wang X G, Huang X L et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks. In: Proceedings of International Conference on Computer Vision. Venice, Italy: 2017.
    [12] Chen X, Duan Y, Houthooft R, Schulman J, Sutskever I, Abbeel P. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets. In: Proceedings of International Conference on Neural Information Processing Systems. Barcelona, Spain: 2016.
    [13] Qi G J. Loss-sensitive generative adversarial networks on lipschitz densities. arXiv preprint arXiv: 1701.06264v5, 2017.
    [14] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN. arXiv preprint arXiv: 1701.07875v3, 2017.
    [15] Yu L T, Zhang W N, Wang J, Yu Y. SeqGAN: sequence generative adversarial nets with policy gradient. In: Proceedings of The Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, USA: 2017.
    [16] 王功明, 乔俊飞, 乔磊. 一种能量函数意义下的生成式对抗网络. 自动化学报, 2018, 44(5): 793-803 doi: 10.16383/j.aas.2018.c170600

    Wang Gong-Ming, Qiao Jun-Fei, Qiao Lei. A generative adversarial network in terms of energy function. Acta Automatica Sinica, 2018, 44(5): 793-803 doi: 10.16383/j.aas.2018.c170600
    [17] Do-Omri A, Wu D L, Liu X H. A self-training method for semi-supervised GANs. arXiv preprint arXiv: 1710.10313v1, 2017.
    [18] Gulrajani I, Ahmed G, Arjovsky M, Dumoulin V, Courville A. Improved training of wasserstein GANs. In: Proceedings of International Conference on Neural Information Processing Systems. Long Beach, USA: 2017. 5769-5579
    [19] Daskalakis C, Ilyas A, Syrgkanis V, Zeng H Y. Training GANs with optimism. In: Proceedings of International Conference on Learning Representations. Vancouver, Canada: 2018.
    [20] Mescheder L, Geiger A, Nowozin S. Which training methods for GANs do actually converge? In: Proceedings of International Conference on Machine Learning. Stockholm, Sweden: 2018. 3481-3490
    [21] Keskar N S, Mudigere D, Nocedal J, Smelyanskiy M, Tang P T P. On large-batch training for deep learning: generalization GAP and sharp minmax. In: Proceedings of International Conference on Learning Representations. New Orleans, USA: 2017.
    [22] Goyal P, Dollar P, Girshick R, Noordhuis P, Wesolowski L, Kyrola A et al. Accurate, large minibatch SGD: training ImageNet in 1 hour. arXiv preprint arXiv: 1706.02677v2, 2018.
    [23] Li M, Zhang T, Chen Y Q, Smola A J. Efficient mini-batch training for stochastic optimization. In: Proceedings of Acm Sigkdd International Conference on Knowledge Discovery & Data Mining. New York, USA: 2014. 661-670
    [24] Bottou L, Frank E C, Nocedal J. Optimization methods for large-scale machine learning. arXiv preprint arXiv: 1606.04838v3, 2018.
    [25] Dekel O, Gilad-Bachrach R, Shamir O, Xiao L. Optimal distributed online prediction using mini-batches. Journal of Machine Learning Research, 2012, 13(1): 165-202
    [26] 郭懋正. 实变函数与泛函分析. 北京: 北京大学出版社, 2005. 67-69

    Guo Mao-Zheng. Real Analysis and Functional Analysis. Beijing: Peking University press, 2005. 67-69
    [27] 何书元. 概率论. 北京: 北京大学出版社, 2006. 52-56

    He Shu-Yuan. Probability Theory. Beijing: Peking University press, 2006. 52-56
    [28] Xu Q T, Huang G, Yuan Y, Huo C, Sun Y, Wu F et al. An empirical study on evaluation metrics of generative adversarial networks. arXiv preprint arXiv: 1806.07755v2, 2018.
  • 期刊类型引用(1)

    1. 陈伟,李圆智,宋贤睿,崔春霞. 基于生成对抗网络的电网信息隐藏方法. 沈阳工业大学学报. 2023(06): 686-691 . 百度学术

    其他类型引用(1)

  • 加载中
  • 图(13) / 表(6)
    计量
    • 文章访问数:  1100
    • HTML全文浏览量:  214
    • PDF下载量:  149
    • 被引次数: 2
    出版历程
    • 收稿日期:  2018-10-18
    • 录用日期:  2019-04-15
    • 刊出日期:  2021-04-23

    目录

    /

    返回文章
    返回