2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度生成模型综述

胡铭菲 左信 刘建伟

李远征, 张虎, 刘江平, 赵勇, 连义成. 基于电网线路传输安全的电力市场分布式交易模型研究. 自动化学报, 2024, 50(10): 1938−1952 doi: 10.16383/j.aas.c211244
引用本文: 胡铭菲,  左信,  刘建伟.  深度生成模型综述.  自动化学报,  2022,  48(1): 40−74 doi: 10.16383/j.aas.c190866
Li Yuan-Zheng, Zhang Hu, Liu Jiang-Ping, Zhao Yong, Lian Yi-Cheng. Research on distributed power market trading model based on grid line transmission security. Acta Automatica Sinica, 2024, 50(10): 1938−1952 doi: 10.16383/j.aas.c211244
Citation: Hu Ming-Fei,  Zuo Xin,  Liu Jian-Wei.  Survey on deep generative model.  Acta Automatica Sinica,  2022,  48(1): 40−74 doi: 10.16383/j.aas.c190866

深度生成模型综述

doi: 10.16383/j.aas.c190866
基金项目: 中国石油大学(北京)科研基金(2462020YXZZ023)资助
详细信息
    作者简介:

    胡铭菲:中国石油大学 (北京) 自动化系博士研究生. 主要研究方向为模式识别, 智能系统. E-mail: hmfzsy@gmail.com

    左信:中国石油大学 (北京) 自动化系教授. 主要研究方向为智能控制. E-mail: zuox@cup.edu.cn

    刘建伟:中国石油大学 (北京) 自动化系副研究员. 主要研究方向为模式识别, 智能系统, 先进控制. 本文通信作者. E-mail: liujw@cup.edu.cn

Survey on Deep Generative Model

Funds: Supported by the Science Foundation of China University of Petroleum, Beijing (2462020YXZZ023)
More Information
    Author Bio:

    HU Ming-Fei Ph. D. candidate in the Department of Automation, China University of Petroleum (Beijing). His research interest covers pattern recognition and intelligent system

    ZUO Xin Ph. D., professor in the Department of Automation, College of Geophysics and Information Engineering, China University of Petroleum, Beijing Campus (CUP). His main research interest is intelligent control

    LIU Jian-Wei Associate professor in the Department of Automation, China University of Petroleum (Beijing). His research interest covers pattern recognition, intelligent system, and advanced control. Corresponding author of this paper

  • 摘要:

    通过学习可观测数据的概率密度而随机生成样本的生成模型在近年来受到人们的广泛关注, 网络结构中包含多个隐藏层的深度生成式模型以更出色的生成能力成为研究热点, 深度生成模型在计算机视觉、密度估计、自然语言和语音识别、半监督学习等领域得到成功应用, 并给无监督学习提供了良好的范式. 本文根据深度生成模型处理似然函数的不同方法将模型分为三类: 第一类方法是近似方法, 包括采用抽样方法近似计算似然函数的受限玻尔兹曼机(Restricted Boltzmann machine, RBM)和以受限玻尔兹曼机为基础模块的深度置信网络(Deep belief network, DBN)、深度玻尔兹曼机(Deep Boltzmann machines, DBM)和亥姆霍兹机, 与之对应的另一种模型是直接优化似然函数变分下界的变分自编码器以及其重要的改进模型, 包括重要性加权自编码和可用于半监督学习的深度辅助深度模型; 第二类方法是避开求极大似然过程的隐式方法, 其代表模型是通过生成器和判别器之间的对抗行为来优化模型参数从而巧妙避开求解似然函数的生成对抗网络以及重要的改进模型, 包括WGAN、深度卷积生成对抗网络和当前最顶级的深度生成模型BigGAN; 第三类方法是对似然函数进行适当变形的流模型和自回归模型, 流模型利用可逆函数构造似然函数后直接优化模型参数, 包括以NICE为基础的常规流模型、变分流模型和可逆残差网络(i-ResNet), 自回归模型(NADE)将目标函数分解为条件概率乘积的形式, 包括神经自回归密度估计(NADE)、像素循环神经网络(PixelRNN)、掩码自编码器(MADE)以及WaveNet等. 详细描述上述模型的原理和结构以及模型变形后, 阐述各个模型的研究进展和应用, 最后对深度生成式模型进行展望和总结.

  • 模态是指人接受信息的特定方式, 由于多媒体数据往往是多种信息的传递媒介, 多模态学习已逐渐发展为多媒体内容分析和理解的主要手段. 在医学领域, 也有研究者应用多模态学习. 针对Alzheimer病, 韩坤等[1]提出结合磁共振图像(Magnetic resonance imaging, MRI)和正电子发射型计算机断层显像(Positron emission computed tomography, PET)图像模态的特征信息相融合的方法, 实验结果表明该方法在准确率上取得了较好的成绩. 为了解决传统模态医学图像缺陷, 张淑丽等[2]提出了自由变形法对多模态的医学图像进行融合. 然而大多数研究人员主要融合多模态的医学图像, 没有加入电子病历等文本模态的数据. 调查发现, 肺癌是世界发病率和死亡率最高的疾病之一[3]. 病人在进行肺疾病诊断时, 需要CT检查, 影像科医生对CT影像进行检查描述, 但在实际的诊断和治疗过程中, 常常是由主治医生根据检查描述以及CT影像进行进一步的判断. 这一过场不仅增加了主治医生的工作量, 也导致了医疗资源的不合理应用.

    基于此, 本文在影像CT基础上, 融入影像医生对CT影像描述的文本信息, 以及一些其他检验结果(比如癌胚抗原测定、鳞状上皮细胞癌抗原测定等), 构建深度学习模型对肺疾病进行预测, 将影像医生给出的CT影像和检查描述以及其他检验结果输入到模型中, 对疾病进行判别并给出得病概率, 患病概率大的病人则交由主治医生更进一步地诊断和治疗, 以减轻主治医生的工作量, 提高工作效率.

    本文收集的电子病历数据, 主要分为三部分: 检查描述、CT影像和检验结果.

    对检查描述研究发现, 虽出自不同医生之手, 但是对医学名词写法相同, 只是在电子病历输入的时候, 存在错别字、同音异字等问题. 如“双肺实质未见明显异常密度, 双肺门不大, 纵膈内未见明确肿大淋巴结 ··· 肺癌不除外纵隔淋巴结增大, 肝脏内见斑片状高密度影, 门静脉周围间隙增宽.” 数据中除了含有少见的医学专有名词“纵隔淋巴结”、“斑片状高密度影”外, 还有错别字“隔”. 本文使用预定义词库的方法, 解决医学常见缩略语的分词问题, 然后使用Multi-head attention与Bi-LSTM对文本进行编码, 减少同音异字或者语法错误带来的文本理解上的问题.

    CT影像数据是通过成像设备进行采集的, 但是由于成像设备参数、外界环境的干扰, 会导致采集的CT图像数据有差异, 这些问题都会影响模型的准确率. 本文使用去噪和归一化等图像处理技术对CT图像进行处理.

    其他检验结果主要是痰液细胞学、胸水检查、血常规检查和肿瘤标记物筛查等. 痰液与胸水细胞学检查, 主要是判断痰液与胸水中是否存在肿瘤细胞; 血常规检查包括白细胞、红细胞和血小板以及细胞酸碱性等; 肺癌筛选的肿瘤标记物主要有癌胚抗原(Carcinoembryonic antigen, CEA)、癌抗原CA125 (Cancer antigen 125, CA125)、细胞角蛋白19片段(Cytokeratin fragment 19, CYFRA21-1)等.

    考虑到数据由文本数据和图像数据两部分组成, 因此分别对两部分数据进行处理.

    1.1.1   检查描述数据预处理

    深度学习出现后, 基于神经网络的词嵌入模型成为了主流, GloVe[4]使用词共现矩阵学习更广泛的共现概率. CoVe[5]通过神经翻译的编码器向词嵌入中添加含有上下文背景的表征向量, 令模型学习上下文背景化的语义. BERT (Bidirectional encoder representation from transformers)使用多层Transformer[6]编码器学习词汇前后的语义依赖关系, 并通过遮罩语言模型(Masked language model, MLM)解决了模型的输入在多层Transformer 结构中可以看到自己的“镜像问题”. ERNIE[7]提出了知识融合与对话语言模型的概念, 针对中文通用领域的自然语言处理任务对BERT进行了优化.

    本文使用jieba分词, 考虑医学短文本中特有的专有名词、缩写语多的特点, 在分词过程中加入了医学词库, 医学词库的建立一方面是通过网络爬取医学专业词汇, 另一方面通过影像科医生总结出常见的肺部CT描述词汇. 文本数据中有大量的词虽然出现频率很高, 却对分类预测没有帮助, 比如在“检查描述”中常出现“无”、“可”、“检查”这类词在实际训练中不能体现不同病历差异性的作用, 更加重了学习器的负担, 一般称其为“停用词”. 因此在分词的时候, 需要将这些停用词去掉. 分词之后的文本数据还需向量化, 本论文使用(Word to vector, word2vec) 模型来训练词向量, 并在模型中加入位置词向量与Multi-head attention来更好地表征文本语义.

    1.1.2   检验结果数据预处理

    检验结果主要是痰液细胞学、胸水检查、血常规检查和肿瘤标记物筛查等, 检验项目如表1所示, 电子病历中的检查结果会给出参考范围、检查名称、状态和结果值, 由于不同检查项目的量纲不同, 所以结果值有很大的差异, 因此, 本文使用状态值来作模型的输入, 将正常的状态映射为0, 非正常状态(高或低)映射为1, 然后输入到模型里面.

    表 1  检验项目
    Table 1  Examine items
    参考范围检验名称状态结果值
    血常规检查0 ~ 0.1嗜碱性粒细胞正常0.01
    0.05 ~ 0.5嗜酸性粒细胞正常0.07
    0 ~ 1嗜碱性粒细胞比率正常0.20 %
    110 ~ 160血红蛋白正常128 g/L
    100 ~ 300血小板正常$13510{\hat 9}/{\rm{L}}$
    3.5 ~ 5.5红细胞正常4.25
    37 ~ 50红细胞分布宽度正常43.90 %
    4 ~ 10白细胞正常$6.1810{\hat 9}/{\rm{L}}$
    86 ~ 100红细胞平均体积正常88.2 fL
    痰液检查无肿瘤细胞痰液细胞正常无肿瘤细胞
    肿瘤标记物5 μg/mlCEA (Carcinoembryonic antigen)正常2.31
    30 U/mlCA125 (Cancer antigen 125)正常13.70 U/ml
    8.20 U/mlCA72-4 (Cancer antigen 72-4)正常1.34 U/ml
    16.3 ng/mlNSE (Neuron-specific enolase)正常15.18 ng/ml
    1.5 ng/mlSCC (Squamous cell carcinoma)正常0.8 ng/ml
    2.0 ng/mlCYFRA21-1 (Cytokeratin fragment 19)7.31 ng/ml
    胸水检验0.38 ~ 2.1甘油三脂正常0.74 mmol/L
    0.8 ~ 1.95高密度脂蛋白正常1.31 mmol/L
    3.8 ~ 6.1葡萄糖10.11 mmol/L
    2 ~ 4低密度脂蛋白正常2.02 mmol/L
    109 ~ 271乳酸脱氢酶正常205.2 U/L
    0 ~ 6.8直接胆红素正常3.49 μmol/L
    3.6 ~ 5.9总胆固醇3.54 mmol/L
    20 ~ 45球蛋白正常31.7 g/L
    下载: 导出CSV 
    | 显示表格

    在计算机辅助诊断领域中, 主要针对肺部CT影像进行肺癌良恶性的诊断. Sun等[8]使用了单层的CNN (Convolutional neural networks)和SDAE (Stacked denoised autoencoder) (3个DAE (DialAnExchange))以及DBN (Deep belief nets)(4层RBM (Restricted Boltzmann machine))解决了肺节点的良恶性分类问题. Xiao等[9]增加了一个卷积层, 使用CNN (2个卷积层、2个池化层、2个全连接层)和DBN (2层RBM)实现了肺节点的良恶性分类, 其效果有明显的提高. Cheng等[10]提出将肺节点兴趣区的多个参数与肺节点兴趣区一起输入到SDAE模型, 仅使用肺节点中间切片的Single模型与使用所有肺节点切片的All模型进行对比, 实验结果表明All模型相比Single模型, 在准确率上大约有11 %的提升, 而AUC大约有5 %的提升. Nibali等[11]将深度残差网络模型与迁移学习应用到肺癌分类中, 由于深度残差模型, 在加深网络深度的同时, 减少了梯度消失的可能, 因此, 通过深度残差网络模型以ImageNet图像集为源域进行迁移学习分类, 使得分类准确率为89.9 %, AUC (Area under curve)为0.946. Shen等[12]提出了一种具有多级裁剪结构的CNN模型, 该模型可以获取不同尺度的图像特征, 从而加强模型的分类效果, 该模型的准确率为87.1 %, AUC为0.93.

    通过对已有方法对比发现, 分类准确率有明显的提高, 但是分类效果还不是很高. 一方面是由于模型过于简单, 另一方面, 没有根据目标数据进行有针对性的调整, 所以模型仍有更大的改进空间.

    由于CT图像使用不同的扫描以及重建方法, 会产生一些不需要的杂质和噪点, 比如像结节一样的球状结构, 这些干扰信息与感兴趣区域之间存在某种相似性. 如果不去除噪声, 后面对特征提取的质量将受到严重影响, 从而影响模型的准确性. 本文实验分析发现高斯滤波器的去噪效果比均值滤波等的效果更好, 而且高斯滤波器对边缘信息的保留能力也更佳. 除此之外, 为了加快模型收敛, 将图像像素归一化或标准化, 在本文中, 对去噪之后的图像, 将像素的值归一化为0到255的整数. 处理后的图像采用残差神经网络为基础构建模型, 具体模型将在实验的图像模型部分给出.

    模型结构如图1所示, 整个模型的主要由三部分构成, 分别是文本部分、图像部分和多层感知器(Multilayer perceptron, MLP), 文本部分输入的是电子病历的文本信息(影像医生给出的CT描述信息), 图像部分输入的是影像检查的CT图像, 多层感知器输入的是其他检查结果. 将文本部分的输出、图像部分的输出和多层感知器的输出拼接起来, 然后经过全连接层, 最后输出结果. 模型的损失函数是交叉熵:

    图 1  模型结构图
    Fig. 1  Model structure
    $$ L = -\frac{1}{n}\sum\limits[y \ln(a) + (1-y) \ln(1 - a)] $$ (1)

    其中, $ a $是真实值, $ y $是预测值.

    在文本方面, 以Bi-LSTM和Multi-head attention为核心对文本建模, 模型的输入层为词向量加位置向量, 同时在模型的输入层后面引入Multi-head attention. 最后将多个特征进行拼接和融合, 使模型进一步提高特征表达能力.

    2.1.1   Word Embedding

    本文使用词粒度的词向量. 考虑到文本语料相对比较少, 训练出来的词向量语义不够丰富, 而腾讯预训练词向量大约超过800万中文词汇数据, 与其他公开的预训练词向量相比, 具有比较好的覆盖性和新鲜度, 因此本文使用腾讯预训练向量.

    由于病例中的词语所在的位置不同而代表不同的语义, 在词向量基础上, 加入位置向量, 能够使模型区别出不同位置的单词. 因此, 模型的输入也会将位置向量(Position embedding)作为辅助词向量输入. 在语言序列中, 相对位置至关重要, 而Position embedding本身是绝对值位置的信息, 因此, 本文将Position embedding定义为如下:

    $$ \begin{split} & {\boldsymbol{PE}}_{2 i}(p) = \sin \left(\frac{p} {10\;000^{2 i / d_{pos}}} \right)\\ &{\boldsymbol{PE}}_{2 i+1}(p) = \cos \left(\frac{p} {10\;000^{2 i / d_{pos}}}\right) \end{split}$$ (2)

    ${\boldsymbol{{{P}}E}}$代表Position embedding, $ p $代表词的位置, $ d_{pos} $代表维度, 公式将词位置信息使用三角函数映射到$ d_{pos} $维度上.

    2.1.2   Multi-head Attention

    Multi-head attention本质是进行多次Self-attention计算, 它可以使模型从不同表征子空间获取更多层面的特征, 从而使模型能够捕获句子更多的上下文信息.

    Self-attention本质是一种信息编码方式, 类似于CNN中的卷积, Self-attention的定义如下所示:

    $$\begin{array}{l} {\rm{Attention}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) =\\ \qquad {\mathop{\rm softmax}\nolimits} \left( {\left[ {\begin{array}{*{20}{c}} {{v_1}}\\ {{v_2}}\\ \vdots \\ {{v_n}} \end{array}} \right]\left[ {v_1^{\rm{T}},v_2^{\rm{T}}, \cdots ,v_n^{\rm{T}}} \right]} \right)\left[ {\begin{array}{*{20}{c}} {{v_1}}\\ {{v_2}}\\ \vdots \\ {{v_n}} \end{array}} \right] =\\\qquad {\mathop{\rm softmax}\nolimits} ({\boldsymbol{Q}}{{\boldsymbol{K}}^{\rm{T}}}){\boldsymbol{V}} \end{array}\;\;\qquad$$ (3)

    $ {\boldsymbol{Q}} $是Query, 代表Query向量, $ {\boldsymbol{K}} $是Key, 代表Key向量, $ {\boldsymbol{V}} $是Value, 代表Value向量. $ W_{q} $矩阵, $ W_{k} $矩阵和$ W_{v} $矩阵将输入的词向量映射成$ {\boldsymbol{Q}} $, $ {\boldsymbol{K}} $, $ {\boldsymbol{V}} $, 然后按照公式进行加权求和, 对文本信息进行编码.

    将Self-attention执行k次, 然后将结果拼接起来, 就得到了Multi-head attention.

    2.1.3   Bi-LSTM

    词向量经过Multi-head attention的时候, 由于Self-attention是对输入信息的上下文的向量进行计算编码信息, 没有考虑到输入信息的词序, 所以, 在模型的输入层加入了Position embedding, 除此之外, 还在Multi-head attention的后面加入了Bi-LSTM. LSTM (Long short-term memory)[13]是为了缓解RNN的梯度消失而提出的, LSTM单元有三个门, 分别是遗忘门${\boldsymbol{f}}_{t}$, 输入门${\boldsymbol{i}}_{t}$和输出门${\boldsymbol{o}}_{t} $[14]. 假设在$ t $时刻, 输入为${\boldsymbol{x}}_{t}$, 而$ t-1 $(上一时刻)的隐藏层的输出为${\boldsymbol{h}}_{t-1}$, 其中${\boldsymbol{C}}_{t-1}$$ t-1 $(上一时刻)的细胞状态值, 则在$ t $时LSTM的各个状态值:

    $$ \begin{split} {\boldsymbol{f}}_{t} =\;& \sigma\left({\boldsymbol{W}}_{f} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{f}\right) \\ {\boldsymbol{i}}_{t} =\; & \sigma\left({\boldsymbol{W}}_{i} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{i}\right) \\ \tilde{{\boldsymbol{C}}}_{t} =\; & \tanh \left({\boldsymbol{W}}_{C} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{C}\right) \\ {\boldsymbol{C}}_{t} =\;& {\boldsymbol{f}}_{t} \times {\boldsymbol{C}}_{t-1}+{\boldsymbol{i}}_{t} \times \tilde{{\boldsymbol{C}}}_{t} \\ {\boldsymbol{o}}_{t} =\; & \sigma\left({\boldsymbol{W}}_{o} \times\left[{\boldsymbol{h}}_{t-1}, {\boldsymbol{x}}_{t}\right]+{\boldsymbol{b}}_{o}\right) \\ {\boldsymbol{h}}_{t} =\;& {\boldsymbol{o}}_{t} \times \tanh \left({\boldsymbol{C}}_{t}\right) \end{split} $$ (4)

    通过以上计算, 最终得到$ t $时刻LSTM隐层状态的输出值. 由于LSTM对句子只是从前向后单向建模, 无法进行从后向前的编码信息. 因此, 本文使用Bi-LSTM (双向LSTM), 可以更好地捕捉双向的语义信息.

    2.1.4   Soft Attention

    Soft attention即传统的Attention mechanism, 通过保留Bi-LSTM编码器对输入序列的中间输出结果, 然后计算每个中间结果与其他结果的点积, 最后加权求和.

    $$ \begin{split} {\boldsymbol{M}} =\; &\tanh ({\boldsymbol{H}})\\ {\boldsymbol{\alpha}} =\;&{\mathop{\rm softmax}\nolimits} \left( {{{\boldsymbol{w}}^{\rm{T}}}{\boldsymbol{M}}} \right)\\ {\boldsymbol{r}} =\; &{\boldsymbol{H}}{{\boldsymbol{\alpha}} ^{\rm{T}}} \end{split}$$ (5)

    ${\boldsymbol{ H}}$是Bi-LSTM隐藏层的输出结果, ${\boldsymbol{ w}}$是需要学习的参数. 第二个Attention机制的实现是通过计算每个中间结果与其他结果的点积, 其中中间结果是通过保留Bi-LSTM编码器对输入序列的中间输出的结果, 最后再进行加权求和. 这一层的Attention能够观察到序列中的每个词与输入序列中一些词的对齐关系. 本文使用的是乘法注意力机制, 其中使用高度优化的矩阵乘法实现乘法注意力机制, 那么整体计算成本和单次注意力机制的计算成本并不会相差很大, 同时又提升了模型的特征表达能力.

    模型的第三部分是多层感知器(MLP), MLP主要包含输入层、隐藏层和输出层. 实验验证, 隐藏层不能过多, 一方面, 层数越多, 参数越多, 容易过拟合, 另一方面, 到了一定的层数, 增加更深的隐藏层, 分类效果也不会提升太多, 反而有时会下降. 因此, MLP部分设置三个隐藏层, 具体参数如表2所示.

    表 2  MLP参数设置
    Table 2  The parameter of MLP
    Name节点个数激活函数
    Hidden165Sigmoid
    Hidden2131Sigmoid
    Hidden3263Sigmoid
    下载: 导出CSV 
    | 显示表格

    本文的图像卷积部分在ResNet-50结构基础上, 基于ImageNet数据集预训练, 然后微调构建的模型. 模型的结构如图2所示, ResNet中有2个基本的block,一个是Identity block, 输入和输出的dimension是一样的, 所以可以串联多个; 另一个是ConvBlock, 输入和输出的Dimension是不一样的, 所以不能连续串联, 它的作用是为了改变特征向量的Dimension.

    图 2  图像模型结构图
    Fig. 2  Image model structure

    图像中包含足够的区分信息是卷积神经网络能够学习不同肺癌特征的重要条件[15]. 图像的大小会影响网络区分不同特征的能力, 太小会使一些不明显的特征提取不到, 太大会受计算机内存的限制, 因此必须选择大小合适的图像尺寸, 由于本文使用的是ResNet-50 (Residual neural network)网络, 输入的图像尺寸需要调整为$ 224 \times 224 $.

    实验中所用的计算机硬件配置为Centos系统, CPU为Intel(R) Xeon(R) CPU E5-2630, GPU为NVIDIA Tesla M4显卡, 深度学习框架为Keras 2.2.4, 后端为Tensorflow 1.13.

    在本论文中, 主要有两个实验, 第一个是分别测试Multi-head attention, Bi-LSTM和Soft attention层在文本深度模型的效果, 第二个是测试文本深度模型、图像深度模型、MLP和文本图像混合模型.

    为了验证模型的优点和比较模型的表现能力, 在第二个实验中, 主要实现了以下几个模型: 一个基线模型为ImageNet预训练的VGG-19 (Visual geometry group), 三个单模态模型为图像深度模型 (Img-net)、多层感知器(MLP)和文本深度模型 (Text-net), 以及多模态模型Img+Text, Img+MLP和MLP+Text. Text-net网络去掉下面的图像卷积部分, 添加一个全连接层, 损失函数为交叉熵的输出层. Img-net网络去掉上面的文本深度模型, 添加全连接层之后加上代价函数为交叉熵的输出层. MLP是一个多层感知机网络, 只使用检查结果进行预测. TI-net网络是文本图像混合模型, 输入为图像、文本和其他数值, 数据经过各自的模型之后, 拼接起来, 经过一个全连接层之后输出. 为了减少模型之间的扰动, 对于单模型Text-net, Img-Net和MLP三个网络分别用各自的输入进行预训练, 而对于多模态模型, 使用预训练的单模型的网络权重作为初始化, 再对多模态模型进行微调.

    实验数据共有3 785个样本. 本文主要研究的是一个二分类问题, 即判断病人是否患有肺癌, 与一般分类问题不同, 疾病诊断分类问题的数据集往往存在不均衡问题, 因此需要对不均衡的样本进行处理. 由于本文的数据量比较大, 因此, 使用采样的方法来平衡数据集, 以1:2的比例对全量数据进行采样, 数据的比例分布如表3所示.

    表 3  正负样本比例
    Table 3  Positive and negative sample ratio
    正样本1 262
    负样本2 523
    下载: 导出CSV 
    | 显示表格

    为了验证模型的效果, 将原始数据按照8:2的比例切分出训练集和验证集, 并将训练集在3个模型上进行训练, 然后在验证集上评价模型. 防止模型结果的偶然性, 在训练模型的时候, 采用k-fold交叉验证的形式来训练模型, 实验结果显示k取值为7的时候效果比较好一些. 训练集和验证集中, 文本的最大长度设置为80, 词向量的维度为200, 优化器为Adam, 初始学习率为0.01, 衰减因子为0.0001, 训练轮次为2 000次, 为了防止过拟合, 使用EarlyStopping来提前停止训练, 评价指标采用准确率, 精确率和召回率.

    实验1的结果如表4所示, 主要用来测试Multi-head attention, Bi-LSTM和Soft attention层的效果, Text-net网络使用了所有的层, Text-net1去掉了Multi-head attention层, Text-net2去掉了Bi-LSTM层, Text-net3去掉了Soft attention层, 从表中结果可以看出, Text-net模型比其他三个模型都要好. 对比Text-net、Text-net1和Text-net2可以看出, 加入Multi-head attention准确率提升了7 %, 加入Bi-LSTM准确率提升了3 %, 所以加入Multi-head attention层比Bi-LSTM层效果更好. 对比Text-net和Text-net3, 加入Soft-attention层后, 模型准确率提升了4 %, 这是因为Bi-LSTM层只对文本进行序列建模, 缺乏层次信息, 后面加入Soft-attention, 可以将Bi-LSTM编码后的信息, 进行层次信息建模.

    表 4  实验1的结果
    Table 4  The result of experiment 1
    Model nameTrain (%)Test (%)
    AccuracyPrecisionRecallAccuracyPrecisionRecall
    Text-net83.12 ± 0.0280.10 ± 0.0581.12 ± 0.0281.21 ± 0.0179.82 ± 0.0380.15 ± 0.01
    Text-net176.87 ± 0.0275.29 ± 0.0175.11 ± 0.0374.91 ± 0.0273.41 ± 0.0274.07 ± 0.03
    Text-net280.49 ± 0.0378.16 ± 0.0478.82 ± 0.0378.43 ± 0.0277.15 ± 0.0178.59 ± 0.02
    Text-net379.73 ± 0.0277.19 ± 0.0276.92 ± 0.0178.19 ± 0.0276.79 ± 0.0375.57 ± 0.02
    下载: 导出CSV 
    | 显示表格

    实验2的结果如表5所示, 从表5可以看出, 基线模型VGG-19的准确率为92.53 %, 而Img-Net (ResNet-50)的准确率为93.85 %, 从图像深度卷积方面来看, 显然ResNet-50模型的效果更好. 从单模态模型与多模态模型方面来说, 对比Img-net、Img+Text、Img+MLP和TI-net模型, 可以看出, 增加CT检验信息准确率提升了1 %, 增加检验结果准确率提升了2 %, 同时增加CT检验信息和检验结果, 准确率提升了3.2 %, 精确率提升了4 %, 召回率提升了4 %. 从实验结果上可以看出, 基于多模态数据的模型效果优于单模型的效果, 并且对比单模型的结果可以看出, Img-net效果远比Text-net和MLP的效果好, 这说明, CT影像仍是肺癌诊断的主要信息, 而检查描述和检验结果作为补充信息加入到模型中, 可以很好地提升模型的精确度.

    表 5  实验2的结果
    Table 5  The result of experiment 2
    Model NameTrain (%)Test (%)
    AccuracyPrecisionRecallAccuracyPrecisionRecall
    TI-Net97.08 ± 0.0395.69 ± 0.0194.37 ± 0.0296.90 ± 0.0495.17 ± 0.0393.71 ± 0.01
    Img+MLP95.15 ± 0.0393.90 ± 0.0293.17 ± 0.0394.76 ± 0.0292.89 ± 0.0391.78 ± 0.01
    Img+Text94.71 ± 0.0292.13 ± 0.0391.26 ± 0.0493.17 ± 0.0490.88 ± 0.0389.99 ± 0.03
    MLP+Text89.88 ± 0.0487.67 ± 0.0186.92 ± 0.0287.78 ± 0.0384.23 ± 0.0384.57 ± 0.04
    Img-Net93.85 ± 0.0391.84 ± 0.0290.83 ± 0.0392.67 ± 0.0289.77 ± 0.0388.93 ± 0.01
    VGG-1992.53 ± 0.0289.16 ± 0.0388.57 ± 0.0190.94 ± 0.0287.10 ± 0.0387.04 ± 0.02
    MLP86.75 ± 0.0385.21 ± 0.0285.12 ± 0.0384.86 ± 0.0282.37 ± 0.0381.59 ± 0.01
    Text-Net83.12 ± 0.0480.10 ± 0.0581.12 ± 0.0281.21 ± 0.0379.82 ± 0.0380.15 ± 0.02
    下载: 导出CSV 
    | 显示表格

    本文提出了一种基于文本和图像的肺疾病分类算法, 详细介绍了本文提出的文本图像混合深度模型, 从基于深度学习的肺癌图像分类出发, 引入了CT影像描述信息和电子病历的检验项目, 并使用Multi-head attention以及Bi-LSTM对文本建模, 提取文本信息. 实验结果证明, 将文本信息和检验信息引入到模型后, 与传统单纯的图像模型相比, 本文提出的算法具有更好的识别效果和更强的泛化能力.


  • 收稿日期 2019-12-19 录用日期 2020-07-27 Manuscript received December 19, 2019; accepted July 27, 2020 中国石油大学(北京)科研基金(2462020YXZZ023)资助 Supported by the Science Foundation of China University of Petroleum, Beijing (2462020YXZZ023)
  • 本文责任编委 朱军 Recommended by Associate Editor ZHU Jun 1. 中国石油大学(北京)自动化系 北京 102249 1. Department of Automation, China University of Petroleum, Beijing 102249
  • 图  1  深度生成模型分类

    Fig.  1  Deep generative models classification

    图  2  受限玻尔兹曼机

    Fig.  2  Restricted Boltzmann machines

    图  3  深度置信网络结构

    Fig.  3  The structure of deep belief networks

    图  4  两种贪恋逐层学习算法

    Fig.  4  Two kinds of greedy layer-wise pre-training

    图  5  亥姆霍兹机

    Fig.  5  Helmholtz Machine

    图  6  深度玻尔兹曼机

    Fig.  6  Deep Boltzmann machines

    图  7  VAE结构图

    Fig.  7  The structure of VAE

    图  8  VAE训练流程

    Fig.  8  The training process of VAE

    图  9  深度辅助生成模型

    Fig.  9  Auxiliary deep generative models

    图  10  对抗自编码器

    Fig.  10  Adversarial autoencoders

    图  11  GAN模型结构

    Fig.  11  The structure of GANs

    图  12  DCGAN结构

    Fig.  12  The structure of DCGANs

    图  13  ResNet-GAN结构

    Fig.  13  The structure of ResNet-GANs

    图  14  CGAN和ACGAN结构

    Fig.  14  The structure of CGANs and ACGANs

    图  15  加性耦合层结构

    Fig.  15  The structure of aditive couping

    图  16  维数混合结构

    Fig.  16  The structure of hybrid dimensions

    图  17  仿射耦合层结构

    Fig.  17  The structure of affine coupling layer

    图  18  随机混合结构

    Fig.  18  The structure of random mixing

    图  19  仿射耦合层的组合策略

    Fig.  19  Composition schemes for affine coupling layers

    图  20  GLOW的层结构

    Fig.  20  The structure of layers in GLOW

    图  21  IAF第一层结构

    Fig.  21  The structure of the first layer in IAF

    图  22  IAF其余层结构

    Fig.  22  The structure of other layers in IAF

    表  1  基于RBM的模型

    Table  1  RBM based models

    方法名称改进方式改进目的核心方法
    rtRBM训练算法提高模型性能改进回火 RBM, 加入循环机制
    ReLU-RBM激活函数改善训练效果将线性修正单元引入到 RBM 中
    3-Order RBM模型结构提高模型性能将可见单元和隐单元分解成三元交互隐单元控制可见单元协方差和阈值
    PGBM模型结构结构扩展在 RBM 中使用门控单元用于特征选择
    RBM-SVM模型结构提高模型性能上层 RBM 用于特征提取下层 SVM 进行回归
    RNN-RBM模型结构结构扩展RBM 与循环网络结合
    apRBM模型结构结构扩展构造层权重之间的确定性函数
    cRBM模型结构实现监督学习将自回归结构和标签信息应用到 RBM
    Factored- cRBM模型结构提高模型性能将三元交互方法用在条件 RBM 中
    Gaussian-Bernoulli RBM数据类型将 RBM 推广到实值可见单元为参数化高斯分布, 隐藏单元为参数化伯努利分布
    mcRBM模型结构捕获同层神经元之间的关系在隐藏层中添加协方差单元对条件协方差结构建模
    ssRBM模型结构捕获同层神经元之间的关系使用辅助实值变量编码条件协方差
    mPoT模型结构捕获同层神经元之间的关系添加非零高斯均值的隐变量条件分布为条件独立的 Gamma 分布
    fBMMI-DBN训练算法改进预训练算法用梅尔频率倒谱系数训练 DBN 产生特征以预测 HMM 状态上的后验分布
    CDBN模型结构结构扩展DBN 与卷积结构结合
    3-Order DBN模型结构提高模型性能将三元交互方法用在 DBN 中
    fsDBN训练算法提高模型性能用连续判别训练准则优化权值、状态变换参数和语言模型分数
    DBN-HMM模型结构提高模型性能DBN 与隐马尔科夫模型结合
    CAST训练算法改进训练算法将自适应算法和 MCMC 结合训练 DBN
    Trans-SAP训练算法改进训练算法将回火算法和 MCMC 结合训练 DBN
    aiDBM训练算法改进训练算法提出一种近似推断算法, 用单独的识别模型加速 DBN 训练速度
    Centered DBM训练算法改进训练算法通过重参数化模型使开始学习时代价函数的 Hessian 具有更好的条件数
    MP-DBM训练算法改进训练算法允许反向传播算法, 避免 MCMC 估计梯度带来的训练问题
    CDBM模型结构结构扩展DBM 与卷积结构结合
    下载: 导出CSV

    表  2  重要的VAE模型

    Table  2  Important VAE models

    方法名称主要贡献核心方法
    CVAE使 VAE 实现监督学习在输入数据中加入 one-hot 向量用于表示标签信息
    ADGM提高 CVAE 处理标签信息的能力在 VAE 中同时引入标签信息和辅助变量用 5 个神经网络构造各变量之间的关系
    kg-CVAE提高生成样本的多样性在 ADGM 上引入额外损失(Bag-of-words loss)使隐变量包含单词出现概率的信息
    hybrid-CVAE用 CVAE 建立鲁棒的结构化预测算法输入中加入噪声、使用随机前馈推断构造带有随机高斯网络的混合变分下界: $L(x) = \alpha {L_{{\rm{CVAE}}}} + (1 - \alpha ){L_{{\rm{GSNN}}}}$
    SSVAE使 VAE 实现半监督学习构造两个模型: M2 为半监督模型 M1 模型为 VAE 用于提升 M2 的能力
    IMVAE提高 SSVAE 处理混合信息的能力用非参数贝叶斯方法构造无限混合模型混合系数由 Dirichlet 过程获得
    AAE使模型可以学习出后验分布构造聚合的伪先验分布匹配真实分布在隐变量处附加一个对抗网络学习伪先验分布
    ARAE使 AAE 能够处理离散结构编码器和解码器采用循环神经网络里变分下界中添加额外的正则项
    IWAE使后验分布的假设更符合真实后验分布构造比 VAE 更紧的变分下界形式, 通过弱化变分下界中编码器的作用提升变分推断的能力
    DC-IGN保留图片样本中的局部相关性用卷积层和池化层替代原来的全连接网络
    infoVAE提高隐变量和可观测变量之间的互信息,
    使近似后验更逼近真实后验分布
    在变分下界中引入互信息: $\alpha {I_q}(x)$
    β-VAE从原始数据中获取解开纠缠的可解释隐表示在变分下界中添加正则系数:
    $L(x) = { {\rm{E} }_{Q(z| x )} }(\log P(x|z)) - \beta {D_{ {\rm{KL} } } }(Q(z| x )||P(z))$
    β-TCVAE解释 β-VAE 能够解开纠缠的原因并提升模型性能在 β-VAE 变分下界中引入互信息和额外正则项: $ - {I_q}(z)$和$ - {D_{{\rm{KL}}}}(Q(x)||P(x))$
    HFVAE使 VAE 对离散变量解开纠缠总结主流 VAE 的变分下界对变分下界分解成 4 项并逐一解释作用:
    $\begin{aligned} L(x) =& { {\rm{E} }_{Q(z| x )} }[\log { {(P(x|z)} / {P(x)} }) - \log { {(Q(z|x)} / {Q(z)} })] -\\& {D_{ {\rm{KL} } } }(Q(z)||P(z)) - {D_{ {\rm{KL} } } }(Q(x)||P(z)) \end{aligned}$
    DRAM处理时间序列样本在 VAE 框架中引入注意力机制和长短时记忆网络结构
    MMD-VAE用最大平均差异替换KL散度将变分下界中的KL散度项替换成: ${D_{{\rm{MMD}}}}(Q(x)||P(x))$
    HVI使用精度更高的抽样法替代重参数方法用 Hamiltonian Monte Carlo 抽样替换重参数化方法直接对后验分布抽样以获得更精确的后验近似
    VFAE学习敏感或异常数据时使隐变量保留更多的信息在变分下界中附加基于最大平均差异的惩罚项:
    $\sqrt {2/D} \cos (\sqrt {2/r} xW + b)$
    LVAE逐层、递归的修正隐变量的分布, 使变分下界更紧利用多层的隐变量逐层构造更复杂的分布在变分下界中使用预热法
    wd-VAE解决输入缺失词情况下的语言生成将输入文本转换成 UNK 格式并进行 dropout 操作使解码器的 RNN 更依赖隐变量表示
    VLAE用流模型学习出更准确的后验分布用流模型学习的后验分布替代高斯分布, 根据循环网络学到的全局表示抛弃无关信息
    PixelVAE捕获样本元素间的关系以生成更清晰锐利的图片样本将隐变量转成卷积结构, 解码器使用PixelCNNCNN只需要很少几层, 压缩了计算量
    DCVAE通过调整卷积核的宽度改善解码器理解编码器信息的能力在解码器中使用扩张卷积加大感受野对上下文容量与有效的编码信息进行权衡
    MSVAE用双层解码器提高模型生成高清图像的能力第一层解码器生成粗略的样本第二层解码器使用残差方法和跳跃连接的超分模型将模糊样本作为输入生成高清样本
    下载: 导出CSV

    表  3  重要的GAN模型

    Table  3  Important GANs

    模型名称核心方法生成图片类型生成最高分辨率
    CGAN将标签信息作为附加信息输入到生成器中再与生成样本一起输入到判别器中MNIST$28 \times 28$
    DCGAN在多种结构中筛选出最优的一组生成器和判别器生成器和判别器均使用深度卷积网络LSUN
    FACES
    ImageNet-1k
    $32 \times 32$
    VAE-GAN在VAE结构外嵌套GAN的框架, 用GAN中的判别器学习VAE的两个分布间的相似程度CelebA
    LFW
    $64 \times 64$
    BiGAN生成器是输入输出不相关的编码器和解码器判别器同时输入样本和隐变量判断两者来自编码器还是解码器MNIST
    ImageNet
    $64 \times 64$
    CoGAN在实现风格转换学习时, 为了让两个编码器的输出尽量接近, 共享两者的最后几层参数MNIST
    CelebA
    $64 \times 64$
    Info-GAN将噪声$z$拆分成子向量$c$和$z'$子向量$c$用于调节输出的类别和形状等条件信息用额外的判别器判定生成样本的子向量$c$MNIST
    SVHN
    $64 \times 64$
    LSGAN使用最小二乘损失函数最小二乘可以将图像的分布尽可能接近决策边界LSUN
    HWDB
    $64 \times 64$
    WGAN从理论上分析GAN训练不稳定的原因通过使用Wasserstein距离等方法提高了训练稳定性LSUN$64 \times 64$
    f-GAN证明了任意散度都适用于GAN框架MNIST
    LSUN
    $96 \times 96$
    LAPGAN基于拉普拉斯金字塔结构逐层增加样本分辨率上层高分图像的生成以下层低分图像为条件CIFAR10
    LSUN
    STL
    $96 \times 96$
    WGAN-GP将判别器的梯度作为正则项加入到判别器的损失函数中ImageNet
    CIFAR10
    LSUN
    $128 \times 128$
    SNGAN使用谱归一化代替梯度惩罚CIFAR10
    STL10
    ImageNet
    $128 \times 128$
    Improved-DCGAN使用多种方法对DCGAN的稳定性和生成效果进一步加强MNIST
    CIFAR10
    SVHN
    ImageNet
    $128 \times 128$
    EBGAN将判别器的功能改为鉴别输入图像重构性的高低, 生成器可以在刚开始训练时获得较大的能力驱动(Energy based)并在短期内获得效果不错的生成器MNIST
    LSUN
    CelebA
    ImageNet
    $128 \times 128$
    BEGAN判别器为自编码结构, 用于估计分布之间的误差分布提出使用权衡样本多样性和质量的超参数CelebA$128 \times 128$
    ACGAN每个样本都有类标签类标签同时输入到生成器和判别器中ImageNet
    CIFAR10
    $128 \times 128$
    SAGAN用自注意力机制代替卷积层进行特征提取ImageNet$128 \times 128$
    SRGAN生成器用低分图像生成高分图像判别器判断图像是生成器生成的还是真实图像
    StackGAN第一阶段使用CGAN生成$64 \times 64$的低分图像第二阶段以低分图像和文本为输入, 用另一个GAN生成高分图像CUB
    Oxford-102
    COCO
    $256 \times 256$
    StackGAN++在StackGAN的基础上用多个生成器生成不同尺度的图像, 每个尺度有相应的判别器引入非条件损失和色彩正则化项CUB
    Oxford-102
    COCO
    $256 \times 256$
    Cycle-GAN由两个对称的GAN构成的环形网络两个GAN共享两个生成器, 各自使用单独的判别器Cityscapes label$256 \times 256$
    Star-GAN为了实现多个领域的转换引入域的控制信息判别器需要额外判断真实样本来自哪个域CelebA
    RaFD
    $256 \times 256$
    BigGAN训练时增加批次数量和通道数让权重矩阵为正交矩阵, 降低权重系数的相互干扰ImageNet
    JFT-300M
    $512 \times 512$
    PGGAN网络结构可以随着训练进行逐渐加深使用浅层网络训练好低分图像后加深网络深度训练分辨率更高的图像CelebA
    LSUN
    $1024 \times 1024$
    Style-GAN在PGGAN的基础上增加映射网络、样式模块增加随机变换、样式混合等功能块使用新的权重截断技巧FHHQ$1024 \times 1024$
    下载: 导出CSV
  • [1] Smolensky P. Information processing in dynamical systems: Foundations of harmony theory. In: Proceedings of the 1986 Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations. Cambridge, United States: MIT Press, 1986. 194−281
    [2] Kingma D P, Welling M. Auto-encoding variational bayes. arXiv: 1312.6114, 2013
    [3] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 2672−2680
    [4] Bengio Y, Thibodeau-Laufer E, Alain G, Yosinski J. Deep generative stochastic networks trainable by backprop. In: Proceedings of the 31st International Conference on Machine Learning. Beijing, China: JMLR.org, 2014. II-226−II-234
    [5] Dinh L, Krueger D, Bengio Y. NICE: Non-linear independent components estimation. arXiv: 1410.8516, 2014
    [6] Larochelle H, Murray I. The neural autoregressive distribution estimator. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA: JMLR, 2011. 29−37
    [7] Salakhutdinov R. Learning deep generative models. Annual Review of Statistics and Its Application, 2015, 2(1): 361-385 doi: 10.1146/annurev-statistics-010814-020120
    [8] 刘建伟, 刘媛, 罗雄麟. 玻尔兹曼机研究进展. 计算机研究与发展, 2014, 51(1): 1-16 doi: 10.7544/issn1000-1239.2014.20121044

    Liu Jian-Wei, Liu Yuan, Luo Xiong-Lin. Research and development on Boltzmann machine. Journal of Computer Research and Development, 2014, 51(1): 1-16 doi: 10.7544/issn1000-1239.2014.20121044
    [9] Salakhutdinov R, Hinton G E. Replicated softmax: An undirected topic model. In: Proceedings of the 22nd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2009. 1607−1614
    [10] Hyvarinen A. Some extensions of score matching. Computational Statistics & Data Analysis, 2007, 51(5): 2499-2512
    [11] Gutmann M, Hyvarinen A. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In: Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS). Cagliari, Italy: JMLR, 2010. 297−304
    [12] Hyvarinen A. Estimation of non-normalized statistical models by score matching. Journal of Machine Learning Research, 2005, 6(4): 695-709
    [13] Hinton G E. Training products of experts by minimizing contrastive divergence. Neural Computation, 2002, 14(8): 1771-1800 doi: 10.1162/089976602760128018
    [14] Cho K H, Raiko T, Ilin A. Parallel tempering is efficient for learning restricted Boltzmann machines. In: Proceedings of the 2010 International Joint Conference on Neural Networks (IJCNN). Barcelona, Spain: IEEE, 2012. 1−8
    [15] Tieleman T, Hinton G E. Using fast weights to improve persistent contrastive divergence. In: Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Canada: ACM, 2009. 1033−1044
    [16] Carreira-Perpiñan M A, Hinton G E. On contrastive divergence learning. In: Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics. Bridgetown, Barbados: Society for Artificial Intelligence and Statistics, 2005. 33−40
    [17] Bengio Y, Delalleau O. Justifying and generalizing contrastive divergence. Neural Computation, 2009, 21(6): 1601-1621 doi: 10.1162/neco.2008.11-07-647
    [18] Jarzynski C. Nonequilibrium equality for free energy differences. Physical Review Letters, 1997, 78(14): 2690-2693 doi: 10.1103/PhysRevLett.78.2690
    [19] Montufar G, Rauh J, Ay N. Expressive power and approximation errors of restricted Boltzmann machines. In: Proceedings of the 24th International Conference on Neural Information Processing Systems. Granada, Spain: Curran Associates Inc., 2011. 415−423
    [20] Sutskever I, Hinton G, Taylor G. The recurrent temporal restricted Boltzmann machine. In: Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2008. 1601−1608
    [21] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines. In: Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel: Omnipress, 2010. 807−814
    [22] Ranzato M A, Krizhevsky A, Hinton G E. Factored 3-way restricted Boltzmann machines for modeling natural images. In: Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Cagliari, Italy: JMLR, 2010. 621−628
    [23] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554 doi: 10.1162/neco.2006.18.7.1527
    [24] Taylor G W, Hinton G E, Roweis S. Modeling human motion using binary latent variables. In: Proceedings of the 19th International Conference on Neural Information Processing Systems. Vancouver, Canada: MIT Press, 2006. 1345−1352
    [25] Dayan P, Hinton G E, Neal R M, Zemel R S. The Helmholtz machine. Neural Computation, 1995, 7(5): 889-904 doi: 10.1162/neco.1995.7.5.889
    [26] Hinton G E, Dayan P, Frey B J, Neal R M. The “wake-sleep” algorithm for unsupervised neural networks. Science, 1995, 268(5214): 1158-1161 doi: 10.1126/science.7761831
    [27] Mohamed A R, Yu D, Deng L. Investigation of full-sequence training of deep belief networks for speech recognition. In: Proceedings of the 11th Annual Conference of the International Speech Communication Association. Makuhari, Japan: ISCA, 2010. 2846−2849
    [28] Dahl G E, Yu D, Deng L, Acero A. Large vocabulary continuous speech recognition with context-dependent DBN-HMMS. In: Proceedings of the 2011 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Prague, Czech Republic: IEEE, 2011. 4688−4691
    [29] Salakhutdinov R, Hinton G E. Using deep belief nets to learn covariance kernels for Gaussian processes. In: Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2007. 1249−1256
    [30] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507 doi: 10.1126/science.1127647
    [31] Lee H, Grosse R, Ranganath R, Ng A Y. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In: Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Canada: ACM, 2009. 609−616
    [32] Salakhutdinov R, Hinton G E. Deep Boltzmann machines. In: Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Clearwater Beach, USA: JMLR, 2009. 448−455
    [33] Montavon G, Muller K R. Deep Boltzmann machines and the centering trick. Neural Networks: Tricks of the Trade. Berlin, Heidelberg: Springer, 2012. 621−637
    [34] Melchior J, Fischer A, Wiskott L. How to center deep Boltzmann machines. The Journal of Machine Learning Research, 2016, 17(1): 3387-3447
    [35] Goodfellow I J, Mirza M, Courville A, Bengio Y. Multi-prediction deep Boltzmann machines. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2013. 548−556
    [36] Salakhutdinov R. Learning in Markov random fields using tempered transitions. In: Proceedings of the 22nd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc., 2009. 1598−1606
    [37] Hinton G E. To recognize shapes, first learn to generate images. Progress in Brain Research, 2007, 165: 535-547
    [38] Mohamed A, Sainath T N, Dahl G, Ramabhadran B, Hinton G H, Picheny M A. Deep belief networks using discriminative features for phone recognition. In: Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Prague, Czech Republic: IEEE, 2011. 5060−5063
    [39] Ghahabi O, Hernando J. Deep belief networks for i-vector based speaker recognition. In: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy: IEEE, 2014. 1700−1704
    [40] Deselaers T, Hasan S, Bender O, Ney H. A deep learning approach to machine transliteration. In: Proceedings of the 4th Workshop on Statistical Machine Translation. Athens, Greece: Association for Computational Linguistics, 2009. 233−241
    [41] Abdollahi B, Nasraoui O. Explainable restricted Boltzmann machines for collaborative filtering. In: Proceedings of the 2016 ICML Workshop on Human Interpretability in Machine Learning (WHI 2016). New York, USA: ACM, 2016. 31−35
    [42] Xing L N, Demertzis K, Yang J H. Identifying data streams anomalies by evolving spiking restricted Boltzmann machines. Neural Computing and Applications, 2020, 32(11): 6699-6713 doi: 10.1007/s00521-019-04288-5
    [43] Zheng J, Fu X, Zhang G J. Research on exchange rate forecasting based on deep belief network. Neural Computing and Applications, 2019, 31(1): 573-582
    [44] Mnih V, Larochelle H, Hinton G E. Conditional restricted Boltzmann machines for structured output prediction. arXiv: 1202.3748, 2012
    [45] Paisley J, Blei D, Jordan M. Variational Bayesian inference with stochastic search. arXiv: 1206.6430, 2012
    [46] Theis L, van den Oord A, Bethge M. A note on the evaluation of generative models. arXiv: 1511.01844, 2015
    [47] Burda Y, Grosse R, Salakhutdinov R. Importance weighted autoencoders. arXiv: 1509.00519, 2015
    [48] Sohn K, Yan X C, Lee H. Learning structured output representation using deep conditional generative models. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015. 3483−3491
    [49] Walker J, Doersch C, Gupta A, Hebert M. An uncertain future: Forecasting from static images using variational autoencoders. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 835−851
    [50] Abbasnejad M E, Dick A, van den Hengel A. Infinite variational autoencoder for semi-supervised learning. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recpgnition (CVPR). Honolulu, USA: IEEE, 2017. 781−790
    [51] Xu W D, Tan Y. Semisupervised text classification by variational autoencoder. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(1): 295-308 doi: 10.1109/TNNLS.2019.2900734
    [52] Maal\oe L, S\onderby C K, S\onderby S K, Winther O. Auxiliary deep generative models. arXiv: 1602.05473, 2016
    [53] Kingma D P, Rezende D J, Mohamed S, Welling M. Semi-supervised learning with deep generative models. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 3581−3589
    [54] Kulkarni T D, Whitney W F, Kohli P, Tenenbaum J B. Deep convolutional inverse graphics network. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015. 2539−2547
    [55] Makhzani A, Shlens J, Jaitly N, Goodfellow I, Frey B. Adversarial autoencoders. arXiv: 1511.05644, 2015
    [56] Zhao S J, Song J M, Ermon S. InfoVAE: Information maximizing variational autoencoders. arXiv: 1706.02262, 2017
    [57] Higgins I, Matthey L, Pal A, Burgess C, Glorot X, Botvinick M, et al. β-VAE: Learning basic visual concepts with a constrained variational framework. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: OpenReview.net, 2017.
    [58] S\onderby C K, Raiko T, Maal\oe L, S\onderby S K, Winther O. Ladder variational autoencoders. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 3745−3753
    [59] Cai L, Gao H Y, Ji S W. Multi-stage variational auto-encoders for coarse-to-fine image generation. arXiv: 1705.07202, 2017
    [60] van den Oord A, Vinyals O, Kavukcuoglu K. Neural discrete representation learning. In: Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6306−6315
    [61] Razavi A, van den Oord A, Vinyals O. Generating diverse high-fidelity images with VQ-VAE-2. In: Proceedings of the 33rd Conference on Neural Information Processing Systems. Vancouver, Canada, 2019. 14866−14876
    [62] Salimans T, Kingma D, Welling M. Markov chain Monte Carlo and variational inference: Bridging the gap. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR, 2015. 1218−1226
    [63] Gregor K, Danihelka I, Graves A, Rezende D J, Wierstra D. DRAW: A recurrent neural network for image generation. arXiv: 1502.04623, 2015
    [64] Chen R T Q, Li X C, Grosse R, Duvenaud D. Isolating sources of disentanglement in variational autoencoders. In: Proceedings of the 32nd Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc., 2018. 2610−2620
    [65] Gregor K, Besse F, Rezende D J, Danihelka I, Wierstra D. Towards conceptual compression. In: Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: MIT Press, 2016. 3549−3557
    [66] Bowman S R, Vilnis L, Vinyals O, Dai A M, Jozefowicz R, Bengio S. Generating sentences from a continuous space. arXiv: 1511.06349, 2015
    [67] Kusner M J, Paige B, Hernandez-Lobato J M. Grammar variational autoencoder. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 1945−1954
    [68] Jang M, Seo S, Kang P. Recurrent neural network-based semantic variational autoencoder for sequence-to-sequence learning. Information Sciences, 2019, 490: 59-73 doi: 10.1016/j.ins.2019.03.066
    [69] Ravanbakhsh S, Lanusse F, Mandelbaum R, Schneider J, Poczos B. Enabling dark energy science with deep generative models of galaxy images. In: Proceedings of 31st AAAI Conference on Artificial Intelligence. San Francisco, California, USA: AAAI, 2017. 1488−1494
    [70] Li X P, She J. Collaborative variational autoencoder for recommender systems. In: Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax, NS, Canada: ACM, 2017. 305−314
    [71] White T. Sampling generative networks. arXiv: 1609.04468, 2016
    [72] Gomez-Bombarelli R, Wei J N, Duvenaud D, Hernandez-Lobato J M, Sanchez-Lengeling B, Sheberla D, et al. Automatic chemical design using a data-driven continuous representation of molecules. ACS Central Science, 2018, 4(2): 268-276 doi: 10.1021/acscentsci.7b00572
    [73] Arjovsky M, Bottou L. Towards principled methods for training generative adversarial networks. arXiv: 1701.04862, 2017
    [74] Huszar F. How (not) to train your generative model: Scheduled sampling, likelihood, adversary? arXiv: 1511.05101, 2015
    [75] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN. arXiv: 1701.07875, 2017
    [76] Nowozin S, Cseke B, Tomioka R. f-GAN: Training generative neural samplers using variational divergence minimization. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 271−279
    [77] Gulrajani I, Ahmed F, Arjovsky M, Dumonlin V, Courville A C. Improved training of wasserstein GANs. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 5769−5779
    [78] Miyato T, Kataoka T, Koyama M, Yoshida Y. Spectral normalization for generative adversarial networks. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: OpenReview.net, 2018.
    [79] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks. In: Proceedings of the 4th International Conference on Learning Representations. San Juan, Puerto Rico: JMLR, 2016.
    [80] Shaham T R, Dekel T, Michaeli T. SinGAN: Learning a generative model from a single natural image. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 4569−4579
    [81] Karras T, Aila T, Laine S, Lehtinen J. Progressive growing of GANs for improved quality, Stability, and Variation. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: OpenReview.net, 2017.
    [82] Brock A, Donahue J, Simonyan K. Large scale GAN training for high fidelity natural image synthesis. In: Proceedings of 7th International Conference on Learning Representations. New Orleans, USA: OpenReview.net, 2019.
    [83] Mirza M, Osindero S. Conditional generative adversarial nets. arXiv: 1411.1784, 2014
    [84] Odena A, Olah C, Shlens J. Conditional image synthesis with auxiliary classifier GANs. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR.org, 2017. 2642−2651
    [85] Sricharan K, Bala R, Shreve M, Ding H, Saketh K, Sun J. Semi-supervised conditional GANs. arXiv: 1708.05789, 2017
    [86] Zhang H, Xu T, Li H S, Zhang S T, Wang X G, Huang X L, et al. StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 5908−5916
    [87] Zhang H, Xu T, Li H S, Zhang S T, Wang X G, Huang X L, et al. StackGAN++: Realistic image synthesis with stacked generative adversarial networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1947-1962 doi: 10.1109/TPAMI.2018.2856256
    [88] Tran L, Yin X, Liu X M. Disentangled representation learning GAN for pose-invariant face recognition. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 1283−1292
    [89] Huang R, Zhang S, Li T Y, He R. Beyond face rotation: Global and local perception GAN for photorealistic and identity preserving frontal view synthesis. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2458−2467
    [90] Ma L Q, Jia X, Sun Q R, Schiele B, Tuytelaars T, van Gool L. Pose guided person image generation. In: Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 406−416
    [91] Siarohin A, Sangineto E, Lathuiliere S, Sebe N. Deformable GANs for pose-based human image generation. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3408−3416
    [92] Chang H W, Lu J W, Yu F, Finkelstein A. PairedCycleGAN: Asymmetric style transfer for applying and removing makeup. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 40−48
    [93] Pumarola A, Agudo A, Martinez A M, Sanfeliu A, Moreno-Noguer F. Ganimation: Anatomically-aware facial animation from a single image. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 835−851
    [94] Donahue C, Lipton Z C, Balsubramani A, McAuley J. Semantically decomposing the latent spaces of generative adversarial networks. arXiv: 1705.07904, 2017
    [95] Shu Z X, Sahasrabudhe M, Guler R A, Samaras D, Paragios N, Kokkinos I. Deforming autoencoders: Unsupervised disentangling of shape and appearance. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 664−680
    [96] Lu Y Y, Tai Y W, Tang C K. Attribute-guided face generation using conditional CycleGAN. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 293−308
    [97] Ledig C, Theis L, Huszar F, Caballero J, Cunningham A, Acosta A, et al. Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 105−114
    [98] Wang X T, Yu K, Wu S X, Gu J J, Liu Y H, Dong C, et al. EsrGAN: Enhanced super-resolution generative adversarial networks. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 63−79
    [99] Zhu J Y, Park T, Isola P, Efros A A. Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2242−2251
    [100] Bansal A, Ma S G, Ramanan D, Sheikh Y. Recycle-GAN: Unsupervised video retargeting. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 122−138
    [101] Yuan Y, Liu S Y, Zhang J W, Zhang Y B, Dong C, Lin L. Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Salt Lake City, USA: IEEE, 2018. 701−710
    [102] Li J, Liang X D, Wei Y C, Xu T F, Feng J S, Yan S C. Perceptual generative adversarial networks for small object detection. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 1951−1959
    [103] Bai Y C, Zhang Y Q, Ding M L, Ghanem B. SOD-MTGAN: Small object detection via multi-task generative adversarial network. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 210−226
    [104] Ehsani K, Mottaghi R, Farhadi A. SeGAN: Segmenting and generating the invisible. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 6144−6153
    [105] Vondrick C, Pirsiavash H, Torralba A. Generating videos with scene dynamics. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 613−621
    [106] Villegas R, Yang J M, Hong S, Lin X Y, Lee H. Decomposing motion and content for natural video sequence prediction. arXiv: 1706.08033, 2018
    [107] Chan C, Ginosar S, Zhou T H, Efros A. Everybody dance now. In: Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South): IEEE, 2019. 5932−5941
    [108] Mathieu M, Couprie C, LeCun Y. Deep multi-scale video prediction beyond mean square error. arXiv: 1511.05440, 2015
    [109] Yu L T, Zhang W N, Wang J, Yu Y. SeqGAN: Sequence generative adversarial nets with policy gradient. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, California, USA: AAAI, 2017. 2852−2858
    [110] Saito Y, Takamichi S, Saruwatari H. Statistical parametric speech synthesis incorporating generative adversarial networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(1): 84-96 doi: 10.1109/TASLP.2017.2761547
    [111] Pascual S, Bonafonte A, Serra J. SEGAN: Speech enhancement generative adversarial network. arXiv: 1703.09452, 2017
    [112] Wang J, Yu L T, Zhang W N, Gong Y, Xu Y H, Wang B Y, et al. IRGAN: A minimax game for unifying generative and discriminative information retrieval models. In: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2017. 515−524
    [113] Lin K, Li D Q, He X D, Zhang Z Y, Sun M T. Adversarial ranking for language generation. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 3158−3168
    [114] Qiao T T, Zhang J, Xu D Q, Tao D C. MirrorGAN: Learning text-to-image generation by redescription. In: Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE, 2019. 1505−1514
    [115] Schlegl T, Seebock P, Waldstein S M, Schmidt-Erfurth U, Langs G. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery. In: Proceedings of the 25th International Conference on Information Processing in Medical Imaging. Boone, USA: Springer, 2017. 146−157
    [116] Xue Y, Xu T, Zhang H, Long L R, Huang X L. SegAN: Adversarial network with multi-scale L_1 loss for medical image segmentation. Neuroinformatics, 2018, 16(3-4): 383-392 doi: 10.1007/s12021-018-9377-x
    [117] Yang Q S, Yan P K, Zhang Y B, Yu H Y, Shi Y Y, Mou X Q, et al. Low-dose CT image denoising using a generative adversarial network with Wasserstein distance and perceptual loss. IEEE Transactions on Medical Imaging, 2018, 37(6): 1348-1357 doi: 10.1109/TMI.2018.2827462
    [118] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 3774−3782
    [119] Gupta A, Johnson J, Li F F, Savarese S, Alahi A. Social GAN: Socially acceptable trajectories with generative adversarial networks. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 2255−2264
    [120] Barratt S, Sharma R. A note on the inception score. arXiv: 1801.01973, 2018
    [121] Chen X, Duan Y, Houthooft R, Schulman J, Sutskever I, Abbeel P. InfoGAN: Interpretable representation learning by information maximizing generative adversarial nets. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 2180−2188
    [122] Zhang H, Goodfellow I J, Metaxas D N, et al. Self-attention generative adversarial networks. In: Proceedings of the 36th International Conference on Machine Learning. New York, USA: JMLR.org, 2019. 7354−7363
    [123] Dinh L, Sohl-Dickstein J, Bengio S. Density estimation using Real NVP. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: OpenReview.net, 2017.
    [124] Kingma D P, Dhariwal P. Glow: Generative flow with invertible 1\times1 convolutions. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc., 2018. 10236−10245
    [125] Behrmann J, Grathwohl W, Chen R T Q, Duvenaud D, Jacobsen J H. Invertible residual networks. In: Proceedings of the 36th International Conference on Machine Learning. Long Beach, California: PMLR, 2019. 573−582
    [126] Rezende D J, Mohamed S. Variational inference with normalizing flows. In: Proceedings of the 32nd International Conference on Machine Learning. Lile, France: JMLR, 2015. 1530−1538
    [127] Kingma D P, Salimans T, Jozefowicz R, Chen X, Sutskever I, Welling M. Improved variational inference with inverse autoregressive flow. In: Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: MIT Press, 2016. 4743−4751
    [128] Papamakarios G, Pavlakou T, Murray I. Masked autoregressive flow for density estimation. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: Curran Associates Inc., 2017. 2335−2344
    [129] Frey B J. Graphical Models for Machine Learning and Digital Communication. Cambridge: MIT Press, 1998.
    [130] Bengio S, Bengio Y. Taking on the curse of dimensionality in joint distributions using neural networks. IEEE Transactions on Neural Networks, 2000, 11(3): 550-557 doi: 10.1109/72.846725
    [131] Neal R M. Connectionist learning of belief networks. Artificial Intelligence, 1992, 56(1): 71-113 doi: 10.1016/0004-3702(92)90065-6
    [132] Bengio Y. Discussion of “the neural autoregressive distribution estimator”. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA: JMLR, 2011. 38−39
    [133] Raiko T, Li Y, Cho K, Bengio Y. Iterative neural autoregressive distribution estimator (NADE-k). In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 325−333
    [134] Reed S, van den Oord A, Kalchbrenner N, Colmenarejo S G, Wang Z Y, Belov D, et al. Parallel multiscale autoregressive density estimation. arXiv: 1703.03664, 2017
    [135] Uria B, Murray I, Larochelle H. A deep and tractable density estimator. In: Proceedings of the 31st International Conference on Machine Learning. Beijing, China: JMLR.org, 2014. I-467−I-475
    [136] Uria B, Cote M A, Gregor K, Murray I, Larochelle H. Neural autoregressive distribution estimation. The Journal of Machine Learning Research, 2016, 17(1): 7184-7220
    [137] van den Oord A, Kalchbrenner N, Kavukcuoglu K. Pixel recurrent neural networks. arXiv: 1601.06759, 2016
    [138] Germain M, Gregor K, Murray I, Larochelle H. MADE: Masked autoencoder for distribution estimation. In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR, 2015. 881−889
    [139] Socher R, Huang E H, Pennington J, Ng A Y, Manning C D. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection. In: Proceedings of the 24th International Conference on Neural Information Processing Systems. Granada, Spain: Curran Associates Inc., 2011. 801−809
    [140] Socher R, Pennington J, Huang E H, Ng A T, Manning C D. Semi-supervised recursive autoencoders for predicting sentiment distributions. In: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, United Kingdom: Association for Computational Linguistics, 2011. 151−161
    [141] Gretton A, Borgwardt K M, Rasch M J, Scholkopf B, Smola A. A kernel two-sample test. Journal of Machine Learning Research, 2012, 13(5): 723-773 
    [142] Dziugaite G K, Roy D M, Ghahramani Z. Training generative neural networks via maximum mean discrepancy optimization. arXiv: 1505.03906, 2015
    [143] Li C L, Chang W C, Cheng Y, Yang Y M, Poczos B. MMD GAN: Towards deeper understanding of moment matching network. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 2200−2210
    [144] Ren Y, Li J L, Luo Y C, Zhu J. Conditional generative moment-matching networks. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016. 2936−2944
    [145] Bengio Y, Yao L, Alain G, Vincent P. Generalized denoising auto-encoders as generative models. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2013. 899−907
    [146] Rezende D J, Mohamed S, Wierstra D. Stochastic backpropagation and approximate inference in deep generative models. In: Proceedings of the 31st International Conference on Machine Learning. Beijing, China: JMLR.org, 2014. II-1278−II-1286
    [147] Zohrer M, Pernkopf F. General stochastic networks for classification. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 2015−2023
    [148] Jang E, Gu S X, Poole B. Categorical reparameterization with gumbel-softmax. arXiv: 1611.01144, 2016
    [149] Song J K, He T, Gao L L, Xu X, Hanjalic A, Shen H T. Binary generative adversarial networks for image retrieval. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018. 394−401
  • 期刊类型引用(40)

    1. 张新长,赵元,齐霁,冯炜明. 基于Al大模型的文生图技术方法研究及应用. 地球信息科学学报. 2025(01): 10-26 . 百度学术
    2. 隋皓辰,李雨朦,崔乃鹏,潘丽平. 生成式AI技术助推人力资源管理的转型前景和潜在风险——基于ChatGPT技术的应用场景视角. 职业技术. 2024(01): 99-108 . 百度学术
    3. 刘刚,王同礼,唐宏伟,战凯,杨雯莉. 面向短文本的增强上下文神经主题模型. 计算机工程与应用. 2024(01): 154-164 . 百度学术
    4. 汤健,郭海涛,夏恒,王鼎,乔俊飞. 面向工业过程的图像生成及其应用研究综述. 自动化学报. 2024(02): 211-240 . 本站查看
    5. 贺兴,潘美琪,艾芊. 小样本学习技术在新型电力系统中的应用与挑战. 电力系统自动化. 2024(06): 74-82 . 百度学术
    6. 肖雪,高莎,黄麟,栗建伟,傅文军. 基于机器视觉实现智能排线检测的创新应用研究. 中国仪器仪表. 2024(03): 52-58 . 百度学术
    7. 钱惠敏,毛邱凌,陈实,韩怡星,吕本杰. TCSNGAN:基于Transformer和谱归一化CNN的图像生成模型. 计算机应用研究. 2024(04): 1221-1227 . 百度学术
    8. 张永梅,齐昊宇,郭奥. 基于WGAN和多头注意力机制的学生数据生成模型. 北方工业大学学报. 2024(01): 76-83 . 百度学术
    9. 王从宝,张安思,杨磊,张保,李松. 基于VAE-LSTM模型的无人机飞行数据异常检测. 电子测量技术. 2024(03): 187-196 . 百度学术
    10. 钟圣华,张智. 基于多示例学习图卷积网络的隐写者检测. 自动化学报. 2024(04): 771-789 . 本站查看
    11. 汤健,崔璨麟,夏恒,乔俊飞. 面向复杂工业过程的虚拟样本生成综述. 自动化学报. 2024(04): 688-718 . 本站查看
    12. 闵帆,王林蓉. 可逆网络的地震数据分辨率增强与去噪. 闽南师范大学学报(自然科学版). 2024(02): 20-33 . 百度学术
    13. 汪强龙,高晓光,吴必聪,胡子剑,万开方. 受限玻尔兹曼机及其变体研究综述. 系统工程与电子技术. 2024(07): 2323-2345 . 百度学术
    14. 李梦男,李琨,叶震,高宏宇. 结合SE-VAE与M1DCNN的小样本数据下轴承故障诊断. 机械科学与技术. 2024(05): 773-780 . 百度学术
    15. 李辉,刘燕,牛蓓,杨挺,任娟,付译节. 应对新信息技术变革的跨学科护理专业虚拟教研室构建路径. 中国当代医药. 2024(19): 144-148 . 百度学术
    16. 林芳鹏,董闯,丁浩,闭喜华. 基于深度学习的隧道岩溶GPR数据杂波抑制研究. 公路交通技术. 2024(04): 176-182 . 百度学术
    17. 胡晰远,周翊超,邹皓,翟晚枫,张宁. 深度合成风险防控标准体系研究. 中国标准化. 2024(17): 57-65+72 . 百度学术
    18. 杨震,杨晶显,王凯,李玉梅,刘俊勇,张帅. 基于去噪扩散概率模型的水-光互补系统随机场景生成方法. 电力系统自动化. 2024(19): 171-180 . 百度学术
    19. 张佳伟,李华军,王秀丽,朱威. 基于扩散模型的印花图案生成方法设计. 计算机测量与控制. 2024(10): 243-249 . 百度学术
    20. 高欣宇,杜方,宋丽娟. 基于扩散模型的文本图像生成对比研究综述. 计算机工程与应用. 2024(24): 44-64 . 百度学术
    21. 李蓉,房安琪. 基于TransUnet的侵彻多层过载信号生成. 测试技术学报. 2023(01): 43-53 . 百度学术
    22. 张博玮,郑建飞,胡昌华,裴洪,董青. 基于流模型的缺失数据生成方法在剩余寿命预测中的应用. 自动化学报. 2023(01): 185-196 . 本站查看
    23. 陶玲玲,刘波,李文博,何希平. 有闭解的可控人脸编辑算法. 计算机应用. 2023(02): 601-607 . 百度学术
    24. 韩烨,侯睿峥,陈霄. 基于循环一致对抗网络的玉米灰斑病图像迁移方法研究. 中国农机化学报. 2023(02): 163-171 . 百度学术
    25. 何进荣,孙娅妮. 基于生成对抗网络的色盲测试图像自动生成方法研究. 电视技术. 2023(02): 9-11 . 百度学术
    26. 孟小峰,郝新丽,马超红,杨晨,艾山·毛力尼亚孜,吴潮,魏建彦. 科学发现中的机器学习方法研究. 计算机学报. 2023(05): 877-895 . 百度学术
    27. 李梦男,李琨,吴聪. 基于IWAE的不平衡数据集下轴承故障诊断研究. 机械强度. 2023(03): 569-575 . 百度学术
    28. 苟瑶,李敏,杜卫东,何玉杰,吴肇青,宋雨. 基于双向约束的生成对抗网络. 软件学报. 2023(09): 4195-4209 . 百度学术
    29. 郭凌云,李国和,龚匡丰,薛占熬. 图像分布外检测研究综述. 模式识别与人工智能. 2023(07): 613-633 . 百度学术
    30. 刘静,郭龙腾. GPT-4对多模态大模型在多模态理解、生成、交互上的启发. 中国科学基金. 2023(05): 793-802 . 百度学术
    31. 刘明亮. 人工智能生成内容(AIGC)技术特征及应用场景分析. 信息记录材料. 2023(10): 234-236 . 百度学术
    32. 崔琳琳,沈冰冰,葛志强. 基于混合变分自编码器回归模型的软测量建模方法. 自动化学报. 2022(02): 398-407 . 本站查看
    33. 张验科,邰雨航,王远坤,马秋梅. 入库径流过程预报误差多维随机模拟模型. 水力发电学报. 2022(04): 62-70 . 百度学术
    34. 卢学明,于在川,许升起. 基于深度生成模型的煤矿运输皮带异物检测. 计算机系统应用. 2022(05): 358-363 . 百度学术
    35. 敦瑞静,鲁淑霞,张琦,翟俊海. 基于行列式点过程的变分拉普拉斯自编码器. 南京大学学报(自然科学). 2022(04): 629-639 . 百度学术
    36. 周壮,周凤. 基于E2E Deep VAE-LSTM的轴承退化预测应用研究. 计算机应用研究. 2022(07): 2091-2097 . 百度学术
    37. 王延文,雷为民,张伟,孟欢,陈新怡,叶文慧,景庆阳. 基于生成模型的视频图像重建方法综述. 通信学报. 2022(09): 194-208 . 百度学术
    38. 张乐,杨昊源,周宁. 基于深度学习的天气雷达回波外推的研究进展. 商洛学院学报. 2022(06): 59-65 . 百度学术
    39. 张浩,齐光磊,侯小刚,郑凯梅. 基于改进Fisher准则的深度卷积生成对抗网络算法. 光学精密工程. 2022(24): 3239-3249 . 百度学术
    40. 黄琼男,朱卫纲,李永刚. 基于GAN的SAR数据扩充研究综述. 兵器装备工程学报. 2021(11): 31-38 . 百度学术

    其他类型引用(97)

  • 加载中
  • 图(22) / 表(3)
    计量
    • 文章访问数:  8295
    • HTML全文浏览量:  2513
    • PDF下载量:  2394
    • 被引次数: 137
    出版历程
    • 收稿日期:  2019-12-19
    • 录用日期:  2020-07-27
    • 网络出版日期:  2021-12-28
    • 刊出日期:  2022-01-25

    目录

    /

    返回文章
    返回