2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度信念网络研究现状与展望

王功明 乔俊飞 关丽娜 贾庆山

李远征, 倪质先, 段钧韬, 徐磊, 杨涛, 曾志刚. 面向高比例新能源电网的重大耗能企业需求响应调度. 自动化学报, 2023, 49(4): 754−768 doi: 10.16383/j.aas.c220034
引用本文: 王功明, 乔俊飞, 关丽娜, 贾庆山.深度信念网络研究现状与展望.自动化学报, 2021, 47(1): 35-49 doi: 10.16383/j.aas.c190102
Li Yuan-Zheng, Ni Zhi-Xian, Duan Jun-Tao, Xu Lei, Yang Tao, Zeng Zhi-Gang. Demand response scheduling of major energy-consuming enterprises based on a high proportion of renewable energy power grid. Acta Automatica Sinica, 2023, 49(4): 754−768 doi: 10.16383/j.aas.c220034
Citation: Wang Gong-Ming, Qiao Jun-Fei, Guan Li-Na, Jia Qing-Shan. Review and prospect on deep belief network. Acta Automatica Sinica, 2021, 47(1): 35-49 doi: 10.16383/j.aas.c190102

深度信念网络研究现状与展望

doi: 10.16383/j.aas.c190102
基金项目: 

国家自然科学基金 61533002

详细信息
    作者简介:

    乔俊飞  北京工业大学信息学部自动化学院教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与分析. E-mail: junfeq@bjut.edu.cn

    关丽娜  北京工业大学信息学部博士研究生.主要研究方向为双曲系统稳定性分析及鲁棒控制. E-mail:guanlina@emails.bjut.edu.cn

    贾庆山  清华大学自动化系智能与网络化系统研究中心副教授.主要研究方向为大规模复杂系统的优化控制理论与方法研究, 并将其应用于能源系统、制造系统、建筑系统、疏散控制系统、机器人系统、生物系统、信息物理系统以及物联网系统等. E-mail: jiaqs@tsinghua.edu.cn

    通讯作者:

    王功明  北京工业大学信息学部博士研究生.主要研究方向为深度学习, 神经网络结构设计与优化控制策略.本文通信作者. E-mail: xiaowangqsd@163.com

Review and Prospect on Deep Belief Network

Funds: 

National Natural Science Foundation of China 61533002

More Information
    Author Bio:

    QIAO Jun-Fei   Professor at Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, structure design and analysis for neural networks

    GUAN Li-Na  Ph. D. candidate at Faculty of Information Technology, Beijing University of Technology. Her research interest covers stability analysis and robust control for hyperbolic system

    JIA Qing-Shan   Associate professor at Center for Intelligent and Networked Systems, Department of Automation, Tsinghua University. His research interest covers optimization control theory and method research for large-scale complex systems and their applications in the energy system, manufacturing systems, building systems, evacuation control systems, robot systems, biological systems, cyber-physical systems and internet of things systems

    Corresponding author: WANG Gong-Ming   Ph. D. candidate at Faculty of Information Technology, Beijing University of Technology. His research interest covers deep learning, structure design and optimization control strategy for neural networks. Corresponding author of this paper
  • 摘要: 深度信念网络(Deep belief network, DBN)是一种基于深度学习的生成模型, 克服了传统梯度类学习算法在处理深层结构所面临的梯度消失问题, 近几年来已成为深度学习领域的研究热点之一.基于分阶段学习的思想, 人们设计了不同结构和学习算法的深度信念网络模型.本文在回顾总结深度信念网络的研究现状基础上, 给出了其发展趋势.首先, 给出深度信念网络的基本模型结构以及其标准的学习框架, 并分析了深度信念网络与其他深度结构的关系与区别; 其次, 回顾总结深度信念网络研究现状, 基于标准模型分析不同深度信念网络结构的性能; 第三, 给出深度信念网络的不同无监督预训练和有监督调优算法, 并分析其性能; 最后, 给出深度信念网络今后的发展趋势以及未来值得研究的方向.
    Recommended by Associate Editor ZHANG Min-Ling
  • 自然语言推理(Natural language inference, NLI)又称为文本蕴含识别(Recognizing textual entailment, RTE)[1-2], 是自然语言处理(Natural language processing, NLP)中一个重要的研究问题.自然语言推理是一个确定两个或多个句子之间逻辑关系的任务, 例如:给定一个前提(Premise)和一个假设(Hypothesis), 目标是确定它们之间的逻辑关系是蕴涵、中立还是矛盾. SNLI[3]和Breaking-NLI[4]等一系列高质量、大规模标准数据集的发布推动了自然语言推理的发展, 促进了大量相关研究[5-11], 表 1展示了几个SNLI数据集中的例子.目前基于神经网络的推理模型主要有两类:一类侧重前提和假设分别进行句子嵌入, 然后使用分类器将其组合起来; 另一类不是分别处理两个句子, 而是使用交互注意力机制进行句子之间的交互.本文关注基于句子嵌入的方法, 因为该方法没有限定要求两个句子, 可以延展到更多任务上.

    表 1  SNLI数据集上的三个例子
    Table 1  Three examples from the SNLI dataset
    Premise (前提) Hypothesis (假设) Label (标签)
    A soccer game with multiple males playing. Some men are playing a sport. Entailment
    (译文) 一场有多名男子参加的足球比赛. 有些男人在做运动. 蕴涵
    A person on a horse jumps over a broken down airplane. A person is training his horse for a competition. Neutral
    (译文) 一个人骑着马跳过了一架坏掉的飞机. 为了参加比赛, 一个人正在训练他的马. 中立
    A black race car starts up in front of a crowd of people. A man is driving down a lonely road. Contradiction
    (译文) 一辆黑色赛车在一群人面前启动. 一个男人开着车行驶在荒凉的路上. 矛盾
    下载: 导出CSV 
    | 显示表格

    对自然语言推理广泛的研究使得很多复杂模型在基准数据集上取得了越来越高的表现, 但是最近的研究[11]表明多数模型很少关注前提和假设的句义关系, 而是大量利用句子中个别词之间对立或相似等浅显关系进行推理作答, 更有甚者只是根据假设就可以进行推理.可想而知这些推理模型很难应用到复杂的现实场景中, 它们根据句子中特定词之间的关系进行盲目推理, 比如根据前提中的"expensive"词和假设中的"cheap"词, 简单推理出两个句子是对立关系, 而实际上两句话描述的不是同一件事情, 正确的逻辑关系应该是中立.推理模型过度依赖特定词, 说明模型只是抓住数据集中的语言偏置, 而不是依据前提和假设所表达的句义关系进行逻辑推理.

    一种检测语言偏置对推理模型影响的方式是设计一个仅依赖词编码表示进行推理的模型(为了方便描述, 本文使用WIM (Word inference model)表示仅依赖词编码表示进行推理的模型), 事实上WIM也可以作为一个标准的基线模型.本文提出使用对抗正则化方法来降低语言偏置的影响, 具体方法是让一个标准的推理模型和这个只依赖词编码表示进行推理的对手进行博弈, 以减少语言偏置的影响.在对抗机制下, 一方面训练WIM, 使得该模型尽可能推理正确, 其中WIM模型的词编码表示是由标准推理模型提供; 另一方面训练标准推理模型, 调整它的词编码和句编码部分, 目的是在提高自身推理准确率的同时, 尽量降低WIM模型的性能.在这种新颖的对抗正则化机制下, 优化自然语言推理模型.

    本文提出的模型可以端到端训练, 而且扩展和延伸性比较强.在SNLI和Breaking-NLI数据集上的实验结果表明了该方法的有效性:本文提出的方法在SNLI数据集基于句子嵌入的推理模型中取得了最好的结果, 而且在Breaking-NLI数据集中也取得了领先的表现.

    本文的主要贡献如下: 1)通过多样信息整合, 多层级句子编码, 增强自然语言推理模型对句子的表示能力, 以探索更多语义信息. 2)关注自然语言推理中的语言偏置现象, 并使用对抗正则化方法来解决这个问题, 此外该方法没有增加模型的参数, 不会增加模型测试时的复杂度. 3)通过在SNLI和Breaking-NLI数据集上的实验表明本文提出方法的有效性, 模型推理表现取得了有效的提升.

    目前句子嵌入在自然语言推理的众多方法中得到了广泛的应用, 这些方法背后的基本思想是分别对前提语句和假设语句进行编码, 然后将它们的句子表示结合起来使用神经网络进行分类, 具体结构如图 1所示.在已有的工作中, 很多研究工作使用卷积神经网络(Convolution neural network, CNN)和长短时记忆网络(Long short-time memory, LSTM)作为构建模块, 如Liu等[12]提出基于双向长短时记忆网络(Bidirectional LSTM, BiLSTM)的句子编码结构, Mou等[13]提出基于树的CNN句子编码结构.也有很多使用更加复杂的神经网络进行句子嵌入的研究工作, 如Munkhdalai等[14]提出NSE (Neural semantic encoder)的记忆增强神经网络, 用于自然语言推理任务.最近一些研究者开始探索应用于句子嵌入表示的自注意力机制. Shen等[6]提出DiSAN模型, 该模型没有使用CNN和循环神经网络(Recurrent neural network, RNN), 而是完全依赖于研究者提出的多维注意力和双向自注意力机制. Shen等[15]提出ReSAN (Reinforced self-attention network)模型, 该模型使用强化学习将软注意力和硬注意力融合在一起. Im等[16]提出基于距离的自注意力网络模型, 该模型利用距离掩蔽来关注单词之间的距离, 从而对局部依赖关系进行建模.此外, 还有研究者将胶囊网络中的动态路由机制应用到自然语言推理任务中[17], 并且取得了不错的效果.虽然在自然语言推理中, 句子嵌入方法已经显示出其有效性, 但是也有多项研究表明, 将前提和假设句子对在句子编码期间联合处理, 关注它们之间的复杂交互, 模型会得到更好的结果.然而, 这些交互式的方法不能在很多单个句子处理的任务上直接使用, 也不能像句子嵌入一样直接提供关于句子的语义理解.本文选择基于句子嵌入的体系结构, 以便应用于更多NLP任务.

    图 1  自然语言推理(NLI)整体结构框图
    Fig. 1  The structure of natural language inference (NLI)

    Goodfellow等[18]提出生成对抗网络(Generative adversarial network, GAN)作为一种学习数据分布的新方式.生成对抗网络包含一个生成器$G$和一个判别器$D$, $G$和$D$在一个极小极大的博弈中被同步训练, 优化目标是达到纳什均衡

    $ \begin{align}\label{eq1} &\mathop {\min }\limits_G \mathop {\max }\limits_D V(D, G) = {{\rm E}_{x \sim {p_{\rm data}}}}\left[ {\log D(x)} \right] +\notag\\ &\qquad {{\rm E}_{z \sim {p_z}}}\left[ {\log (1 - D(G(z)))} \right] \end{align} $

    (1)

    其中, 生成器$G$根据从先验分布${p_z}$中采样的隐含输入变量$z$来产生真实的数据, 以愚弄判别器$D$.另一方面, 判别器$D$是一个典型的二元分类器, 它试图去辨别它的输入数据是来自训练集还是来自生成器生成的集合.生成对抗网络通过判别器为生成器提供损失梯度进行训练, 目的是学习一个生成模型, 使该模型的输出满足特定的分布${p_{\rm data}}$.

    生成对抗网络具有强大的模拟复杂分布的能力, 已受到广泛关注, 并且在图像和文本生成等领域演化出很多变体, 取得了大量令人瞩目的效果.如针对对抗网络自身的改进LSGAN[19]和WGAN[20], 对抗网络在图像生成上的应用BicycleGAN[21]和DualGAN[22], 在文本生成上的应用SeqGAN[23]和RankGAN[24]等.最近, 研究人员提出了其他对抗训练的策略[25-26], 以鼓励中间模型表示各种形式的不变性.

    图 2是本文提出的基于对抗正则化的自然语言推理模型框图, 图中上半部分的标准NLI模型对应本文提出的增强的多层级表示推理模型(Enhanced multi-level representations inference model, EMRIM), 下半部分的针对词编码的NLI对手对应前面提到的WIM模型.其中EMRIM模型主要包括词编码器、句编码器、分类器三部分, 该模型通过增强的多层级编码结构探索丰富语言信息.并且本文提出使用对抗正则化方法降低语言偏置的影响, 从而进一步提升模型的推理能力.本文从以下几个方面对提出的方法进行具体描述.

    图 2  基于对抗正则化的自然语言推理模型结构框图
    Fig. 2  The structure of natural language inference model based on adversarial regularization

    丰富的表示信息在自然语言推理中扮演着重要的角色.在我们的模型中, 我们将统筹多种类型的表示, 以更好地挖掘前提和假设句义信息, 这也是这项任务的基本组成部分.首先将前提和假设中的每个单词转换成连续的表示形式, 对词信息进行融合和提取.图 3中展示了词编码的处理方式, 具体包含以下部分:

    图 3  词编码器和句子编码器网络结构
    Fig. 3  Word encoder and sentence encoder network structure

    1) 词嵌入:与之前方法的设置相似, 使用预训练的词向量GloVe[27]将每一个单词映射到向量空间.

    2) 字符嵌入:将卷积神经网络(CNN)应用到每个单词的字符上.实践证明, 该方法对处理集外词(Out of vocabulary, OOV)有一定的帮助[28].

    3) POS和NER标签:使用词性标注(Part-of-speech, POS)和命名实体识别(Named-entity recognition, NER)来获得单词的词性信息和实体信息, 然后每一个单词可以通过查表获得对应的POS嵌入表示和NER嵌入表示.这种方法比常用的独热码包含更多信息.

    4) 精确匹配(Exact match, EM):受机器阅读理解的启发, 使用3个二进制特征来表示这个词是否能与任何词准确匹配, 分别表示原始形式、小写形式和词干形式.

    5) CoVe:通过机器翻译[29]得到词的上下文向量表示, 本文的模型对其进行降维处理, 以减少模型的参数量.

    本文将前面提到的多种词信息串联起来使用, 这样不仅可以从更多角度获得词相关的表示信息, 而且为后续句子编码提供良好的基础表征, 以更准确地理解句子上下文含义, 从而做出合理的推理.

    为了获得句子的语义信息, 将所有向量序列传递给使用BiLSTM和最大池化(Max pooling)的句子编码器.输入一个长度为$T$的序列$({w_1}, {w_2}, {w_3}$, $\cdots $, ${w_T})$, 双向长短时记忆网络的输出是, $\cdots $, ${h_T})$, 序列输出中的每一项计算如下:

    $ \overrightarrow {{h_t}} = \overrightarrow {LST{M_t}} ({w_1}, {w_2}, \cdots , {w_T}) $

    (2)

    $ \overleftarrow {{h_t}} = \overleftarrow {LST{M_t}} ({w_1}, {w_2}, \cdots , {w_T}) $

    (3)

    $ {h_t} = \left[ {\overrightarrow {{h_t}} , \overleftarrow {{h_t}} } \right] $

    (4)

    接下来为了学习每个句子的整体表示, 对序列编码器隐藏层的输出应用最大池化处理, 得到与${h_t}$同维度大小的向量

    $ \begin{align}\label{eq5} x = MaxPooling({h_1}, {h_2}, {h_3}, \cdots , {h_T}) \end{align} $

    (5)

    先进的自然语言推理模型通常将句子编码器实现为多层结构, 鼓励模型模拟复杂函数, 同时捕获复杂的语言结构.此外, 一些研究人员已经证实, 不同层能够提取不同类型的语法和语义信息[30].本文通过设置多层级结构, 探索每一层潜在的语义信息.在推理模型中, 使用基于BiLSTM和Max Pooling的层次化句子编码器, 句子编码器包括三层, 每一层BiLSTM都是将原始输入语句序列作为输入; 而且, 除了第一层BiLSTM之外的其他BiLSTM层, 均使用前一层网络的最终状态来初始化其隐层状态.对每一层BiLSTM的输出进行最大池化, 句子编码的最终输出是每一个最大池化层输出的串联拼接.图 3显示了具体的网络结构.

    句子编码器的输出是前提和假设的固定维度的向量表示$u$和$v$, 然后将它们传递给顶层分类器.在自然语言推理任务中, 顶层分类器一般使用多层感知机(Multilayer perceptron, MLP)和Softmax函数来预测每个类别的概率.本文以多种方式将这两个句子的表示聚合在一起, 并作为多层感知机的输入, 然后把多层感知机的输出传递给Softmax函数, 公式表示如下所示:

    $ x = [u;v;u \odot v;|u - v|] $

    (6)

    $ Output ={\rm Softmax} (MLP(x)) $

    (7)

    其中, $ \odot$表示逐个对应元素相乘, 多层感知机包含两个带有修正线性单元(Rectified linear unit, ReLU)激活函数的隐层.最后通过最小化带有L2正则项的多类交叉熵损失函数, 对整个模型进行端到端训练.

    1) 标准推理模型:给定数据集$D = \{{p_i}, {q_i}, {a_i}\}$, 其中包含前提句${p_i} \in {\cal P}$、假设句${q_i} \in {\cal Q}$、推理标签${a_i}$ $\in$ ${\cal A}$三部分, 自然语言推理任务就是从前提和假设句子中推理出它们的逻辑关系.为了描述方便, 定义词编码器的操作为$G$, 定义句子编码器为$H$, 最后的分类层为$F$, $p$和$q$为数据集$D$中某样本的两个句子, 所以我们的推理模型可以表示为, 首先这两个句子通过词编码器分别得到表示${g_u}$和${g_v}$

    $ {g_u} = G(p) $

    (8)

    $ {g_v} = G(q) $

    (9)

    然后输出的结果经过句编码器的处理得到句子表示$u$和$v$

    $ u = H({g_u}) $

    (10)

    $ v = H({g_v}) $

    (11)

    最后将两者的句子表示传递给顶层分类器预测逻辑关系

    $ \begin{align}\label{eq12} P({\cal A}|p, q) = F(u, v) \end{align} $

    (12)

    现有的自然语言推理模型一般都遵循类似的模式, 通过标准的交叉熵函数进行训练, 通过优化参数最小化损失函数

    $ \begin{align}\label{eq13} {{\cal L}_{NLI}}(G, H, F) = {{\mathbb{E}}_{{\cal P}, {\cal Q}, {\cal A}}}[ - \log (P({a_i}|{p_i}, {q_i}))] \end{align} $

    (13)

    2) WIM:对NLI中关于词的语言偏置强弱直观的度量是模型仅从词编码就可以预测答案的能力.我们将这个模型形式化为一个映射${F_G}$, 如上所述, 我们假设${F_G}$是可微的, 并把从标准推理模型获得的词编码作为输入, 以便${F_G}$可以进行预测

    $ \begin{align}\label{eq14} {P_{{F_G}}}({\cal A}|p, q) = {F_G}({g_u}, {g_v}) \end{align} $

    (14)

    将这个模型参数化为与顶层分类器相似的结构, 只是为了便于后续处理.在其基础上加入了最大池化层.如上所述, 该模型可以用交叉熵函数进行训练

    $ \begin{align}\label{eq15} {{\cal L}_G}(G, {F_G}) = {{\mathbb{E}}_{{\cal P}, {\cal Q}, {\cal A}}}[ - \log ({P_{{F_G}}}({a_i}|{p_i}, {q_i}))] \end{align} $

    (15)

    3) 对抗正则化减少语言偏置:如图 2所示, 本文将标准推理模型和只依赖词编码的推理模型设置为对抗状态, 引入对抗正则化的方法优化自然语言推理模型.其中只依赖词编码的推理模型为了推理成功, 需要学习训练数据集中的语言偏置, 但是因为这种语言偏置忽略了句义信息, 导致标准推理模型推理错误.为了减少语言偏置, 将两个模型设置为对抗状态, 通过修改词编码部分来降低只依赖词编码模型的表现; 同时强化句子编码部分, 以捕获更多上下文信息和语义信息, 从而达到在提升标准推理模型推理表现的同时减少对语言偏置的依赖的目的.可以将这两个模型的对立关系描述为

    $ \begin{align}\label{eq16} \mathop {\min }\limits_{G, H, F} \mathop {\max }\limits_{{F_G}} ({{\cal L}_{NLI}}(G, H, F) - \lambda {{\cal L}_G}(G, {F_G})) \end{align} $

    (16)

    基于对抗正则化的自然语言推理模型的训练过程如下, 首先训练只依赖词编码的推理模型, 该模型的训练目标是最小化其对应的交叉熵损失函数, 但是词编码器$G(\cdot)$不会根据这个梯度信息更新, 这个操作对应了图 2中的梯度拒绝部分.潜在地, 这迫使分类器${F_G}$要基于标准推理模型给出的词编码表示尽可能好地进行推理.然后训练更新标准推理模型, 该模型的梯度信息来自于两部分:一部分是标准推理模型本身对应的交叉熵损失函数; 另一部分来自于只依赖词编码的推理模型负的加权的交叉熵损失函数, 其中分类器${F_G}$的参数是不更新的, 分类器只是起到梯度传递的作用.最后这两个训练过程进行交替训练更新, 通过不断对抗博弈, 以到达理想的纳什均衡状态.

    我们使用正则化系数$\lambda $来调控推理模型的性能和语言偏置的权衡. $\lambda $取值较小表明较少的正则化发生, 标准推理模型继续学习语言偏置.另一方面, 当$\lambda $取值较大时, 表示去除较多语言偏置, 可能导致标准推理模型和只依赖词编码的模型的表现都不好; 此外权重过大会加重对词编码的影响, 以至于词编码器没有能力学习合理的词表示, 从而进一步影响句子表征等高层表示.所以要设置合适的权重来权衡两者之间的重要性.

    我们在SNLI和Breaking-NLI数据集上验证本文的方法.

    SNLI (Stanford natural language inference)[3]数据集大约有57万人工标注的句子对, 该数据集比其他同类数据集大两个数量级.其中前提数据来源于Flickr30k语料库中的字幕, 而假设句数据和标签是人工合成的.数据集提供的标签分别是"entailment", "neutral", "contradiction", "-".其中"-"表示注释者之间无法达成共识.遵照Bowman等[3]提出的方式删除标签为"-"的句子对, 然后生成训练集、验证集和测试集.

    Breaking-NLI[4]数据集是一个自然语言推理的测试集, 包括8 193个前提和假设句子对, 其中前提和假设只是有一个词或短语被替换了, 其他成分是相同的.该数据集被用来测试自然语言推理模型, 推理模型需要一定的词汇和世界知识才能实现合理的表现.

    本文在实验中使用预先训练好的300维的GloVe 840B词向量来初始化词嵌入向量, 词嵌入中的集外词使用[-0.1, 0.1]随机初始化, 在模型训练期间词嵌入向量被不断更新, 以学习适合NLI任务的更有效的表示.我们使用Spacy对单词进行标记并生成POS和NER标签, POS和NER的嵌入维度分别是26和20.所有BiLSTM的隐层大小设置为250, 为了避免过拟合, 在层间使用dropout[31]和层归一化(Layer normalization)[32]处理方法.使用Adam[33]算法优化模型参数, 并设置学习率为0.0001, 权重衰减为$1\times 10^{-8}$.设置批次大小为32, 以进行更多探索.在对抗训练过程中, 两个模型交替训练的频率为$1$ : $1$.在所有方法中都是使用500维的BiLSTM (250维前向LSTM + 250维后向LSTM).

    表 2显示了使用句子嵌入方法的不同模型在SNLI训练集和测试集的结果.我们使用以下几种方法进行实验对比:

    表 2  不同方法在SNLI上的实验结果(%)
    Table 2  Experimental results for different methods on SNLI (%)
    对比方法 模型 训练准确率 测试准确率
    Mou等[13] (2015) 300D Tree-based CNN encoders 83.3 82.1
    Liu等[12] (2016) 600D (300 + 300) BiLSTM encoders 86.4 83.3
    Liu等[12] (2016) 600D BiLSTM encoders with intra-attention 84.5 84.2
    Conneau等[34] (2017) 4096D BiLSTM with max-pooling 85.6 84.5
    Shen等[6] (2017) Directional self-attention network encoders 91.1 85.6
    Yi等[7] (2018) 300D CAFE (no cross-sentence attention) 87.3 85.9
    Im等[16] (2017) Distance-based Self-Attention Network 89.6 86.3
    Kim等[35] (2018) DRCN (-Attn, -Flag) 91.4 86.5
    Talman等[36] (2018) 600D HBMP 89.9 86.6
    Chen等[37] (2018) 600D BiLSTM with generalized pooling 94.9 86.6
    Kiela等[38] (2018) 512D Dynamic Meta-Embeddings 91.6 86.7
    Yoon等[17] (2018) 600D Dynamic Self-Attention Model 87.3 86.8
    Yoon等[17] (2018) Multiple-Dynamic Self-Attention Model 89.0 87.4
    本文方法 BiLSTM_MP 89.46 86.51
    本文方法 EMRIM 92.71 87.36
    本文方法 BiLSTM_MP + AR 89.02 86.73
    本文方法 EMRIM + AR 93.26 $\textbf{87.60}$
    下载: 导出CSV 
    | 显示表格

    1) BiLSTM_MP:该模型的词编码器使用本文提出的多信息融合编码方式, 但是句编码器使用了简单堆叠的三层BiLSTM网络, 并根据最后一层BiLSTM的输出进行最大池化处理, 最后经过顶层分类器得到推理结果.

    2) BiLSTM_MP + AR:该方法是在BiLSTM_ MP基础上使用对抗正则化.

    3) EMRIM:该方法是第2节提出的增强的多层级表示推理模型.

    4) EMRIM + AR:在EMRIM中加入对抗正则化方法.

    表 2显示了本文实验结果与SNLI官方排行榜结果, 根据实验对比, 本文提出的EMRIM方法达到了87.36 %的准确率, 已经接近排行榜中的最好结果87.4 %, 这说明在推理模型中使用多种类型信息增强的词编码器和多层级的句编码器, 确实可以提取更丰富更准确的语义表示, 从而利于模型推理.当分别为标准推理模型BiLSTM_MP和EMRIM增加只依赖词编码进行推理的对抗模型之后, 在不断博弈的进化过程中, 两个标准模型的推理性能进一步提升, BiLSTM_MP + AR比BiLSTM_MP高出约0.22 %的准确率, EMRIM + AR比EMRIM高出约0.24 %的准确率.这表明了本文提出的对抗正则化方法的有效性:该方法可以减少标准推理模型对语言偏置的依赖, 避免依据词间浅显的关系进行盲目推理; 而是强调语义理解, 通过对句义的整体把握做出选择.需要注意的是对抗正则方法没有增加标准推理模型的参数量, 并且不会增加模型测试时的复杂度.

    表 3是不同方法在Breaking-NLI测试集上的实验结果[4], 这些模型都是在SNLI数据集上训练, 然后在Breaking-NLI数据集上测试.实验发现在SNLI测试集上表现不错的ESIM模型, 在这个测试集上的性能急剧下降.本文提出的EMRIM + AR模型在该测试集上取得了目前公开的最高准确率, 这说明本文提出的模型具有良好的词汇知识和世界知识; 通过应用对抗正则化方法, 推理模型在理解词汇的同时, 关注句义表达, 整体把握推理需求, 做出合理推理.

    表 3  不同方法在Breaking-NLI上的测试结果
    Table 3  Experimental results for different methods on Breaking-NLI
    模型 测试准确率(%)
    Decomposable Attention[39] 51.9
    Residual-Stacked-Encoder[40] 62.2
    ESIM[8] 65.6
    KIM[41] 83.5
    EMRIM 88.37
    EMRIM + AR $\textbf{89.96}$
    下载: 导出CSV 
    | 显示表格

    注意到在对抗训练过程中, 随着标准推理模型在SNLI测试集上的表现提升, 只依赖词编码进行推理的模型的性能上升到一定程度之后不再增加, 而且有稍微下降的趋势.这表明对抗优化策略执行得很好, 这也是和我们的直觉是一致的.

    表 4是权重$\lambda$对SNLI测试集推理准确率的影响.根据权重和准确率的变化趋势, 可以得到以下分析.在较高的权值下, 基于词编码的大部分判别信息都已经丢失, 即标准推理模型是通过牺牲自己的性能, 从而降低了只作用于词编码模型的性能, 但是事实上在推理中根据词信息进行判别还是占有一定重要地位的, 不应完全忽略; 另外, 权重过大也导致模型底层学习不到合理的词向量表示, 继而影响模型高层网络对句子编码能力和推理能力.在权值较小时, 标准推理模型的性能相较之前也没有明显提升, 毕竟完全根据词中的判别信息进行推理是片面的, 因为忽略了对句子内容的整体理解和把握, 会导致模型的推理脱离了对应的描述场景, 从而难于做出正确抉择.只有兼顾词中表达的判别信息和句义分析这两方面, 自然语言推理模型才会做出正确的推理.

    表 4  权重$\lambda$对NLI准确率的影响
    Table 4  Impact of weight $\lambda$ on NLI accuracy
    权重值 测试准确率(%)
    0.5 86.90
    0.25 87.14
    0.10 87.60
    0.05 87.35
    0.01 87.39
    下载: 导出CSV 
    | 显示表格

    本文提出增强的多层级表示推理模型, 通过多样信息整合和多层级句子编码, 增强模型对句子的表示能力, 探索更多语义信息.在标准推理模型中引入对抗正则化方法, 通过标准推理模型和只依赖词编码进行推理的模型进行博弈训练, 以减少语言偏置对推理模型的影响, 使模型能够基于上下文进行有效推理.在SNLI和Breaking-NLI数据集上的实验结果验证了本文方法的有效性.在未来的研究工作中, 我们希望将该方法应用到更多任务中去.


  • 本文责任编委 张敏灵
  • 图  1  RBM结构图

    Fig.  1  Structure of RBM

    图  2  DBN结构图

    Fig.  2  Structure of DBN

    图  3  稀疏表述原理图

    Fig.  3  Sparse representation scheme

    图  4  计算激活强度的权值连接过程

    Fig.  4  Weights connecting process of computing spiking intensity

    图  5  结构自组织策略原理图

    Fig.  5  Self-organizing structure strategy scheme

    图  6  TL-GDBN的一步增长过程

    Fig.  6  Illustration of one-growing step

    图  7  RTRBM的结构图

    Fig.  7  RTRBM structure

    图  8  RNN-RBM的结构图

    Fig.  8  RNN-RBM structure

    图  9  RNN-DBN的结构图

    Fig.  9  RNN-DBN structure

    图  10  半监督RBM结构

    Fig.  10  Structure of semi-supervised RBM

    图  11  基于PLSR的DBN调优

    Fig.  11  PLSR-based fine-tuning of DBN

    表  1  不同DBN结构的性能对比

    Table  1  Performance comparison of different DBN structures

    结构 训练RMSE 训练时间(s) 测试时间(s)
    均值 方差
    稀疏DBN 0.0468 0.0009 6.91 5.13
    自组织DBN 0.0308 0.0085 6.50 5.06
    增量式DBN 0.0173 0.0012 4.27 3.14
    递归DBN 0.0149 0.0126 6.67 5.11
    下载: 导出CSV

    表  2  不同DBN算法的性能对比

    Table  2  Performance comparison of different DBN algorithms

    算法 训练RMSE 训练时间(s) 测试时间(s)
    均值 方差
    梯度下降 0.0835 0.0116 12.38 10.09
    自适应学习率 0.0225 0.0102 2.97 1.39
    半监督学习 0.0507 0.0130 8.68 6.17
    偏最小二乘回归 0.0193 0.0091 3.62 2.28
    下载: 导出CSV

    附表 1  文中用到的主要数学符号

    附表 1  Main mathematical notations in this paper

    主要数学符号说明
    ${\mathit{\boldsymbol{v}}}$——可视层神经元组成的状态向量
    ${\mathit{\boldsymbol{h}}}$——隐含层神经元组成的状态向量
    ${\mathit{\boldsymbol{b}}}_v$——可视层神经元偏置状态向量
    ${\mathit{\boldsymbol{b}}}_h$——隐含层神经元偏置状态向量
    ${\mathit{\boldsymbol{c}}}_u$——监督层神经元偏置状态向量
    ${\mathit{\boldsymbol{w}}}^R$——标准受限玻尔兹曼机权值矩阵
    ${\mathit{\boldsymbol{p}}}$——监督层与隐含层之间的权值矩阵
    ${\mathit{\boldsymbol{w}}}_{\rm out}$——最后一个隐含层与输出层之间的权值矩阵
    ${\mathit{\boldsymbol{W}}}^R$——整个网络的初始化权值矩阵
    ${\mathit{\boldsymbol{W}}}$——整个网络的最终权值矩阵
    下载: 导出CSV
  • [1] Liu Q S, Dang C Y, Huang T W. A one-layer recurrent neural network for real-time portfolio optimization with probability criterion. IEEE Transactions on Cybernetics, 2013, 43(1): 14-23 doi: 10.1109/TSMCB.2012.2198812
    [2] Lin Y Y, Chang J Y, Lin C T. Identification and prediction of dynamic systems using an interactively recurrent self-evolving fuzzy neural network. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(2): 310-321 doi: 10.1109/TNNLS.2012.2231436
    [3] Lian J, Wang J. Passivity of switched recurrent neural networks with time-varying delays. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(2): 357-366 doi: 10.1109/TNNLS.2014.2379920
    [4] 吴玉香, 王聪.基于确定学习的机器人任务空间自适应神经网络控制.自动化学报, 2013, 39(6): 806-815 doi: 10.3724/SP.J.1004.2013.00806

    Wu Yu-Xiang, Wang Cong. Deterministic learning based adaptive network control of robot in task space. Acta Automatica Sinica, 2013, 39(6): 806-815 doi: 10.3724/SP.J.1004.2013.00806
    [5] Chandrasekar A, Rakkiyappan R, Cao J D, Lakshmanan S. Synchronization of memristor-based recurrent neural networks with two delay components based on second-order reciprocally convex approach. Neural Networks, 2014, 57: 79-93 doi: 10.1016/j.neunet.2014.06.001
    [6] Alhamdoosh M, Wang D H. Fast decorrelated neural network ensembles with random weights. Information Sciences, 2014, 264: 104-117 doi: 10.1016/j.ins.2013.12.016
    [7] Lee Y, Oh S H, Kim M W. An analysis of premature saturation in back propagation learning. Neural Networks, 1993, 6(5): 719-728 doi: 10.1016/S0893-6080(05)80116-9
    [8] Burse K, Yadav R N, Shrivastava S C. Channel equalization using neural networks: A review. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2010, 40(3): 352-357 doi: 10.1109/TSMCC.2009.2038279
    [9] Pfeifer R, Lungarella M, Iida F. Self-organization, embodiment, and biologically inspired robotics. Science, 2007, 318(5853): 1088-1093 doi: 10.1126/science.1145803
    [10] Schmidhuber J. Deep learning in neural networks: An overview. Neural Networks, 2015, 61: 85-117
    [11] Kriegeskorte N. Deep neural networks: A new framework for modeling biological vision and brain information processing. Annual Review of Vision Science, 2015, 1: 417-446 doi: 10.1146/annurev-vision-082114-035447
    [12] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507 doi: 10.1126/science.1127647
    [13] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444 doi: 10.1038/nature14539
    [14] Wang G, Qiao J, Bi J, Jia Q, Zhou M. An Adaptive Deep Belief Network With Sparse Restricted Boltzmann Machines. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(10): 4217-4228 doi: 10.1109/TNNLS.2019.2952864
    [15] 乔俊飞, 王功明, 李晓理, 韩红桂, 柴伟.基于自适应学习率的深度信念网设计与应用.自动化学报, 2017, 43(8): 1339-1349 doi: 10.16383/j.aas.2017.c160389

    Qiao Jun-Fei, Wang Gong-Ming, Li Xiao-Li, Han Hong-Gui, Chai Wei. Design and application of deep belief network with adaptive learning rate. Acta Automatica Sinica, 2017, 43(8): 1339-1349 doi: 10.16383/j.aas.2017.c160389
    [16] Wang G, Jia Q, Qiao J, Bi J, Liu C. A sparse deep belief network with efficient fuzzy learning framework. Neural Networks, 2020, 121: 430-440 doi: 10.1016/j.neunet.2019.09.035
    [17] Baldi P, Sadowski P, Whiteson D. Searching for exotic particles in high-energy physics with deep learning. Nature Communications, 2014, 5: 4308 doi: 10.1038/ncomms5308
    [18] Lv Y S, Duan Y J, Kang W W, Li Z X, Wang F Y. Traffic flow prediction with big data: A deep learning approach. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(2): 865-873
    [19] Chan T H, Jia K, Gao S H, Lu J W, Zeng Z, Ma Y. PCANet: A simple deep learning baseline for image classification? IEEE Transactions on Image Processing, 2015, 24(12): 5017-5032 doi: 10.1109/TIP.2015.2475625
    [20] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554 doi: 10.1162/neco.2006.18.7.1527
    [21] Sutskever I, Hinton G E. Deep, narrow sigmoid belief networks are universal approximators. Neural Computation, 2008, 20(11): 2629-2636 doi: 10.1162/neco.2008.12-07-661
    [22] Qin Y, Wang X, Zou J Q. The optimized deep belief networks with improved logistic Sigmoid units and their application in fault diagnosis for planetary gearboxes of wind turbines. IEEE Transactions on Industrial Electronics, 2019, 66(5): 3814-3824 doi: 10.1109/TIE.2018.2856205
    [23] Qiao J F, Wang G M, Li W J, Chen M. An adaptive deep Q-learning strategy for handwritten digit recognition. Neural Networks, 2018, 107: 61-71 doi: 10.1016/j.neunet.2018.02.010
    [24] Abdel-Zaher A M, Eldeib A M. Breast cancer classification using deep belief networks. Expert Systems with Applications, 2016, 46: 139-144 doi: 10.1016/j.eswa.2015.10.015
    [25] Qiao J F, Wang G M, Li W J, Li X L. A deep belief network with PLSR for nonlinear system modeling. Neural Networks, 2018, 104: 68-79 doi: 10.1016/j.neunet.2017.10.006
    [26] Qiao J F, Wang G M, Li X L, Li W J. A self-organizing deep belief network for nonlinear system modeling. Applied Soft Computing, 2018, 65: 170-183 doi: 10.1016/j.asoc.2018.01.019
    [27] Wang G M, Qiao J F, Bi J, Li W J, Zhou M C. TL-GDBN: Growing deep belief network with transfer learning. IEEE Transactions on Automation Science and Engineering, 2019, 16(2): 874-885 doi: 10.1109/TASE.2018.2865663
    [28] Chen Z Y, Li W H. Multisensor feature fusion for bearing fault diagnosis using sparse autoencoder and deep belief network. IEEE Transactions on Instrumentation and Measurement, 2017, 66(7): 1693-1702 doi: 10.1109/TIM.2017.2669947
    [29] Ranzato M A, Boureau Y L, LeCun Y. Sparse feature learning for deep belief networks. In: Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates, Inc., 2018. 1185-1192
    [30] Ichimura T, Kamada S. Adaptive learning method of recurrent temporal deep belief network to analyze time series data. In: Proceedings of the 2017 International Joint Conference on Neural Networks. Anchorage, AK, USA: IEEE, 2017. 2346-2353
    [31] Hinton G E. Training products of experts by minimizing contrastive divergence. Neural Computation, 2002, 14(8): 1771-1800 doi: 10.1162/089976602760128018
    [32] 王功明, 乔俊飞, 王磊.一种能量函数意义下的生成式对抗网络.自动化学报, 2018, 44(5): 793-803 doi: 10.16383/j.aas.2018.c170600

    Wang Gong-Ming, Qiao Jun-Fei, Wang Lei. A generative adversarial network based on energy function. Acta Automatica Sinica, 2018, 44(5): 793-803 doi: 10.16383/j.aas.2018.c170600
    [33] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS, 2014. 2672-2680
    [34] Schirrmeister R T, Springenberg J T, Fiederer L D J, Glasstetter M, Eggensperger K, Tangermann M, et al. Deep learning with convolutional neural networks for EEG decoding and visualization. Human Brain Mapping, 2017, 38(11): 5391-5420 doi: 10.1002/hbm.23730
    [35] Nguyen A T, Xu J, Luu D K, Zhao Q, Yang Z. Advancing system performance with redundancy: From biological to artificial designs. Neural Computation, 2019, 31(3): 555-573 doi: 10.1162/neco_a_01166
    [36] Bengio Y. Learning deep architectures for AI. Foundations and Trends® in Machine Learning, 2009, 2(1): 1-127 doi: 10.1561/2200000006
    [37] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA: JMLR.org, 2011. 315-323
    [38] Ali M B. Use of Dropouts and Sparsity for Regularization of Autoencoders in Deep Neural Networks.[Master dissertation], Bilkent University, Bilkent, 2015
    [39] Wright J, Yang A Y, Ganesh A, Sastry S, Ma Y. Robust face recognition via sparse representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227 doi: 10.1109/TPAMI.2008.79
    [40] Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2. In: Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates, Inc., 2007. 873-880
    [41] Keyvanrad M A, Homayounpour M M. Normal sparse deep belief network. In: Proceedings of the 2015 International Joint Conference on Neural Networks. Killarney, Ireland: IEEE, 2015. 1-7
    [42] Lian R J. Adaptive self-organizing fuzzy sliding-mode radial basis-function neural-network controller for robotic systems. IEEE Transactions on Industrial Electronics, 2014, 61(3): 1493-1503 doi: 10.1109/TIE.2013.2258299
    [43] Li F J, Qiao J F, Han H G, Yang C L. A self-organizing cascade neural network with random weights for nonlinear system modeling. Applied Soft Computing, 2016, 42: 184-193 doi: 10.1016/j.asoc.2016.01.028
    [44] Sarinnapakorn K, Kubat M. Combining subclassifiers in text categorization: A DST-based solution and a case study. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(2): 1638-1651
    [45] Van Opbroek A, Achterberg H C, Vernooij M W, De Bruijne M. Transfer learning for image segmentation by combining image weighting and kernel learning. IEEE Transactions on Medical Imaging, 2019, 38(1): 213-224 doi: 10.1109/TMI.2018.2859478
    [46] Shin H C, Roth H R, Gao M C, Lu L, Xu Z Y, Nogues I, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning. IEEE Transactions on Medical Imaging, 2016, 35(5): 1285-1298 doi: 10.1109/TMI.2016.2528162
    [47] Long M S, Wang J M, Ding G G, Pan S J, Yu P S. Adaptation regularization: A general framework for transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5): 1076-1089 doi: 10.1109/TKDE.2013.111
    [48] Afridi M J, Ross A, Shapiro E M. On automated source selection for transfer learning in convolutional neural networks. Pattern Recognition, 2018, 73: 65-75 doi: 10.1016/j.patcog.2017.07.019
    [49] Taylor M E, Stone P. Transfer learning for reinforcement learning domains: A survey. The Journal of Machine Learning Research, 2009, 10: 1633-1685
    [50] Lu J, Behbood V, Hao P, Zuo H, Xue S, Zhang G Q. Transfer learning using computational intelligence: A survey. Knowledge-Based Systems, 2015, 80: 14-23 doi: 10.1016/j.knosys.2015.01.010
    [51] Shao L, Zhu F, Li X L. Transfer learning for visual categorization: A survey. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(5): 1019-1034 doi: 10.1109/TNNLS.2014.2330900
    [52] Sutskever I, Hinton G E, Taylor G W. The recurrent temporal restricted Boltzmann machine. In: Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates, Inc., 2008. 1601-1608
    [53] Fischer A, Igel C. An introduction to restricted Boltzmann machines. In: Proceedings of the 17th Iberoamerican Congress on Pattern Recognition. Buenos Aires, Argentina: Springer, 2012. 14-36
    [54] Srivastava N, Salakhutdinov R R. Multimodal learning with deep Boltzmann machines. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2012. 2222-2230
    [55] Fischer A, Igel C. Training restricted Boltzmann machines: An introduction. Pattern Recognition, 2014, 47(1): 25-39 doi: 10.1016/j.patcog.2013.05.025
    [56] Boulanger-Lewandowski N, Bengio Y, Vincent P. Modeling temporal dependencies in high-dimensional sequences: Application to polyphonic music generation and transcription. In: Proceedings of the 29th International Conference on Machine Learning. Edinburgh, Scotland, UK: Icml.cc/Omnipress, 2012. 1881-1888
    [57] Hermans M, Schrauwen B. Training and analyzing deep recurrent neural networks. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2013. 190-198
    [58] Chaturvedi I, Ong Y S, Tsang I W, Welsch R E, Cambria E. Learning word dependencies in text by means of a deep recurrent belief network. Knowledge-Based Systems, 2016, 108: 144-154 doi: 10.1016/j.knosys.2016.07.019
    [59] Pascanu R, Ģülçehre C, Cho K, Bengio Y. How to construct deep recurrent neural networks. In: Proceedings of the 2nd International Conference on Learning Representations. Banff, AB, Canada: ICLR, 2014.
    [60] Mohamed A R, Dahl G E, Hinton G E. Acoustic modeling using deep belief networks. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 14-22 doi: 10.1109/TASL.2011.2109382
    [61] Wang G M, Qiao J F, Li X L, Wang L, Qian X L. Improved classification with semi-supervised deep belief network. IFAC-PapersOnLine, 2017, 50(1): 4174-4179 doi: 10.1016/j.ifacol.2017.08.807
    [62] Lopes N, Ribeiro B. Improving convergence of restricted Boltzmann machines via a learning adaptive step size. In: Proceedings of the 17th Iberoamerican Congress on Pattern Recognition. Buenos Aires, Argentina: Springer, 2012. 511-518
    [63] Raina R, Madhavan A, Ng A Y. Large-scale deep unsupervised learning using graphics processors. In: Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada: ACM, 2009. 873-880
    [64] Sierra-Sosa D, Garcia-Zapirain B, Castillo C, Oleagordia I, Nu?o-Solinis R, Urtaran-Laresgoiti M, Elmaghraby A. Scalable Healthcare Assessment for Diabetic Patients Using Deep Learning on Multiple GPUs. IEEE Transactions on Industrial Informatics, 2019, 15(10): 5682-5689 doi: 10.1109/TII.2019.2919168
    [65] Lopes N, Ribeiro B. Towards adaptive learning with improved convergence of deep belief networks on graphics processing units. Pattern recognition, 2014, 47(1): 114-127 doi: 10.1016/j.patcog.2013.06.029
    [66] 王功明, 李文静, 乔俊飞.基于PLSR自适应深度信念网络的出水总磷预测.化工学报, 2017, 68(5): 1987-1997

    Wang Gong-Ming, Li Wen-Jing, Qiao Jun-Fei. Prediction of effluent total phosphorus using PLSR-based adaptive deep belief network. CIESC Journal, 2017, 68(5): 1987-1997
    [67] Belkin M, Niyogi P. Laplacian eigenmaps for dimensionality reduction and data representation. Neural Computation, 2003, 15(6): 1373-1396 doi: 10.1162/089976603321780317
    [68] Chapelle O, Weston J, Schölkopf B. Cluster kernels for semi-supervised learning. In: Proceedings of the 15th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: MIT Press, 2003. 601-608
    [69] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines. In: Proceedings of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008. 536-543
    [70] Lasserre J A, Bishop C M, Minka T P. Principled hybrids of generative and discriminative models. In: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA: IEEE, 2006. 87-94
    [71] Larochelle H, Erhan D, Bengio Y. Zero-data learning of new tasks. In: Proceedings of the 23rd AAAI Conference on Artificial Intelligence. Chicago, Illinois, USA: AAAI Press, 2008. 646-651
    [72] Sun X C, Li T, Li Q, Huang Y, Li Y Q. Deep belief echo-state network and its application to time series prediction. Knowledge-Based Systems, 2017, 130: 17-29 doi: 10.1016/j.knosys.2017.05.022
    [73] Deng Y, Ren Z Q, Kong Y Y, Bao F, Dai Q H. A hierarchical fused fuzzy deep neural network for data classification. IEEE Transactions on Fuzzy Systems, 2017, 25(4): 1006-1012 doi: 10.1109/TFUZZ.2016.2574915
    [74] Janik L J, Forrester S T, Rawson A. The prediction of soil chemical and physical properties from mid-infrared spectroscopy and combined partial least-squares regression and neural networks (PLS-NN) analysis. Chemometrics and Intelligent Laboratory Systems, 2009, 97(2): 179-188 doi: 10.1016/j.chemolab.2009.04.005
    [75] He Y L, Geng Z Q, Xu Y, Zhu Q X. A robust hybrid model integrating enhanced inputs based extreme learning machine with PLSR (PLSR-EIELM) and its application to intelligent measurement. ISA Transactions, 2015, 58: 533-542 doi: 10.1016/j.isatra.2015.06.007
    [76] Furber S B, Lester D R, Plana L A, Garside J D, Painkras E, Temple S, et al. Overview of the spinnaker system architecture. IEEE Transactions on Computers, 2013, 62(12): 2454-2467 doi: 10.1109/TC.2012.142
    [77] Erhan D, Bengio Y, Courville A, Manzagol P A, Vincent P, Bengio S. Why does unsupervised pre-training help deep learning? The Journal of Machine Learning Research, 2010, 11: 625-660
    [78] Angermueller C, PĠrnamaa T, Parts L, Stegle O. Deep learning for computational biology. Molecular Systems Biology, 2016, 12(7): 878 doi: 10.15252/msb.20156651
    [79] Min S, Lee B, Yoon S. Deep learning in bioinformatics. Briefings in Bioinformatics, 2017, 18(5): 851-869
    [80] Gharehbaghi A, Lindén M. A Deep Machine Learning Method for Classifying Cyclic Time Series of Biological Signals Using Time-Growing Neural Network. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(9): 4102-4115 doi: 10.1109/TNNLS.2017.2754294
    [81] Denil M, Shakibi B, Dinh L, Ranzato M, de Freitas N. Predicting parameters in deep learning. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2013. 2148-2156
    [82] Lenz I, Knepper R, Saxena A. DeepMPC: Learning deep latent features for model predictive control. In: Proceedings of the Robotics: Science and Systems XI. Rome, Italy: 2015.
  • 期刊类型引用(3)

    1. 郑文康,魏志晴,白艳萍,黄嘉俊,禹秀梅,谭秀辉,王鹏. 基于可分离替代函数算法的DOA估计方法. 陕西科技大学学报. 2024(01): 197-205 . 百度学术
    2. 罗军,张顺生. 联合自适应LASSO与块稀疏贝叶斯直接定位方法. 雷达科学与技术. 2024(03): 265-274 . 百度学术
    3. 杨静,韩丽东. 基于改进SSD算法的城市轨道交通多通道闸机控制研究. 计算机测量与控制. 2023(12): 160-166 . 百度学术

    其他类型引用(6)

  • 加载中
  • 图(11) / 表(3)
    计量
    • 文章访问数:  3008
    • HTML全文浏览量:  1571
    • PDF下载量:  904
    • 被引次数: 9
    出版历程
    • 收稿日期:  2019-02-25
    • 录用日期:  2019-05-19
    • 刊出日期:  2021-01-29

    目录

    /

    返回文章
    返回