2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度信念网络研究现状与展望

王功明 乔俊飞 关丽娜 贾庆山

王功明, 乔俊飞, 关丽娜, 贾庆山.深度信念网络研究现状与展望.自动化学报, 2021, 47(1): 35-49 doi: 10.16383/j.aas.c190102
引用本文: 王功明, 乔俊飞, 关丽娜, 贾庆山.深度信念网络研究现状与展望.自动化学报, 2021, 47(1): 35-49 doi: 10.16383/j.aas.c190102
Wang Gong-Ming, Qiao Jun-Fei, Guan Li-Na, Jia Qing-Shan. Review and prospect on deep belief network.Acta Automatica Sinica, 2021, 47(1): 35-49 doi: 10.16383/j.aas.c190102
Citation: Wang Gong-Ming, Qiao Jun-Fei, Guan Li-Na, Jia Qing-Shan. Review and prospect on deep belief network. Acta Automatica Sinica, 2021, 47(1): 35-49 doi: 10.16383/j.aas.c190102

深度信念网络研究现状与展望

doi: 10.16383/j.aas.c190102
基金项目: 

国家自然科学基金 61533002

详细信息
    作者简介:

    乔俊飞  北京工业大学信息学部自动化学院教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与分析. E-mail: junfeq@bjut.edu.cn

    关丽娜  北京工业大学信息学部博士研究生.主要研究方向为双曲系统稳定性分析及鲁棒控制. E-mail:guanlina@emails.bjut.edu.cn

    贾庆山  清华大学自动化系智能与网络化系统研究中心副教授.主要研究方向为大规模复杂系统的优化控制理论与方法研究, 并将其应用于能源系统、制造系统、建筑系统、疏散控制系统、机器人系统、生物系统、信息物理系统以及物联网系统等. E-mail: jiaqs@tsinghua.edu.cn

    通讯作者:

    王功明  北京工业大学信息学部博士研究生.主要研究方向为深度学习, 神经网络结构设计与优化控制策略.本文通信作者. E-mail: xiaowangqsd@163.com

Review and Prospect on Deep Belief Network

Funds: 

National Natural Science Foundation of China 61533002

More Information
    Author Bio:

    QIAO Jun-Fei   Professor at Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, structure design and analysis for neural networks

    GUAN Li-Na  Ph. D. candidate at Faculty of Information Technology, Beijing University of Technology. Her research interest covers stability analysis and robust control for hyperbolic system

    JIA Qing-Shan   Associate professor at Center for Intelligent and Networked Systems, Department of Automation, Tsinghua University. His research interest covers optimization control theory and method research for large-scale complex systems and their applications in the energy system, manufacturing systems, building systems, evacuation control systems, robot systems, biological systems, cyber-physical systems and internet of things systems

    Corresponding author: WANG Gong-Ming   Ph. D. candidate at Faculty of Information Technology, Beijing University of Technology. His research interest covers deep learning, structure design and optimization control strategy for neural networks. Corresponding author of this paper
  • 摘要: 深度信念网络(Deep belief network, DBN)是一种基于深度学习的生成模型, 克服了传统梯度类学习算法在处理深层结构所面临的梯度消失问题, 近几年来已成为深度学习领域的研究热点之一.基于分阶段学习的思想, 人们设计了不同结构和学习算法的深度信念网络模型.本文在回顾总结深度信念网络的研究现状基础上, 给出了其发展趋势.首先, 给出深度信念网络的基本模型结构以及其标准的学习框架, 并分析了深度信念网络与其他深度结构的关系与区别; 其次, 回顾总结深度信念网络研究现状, 基于标准模型分析不同深度信念网络结构的性能; 第三, 给出深度信念网络的不同无监督预训练和有监督调优算法, 并分析其性能; 最后, 给出深度信念网络今后的发展趋势以及未来值得研究的方向.
    Recommended by Associate Editor ZHANG Min-Ling
  • 人工神经网络是计算机模拟人类大脑处理信息的一种运算模式, 即通过训练输入和输出数据, 使网络得到关于输入和输出的非线性映射关系, 从而在未来的任务中进行自主计算.因此, 人工神经网络是计算机科学、认知科学、脑科学和数学的交叉学科, 其在模式识别、智能控制、多种信号处理、优化设计等领域得到较大的发展, 并已在信息产业中得到了成功的应用[1-5]. 20世纪八十年代末期, 用于人工神经网络的反向传播算法(Back-propagation, BP)的发明, 给机器学习带来了希望, 掀起了基于统计模型的机器学习热潮.这个时候的人工神经网络虽然也被称作多层感知器(Multi-layer perceptron, MLP), 但实际上是一种只含有一个隐含层的浅层人工神经网络模型.进入21世纪以后, 随着互联网的高速发展, 对大数据的智能化分析和预测提出了巨大需求.由于浅层网络往往采用梯度类学习算法, 人为经验因素较多, 缺乏自主学习过程且对初始参数的设定依赖性较强[6-8], 这限制了神经网络的特征自动提取能力, 使得其在处理大规模不确定性数据时往往误差较大.生物神经系统学研究结果表明, 人类的智能主要取决于大脑皮层, 而大脑皮层是一个大规模互连的深层生物神经网络[9-11], 主要认知方式是无监督自主学习与推理.探求大脑的组织结构和运行机制, 从模仿人脑深层学习机制的角度出发, 寻求新的信息处理方法是当前人工智能领域发展的优先方向.然而, 由于理论分析的难度, 加上训练方法需要很多经验和技巧, 所以这个时期深层人工神经网络相对较为沉寂.

    2006年, 加拿大多伦多大学教授、机器学习领域泰斗—Geoffrey Hinton和他的学生Ruslan Salakhutdinov在顶尖学术刊物《Science》上发表了一篇文章, 开启了深度学习(Deep learning, DL)在学术界和工业界的浪潮[12-14].主要思想是利用"逐层初始化(Layer-wise pre-training)"来完成自主学习与推理过程, 从而有效克服深层结构的训练困难.近几年来, 深度学习凭借其模拟人脑分层学习和自主推理的认知机理逐渐成为研究热点[15], 同时也带动了人工神经网络领域的进一步发展.由于深度学习能够在大量数据任务中快速稳定地计算, 这推动了云计算、大数据科学的发展, 如今已经在自然语义理解、模式识别问题、机器人学和数据挖掘等方面得到了较好的应用[16-19], 甚至在机器情感分析方面也开始被研究, 使得该领域朝着图灵机的实现又迈进了一大步. 2016年, 利用深度学习技术训练过的阿尔法围棋(AlphaGo)击败人类围棋冠军, 引起了学术界和科技界的巨大轰动, 并激起了人们对深度学习研究的再一次热潮.

    目前, 深度信念网络(Deep belief network, DBN)是深度学习的主要实现方法之一. DBN是具有若干潜变量层的生成模型.潜变量通常是二值的, 而可见单元可以是二值或实数[20-21].尽管构造连接比较稀疏的DBN是可能的, 但在一般的模型中, 每层的每个单元连接到每个相邻层中的每个单元, 而层内没有连接. DBN可以通过若干个受限玻尔兹曼机(Restricted Boltzmann machine, RBM)的顺序堆叠来构造, 其学习过程分为两个阶段, 即首先对RBM进行逐层无监督预训练, 再用反向传播算法对整个网络进行有监督的调优. DBN的这种分阶段训练方法使其在学习深层结构上取得了一定的成功, 并在图像处理、模式识别、系统建模和预测等任务中得到了关注和研究[20, 22-27].

    近年来, 众多学者在现有DBN结构和学习算法的基础上进行了拓展与改进, 并提出了多种类型的DBN变种模型.目前, 比较常见的DBN变种模型主要有稀疏DBN[28-29]、自组织DBN[26]、增量式DBN[27]、递归DBN[30].与传统的DBN相比, 改进型的DBN分别在各自的聚焦点上取得了部分性能上的提升.但是, 在结构自主确定方面, DBN仍然存在一些难以解决的瓶颈问题, 相关的研究工作还处于刚刚起步状态, 在理论、技术以及应用层面上还有很大的提升空间, 在未来一段时间内仍将是深度学习研究中比较热门的研究方向之一.

    深度信念网络是为了简化逻辑斯蒂信念网络的推理困难而提出的一种深度模型, 也是目前深度学习最主要的实现方式之一. DBN可以通过受限玻尔兹曼机的顺序堆叠来构造, 其学习过程分为两个阶段, 首先是对RBM进行逐层无监督预训练, 然后再用反向传播算法对整个网络进行有监督的调优.本节重点介绍DBN的无监督学习. RBM和DBN的结构分别如图 1图 2所示.

    图 1  RBM结构图
    Fig. 1  Structure of RBM
    图 2  DBN结构图
    Fig. 2  Structure of DBN

    给定模型参数$ {\mathit{\boldsymbol{\theta}}} = ({\mathit{\boldsymbol{w}}}^R, {\mathit{\boldsymbol{b}}}_v, {\mathit{\boldsymbol{b}}}_h) $, 那么可视层和隐含层的联合概率分布$ P({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}; {\mathit{\boldsymbol{\theta}}}) $用能量函数$ E({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}; {\mathit{\boldsymbol{\theta}}}) $定义为

    $$ \begin{equation} P({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}; {\mathit{\boldsymbol{\theta}}}) = \frac{1}{Z} {\rm e}^{-E({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}; {\mathit{\boldsymbol{\theta}}})} \end{equation} $$ (1)

    其中, $ Z = \sum_{{\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}}{\rm e}^{-E({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}; {\mathit{\boldsymbol{\theta}}})} $是归一化因子, 模型关于$ {\mathit{\boldsymbol{v}}} $的边缘分布为

    $$ \begin{equation} P({\mathit{\boldsymbol{v}}}; {\mathit{\boldsymbol{\theta}}}) = \frac{1}{Z}\sum\limits_{{\mathit{\boldsymbol{h}}}} {\rm e}^{-E({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}; {\mathit{\boldsymbol{\theta}}})} \end{equation} $$ (2)

    对于一个伯努利(可视层)分布–伯努利(隐含层)分布的RBM, 能量函数定义为

    $$ \begin{align} E(\mathit{\boldsymbol{v}}, \mathit{\boldsymbol{h}};{\mathit{\boldsymbol{\theta}}}) = \, &-\sum^{m}_{i = 1} b_{vi} v_i -\sum^{n}_{j = 1} b_{hj} h_j -\\&\sum^{m}_{i = 1}\sum^{n}_{j = 1} v_i w_{ij}^R h_j \end{align} $$ (3)

    其中, $ w_{ij}^R $是RBM的连接权值, $ b_{vi} $和$ b_{hj} $分别表示可视层节点和隐含层节点的偏置.那么条件概率分布可表示为

    $$ \begin{equation} P\left(h_j = \frac{1}{\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{\theta}}}\right) = \sigma \left( b_{hj}+\sum\limits_{i = 1} ^{m} v_i {w}^{R}_{ij}\right) \end{equation} $$ (4)
    $$ \begin{equation} P\left(v_i = \frac{1}{\mathit{\boldsymbol{h}}}, {\mathit{\boldsymbol{\theta}}}\right) = \sigma \left( b_{vi}+\sum\limits_{j = 1} ^{n} {w}^{R}_{ij} h_j\right) \end{equation} $$ (5)

    式中, $ \sigma(\cdot) $是一个Sigmoid函数.

    由于可视层和隐含层是伯努利的二值状态, 所以判断它们二值概率取值的标准常通过设定一个阈值来实现[31].

    通过计算对数似然函数log$ P({\mathit{\boldsymbol{v}}}; {\mathit{\boldsymbol{\theta}}}) $的梯度, 可以得到RBM权值更新公式为

    $$ \begin{equation} w_{ij}^R(\tau+1) = w_{ij}^R(\tau)+\eta \Delta w_{ij}^R \end{equation} $$ (6)
    $$ \begin{equation} \Delta w_{ij}^R = E_{\rm data}(v_i h_j)-E_{\rm model}(v_i h_j) \end{equation} $$ (7)

    式中, $ \tau $和$ \eta $分别表示RBM的迭代次数和学习率, $ E_{\rm data}(v_i h_j) $和$ E_{\rm model}(v_i h_j) $分别表示训练集中观测数据的期望和模型所确定分布上的期望[32].特别地, RBM有一个有趣的性质, 即当利用基于最大似然的学习规则训练时, 连接两个神经元的特定权重的更新仅取决于这两个神经元在不同分布下收集的统计信息: $ P_{\rm model}({\mathit{\boldsymbol{v}}}) $和$ \hat{P}_{\rm data}({\mathit{\boldsymbol{h}}}/{\mathit{\boldsymbol{v}}}) $.网络的其余部分参与塑造这些统计信息, 但是权值参数可以在完全不知道网络其余部分或这些统计信息如何产生的情况下更新.这意味着学习规则是"局部"的, 这使得RBM的学习似乎在某种程度上是符合生物学机理.我们可以设想每个神经元都是RBM中随机变量的情况, 那么连接两个随机变量的轴突和树突只能通过观察与它们物理上实际接触细胞的激发模式来学习.特别地, 经常发生某种强烈的脉冲激励时的两个神经元之间的连接会被加强, 这就是Hebb学习规则的核心思想. Hebb学习规则给出了生理学与心理学之间的内在联系, 该规则至今仍被许多神经网络学习算法所使用.

    作为一种深层网络模型, DBN兼具生成模型和判别模型的双重属性.因为DBN的预训练过程主要用来表达数据的高阶相关性或者描述数据的联合统计分布, 具有生成模型的特点; DBN有监督调优过程通常用来分类数据的内在模式或者描述数据的后验分布, 具有判别模型的特点.这里的"生成"是指从隐含层到输入数据的的重构过程, 而"判别"是指从输入数据到隐含层的归约过程.同时, 作为一种生成模型, 生成式对抗网络(Generative adversarial network, GAN)近年来同样受到很大的关注并进行了广泛的应用[32-33]. GAN实质上属于一种基于深度学习的混合模型, 其通过框架中生成模型和判别模型的互相博弈学习产生相当好的输出.从数据生成角度看, GAN的数据生成过程是在有监督信号的反馈作用下完成的.而DBN作为一种生成模型时, 其监督信号是数据本身, 即通过对原始数据的重构完成网络的训练, 从而具有生成能力.具体应用中, DBN常作为GAN的生成模型, 与判别模型进行对抗学习[32].

    DBN学习模型的优点是通过组合许多RBM, 把上一层RBM的特征激励作为下一层的训练数据, 可以高效地对隐含层进行学习.递归神经网络(Recurrent neural networks, RNN), 它的深度甚至可以达到和输入数据序列的长度一致.在无监督学习模式下, RNN被用来根据先前的数据样本预测未来的数据序列, 并且学习过程中没有用到类别信息.然而, RNN在近几年才得以广泛使用, 部分原因是由于在训练中遇到的梯度弥散或梯度爆炸问题, 它很难通过训练来捕捉长时相关性.随着在Hessian-free优化研究方面的进展, 在一定程度上解决了这个问题, 该方法使用了近似二阶信息或随机曲率估计.另外, RNN没有基于无监督预训练的参数初始化过程, 这也是其与DBN在训练原理上的最大区别.

    卷积神经网络(Convolutional neural networks, CNN)是另一种具有判别性能的深度学习网络, 它的每个模块都是由卷积层(Convolutional layer)和池化层(Pooling layer)组成.卷积层共享权值, 池化层对卷积层的输出进行降采样, 减少了下一层的数据量.研究发现, CNN的应用主要集中于计算机视觉或者图像识别领域, 并且效果较为出色[34].而DBN的应用则广泛分布于计算机视觉和数据建模及预测等领域.另一种与DBN相似的深度结构基本学习模型是自编码器(Auto encoder), 自编码器主要用于完成数据转换的学习任务, 在本质上是一种无监督学习的非线性特征提取模型.自编码器与DBN也有着重要的区别, 这种区别的核心在于:自编码器希望通过非线性变换找到输入数据的特征表示, 它是某种确定论性的模型; 而DBN的训练则是围绕概率分布进行的, 它通过输入数据的概率分布(能量函数)来提取高层表示, 是某种概率论性的模型.

    另外, DBN具有较多的超参数, 可分为两类:一类是训练参数(如学习率和动量项); 另一类是定义网络结构的参数(如网络层数和每层神经元数).前者的自动调优属于超参数优化(Hyperparameter optimization, HO)的范畴, 而后者的自动调优一般称为神经网络架构搜索(Neural architecture search, NAS).严格地讲, NAS属于DBN结构设计的方法之一, 目前DBN结构设计大多数通过提前赋值来完成, 即在网络训练过程中结构不变, 只有训练参数在不断调整.本文即将介绍的两种变结构设计策略(自组织结构和增量式结构)对固定结构来讲是一种突破, 但是与NAS又存在区别, 主要体现在: NAS先定义搜索空间, 然后通过搜索策略找出候选网络结构, 对它们进行评估, 根据反馈进行下一轮的搜索; 而变结构策略只要是以某种触发机制或误差导向来实时调整结构规模.

    目前最为常见的DBN应用形式是定结构模型, 即在训练过程中DBN结构固定不变.尽管现在与其他无监督或生成学习算法相比, 固定结构的DBN大多已经失去了青睐并很少使用, 但它们在深度学习历史中的重要作用仍应该得到承认[20].定结构DBN在处理实际复杂数据时, 无监督预训练和反向传播调优算法均具有提升和改进的空间, 主要表现在预训练耗时和调优精度两方面.同时, 定结构DBN主要是通过足够的经验和充足的数据来确定其结构, 且其结构一旦确定将不再调整, 这导致定结构DBN无法满足待处理数据的多样性变化要求.

    众所周知, DBN具有很强的计算和信息处理能力, 但是它对于模式识别、感知以及在复杂环境中作决策等问题的处理能力却远不如人.神经生理学研究结果表明, 人的智能主要取决于大脑皮层, 而大脑皮层是一个大规模互连的生物深度神经网络.在处理不同信息时, 生物深度神经网络会启用不同的神经元连接结构, 也就是说, 其采用的是一种变结构的信息处理机制[35].而在实际过程中, 定结构DBN只是通过改变权值参数来适应任务的变化, 但如何构造一种DBN使其结构在动态调整的同时不断调整权值参数, 是今后DBN发展的趋势, 也是一个开放且尚未解决的问题[36].

    研究发现, 现有的DBN模型在学习过程中内部神经元之间的权值连接均是一种密集表述[37-38].然而, 在深度学习算法中, 一个主要的目的是独立地表述数据的差异[36], 密集表述容易导致网络不稳定, 因为任何输入上的扰动都会引起中间隐含层特征表述向量发生变化, 甚至是巨变[38].稀疏表述就是用较少的基本信号的线性组合来表述大部分或者全部的原始信号.利用稀疏表述对DBN进行稀疏连接训练, 可以有效地降低输入扰动对中间隐含层特征表述向量的影响[39].无监督学习过程中的稀疏表述原理如图 3所示.

    图 3  稀疏表述原理图
    Fig. 3  Sparse representation scheme

    Lee等[40]通过在RBM训练过程中引入一个正则化惩罚项来降低密集表述的程度.具体来讲, 首先设置一个隐含层神经元的期望激活强度值, 然后惩罚隐含层神经元实际激活强度与期望激活强度之间的偏差.给定$ m $组训练数据集$ \left({\mathit{\boldsymbol{v}}}^{(1)}, \dots, {\mathit{\boldsymbol{v}}}^{(m)}\right) $, 其实现稀疏表述的优化问题为

    $$ \begin{equation} \begin{aligned} & \underset{\theta}{\text{Maximize}} & \mathrm{log} P({\mathit{\boldsymbol{v}}})+\lambda R_{\rm {sparse1}} \end{aligned} \end{equation} $$ (8)
    $$ \begin{equation} R_{\rm {sparse1}} = -\left| \mu-\frac{1}{n} \sum\limits_{j = 1}^n E\left(\frac{h_j}{{\mathit{\boldsymbol{v}}}} \right) \right|^2 \end{equation} $$ (9)

    其中, $ \lambda $是正则化常数, $ \mu $是控制着第$ j $个隐含层神经元稀疏度的期望激活强度值, 通过这种提前给定期望激活阈值的方法可以实现一定意义上的稀疏表述.

    为了使所有隐含层神经元能够以一定的概率或者波动性逼近期望激活强度值, Keyvanrad等[41]通过引入正态函数的集中分布思想来控制网络的稀疏度.根据这种思想, 对应于稀疏表述优化问题的正则化项可表示为

    $$ \begin{equation} R_{\rm{sparse2}} = \sum\limits_{j = 1}^n \frac{1}{\sigma \sqrt{2\pi}} {\rm e}^ {-\frac{(h_{j}-\mu)^{2}} {2\sigma^{2}}} \end{equation} $$ (10)

    其中, $ \sigma $是控制稀疏强度波动性的方差.

    同时, 应该注意到参数的设置对网络学习效果的影响是显著的[38], 如果设置不当, 要实现较高精度的建模并学习到正确的特征信息往往比较困难.因此上述稀疏表述方法虽然在网络性能的鲁棒性方面取得一定程度的效果, 但对无监督学习的迭代次数和神经元数量等有一定依赖.

    目前DBN在应用中存在一个重要问题, 即针对不同的问题, DBN需要提前设置网络深度, 然后利用经验法比较各种不同深度的精度和训练效果.这极大地制约了网络解决问题时的效率, 使DBN的进一步推广与应用受到很大限制.实际上, 著名深度学习专家Bengio在2009年提出了一个与此类似的问题[36], 该问题原文描述为: "Is there a depth that is mostly sufficient for the computations necessary to approach human-level performance of AI tasks?".意思是, 是否存在一个合适深度的DBN, 可以用来尽可能像人类解决问题那样去解决大多数的AI问题呢?由于该问题比较笼统, 涉及的学科范围太广, 很难通过一个有效的数学方法来解决该问题, 难以设计出包含较多的特征并具有代表性的实验对其进行验证, 因此该问题在短时间内难以得到彻底的解决.目前, 针对此问题的初步试探性解决方法有结构自组织策略和凑试法.本节只介绍结构自组织策略.

    Qiao等[26]提出了一种基于神经元激活强度和误差下降率最小化的结构自组织方法.首先, 在无监督预训练阶段将隐含层神经元的激活强度作为神经元的"贡献度", 并根据"贡献度"的大小对神经元进行增加或删减.其次, 在有监督调优阶段, 将训练误差的下降率作为隐含层的删减标准, 当训练误差下降率首次出现递减时删掉一个隐含层, 否则增加隐含层.激活强度$ SI $可表示为

    $$ \begin{equation} SI_i^l = \alpha \frac{s_{i \cdot l}^2}{1+s_{i \cdot l}^2+o_{i \cdot l}^2} \end{equation} $$ (11)

    其中, $ \alpha $是正常数, $ o_{i \cdot l} $是第$ l $个隐含层的第$ i $个神经元的输出, $ i = 1, 2, 3, \cdots, N_l $, $ N_l $是第$ l $个隐含层的神经元个数, $ s_{i \cdot l} $表示第$ l $个隐含层的第$ i $个神经元的输入权值之和, 可通过如下公式计算得到

    $$ \begin{equation} s_{i \cdot l}^2 = \sum\limits_{j = 1}^{n_i}w_{ij}r_{ij} \end{equation} $$ (12)

    其中, $ r_{ij} $是$ i $个神经元的第$ j $个输入量, $ w_{ij} $是第$ j $个输入神经元和第$ i $个神经元之间的连接权值, $ n_i $是第$ i $个神经元的输入神经元个数, $ s_{i \cdot l} $所表示的权值连接过程如图 4所示. DBN的结构自组织策略原理如图 5所示.

    图 4  计算激活强度的权值连接过程
    Fig. 4  Weights connecting process of computing spiking intensity
    图 5  结构自组织策略原理图
    Fig. 5  Self-organizing structure strategy scheme

    在传统浅层神经网络的结构设计方面, 研究人员注重结构自组织设计方法[42-43], 即根据神经元激活强度的大小来增加或者删减结构.尽管结构自组织设计方法在浅层神经网络中得到了成功的应用并取得了较好的效果, 但关于DBN结构自组织方法的研究却非常有限.本节介绍的基于传统自组织方法的变结构DBN模型在学习精度上有所提高, 但是在学习效率方面提高不明显, 相关研究还需要进一步加强.

    与传统浅层神经网络的结构自组织相比, DBN结构自组织策略一直没有得到学术界的广泛关注, 主要原因有: 1)自组织方法将神经元的激活强度作为增加和删减结构的评判标准, 而DBN往往拥有多个隐含层且每个隐含层含有较多的神经元, 这导致DBN自组织设计过程复杂且计算量庞大[26]; 2)预训练好的初始DBN可被视为一种知识源域(Source domain), 其中的知识可被视为一种可重复利用的经验[44], 但是结构自组织方法未能在知识源域到目标域(Target domain)之间实现知识的转移.因此, 在DBN结构自组织过程中需要不间断地对目标域内若干个新增子结构进行参数初始化, 从而导致自组织方法在DBN结构设计中应用成本较高, 甚至难以实现.

    通过上述分析可知, DBN结构自组织方法遇到的主要障碍是计算量巨大, 而如何在知识源域与目标域之间实现知识的有效转移成为关键.迁移学习(Transfer learning, TL)是一种旨在实现知识转移的学习方法且具有较强的鲁棒性[45-47].常用的迁移学习方法是:首先训练一个模型并将其作为知识源域, 然后再利用特定的方法将知识源域中可重复利用的知识转移到目标域中来加速新结构的学习过程[48-49], 从而提高复杂模型的训练效率.近些年来, 基于迁移学习的神经网络复合训练方法大批涌现并取得了较好的效果[50-51].

    为了解决上述问题, Wang等[27]提出了一种基于迁移学习策略的增量式深度信念网络(TL-GDBN)模型.相较于浅层神经网络的结构自组织方法, 不同之处在于TL-GDBN没有利用神经元的激活强度作为结构增长或删减的依据.首先, 初始化一个单隐含层DBN并对其进行预训练(Pre-training), 然后固定预训练好的初始DBN并将其作为知识源域.其次, 在初始DBN的基础上不断增加固定规模的隐含层和神经元并将其作为目标域, 同时建立基于迁移学习的知识转移规则来加速目标域的训练过程.第三, 根据TL-GDBN的预训练的重构误差设置结构增长的停止准则及其阈值, 从而获得最优的结构.

    基于迁移学习的增量式深度信念网络(TL-GDBN)的结构增长过程仅在预训练阶段进行.每一步的结构增长包括神经元和隐含层两部分.数据被分为三部分:训练数据(Training data)、验证数据(Validating data)和测试数据(Testing data).训练数据用来预训练初始DBN并获得知识源域, 验证数据用来结合迁移学习实现TL-GDBN结构的增量式变化, 测试数据用来测试TL-GDBN.预训练结束后TL-GDBN结构将不再变化.

    知识在迁移学习规则下持续地被转移到新增结构中, TL-GDBN的一步结构增长过程如下:

    步骤1.结构初始化和预训练.首先初始化一个单隐含层的DBN结构, 然后利用对比散度(Contrastive divergence, CD)算法和训练数据进行预训练.假设初始化DBN的输入和其隐含层神经元的个数分别为$ m $和$ n, $那么预训练后学习到的知识(权值参数矩阵) $ {{\mathit{\boldsymbol{w}}}}_1^R\in{\bf R}^{m \times n} $将被保存在知识源域中.

    步骤2.增加神经元.增加两倍于初始DBN隐含层神经元数量的神经元, 新的权值参数矩阵变为$ \hat{ \mathit{\boldsymbol{w}}}_1^{R} \in {\bf R}^{m \times 3n} $.

    步骤3.增加隐含层.增加与初始DBN具有相同数量神经元的隐含层, 对应的新增权值参数矩阵为$ \mathit{\boldsymbol{w_2}}^R \in {\bf R}^{3n \times n} $.

    步骤4.计算预训练过程的重构误差, 并将重构误差作为预训练过程误差.

    步骤5.设置结构增长的停止准则.利用验证数据计算重构误差, 并将重构误差的连续若干步的减小量作为结构增长的停止准则.同时设置停止准则的阈值, 当训练过程中的重构误差满足阈值条件时, TL-GDBN结构停止增长并进入步骤6;否则, 跳转到步骤2.

    步骤6.固定当前TL-GDBN的最优结构, 预训练过程结束.

    TL-GDBN的一步结构增长过程原理如图 6所示.结构增长过程一旦结束, TL-GDBN的结构和对应的初始权值参数即被确定.

    图 6  TL-GDBN的一步增长过程
    Fig. 6  Illustration of one-growing step

    实验结果发现, TL-GDBN的稀疏度随着结构的不断扩大而表现出先增大后稳定的趋势.这种趋势表明在结构增长过程中TL-GDBN的密集表述越来越弱, 网络各隐含层提取到的特征向量受输入波动影响的程度也越来越弱, 即网络鲁棒性较强.

    然而, 关于如何进行知识迁移仍然是一个难点, 究其原因主要在于:在迁移学习中, 学习器必须执行两个或更多个不同的任务, 但是我们假设能够解释$ P_1 $变化的许多因素和学习$ P_2 $需要抓住的变化相关.例如, 我们可能在第一种情景中学习了一组数据分布特性, 然后在第二种场景中学习了另一组数据分布特性.如果第一种情景$ P_1 $中具有非常多的数据, 那么这有助于学习到能够使得从$ P_2 $抽取的非常少的样本中快速泛化表示.一般来讲, 当不同情景或任务存在有用特征时, 并且这些特征对应多个情景出现的潜在因素, 迁移学习可以发挥事半功倍的效果.然而, 有时不同任务之间共享的不是输入的数据分布特性, 而是输出的目标数据分布特征.这种情况下, 使用迁移学习往往会得到不尽人意的学习效果.

    从学习策略上看, 传统DBN模型是一种前馈网络, 堆叠的RBM只能保存暂时的信息(达到能量平衡后的稳态信息), 故现有的DBN模型对时间序列的建模与预测精度相对较低[52-55]. Ichimura等[30]提出一种递归深度信念网络(RNN-DBN), 其在结构上是由若干个递归受限玻尔兹曼机(RNN-RBM)[56]堆叠组成.而RNN-RBM则是在递归时间RBM (RTRBM)的基础上发展起来的[52], 是一种基于能量的时域序列密度估计模型. RTRBM结构如图 7所示.

    图 7  RTRBM的结构图
    Fig. 7  RTRBM structure

    图 7中每一个框代表一个RBM, $ {\mathit{\boldsymbol{h}}} $是隐含层, $ {\mathit{\boldsymbol{v}}} $是可视层, 双向箭头表示$ {\mathit{\boldsymbol{h}}} $和$ {\mathit{\boldsymbol{v}}} $生成的条件概率, 即:

    $$ \begin{equation} P\left({\mathit{\boldsymbol{v}}}^{(t)}, {\mathit{\boldsymbol{h}}}^{(t)}\right) = \prod\limits_{t = 1}^{T} P\left({\mathit{\boldsymbol{v}}}^{(t)}, {\mathit{\boldsymbol{h}}}^{(t)}/A^{(t)}\right) \end{equation} $$ (13)

    其中, $ A^{(t)} = \left({\mathit{\boldsymbol{v}}}^{(\tau)}, {\mathit{\boldsymbol{h}}}^{(\tau)}/\tau <t\right) $表示所有$ t $时刻之前的$ ({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{h}}}) $集合.此外对于RTRBM, 可以理解为每个时刻可以由上一时刻的状态$ {\mathit{\boldsymbol{h}}}^{(t-1)} $对该时刻产生影响(通过$ W_{{\mathit{\boldsymbol{h}}} {\mathit{\boldsymbol{h}}}} $和$ W_{{\mathit{\boldsymbol{h}}} {\mathit{\boldsymbol{v}}}} $), 然后通过RBM得到一个$ \left({\mathit{\boldsymbol{h}}} (t), {\mathit{\boldsymbol{v}}}(t)\right) $稳态.由于每一个参数都和上一时刻的参数有关, 可以认为只有偏置项是受隐含层影响的, 即:

    $$ \begin{equation} {\mathit{\boldsymbol{b}}}_h^{(t)} = {\mathit{\boldsymbol{b}}}_h+{\mathit{\boldsymbol{W}}}_{{\mathit{\boldsymbol{h}}} {\mathit{\boldsymbol{h}}}} {\mathit{\boldsymbol{h}}}^{(t-1)} \end{equation} $$ (14)
    $$ \begin{equation} {\mathit{\boldsymbol{b}}}_v^{(t)} = {\mathit{\boldsymbol{b}}}_v+{\mathit{\boldsymbol{W}}}_{{\mathit{\boldsymbol{h}}} {\mathit{\boldsymbol{v}}}} {\mathit{\boldsymbol{h}}}^{(t-1)} \end{equation} $$ (15)

    从结构和学习过程中可以看出, RTRBM的隐含层描述的是可视层的条件概率分布, 只能保存暂时的信息(达到稳态的信息).将RTRBM中的隐含层用递归网络代替时, 就可以得到RNN-RBM, 其结构由图 8所示.上面每个框代表一个RBM, 而下面的框则表示一个按时间展开了的RNN.这样设计的好处是把隐含层分离了, $ {\mathit{\boldsymbol{h}}} $只用于表示当前RBM的稳态状态, $ {\mathit{\boldsymbol{u}}} $表示RNN里的隐含层节点.通过顺序堆叠RNN-RBM可以得到RNN-DBN, 其结构如图 9所示.

    图 8  RNN-RBM的结构图
    Fig. 8  RNN-RBM structure
    图 9  RNN-DBN的结构图
    Fig. 9  RNN-DBN structure

    尽管RNN-DBN在结构和学习算法上取得了成功, 但是其稳定性和收敛性却成为一个新的复杂问题[57-59].例如, 在取得较高建模精度的同时如何分析RNN-DBN递归算法的稳定性和收敛性等问题仍需要继续深入研究.

    以上所述几种DBN结构均在各自的关注点上取得到了进步, 但距离网络性能的整体提升还有差距.稀疏DBN是在定结构基础上为了提升网络输出鲁棒性能(稳定性)而提出的, 其适用于处理复杂数据并探索无监督学习过程的稀疏连接原理.自组织DBN和增量式DBN是在定结构基础上提出的变结构衍生模型, 它们的主要目的是探索如何利用变结构机制来提升网络的学习效率.需要指出的是, 增量式DBN利用了知识迁移策略, 适用于标签数据不足且知识源域与目标域的数据分布特性相似的场景, 而自组织DBN则是利用了神经元的激活度, 对应用场景没有特别的要求.递归DBN是一种带有反馈连接的深层结构, 主要应用在时间序列建模和预测.

    以上介绍的4种DBN学习结构均从各自的出发点解决了不同的学习问题, 并提高了相应的网络性能.稀疏DBN通过引入稀疏表述提高了网络的输出鲁棒性.自组织DBN是基于神经元激活强度和误差下降率最小化的思想构建的一种结构增加-删减网络, 提高了学习精度.增量式DBN是一种基于迁移学习策略的增长型网络, 其在学习效率和精度方面均得到提高.递归DBN是通过引入反馈环构建的一种学习网络, 其在时间序列预测方面效果较好. 表 1给出了具有不同结构的DBN在Mackey-Glass时间序列建模和预测上20次独立实验的性能对比结果.

    表 1  不同DBN结构的性能对比
    Table 1  Performance comparison of different DBN structures
    结构 训练RMSE 训练时间(s) 测试时间(s)
    均值 方差
    稀疏DBN 0.0468 0.0009 6.91 5.13
    自组织DBN 0.0308 0.0085 6.50 5.06
    增量式DBN 0.0173 0.0012 4.27 3.14
    递归DBN 0.0149 0.0126 6.67 5.11
    下载: 导出CSV 
    | 显示表格

    DBN无监督预训练的目的是通过逐层训练每一个RBM来确定整个网络的初始权值.研究表明, 利用这种无监督的算法来初始化DBN的权值通常会得到比随机初始化权值更好的训练结果[60].目前常用的无监督预训练方法主要是对比散度算法[22].近些年来, 众多学者将加速预训练过程和提高学习精度的思想引入CD算法中, 并提出了基于自适应学习率的CD算法[15]和半监督CD算法[61].

    3.1.1   自适应学习率对比散度

    尽管DBN已经在多个领域实现较好的应用, 但是在理论和学习算法方面仍存在许多难以解决的问题, 其中面临的最大挑战就是其预训练阶段耗时长的问题[36]. Lopes等通过合理地选取学习参数提高了RBM的收敛速度[62], 但是该方法在提高DBN整体学习速度方面效果不佳.经过近几年的研究, 一种基于图像处理单元(Graphic processing unit, GPU)的硬件加速器被应用到DBN算法运算中, 并取得了显著的加速收敛效果[63-65], 该方法的主要问题是硬件设备成本和维护费用太高, 不经济并且也没有从算法的角度提高收敛速度.随着大数据时代的到来, 处理数据的信息量会呈指数级增长, 传统DBN无法快速收敛甚至会难以完成学习任务, 因此如何既快速又经济地完成对大量数据的充分学习是DBN今后发展的一个方向[22].

    乔俊飞和王功明等[15,66]根据RBM训练过程连续两次迭代后的参数更新方向的异同设计了一种自适应学习率方法, 并由此构造了基于自适应学习率的DBN (ALRDBN)模型.学习率自适应更新机制为:

    $$ \begin{equation} \eta = \begin{cases} D \eta_0, & \left(\Delta w_{ij}^R\right)^{(t)} \cdot \left(\Delta w_{ij}^R \right)^{(t+1)} \geq 0 \\ d \eta_0, & \left(\Delta w_{ij}^R\right)^{(t)} \cdot \left(\Delta w_{ij}^R \right)^{(t+1)} <0 \end{cases} \end{equation} $$ (16)
    $$ \begin{equation} \left(\Delta w_{ij}^R\right)^{(t)} = v_i^{(t)}h_j^{(t)}-v_i^{(t+1)}h_j^{(t+1)} \end{equation} $$ (17)
    $$ \begin{equation} \left(\Delta w_{ij}^R \right)^{(t+1)} = v_i^{(t+1)} h_j^{(t+1)}-v_i^{(t+2)} h_j^{(t+2)} \end{equation} $$ (18)

    其中, $ D $和$ d $表示学习率增大系数和减小系数.学习率自适应变化的原理是当连续两次迭代后的参数更新方向(变化量的正负)相同时, 学习率会加大, 相反则减小.

    3.1.2   半监督对比散度

    在深度学习的背景下, 无监督学习可以为如何表示空间聚集样本提供有用线索.在输入空间紧密聚集的样本应该被映射到类似的表示.在许多情况下, 新空间上的线性分类器可以达到较好的泛化效果[67-68].这种方法的一个经典变种是使用主成分分析作为分类前(在投影后的数据上分类)的预处理步骤.而半监督学习通常指的是学习一个表示$ h = f(x) $, 其学习表示的目的是使相同类中的样本有类似的表示.

    尽管DBN的无监督预训练在挖掘数据本质特性方面具有优势, 并且可以采用有监督学习方式对权值进行调优, 但是它本质上是一种无监督学习方法, 因此在分类、识别以及预测等应用领域效果欠佳.在分类方面, Larochelle等[69]将监督信息引入到RBM中, 并提出了一种称为判别式受限玻尔兹曼机(Discriminative RBM).在预测方面, 单一的无监督预训练无法提取监督信息与训练样本之间更为抽象和具体的关联特征.为了兼顾数据特征提取能力和关联特征提取能力, Wang等[61]提出了一种RBM半监督学习算法, 通过隐含层共享和权值绑定将认知模型和生成模型融合到一起.

    针对半监督的学习原理, 可以构建这样一个模型, 其中生成模型$ P(x) $或$ P(x;y) $与判别模型$ P(y/x) $共享参数, 而不用分离无监督和有监督部分.此模型只需权衡有监督模型准则$ -{\rm log}P(y/x) $和无监督或生成模型准则(如$ -{\rm log}P(x) $或$ -{\rm log}P(x; y) $).生成模型准则表达了对有监督学习问题解的特殊形式的先验知识[70], 即$ P(x) $的结构通过某种共享参数的方式连接到$ P(y/x) $.通过控制在总准则中的生成准则, 可以获得比纯生成或纯判别训练准则更好的权衡[70-71].半监督RBM的结构原理如图 10所示.

    图 10  半监督RBM结构
    Fig. 10  Structure of semi-supervised RBM

    半监督RBM的能量函数定义如下:

    $$ \begin{align} E({\mathit{\boldsymbol{v}}}, {\mathit{\boldsymbol{u}}}, {\mathit{\boldsymbol{h}}}/{\mathit{\boldsymbol{\psi}}}) = \, &-\sum\limits_{i = 1}^m b_{vi}v_i-\sum\limits_{j = 1}^n b_{hj}h_j -\\ &\sum\limits_{i = 1}^m \sum\limits_{j = 1}^n b_{vi}w_{ij}^R h_j-\lambda_1 \sum\limits_{k = 1}^K c_{uk}u_k -\\ &\lambda_1 \sum\limits_{k = 1}^K \sum\limits_{j = 1}^n c_{uk}p_{kj}h_j \end{align} $$ (19)

    其中, $ {\mathit{\boldsymbol{\psi}}} = \left({\mathit{\boldsymbol{w}}}^R, {\mathit{\boldsymbol{p}}}, {\mathit{\boldsymbol{b}}}_v, {\mathit{\boldsymbol{b}}}_h, {\mathit{\boldsymbol{c}}}_u\right) $, $ \lambda_1 $为权衡系数, 用于控制模型中无监督学习和有监督学习的比重.根据标准CD算法不难得出半监督RBM的参数学习过程, 即半监督对比散度算法, 此处不再赘述, 由此可得到基于半监督学习的DBN (SDBN)模型.

    DBN有监督调优的目的是根据无监督预训练得到的权值调整网络的生成权值(靶向知识).目前, 常用的有监督调优方法是BP算法和基于偏最小二乘回归(Partial least square regression, PLSR)的调优方法[25].

    3.2.1   梯度下降算法

    有监督学习的目的就是对由无监督学习得到的权值进行调优.目前最常用的DBN的调优方法是BP算法.以图 2中输出层和最后一个隐含层之间的权值$ {\mathit{\boldsymbol{w}}}_{\rm out} $为例, 假设$ {\mathit{\boldsymbol{y}}} $和$ {\mathit{\boldsymbol{d}}} $分别是DBN实际输出和期望输出, 那么计算输出误差对$ {\mathit{\boldsymbol{w}}}_{\rm out} $的梯度, 然后沿着该方向反向进行调整:

    $$ \begin{equation} E(\tau) = \frac{1}{2}\left({\mathit{\boldsymbol{d}}}(\tau)-{\mathit{\boldsymbol{y}}}(\tau)\right)^2 \end{equation} $$ (20)
    $$ \begin{equation} {\mathit{\boldsymbol{w}}}_{\rm out}(\tau+1) = {\mathit{\boldsymbol{w}}}_{\rm out}(\tau)-\eta \frac{\partial E(\tau)}{\partial {\mathit{\boldsymbol{w}}}_{\rm out}(\tau)} \end{equation} $$ (21)

    其中, $ \tau $为迭代次数, $ \eta $为学习率.

    经过调优后可得到输出层和最后一个隐含层之间的更新权值$ {\mathit{\boldsymbol{w}}}_{\rm out} $.利用这种方法从顶层输出层到底层输入层依次调优可以得到整个DBN网络的权值$ {\mathit{\boldsymbol{W}}} = \left({\mathit{\boldsymbol{w}}}_{\rm out}, {\mathit{\boldsymbol{w}}}_l, {\mathit{\boldsymbol{w}}}_{l-1}, \cdots, {\mathit{\boldsymbol{w}}}_2, {\mathit{\boldsymbol{w}}}_1\right) $.

    3.2.2   偏最小二乘回归算法

    大量研究表明, 传统基于BP算法的有监督调优方法存在诸多缺陷, 尤其是当DBN含有多个隐含层时问题尤为突出, 例如梯度消失和局部极小值等[25, 27].为了消除或避开复杂的梯度计算过程导致的上述问题, Qiao等[25]利用逐层偏最小二乘回归方法代替BP算法对整个DBN模型进行有监督的调优(Fine-tuning).基于PLSR逐层调优方法的原理如图 11所示.

    图 11  基于PLSR的DBN调优
    Fig. 11  PLSR-based fine-tuning of DBN

    PLSR是一种多对多的回归建模方法, 由于其同时考虑了自变量和因变量的信息, 所以PLSR也是一种有监督的学习模型.特别当两组变量的个数很多且都存在多重相关性, 而观测数据的数量(样本量)又较少时, 用PLSR建立的模型具有传统的经典回归分析等方法所没有的优点.基于PLSR的DBN有监督调优是从顶层输出层(标签数据层)开始, 每两层建立一个PLSR回归模型, 直到第一个隐含层和最底层输入层为止.基于PLSR的逐层调优过的过程如下:

    步骤1.提取由无监督训练获得的隐含层特征向量$ \left({\mathit{\boldsymbol{h}}}_l, {\mathit{\boldsymbol{h}}}_{l-1}, \cdots, {\mathit{\boldsymbol{h}}}_1\right) $.

    步骤2.将期望输出$ {\mathit{\boldsymbol{y}}} $和最后一个隐含层特征分别视为因变量和自变量, 并建立PLSR模型, 可以得到输出权值$ {\mathit{\boldsymbol{w}}}_{\rm out} $.

    步骤3.从$ {\mathit{\boldsymbol{h}}}_{l-1} $和$ {\mathit{\boldsymbol{h}}}_{l-2} $到$ {\mathit{\boldsymbol{h}}}_1 $和$ {\mathit{\boldsymbol{v}}}_{in} $每两层之间建立PLSR模型, 并最终得到基于PLSR调优的优化权值参数矩阵$ {\mathit{\boldsymbol{W}}} = \left({\mathit{\boldsymbol{w}}}_{\rm out}, {\mathit{\boldsymbol{w}}}_l, {\mathit{\boldsymbol{w}}}_{l-1}, \cdots, {\mathit{\boldsymbol{w}}}_2, {\mathit{\boldsymbol{w}}}_1\right) $.

    基于PLSR的调优方法之所以能够成功, 主要原因可以归结为以下两点: 1) PLSR只需要每个隐含层的特征向量, 不需要求取梯度信号, 因此避开了BP算法在求取梯度信号时遇到的问题[70-71]; 2)无监督预训练得到的权值正是用于提取每个隐含层特征向量的必要参数.

    以上介绍的4种DBN学习算法均从各自的出发点解决了不同的学习问题, 并在一定程度上提高了网络性能.具体来讲, 基于自适应学习率的DBN模型是通过设计一种动态变化的学习率来适应参数学习的更新速度, 从而实现学习算法的加速收敛.基于半监督学习的深度信念网络模型则通过将有监督信息引入到无监督学习过程中构造一种新型的半监督学习算法, 从而实现网络学习精度的提升.梯度下降算法是一种经典而又传统的有监督学习算法, 其在浅层神经网络中的学习效果较好.基于偏最小二乘的逐层调优算法则是利用各隐含层所提取的特征向量建立多个回归模型, 从而获取最优参数.

    同时, 以上所述算法也存在缺点, 自适应学习率算法在处理中低维复杂数据时具有较好的效果, 当处理高位复杂数据集时基于自适应学习率的学习加速效果变得不再明显.半监督学习算法则多数作判别模型, 主要用于模式分类.而偏最小二乘算法尽管取得到较好的学习效果, 但由于需要构造若干个偏最小二乘回归模型, 所以在稳定性分析方面需要对接每个模型的输入与输出, 且保证他们具有稳定的有界性, 从而导致理论分析变得复杂. 表 2给出了不同DBN算法在Lorenz时间序列建模和预测上20次独立实验的性能对比结果.

    表 2  不同DBN算法的性能对比
    Table 2  Performance comparison of different DBN algorithms
    算法 训练RMSE 训练时间(s) 测试时间(s)
    均值 方差
    梯度下降 0.0835 0.0116 12.38 10.09
    自适应学习率 0.0225 0.0102 2.97 1.39
    半监督学习 0.0507 0.0130 8.68 6.17
    偏最小二乘回归 0.0193 0.0091 3.62 2.28
    下载: 导出CSV 
    | 显示表格

    在DBN学习框架的搭建方面, 研究人员开始注重不同学习算法的混合模型.这种混合模型中, 最具创新意义的是一种基于DBN预训练技术的回声状态网络(Echo state network, ESN)学习模型(DBESN)[72].这种混合模型DBESN首先利用DBN的预训练技术对高维复杂数据进行降维和关键特征提取, 然后将所提取到的有效特征向量作为ESN模型的输入进行再训练.大量实验结果证明, DBESN具有较强的时间序列预测能力, 开启了混合模型研究的先河.为了克服单一数据表述方法在学习能力上的不足, Deng等[73]提出了一种用于数据分类的分层融合深度模糊神经网络(FDFNN).通过融合包括模糊学习和神经元学习在内的多种数据表述方法获得的知识, FDFNN能够构造一个用于模式分类的最终的数据表述.

    在深度信念网络中, 利用无监督预训练的方式首先初始化权值, 然后在具有待处理数据先验知识的初始化权值的基础上进行有监督调优, 克服了传统深层神经网络训练难的问题.本文在给定深度信念网络简化模型的基础上, 分析了多种深度信念网络的网络结构、无监督预训练方法和有监督调优方法及其网络性能, 回顾并总结了深度信念网络的研究现状.

    尽管针对深度信念网络的研究在理论和工程上均已取得了丰硕的成果, 但就其后续发展而言还有很长的路要走.结合研究现状, 现对深度信念网络的研究提出以下展望.

    1) 深度信念网络的无监督学习理论研究及生物学解释.人脑研究表明, 大脑的认知过程主要靠对外部信息无监督学习的知识积累[74-77], 这一过程也可以理解成若干连续小样本无监督学习之和.借鉴对大脑的研究成果可进一步模拟大脑的无监督知识积累过程, 设计新的无监督学习算法, 部分实现大脑的功能; 借鉴统计学及信息论的相关知识, 研究深度信念网络在多次运行性能上的随机性, 可从统计学特性上解释深度信念网络的鲁棒性理论.

    2) 深度信念网络结构设计研究.目前的深度信念网络结构多数是在足够经验和充足数据的基础上通过凑试法来确定, 且结构一旦确定将不再调整, 这导致固定结构的深度信念网络无法满足待处理数据的多样性变化要求.同时, 单个神经元的增长和修剪算法也难以实现结构的快速有效设计.另一方面, 神经生理学研究结果表明, 人类大脑的智能主要取决于大脑皮层, 而大脑皮层是一个大规模互连的生物深度神经网络.在处理不同信息时, 生物深度神经网络会启用不同的神经元以及相应的特殊连接结构[78-80].也就是说, 其采用的是一种变结构的信息处理机制, 这一点从著名的Hebb学习规则中也能看出.因此研究深度信念网络智能化实时在线结构设计方法将是一个无法躲避且非常重要的研究方向, 也必将诞生众多标志性成果.

    3) 研究深度信念网络的超参数自适应设置问题.与传统的浅层神经网络相比, 深度信念网络结构庞大, 除了需要学习的权值参数之外还存在大量的超参数[81].在训练深度信念网络之前, 超参数设置不当会直接影响网络学习的效果.例如, 学习率设置过大或者过小, 会相应地造成算法陷入局部最优或者过早收敛.尽管本文介绍了一种基于连续两次迭代更新方向的自适应学习率设计方法, 但是从深度信念网络的长远发展看, 这远不是终点.因此, 从超参数的自适应设置角度切入研究可以获得事半功倍的效果, 也可完善深度信念网络的学习理论.

    4) 深度信念网络在复杂过程控制中的应用研究, 如连续搅拌反应器(Continuous stirred tank reactor, CSTR)系统和污水处理过程(Wastewater treatment processing, WWTP)行业.目前, 深度信念网络乃至深度学习技术主要应用于模式分类、图像处理以及预测等单一的问题, 并取得了不错的效果, 反观在过程控制领域中的应用研究却较少.以深度信念网络为代表的深度学习方法停留在模式识别已有十年之久, 将其作为非线性系统预测模型与过程控制相结合正是深度学习未来要面向多领域发展的多个方向之一. Lenz等[82]针对切割水果的机器人手臂控制问题, 尝试性地提出了一种利用深度卷积网络(深度学习)直接从数据中学习控制器的新方法, 并取得到令人欣喜的效果.针对复杂过程控制系统的非线性、强耦合、时变、时滞及不确定等特点, 设计合适的深度信念网络模型, 将其作为待控制系统的预测模型与滚动优化控制理论相结合, 构造基于深度信念网络的模型预测控制方法将是一个极具前景的研究方向.

    表 附表 1  文中用到的主要数学符号
    Table 附表 1  Main mathematical notations in this paper
    主要数学符号说明
    ${\mathit{\boldsymbol{v}}}$——可视层神经元组成的状态向量
    ${\mathit{\boldsymbol{h}}}$——隐含层神经元组成的状态向量
    ${\mathit{\boldsymbol{b}}}_v$——可视层神经元偏置状态向量
    ${\mathit{\boldsymbol{b}}}_h$——隐含层神经元偏置状态向量
    ${\mathit{\boldsymbol{c}}}_u$——监督层神经元偏置状态向量
    ${\mathit{\boldsymbol{w}}}^R$——标准受限玻尔兹曼机权值矩阵
    ${\mathit{\boldsymbol{p}}}$——监督层与隐含层之间的权值矩阵
    ${\mathit{\boldsymbol{w}}}_{\rm out}$——最后一个隐含层与输出层之间的权值矩阵
    ${\mathit{\boldsymbol{W}}}^R$——整个网络的初始化权值矩阵
    ${\mathit{\boldsymbol{W}}}$——整个网络的最终权值矩阵
    下载: 导出CSV 
    | 显示表格

  • 本文责任编委 张敏灵
  • 图  1  RBM结构图

    Fig.  1  Structure of RBM

    图  2  DBN结构图

    Fig.  2  Structure of DBN

    图  3  稀疏表述原理图

    Fig.  3  Sparse representation scheme

    图  4  计算激活强度的权值连接过程

    Fig.  4  Weights connecting process of computing spiking intensity

    图  5  结构自组织策略原理图

    Fig.  5  Self-organizing structure strategy scheme

    图  6  TL-GDBN的一步增长过程

    Fig.  6  Illustration of one-growing step

    图  7  RTRBM的结构图

    Fig.  7  RTRBM structure

    图  8  RNN-RBM的结构图

    Fig.  8  RNN-RBM structure

    图  9  RNN-DBN的结构图

    Fig.  9  RNN-DBN structure

    图  10  半监督RBM结构

    Fig.  10  Structure of semi-supervised RBM

    图  11  基于PLSR的DBN调优

    Fig.  11  PLSR-based fine-tuning of DBN

    表  1  不同DBN结构的性能对比

    Table  1  Performance comparison of different DBN structures

    结构 训练RMSE 训练时间(s) 测试时间(s)
    均值 方差
    稀疏DBN 0.0468 0.0009 6.91 5.13
    自组织DBN 0.0308 0.0085 6.50 5.06
    增量式DBN 0.0173 0.0012 4.27 3.14
    递归DBN 0.0149 0.0126 6.67 5.11
    下载: 导出CSV

    表  2  不同DBN算法的性能对比

    Table  2  Performance comparison of different DBN algorithms

    算法 训练RMSE 训练时间(s) 测试时间(s)
    均值 方差
    梯度下降 0.0835 0.0116 12.38 10.09
    自适应学习率 0.0225 0.0102 2.97 1.39
    半监督学习 0.0507 0.0130 8.68 6.17
    偏最小二乘回归 0.0193 0.0091 3.62 2.28
    下载: 导出CSV

    附表 1  文中用到的主要数学符号

    附表 1  Main mathematical notations in this paper

    主要数学符号说明
    ${\mathit{\boldsymbol{v}}}$——可视层神经元组成的状态向量
    ${\mathit{\boldsymbol{h}}}$——隐含层神经元组成的状态向量
    ${\mathit{\boldsymbol{b}}}_v$——可视层神经元偏置状态向量
    ${\mathit{\boldsymbol{b}}}_h$——隐含层神经元偏置状态向量
    ${\mathit{\boldsymbol{c}}}_u$——监督层神经元偏置状态向量
    ${\mathit{\boldsymbol{w}}}^R$——标准受限玻尔兹曼机权值矩阵
    ${\mathit{\boldsymbol{p}}}$——监督层与隐含层之间的权值矩阵
    ${\mathit{\boldsymbol{w}}}_{\rm out}$——最后一个隐含层与输出层之间的权值矩阵
    ${\mathit{\boldsymbol{W}}}^R$——整个网络的初始化权值矩阵
    ${\mathit{\boldsymbol{W}}}$——整个网络的最终权值矩阵
    下载: 导出CSV
  • [1] Liu Q S, Dang C Y, Huang T W. A one-layer recurrent neural network for real-time portfolio optimization with probability criterion. IEEE Transactions on Cybernetics, 2013, 43(1): 14-23 doi: 10.1109/TSMCB.2012.2198812
    [2] Lin Y Y, Chang J Y, Lin C T. Identification and prediction of dynamic systems using an interactively recurrent self-evolving fuzzy neural network. IEEE Transactions on Neural Networks and Learning Systems, 2013, 24(2): 310-321 doi: 10.1109/TNNLS.2012.2231436
    [3] Lian J, Wang J. Passivity of switched recurrent neural networks with time-varying delays. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(2): 357-366 doi: 10.1109/TNNLS.2014.2379920
    [4] 吴玉香, 王聪.基于确定学习的机器人任务空间自适应神经网络控制.自动化学报, 2013, 39(6): 806-815 doi: 10.3724/SP.J.1004.2013.00806

    Wu Yu-Xiang, Wang Cong. Deterministic learning based adaptive network control of robot in task space. Acta Automatica Sinica, 2013, 39(6): 806-815 doi: 10.3724/SP.J.1004.2013.00806
    [5] Chandrasekar A, Rakkiyappan R, Cao J D, Lakshmanan S. Synchronization of memristor-based recurrent neural networks with two delay components based on second-order reciprocally convex approach. Neural Networks, 2014, 57: 79-93 doi: 10.1016/j.neunet.2014.06.001
    [6] Alhamdoosh M, Wang D H. Fast decorrelated neural network ensembles with random weights. Information Sciences, 2014, 264: 104-117 doi: 10.1016/j.ins.2013.12.016
    [7] Lee Y, Oh S H, Kim M W. An analysis of premature saturation in back propagation learning. Neural Networks, 1993, 6(5): 719-728 doi: 10.1016/S0893-6080(05)80116-9
    [8] Burse K, Yadav R N, Shrivastava S C. Channel equalization using neural networks: A review. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2010, 40(3): 352-357 doi: 10.1109/TSMCC.2009.2038279
    [9] Pfeifer R, Lungarella M, Iida F. Self-organization, embodiment, and biologically inspired robotics. Science, 2007, 318(5853): 1088-1093 doi: 10.1126/science.1145803
    [10] Schmidhuber J. Deep learning in neural networks: An overview. Neural Networks, 2015, 61: 85-117
    [11] Kriegeskorte N. Deep neural networks: A new framework for modeling biological vision and brain information processing. Annual Review of Vision Science, 2015, 1: 417-446 doi: 10.1146/annurev-vision-082114-035447
    [12] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507 doi: 10.1126/science.1127647
    [13] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444 doi: 10.1038/nature14539
    [14] Wang G, Qiao J, Bi J, Jia Q, Zhou M. An Adaptive Deep Belief Network With Sparse Restricted Boltzmann Machines. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(10): 4217-4228 doi: 10.1109/TNNLS.2019.2952864
    [15] 乔俊飞, 王功明, 李晓理, 韩红桂, 柴伟.基于自适应学习率的深度信念网设计与应用.自动化学报, 2017, 43(8): 1339-1349 doi: 10.16383/j.aas.2017.c160389

    Qiao Jun-Fei, Wang Gong-Ming, Li Xiao-Li, Han Hong-Gui, Chai Wei. Design and application of deep belief network with adaptive learning rate. Acta Automatica Sinica, 2017, 43(8): 1339-1349 doi: 10.16383/j.aas.2017.c160389
    [16] Wang G, Jia Q, Qiao J, Bi J, Liu C. A sparse deep belief network with efficient fuzzy learning framework. Neural Networks, 2020, 121: 430-440 doi: 10.1016/j.neunet.2019.09.035
    [17] Baldi P, Sadowski P, Whiteson D. Searching for exotic particles in high-energy physics with deep learning. Nature Communications, 2014, 5: 4308 doi: 10.1038/ncomms5308
    [18] Lv Y S, Duan Y J, Kang W W, Li Z X, Wang F Y. Traffic flow prediction with big data: A deep learning approach. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(2): 865-873
    [19] Chan T H, Jia K, Gao S H, Lu J W, Zeng Z, Ma Y. PCANet: A simple deep learning baseline for image classification? IEEE Transactions on Image Processing, 2015, 24(12): 5017-5032 doi: 10.1109/TIP.2015.2475625
    [20] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554 doi: 10.1162/neco.2006.18.7.1527
    [21] Sutskever I, Hinton G E. Deep, narrow sigmoid belief networks are universal approximators. Neural Computation, 2008, 20(11): 2629-2636 doi: 10.1162/neco.2008.12-07-661
    [22] Qin Y, Wang X, Zou J Q. The optimized deep belief networks with improved logistic Sigmoid units and their application in fault diagnosis for planetary gearboxes of wind turbines. IEEE Transactions on Industrial Electronics, 2019, 66(5): 3814-3824 doi: 10.1109/TIE.2018.2856205
    [23] Qiao J F, Wang G M, Li W J, Chen M. An adaptive deep Q-learning strategy for handwritten digit recognition. Neural Networks, 2018, 107: 61-71 doi: 10.1016/j.neunet.2018.02.010
    [24] Abdel-Zaher A M, Eldeib A M. Breast cancer classification using deep belief networks. Expert Systems with Applications, 2016, 46: 139-144 doi: 10.1016/j.eswa.2015.10.015
    [25] Qiao J F, Wang G M, Li W J, Li X L. A deep belief network with PLSR for nonlinear system modeling. Neural Networks, 2018, 104: 68-79 doi: 10.1016/j.neunet.2017.10.006
    [26] Qiao J F, Wang G M, Li X L, Li W J. A self-organizing deep belief network for nonlinear system modeling. Applied Soft Computing, 2018, 65: 170-183 doi: 10.1016/j.asoc.2018.01.019
    [27] Wang G M, Qiao J F, Bi J, Li W J, Zhou M C. TL-GDBN: Growing deep belief network with transfer learning. IEEE Transactions on Automation Science and Engineering, 2019, 16(2): 874-885 doi: 10.1109/TASE.2018.2865663
    [28] Chen Z Y, Li W H. Multisensor feature fusion for bearing fault diagnosis using sparse autoencoder and deep belief network. IEEE Transactions on Instrumentation and Measurement, 2017, 66(7): 1693-1702 doi: 10.1109/TIM.2017.2669947
    [29] Ranzato M A, Boureau Y L, LeCun Y. Sparse feature learning for deep belief networks. In: Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates, Inc., 2018. 1185-1192
    [30] Ichimura T, Kamada S. Adaptive learning method of recurrent temporal deep belief network to analyze time series data. In: Proceedings of the 2017 International Joint Conference on Neural Networks. Anchorage, AK, USA: IEEE, 2017. 2346-2353
    [31] Hinton G E. Training products of experts by minimizing contrastive divergence. Neural Computation, 2002, 14(8): 1771-1800 doi: 10.1162/089976602760128018
    [32] 王功明, 乔俊飞, 王磊.一种能量函数意义下的生成式对抗网络.自动化学报, 2018, 44(5): 793-803 doi: 10.16383/j.aas.2018.c170600

    Wang Gong-Ming, Qiao Jun-Fei, Wang Lei. A generative adversarial network based on energy function. Acta Automatica Sinica, 2018, 44(5): 793-803 doi: 10.16383/j.aas.2018.c170600
    [33] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS, 2014. 2672-2680
    [34] Schirrmeister R T, Springenberg J T, Fiederer L D J, Glasstetter M, Eggensperger K, Tangermann M, et al. Deep learning with convolutional neural networks for EEG decoding and visualization. Human Brain Mapping, 2017, 38(11): 5391-5420 doi: 10.1002/hbm.23730
    [35] Nguyen A T, Xu J, Luu D K, Zhao Q, Yang Z. Advancing system performance with redundancy: From biological to artificial designs. Neural Computation, 2019, 31(3): 555-573 doi: 10.1162/neco_a_01166
    [36] Bengio Y. Learning deep architectures for AI. Foundations and Trends® in Machine Learning, 2009, 2(1): 1-127 doi: 10.1561/2200000006
    [37] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA: JMLR.org, 2011. 315-323
    [38] Ali M B. Use of Dropouts and Sparsity for Regularization of Autoencoders in Deep Neural Networks.[Master dissertation], Bilkent University, Bilkent, 2015
    [39] Wright J, Yang A Y, Ganesh A, Sastry S, Ma Y. Robust face recognition via sparse representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227 doi: 10.1109/TPAMI.2008.79
    [40] Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2. In: Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates, Inc., 2007. 873-880
    [41] Keyvanrad M A, Homayounpour M M. Normal sparse deep belief network. In: Proceedings of the 2015 International Joint Conference on Neural Networks. Killarney, Ireland: IEEE, 2015. 1-7
    [42] Lian R J. Adaptive self-organizing fuzzy sliding-mode radial basis-function neural-network controller for robotic systems. IEEE Transactions on Industrial Electronics, 2014, 61(3): 1493-1503 doi: 10.1109/TIE.2013.2258299
    [43] Li F J, Qiao J F, Han H G, Yang C L. A self-organizing cascade neural network with random weights for nonlinear system modeling. Applied Soft Computing, 2016, 42: 184-193 doi: 10.1016/j.asoc.2016.01.028
    [44] Sarinnapakorn K, Kubat M. Combining subclassifiers in text categorization: A DST-based solution and a case study. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(2): 1638-1651
    [45] Van Opbroek A, Achterberg H C, Vernooij M W, De Bruijne M. Transfer learning for image segmentation by combining image weighting and kernel learning. IEEE Transactions on Medical Imaging, 2019, 38(1): 213-224 doi: 10.1109/TMI.2018.2859478
    [46] Shin H C, Roth H R, Gao M C, Lu L, Xu Z Y, Nogues I, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning. IEEE Transactions on Medical Imaging, 2016, 35(5): 1285-1298 doi: 10.1109/TMI.2016.2528162
    [47] Long M S, Wang J M, Ding G G, Pan S J, Yu P S. Adaptation regularization: A general framework for transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5): 1076-1089 doi: 10.1109/TKDE.2013.111
    [48] Afridi M J, Ross A, Shapiro E M. On automated source selection for transfer learning in convolutional neural networks. Pattern Recognition, 2018, 73: 65-75 doi: 10.1016/j.patcog.2017.07.019
    [49] Taylor M E, Stone P. Transfer learning for reinforcement learning domains: A survey. The Journal of Machine Learning Research, 2009, 10: 1633-1685
    [50] Lu J, Behbood V, Hao P, Zuo H, Xue S, Zhang G Q. Transfer learning using computational intelligence: A survey. Knowledge-Based Systems, 2015, 80: 14-23 doi: 10.1016/j.knosys.2015.01.010
    [51] Shao L, Zhu F, Li X L. Transfer learning for visual categorization: A survey. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(5): 1019-1034 doi: 10.1109/TNNLS.2014.2330900
    [52] Sutskever I, Hinton G E, Taylor G W. The recurrent temporal restricted Boltzmann machine. In: Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates, Inc., 2008. 1601-1608
    [53] Fischer A, Igel C. An introduction to restricted Boltzmann machines. In: Proceedings of the 17th Iberoamerican Congress on Pattern Recognition. Buenos Aires, Argentina: Springer, 2012. 14-36
    [54] Srivastava N, Salakhutdinov R R. Multimodal learning with deep Boltzmann machines. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2012. 2222-2230
    [55] Fischer A, Igel C. Training restricted Boltzmann machines: An introduction. Pattern Recognition, 2014, 47(1): 25-39 doi: 10.1016/j.patcog.2013.05.025
    [56] Boulanger-Lewandowski N, Bengio Y, Vincent P. Modeling temporal dependencies in high-dimensional sequences: Application to polyphonic music generation and transcription. In: Proceedings of the 29th International Conference on Machine Learning. Edinburgh, Scotland, UK: Icml.cc/Omnipress, 2012. 1881-1888
    [57] Hermans M, Schrauwen B. Training and analyzing deep recurrent neural networks. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2013. 190-198
    [58] Chaturvedi I, Ong Y S, Tsang I W, Welsch R E, Cambria E. Learning word dependencies in text by means of a deep recurrent belief network. Knowledge-Based Systems, 2016, 108: 144-154 doi: 10.1016/j.knosys.2016.07.019
    [59] Pascanu R, Ģülçehre C, Cho K, Bengio Y. How to construct deep recurrent neural networks. In: Proceedings of the 2nd International Conference on Learning Representations. Banff, AB, Canada: ICLR, 2014.
    [60] Mohamed A R, Dahl G E, Hinton G E. Acoustic modeling using deep belief networks. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 14-22 doi: 10.1109/TASL.2011.2109382
    [61] Wang G M, Qiao J F, Li X L, Wang L, Qian X L. Improved classification with semi-supervised deep belief network. IFAC-PapersOnLine, 2017, 50(1): 4174-4179 doi: 10.1016/j.ifacol.2017.08.807
    [62] Lopes N, Ribeiro B. Improving convergence of restricted Boltzmann machines via a learning adaptive step size. In: Proceedings of the 17th Iberoamerican Congress on Pattern Recognition. Buenos Aires, Argentina: Springer, 2012. 511-518
    [63] Raina R, Madhavan A, Ng A Y. Large-scale deep unsupervised learning using graphics processors. In: Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada: ACM, 2009. 873-880
    [64] Sierra-Sosa D, Garcia-Zapirain B, Castillo C, Oleagordia I, Nu?o-Solinis R, Urtaran-Laresgoiti M, Elmaghraby A. Scalable Healthcare Assessment for Diabetic Patients Using Deep Learning on Multiple GPUs. IEEE Transactions on Industrial Informatics, 2019, 15(10): 5682-5689 doi: 10.1109/TII.2019.2919168
    [65] Lopes N, Ribeiro B. Towards adaptive learning with improved convergence of deep belief networks on graphics processing units. Pattern recognition, 2014, 47(1): 114-127 doi: 10.1016/j.patcog.2013.06.029
    [66] 王功明, 李文静, 乔俊飞.基于PLSR自适应深度信念网络的出水总磷预测.化工学报, 2017, 68(5): 1987-1997

    Wang Gong-Ming, Li Wen-Jing, Qiao Jun-Fei. Prediction of effluent total phosphorus using PLSR-based adaptive deep belief network. CIESC Journal, 2017, 68(5): 1987-1997
    [67] Belkin M, Niyogi P. Laplacian eigenmaps for dimensionality reduction and data representation. Neural Computation, 2003, 15(6): 1373-1396 doi: 10.1162/089976603321780317
    [68] Chapelle O, Weston J, Schölkopf B. Cluster kernels for semi-supervised learning. In: Proceedings of the 15th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: MIT Press, 2003. 601-608
    [69] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines. In: Proceedings of the 25th International Conference on Machine Learning. Helsinki, Finland: ACM, 2008. 536-543
    [70] Lasserre J A, Bishop C M, Minka T P. Principled hybrids of generative and discriminative models. In: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA: IEEE, 2006. 87-94
    [71] Larochelle H, Erhan D, Bengio Y. Zero-data learning of new tasks. In: Proceedings of the 23rd AAAI Conference on Artificial Intelligence. Chicago, Illinois, USA: AAAI Press, 2008. 646-651
    [72] Sun X C, Li T, Li Q, Huang Y, Li Y Q. Deep belief echo-state network and its application to time series prediction. Knowledge-Based Systems, 2017, 130: 17-29 doi: 10.1016/j.knosys.2017.05.022
    [73] Deng Y, Ren Z Q, Kong Y Y, Bao F, Dai Q H. A hierarchical fused fuzzy deep neural network for data classification. IEEE Transactions on Fuzzy Systems, 2017, 25(4): 1006-1012 doi: 10.1109/TFUZZ.2016.2574915
    [74] Janik L J, Forrester S T, Rawson A. The prediction of soil chemical and physical properties from mid-infrared spectroscopy and combined partial least-squares regression and neural networks (PLS-NN) analysis. Chemometrics and Intelligent Laboratory Systems, 2009, 97(2): 179-188 doi: 10.1016/j.chemolab.2009.04.005
    [75] He Y L, Geng Z Q, Xu Y, Zhu Q X. A robust hybrid model integrating enhanced inputs based extreme learning machine with PLSR (PLSR-EIELM) and its application to intelligent measurement. ISA Transactions, 2015, 58: 533-542 doi: 10.1016/j.isatra.2015.06.007
    [76] Furber S B, Lester D R, Plana L A, Garside J D, Painkras E, Temple S, et al. Overview of the spinnaker system architecture. IEEE Transactions on Computers, 2013, 62(12): 2454-2467 doi: 10.1109/TC.2012.142
    [77] Erhan D, Bengio Y, Courville A, Manzagol P A, Vincent P, Bengio S. Why does unsupervised pre-training help deep learning? The Journal of Machine Learning Research, 2010, 11: 625-660
    [78] Angermueller C, PĠrnamaa T, Parts L, Stegle O. Deep learning for computational biology. Molecular Systems Biology, 2016, 12(7): 878 doi: 10.15252/msb.20156651
    [79] Min S, Lee B, Yoon S. Deep learning in bioinformatics. Briefings in Bioinformatics, 2017, 18(5): 851-869
    [80] Gharehbaghi A, Lindén M. A Deep Machine Learning Method for Classifying Cyclic Time Series of Biological Signals Using Time-Growing Neural Network. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(9): 4102-4115 doi: 10.1109/TNNLS.2017.2754294
    [81] Denil M, Shakibi B, Dinh L, Ranzato M, de Freitas N. Predicting parameters in deep learning. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2013. 2148-2156
    [82] Lenz I, Knepper R, Saxena A. DeepMPC: Learning deep latent features for model predictive control. In: Proceedings of the Robotics: Science and Systems XI. Rome, Italy: 2015.
  • 期刊类型引用(16)

    1. 张凯,杨朋澄,彭开香,陈志文. 基于深度置信网络的多模态过程故障评估方法及应用. 自动化学报. 2024(01): 89-102 . 本站查看
    2. 郭欣羽. 浅谈深度学习发展脉络及其现状. 湖北经济学院学报(人文社会科学版). 2024(03): 65-68 . 百度学术
    3. 李元绪. 基于改进深度置信网络的UWB无线定位方法. 计算技术与自动化. 2024(02): 162-169 . 百度学术
    4. 王冬萌,文斌,李晓燕,徐越,刘书慧,付世军. 基于改进麻雀算法的PCC-DBN-LSTM气温预测模型. 成都信息工程大学学报. 2024(05): 527-533 . 百度学术
    5. 苗磊,李擎,蒋原,崔家瑞,王义轩. 深度学习在电力系统预测中的应用. 工程科学学报. 2023(04): 663-672 . 百度学术
    6. 谭媛,张文海,王杨. 基于多源信息融合的配网故障外部原因识别. 电力建设. 2023(03): 77-84 . 百度学术
    7. 曹美禾,宋琳,孙军,李忠瑞,聂子玲. 深度学习及其在电机控制中的研究现状与展望. 电机与控制应用. 2023(05): 1-9 . 百度学术
    8. 方芳. 基于深度学习的推荐算法框架研究. 长江信息通信. 2023(07): 43-45 . 百度学术
    9. 毛智超,吴黎兵,马亚军,张壮壮,刘芹,马超. 基于DBN与带注意力机制GRU的CAN总线入侵检测模型. 武汉大学学报(理学版). 2023(05): 598-608 . 百度学术
    10. 陶加贵,胡胜男,戴建卓,张思聪. 基于改进机器学习的人体行为识别方法研究. 电气传动. 2023(11): 69-76 . 百度学术
    11. 吕海峰,蒲宝明. 一种改进的深度信念网络算法. 小型微型计算机系统. 2022(06): 1240-1244 . 百度学术
    12. 李锦键,王兴贵,杨维满,赵玲霞. 基于改进递归深度信念网络的CSP电站短期出力预测. 太阳能学报. 2022(07): 225-232 . 百度学术
    13. 尚海军,白新奎,乔磊,邓秦生,白旭,李恭斌,孙玉成,尹军波,刘圣冠,耿如意. 基于深度学习的区域供热逐时负荷预测研究. 建筑热能通风空调. 2022(09): 6-8+21 . 百度学术
    14. 朱金艳,朱玉杰,冯国红,曾明飞,刘思岐. 基于深度信念网络与混合波长选择方法的蓝莓糖度近红外检测模型优化. 光谱学与光谱分析. 2022(12): 3775-3782 . 百度学术
    15. 胡昌华,张浩,喻勇,张晟斐. 基于深度学习的复杂退化系统剩余寿命预测研究现状与挑战. 电光与控制. 2021(02): 1-6 . 百度学术
    16. 刘彪,郎彦,胡菁芸. 深度学习在网络入侵检测中的应用. 网络安全技术与应用. 2021(11): 9-10 . 百度学术

    其他类型引用(40)

  • 加载中
  • 图(11) / 表(3)
    计量
    • 文章访问数:  3009
    • HTML全文浏览量:  1571
    • PDF下载量:  904
    • 被引次数: 56
    出版历程
    • 收稿日期:  2019-02-25
    • 录用日期:  2019-05-19
    • 刊出日期:  2021-01-29

    目录

    /

    返回文章
    返回