2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

A Visual-attention-based 3D Mapping Method for Mobile Robots

Guo Binghua Dai Hongyue Li Zhonghua

YANG Gang, WANG Le, DAI Li-Zhen, YANG Hui. Design of Sparse Span-lateral Inhibition Neural Network Based on Connection Self-organization Development. ACTA AUTOMATICA SINICA, 2019, 45(4): 808-818. doi: 10.16383/j.aas.2018.c170374
Citation: Guo Binghua, Dai Hongyue, Li Zhonghua. A Visual-attention-based 3D Mapping Method for Mobile Robots. ACTA AUTOMATICA SINICA, 2017, 43(7): 1248-1256. doi: 10.16383/j.aas.2017.e150274
杨刚, 王乐, 戴丽珍, 杨辉. 基于连接自组织发育的稀疏跨越-侧抑制神经网络设计. 自动化学报, 2019, 45(4): 808-818. doi: 10.16383/j.aas.2018.c170374
引用本文: 郭炳华, 戴宏跃, 李中华. 基于视觉注意的移动机器人环境3D建模. 自动化学报, 2017, 43(7): 1248-1256. doi: 10.16383/j.aas.2017.e150274

A Visual-attention-based 3D Mapping Method for Mobile Robots

Funds: 

the Foundation of Guangdong Educational Committee 2014KTSCX191

the National Natural Science Foundation of China 61201087

More Information
    Author Bio:

    Binghua Guo received the Ph.D.degree in control theory and control engineering from the South China University of Technology, Guangzhou, Guangdong, in 2003.He is currently an Associate Professor of control science with the University of Zhaoqing, Zhaoqing, Guangdong.His research interests include robotics and machine vision.E-mail:b.h.guo@163.com

    Zhonghua Li received the Ph.D.degree in control science and engineering from South China University of Technology in 2005.He is currently a faculty member with the School of Data and Computer Science, Sun Yat-sen University, Guangzhou, Guangdong Province, China.His research interests include artificial intelligence and robotics, RFID technologies and internet of things (IOT).E-mail:honestlee@163.com

    Corresponding author: Hongyue Dai received the Ph.D.degree in circuit and system from the South China University of Technology, Guangzhou, Guangdong, in 2007.He is currently a faculty member with the University of Zhaoqing, Zhaoqing, Guangdong Province.His research interests include robotics and image processing.Corresponding author of this paper.E-mail:hongyuedai@163.com

基于视觉注意的移动机器人环境3D建模

doi: 10.16383/j.aas.2017.e150274
基金项目: 

the Foundation of Guangdong Educational Committee 2014KTSCX191

the National Natural Science Foundation of China 61201087

  • Recommended by Associate Editor Chenglin Liu
    摘要: 人类的视觉注意具有高度的选择性.模仿这些机制可以使得机器人对其周围环境建模更具高效、智能和鲁棒特性.本文采用视觉注意提出了一种移动机器人环境3D建模方法.该方法采用障碍物距离势函数的变化率作为显著度的度量函数,利用移动机器人提取到的场景中的特征点并结合快速均值漂移算法,实现了移动机器人周围环境中物体显著性检测,并以其为栅格先验模型,结合传感器模型、投影方法采用贝叶斯估计方法构建了环境的栅格模型.建立的模型在室内和室外环境进行了实验验证和性能评估.
  • 众所周知, 聚类, 支持向量机及神经元网络等常见分类方法都属于浅层分类方法, 在处理蕴藏隐含信息的样本分类问题方面还存在不足.传统的聚类方法对于高维数据来说, 数据样本较低维数据聚类时分布更为稀疏, 且每个数据间的距离都可能相当, 因此难以找到聚类中心, 从而不容易进行分类[1]; SVM属于有监督学习算法, 在处理小样本分类时有一定优势, 然而该方法过于依赖样本数据尺度, 且算法复杂度较高.并且SVM中核函数的选择往往决定了分类的精度和收敛速度, 分类结果存在不确定性[2]; 此外, 由于神经网络缺乏预训练机制, 难以深度挖掘数据中的隐含信息[3].然而深度学习方法以"无监督训练-有监督调解全局网络参数"的框架, 从理论上避免了传统神经元网络易陷入局部极值的缺点[4], 且在挖掘数据隐含信息方面具有独特优势, 尤其是在面临大规模样本数据的时候, 有更加突出的表现.常见的深度学习分为自动编码器, 卷积神经网络和深度置信网络等模型.通过查阅文献, 深度置信网络建模方法在图像处理[5-6]、软测量技术[7]、计算智能[8]等诸多领域得到成功应用, 建模精确度普遍有所提升, 上述理论的成功应用, 为构建基于高维数据非线性特征提取的深度置信网络分类器提供了重要的理论和方法支撑.值得一提的是, 面向含非线性特征的高维数据的深度置信网络建模问题, 信息量上的冗余往往给网络带来不必要的负荷.因此预先对样本数据做特征提取十分必要.

    过程变量的特征提取的目的是找到数据之间的线性以及非线性关系表达, 而后利用提取的低维特征数据表征原有的高维数据.故数据之间的线性以及非线性关系的提取是提取特征的关键.常见的过程数据特征提取方法有主成分分析方法(PCA), 独立主元分析(ICA), 偏最小二乘法(PLS)等.其中, PCA利用高斯分布数据的特征, 将数据映射到正交的低维子空间上, 保留数据的特征[9]; ICA根据已经存在的统计值, 进行独立主成分正交变换[10]; PLS利用线性拟合对多变量建模, 减少变量个数[11].以上方法在数据满足高斯分布和有线性关系的情况下适用, 且效果很好, 但是, 在一类多变量数据且变量分布不定, 且存在非线性关系时, 以上方法并不奏效.所以, 本文应用一类基于输入训练神经网络表征非线性主元分析的方法, 旨在解决在多变量过程中的非线性特征提取问题, 并且实现数据降维, 为后续构建一类新的深度置信网络提供数据预处理的方法支撑.

    空气固体细微污染物PM2.5的形成, 受众多复杂因素影响(已知影响因素超过20种)[12-13].就产生过程而言, PM2.5可以由污染源直接排出(称为一次粒子), 也可以是各污染源排出的气态污染物经过冷凝或在大气中发生复杂的化学反应而生成(称为二次粒子).特别地, 在已知的众多理化因素中, 有别于湿度、风速、降雨等, O$_3$属于驱散因子, 其浓度与PM2.5浓度之间呈指数衰减规律, 此外, 其他因素(光照等)与PM2.5浓度的关系还有待探索[14].因此, PM2.5浓度预测是一类典型的数据维度高, 且数据含非线性特征的建模问题, 传统的基于浅层学习的数据驱动建模方法[15-17]在预测精度上还有待提升, 且不具备对PM2.5浓度影响因素进行诊断的功能.

    受上述讨论启发, 针对过程变量数据维数高, 且含复杂非线性特征, 数据间隐含信息难以利用等特点, 本文提出一类基于非线性特征提取的深度置信网模型, 旨在解决高维数据非线性特征提取以及数据特征中隐含信息挖掘的问题, 并对影响模型输出的关键变量进行诊断.最后, 以一类具体的多变量建模和诊断问题讨论所提方法的应用.本文结构安排如下:第1节展示了基于非线性特征提取的深度置信网络的建模过程; 第2节基于信息熵理论, 对改进后的深度置信网络的建模复杂度优势进行论证; 第3节以河北省某市的PM2.5监测数据为对象, 验证本文所提方法的有效性; 第4节给出结论与工作展望.

    本节提出一类基于非线特征提取的深度置信网网络模型.基于非线性PCA提取原始数据特征, 实现数据预处理.同时计算各变量的统计量, 作为影响因素诊断依据.同时, 将预处理后的数据作为深度置信网的输入以构建预测模型.改进的深度置信网络结构在下文中具体介绍.

    高维多变量过程数据(维度为$N$)之间存在的线性关系可以利用主成分分析的方法, 进行数据特征提取, 实现降维目的.然而, 数据之间存在复杂的非线性关系时, 理论上同样可以利用$A$个主元($A<N$)就可以反映出过程的主要信息.非线性PCA就是一种对${X}$的估计量${\hat{X}}$的非线性表示即:

    $ \begin{equation} {X}={\hat{X}}+{E}=F({T_N})+{E} \end{equation} $

    (1)

    其中, $\hat{X}$是$X$的估计矩阵, ${E}$是残差矩阵, $F(\cdot)$是一个非线性函数, ${T_N}$我们称之为非线性主元得分矩阵.基于Tan等提出的输入训练(Input-training, IT)神经网络的方法[18].本文将IT网络的输入作为非线性主元得分矩阵, IT网络的输出作为原始样本的估计值, 网络调节权值的时候, 不仅调节网络内部的参数, 输入也随之变换.当网络训练完成的时候, 便可以得到${T_N}$, 同时也得到了非线性函数$F(\cdot)$.本文采用三层的输入训练网络, 如图 1所示.

    图 1  三层输入训练神经网络结构图
    Fig. 1  An input training neural network structure with three layers

    整体网络采用快速下降法调节网络间的连接权值.网络的目标函数为$J$:

    $ \begin{eqnarray*} J=\frac{1}{2}\sum\limits_{j=1}^{N}\sum\limits_{i=1}^{M}(X_{ij}-{\hat{X}}_{ij})^2=\frac{1}{2}\sum\limits_{j=1}^{N}{e}^2_j \end{eqnarray*} $

    (2)

    $i$表示变量的维度, $j$表示输出数据的组数, $e_j$则表示每组训练数据的绝对误差.

    深度学习是Hinton等在2006年提出的一种基于概率表达网络模型[19].深度学习的技术可以分为两部分:第一部分是利用无监督的学习来预训练每一层, 第二部分是全网络自上而下的微调权值.由于无监督的方式, 使用所有无标签数据, 所以过程变量包含监督学习所不能表达的隐含信息.本文所提出基于深度置信网的预测模型中, 网络输入是上一级降维后的非线性主元得分矩阵, 输出是预测分类结果.其网络结构如下图所示.本文采用三层的输入训练网络, 如图 1所示.

    图 2  深度置信网的结构
    Fig. 2  The structure of DBN

    自上而下是多层的限制性玻尔兹曼机, 隐含层中每一层的输出, 作为下一层的输入.在这个训练阶段, 在可视层会产生一个向量${\pmb v} $, 通过它将值传递到隐层.反过来, 可视层的输入会去重构原始的输入信号[20].我们定义联合概率分布:

    $ \begin{align} P({\pmb v}\mid {\pmb h})=\, &\dfrac{{\rm exp}(-E({\pmb v}, {\pmb h}))}{{\pmb z}}= \nonumber\\ &\dfrac{1}{{\pmb z}}\prod\limits_{ij}{\rm e}^{W_{ij}v_ih_j}\prod\limits_{i}{\rm e}^{b_iv_j}\prod\limits_{j}{\rm e}^{a_jh_j} \end{align} $

    (3)

    其中${\pmb z}$为:

    $ \begin{equation} {\pmb z}=\sum\limits_{{\pmb h}, {\pmb v}}{\rm exp}(-E({\pmb v}, {\pmb h})) \end{equation} $

    (4)

    $v_i$表示可视层第$i$个节点的输出, $h_j$表示隐含层第$j$个节点的输出.整体网络的参数$\theta=\{W, a, b\}$, $W$是权值参数$a$和$b$分别表示可视层和隐含层的偏置变量.给定可视层的前提下, 隐含层的概率为:

    $ \begin{align} P({\pmb h}\mid{\pmb v})=\, &\prod\limits_{j}p(h_j\mid {\pmb v})p(h_j=1\mid {\pmb v})= \nonumber\\ & \dfrac{1}{1+{\rm exp}(\sum\limits_{i}W_{ij}v_i-a_j)} \end{align} $

    (5)

    这样我们就建立了可视层与隐含层之间的概率表示.同样的, 隐含层之间的概率可表示为:

    $ \begin{align} P({\pmb v}, h_1, &h_2, h_3)=\nonumber \\ &P({\pmb v}\mid h_1)P(h_1\mid h_2)P(h_2 \mid h_3)\end{align} $

    (6)

    对于RBM的学习算法我们采用梯度衰减法.可视层表达的是输入数据的特征, 所以学习算法的目标函数是将可视层的概率最大化.所以有如下最大似然的概率表示:

    $ \begin{align} \frac{\partial {\rm log_e}P({\pmb v})}{\partial \theta }=\, &\frac{\partial {\rm log_e}\sum\limits_{\pmb h}P({\pmb v}, {\pmb h})}{\partial \theta}=\nonumber\\ & \frac{\sum\limits_{\pmb h}{\rm e}^{-energy({\pmb v}, {\pmb h}) \frac{\partial(-energy({\pmb v}, {\pmb h}) }{\partial \theta}}}{\sum\limits_{\pmb h}-energy({\pmb v}, {\pmb h}))} - \nonumber\\ & \frac{\sum\limits_{\pmb v}\sum\limits_{\pmb h}{\rm e}^{(-energy({\pmb v}, {\pmb h})\frac{\partial energy({\pmb v}, {\pmb h}) }{\partial \theta})} }{\sum\limits_{\pmb v}\sum\limits_{\pmb h}(-energy({\pmb v}, {\pmb h}))} \end{align} $

    (7)

    对于标准化的高斯RBM,

    $ \begin{align} energy({\pmb v}, {\pmb h})= \frac{1}{2}{\pmb v}^{\rm T}{\pmb v}-{ a}^{\rm T}{\pmb v}-{ b}^{\rm T}{\pmb h}-{\pmb h}^{\rm T}W{\pmb v}\nonumber\end{align} $

    得到:

    $ \begin{align} \frac{\partial P({\pmb v})}{\partial \theta }=\, &\sum\limits_{\pmb h}P({\pmb h}\mid {\pmb v}) \frac{\partial (-energy({\pmb v}, {\pmb h}) )}{\partial \theta}-\nonumber\\ & \sum\limits_{\pmb v}\sum\limits_{\pmb h}P({\pmb v}, {\pmb h})\frac{\partial (-energy({\pmb v}, {\pmb h})) }{\partial \theta} \end{align} $

    (8)

    由以上的表达式中, 我们可以将前一部分定义为激励部分, 表示为$v$节点的期望值表示; 后一部分作为抑制部分, 表示在联合概率下的期望表示.

    在完成上述数据降维与非线性特征提取之后, 对影响因素进行诊断.其中, 本文采用偏导数表示该变量对${T_N}$变化的贡献率大小, 因此对于某一个数据$X_0$, 它对的贡献率[21] $K$为:

    $ \begin{equation} K=\frac{\partial {T_N}}{\partial {X}}\mid _{{X=X_0}} \end{equation} $

    (9)

    基于非线性特征提取的深度置信网络的建立步骤为:

    1) 通过机理确定变量.

    2) 对输入数据进行移除异常值以及零均值归一化.

    3) 设计IT网络以及深度置信网的网络结构.

    4) 选择数据训练IT网络, 得到非线性PCA降维模型, 并计算各变量的统计量, 作为影响因素诊断依据.

    5) 将降维数据输入深度置信网训练网络.

    6) 用检测数据对整个模型进行检验.如果效果不满意, 则返回3).

    整体分类器模型结构如图 3所示.

    图 3  NPCA-DBN模型分类与诊断结构图
    Fig. 3  The classification and diagnosis model with NPCA-DBN

    为深刻揭示本文所提改进型DBN在网络结构和算法复杂度方面的优势, 本节从如下两个方面进行分析:

    1) 网络结构复杂度

    信息熵的概念是1958年香农借鉴热力学上分子混乱程度来描述信息源含信息量的不确定度.从信息学的角度出发, 可以论证所提方法在优化网络结构上的优势, 采用隐含层的信息熵来体现网络的结构性和组织性[22].武妍等在论述提高网络泛化能力优化网络结构中提出通过正则化(惩罚函数)的方法, 来控制网络的"有效复杂度"[23]. Deco等通过构建基于互信息熵的正则函数, 来等效网络的"有效复杂度", 并进行网络结构优化.其中输入层和隐含层之间的互信息熵[24]定义为:

    $ \begin{eqnarray*} H=-\sum\limits_{j=1}^Qc_j{\rm log}c_j+\frac{l}{P}\sum\limits_{l=1}^Q\sum\limits_{j=1}^Qc_{jl}{\rm log}c_{jl} \end{eqnarray*} $

    (10)

    其中, $P$为输入样本数, $Q$为隐含层节点数, $c_{jl}$为第$l$个样本对第$j$个隐含单元的归一化输出, $c_j$为平均值.熵的单位取决于定义用到对数的底, 当底数为2, 熵的单位是bit; 当底数为e, 熵的单位是nat; 而当底数为10, 熵的单位是Hart.

    定理1. 面向具有相同特征的样本数据设计的两个训练深度网络net1和net2, 若网络"有效复杂度"相同($H_{\rm net1}$=$H_{\rm net2}$), 当网络的输入层节点$P_{\rm net1}$ $<$ $P_{\rm net2}$时, 则有, 网络的隐含层节点总和$Q_{\rm net1}$ $<$ $Q_{\rm net2}$.

    证明. 假设原DBN网络(net1)的互信息熵函数已是最小化, 其中第一层RBM完全反映了输入层和隐含层的互信息.根据信息熵原理, 则有[25]:

    $ \begin{eqnarray*} -\sum\limits_{j=1}^Qc_j{\rm log}c_j=-\sum\limits_{j=1}^{Q_l}\frac{l}{Q_l}{\rm log}\frac{l}{Q_l}={\rm log}Q_l \end{eqnarray*} $

    (11)

    $Q_l$代表隐含层第一层的节点数.将式(11)代入式(10)中可得:

    $ \begin{equation} H={\rm log}Q_l+\frac{l}{P}\sum\limits_{l=1}^{P}\sum\limits_j^{Q_l}c_{jl}{\rm log}c_{jl} \end{equation} $

    (12)

    基于DBN原理, 本文提出的改进型DBN网络(net2)应使每一个RBM都能完全重构输入变量, 因此, 也应使所有互信息熵最小化, 则有改进方法后的互信息熵为$H'$:

    $ \begin{equation} H'={\rm log}Q'_l+\frac{l}{P'}\sum\limits_{l=1}^{P'}\sum\limits_{j'}^{Q'_l}c_{j'l}{\rm log}c_{j'l} \end{equation} $

    (13)

    又因为, 如完全重构原始输入变量, (由于假设NPCA完全提取了原来样本数据中的特征信息, 因此, net2中第一层RBM依然为求解隐含层节点到原始样本信息的映射关系), 则必有:

    $ \begin{equation} \sum\limits_{j'}^{Q'_l}c_{j'l}{\rm log}c_{j'l}=\sum\limits_j^{Q_l}c_{jl}{\rm log}c_{jl} \end{equation} $

    (14)

    此外, 因为同样满足互信息熵最小化, (对于同一样本数据, 我们采用同种DBN网络结构进行信息映射时, "有效复杂度"应该相等.也就是正则函数相等), 即$H=H'$, 因此当$P'\leq P$时, 则必有$Q'_l\leq Q_l$.同理, 后续隐含层之间的RBM节点个数同样具有此规律.因此可得, $Q_{\rm net2}=Q'_1+Q'_2+\cdots+Q'_n\leq Q_{\rm net1}=Q_1+Q_2+\cdots+Q_n$ ($n$为网络的隐含层总层数).综上可以得到改进后的网络总节点存在$S_{\rm net1}<S_{\rm net2}$.

    2) 算法复杂度分析

    算法的复杂度就是对算法计算所需要的时间和空间的一种度量[25].一般将算法的复杂度分为时间复杂度和空间复杂度.时间复杂度是以算法结构主体执行循环次数为依据, 空间复杂度以程序主体占据空间为依据[26].一个算法中的语句执行次数称为语句频度或时间频度, 记为$T(n)$, 若有某个辅助函数$f(n)$, 使得当$n$趋近于无穷大时, $T(n)/f(n)$的极限值为不等于零的常数, 则称$f(n)$是$T(n)$的同数量级函数, 记作$T(n)={\rm O}(f(n))$, 称${\rm O}(f(n))$为算法的渐进时间复杂度, 简称时间复杂度.用O代表一个算法的计算复杂度, 算法中的循环语句是算法的主体, 若算法中含有并列的算法, 则将并列的算法复杂度相加.例如:

    for $i=1:n$

       $x=x+1;$

    end

    for $i=1:n$

       for $j=1:n$

          $x=x+1;$

       end

    end

    第一个for循环的复杂度为O$(n)$, 第二个循环的复杂度为O$(n2)$, 则整个算法的复杂度为O$(n+n2)={\rm O}(n2)$.

    定理2. 假设存在一个DBN网络, 其结构为含有$n$层隐含层, 隐含层节点数为$[h_1, h_2, \cdots, h_n]$.则存在一类基于ITNN神经网络的非线性特征提取机制的DBN (假设该机制可以有效保证数据的互信息熵不变), 当DBN主结构的节点数可以减小到$[h_1', h_2', \cdots, h_n']$, 预处理IT网络部分隐含层节点数为$h_0$, 且满足ITNN的隐含层节点数$h_0<\beta$, 则有:改进后DBN的时间复杂度降低小于原DBN.其中,

    $ \begin{equation} \beta =\prod\limits_{1}^{n}h_n-\prod\limits_{1}^{n}h'_n \end{equation} $

    (15)

    证明.

    1) 传统DBN算法的伪代码如下:

    for (1:DBN的隐含层第一层节点数$h_1$)

      for (1:DBN的隐含层第二层节点数$h_2$)

        $\cdots$

          for (1:DBN的隐含层第$n$层节点数$h_n$)

            计算网络的目标函数是否符合要求

          end

        $\cdots$

        end

    end

    所以DBN的复杂度为O(DBN)= $\prod_{1}^{n}h_n$

    2) NPCA-DBN算法的伪代码如下:

    for (1:NPCA的隐含层节点数$h_0$)

      计算输入训练网络的目标函数是否符合要求

    end

    for (1:DBN的隐含层第一层节点数$h_1'$)

      for (1:DBN的隐含层第二层节点数$h_2'$)

        $\cdots$

          for (1:DBN的隐含层第$n$层节点数$h_n'$)

            计算网络的目标函数是否符合要求

          end

        $\cdots$

      end

    end

    故所提算法的复杂度为O(NPCA-DBN)$=h0+\prod_{1}^{n}h'_n$若$h0<\prod_{1}^{n}h_n-\prod_{1}^{n}h'_n$, 则有: O(NPCA-DBN)-O(DBN)\, $<$\, 0, 即改进型DBN的时间复杂度降低.此外, 由于改进型DBN降低了原DBN结构中的隐含层节点数, 则有效降低算法的空间复杂度. \hfill$\square$ \section{实例研究} PM2.5预测和影响因素诊断涉及的变量众多, 而且影响变量之间多存在关联, 本节给出了PM2.5浓度预测与超标影响因素诊断方法并进行了数值验证.

    PM2.5预测和影响因素诊断涉及的变量众多,而且影响变量之间多存在关联,本节给出了PM2.5浓度预测与超标影响因素诊断方法并进行了数值验证.

    基于第二节所提混合分类器模型, 选用相关污染物和气象因素作为输入, 提取主元非线性特征之后, 输入深度置信网, 来进行预测, 并根据统计量信息诊断PM2.5浓度超标原因.算法建立的步骤如下:

    1) 选择历史数据, 并建立非线性PCA和深度置信网的模型.

    2) 训练模型.

    3) 检测模型效果.

    4) 得出预测及诊断结果.

    图 4所示.

    图 4  PM2.5预测诊断流程图
    Fig. 4  The flow chart of PM2.5 concentration$'$s prediction and diagnosis

    为验证本文混合模型的有效性, 采取河北省某市地表水厂, 华电二区和胶片厂三个检测点于2014年11月至2015年4月间的监测数据作为实验数据.其中, 为分析检测数据, 依据文献[27]选取相关污染物如: PM10, SO$_2$, NO, CO, O$_3$, 气象数据如:风速, 风向, 温度, 湿度, 相关空气指数数:空气指数AQI.实验采用500个训练样本, 100个检测样本, 模型训练次数设置为50 000次.

    1) 网络结构

    基于本文所提出的改进DBN模型, 利用历史数据, 进行PM2.5的浓度预测, 本文采用实验的方式获得模型的结构, 并与传统的预测DBN模型进行对比.在参考其他文献以及经验规则的基础上, 通过实验获得改进DBN的网络结构, 如图 5所示.

    图 5  不同结构预测的平均相对误差
    Fig. 5  The classification and diagnosis model with NPCA-DBN

    图 5中: xx-xx-xx为隐含层的结构, 代表DBN三层主结构中的隐含层和内部节点分配.可见试验后得到DBN主结构隐含层的节点数结构为10-6-6为本次使用的网络结构, 其中数据预处理阶段采用的浅层学习网络采用试验方法得到有一层隐含层节点, 非线性节点数为10.对比传统DBN网络结构, 两者间的对比关系如表 1所示.

    表 1  网络结构对比
    Table 1  The comparison of the network structure
    模型 结构 隐含层节点数 总节点数 算法总空间复杂度
    NPCA-DBN (6-10-10) + (6-10-6-6-1) 32 55 $6\times 10\times 10+6\times 10\times 6\times 6\times 1$
    DBN 10-12-10-10-1 32 43 $10\times 12\times 10\times 10$
    下载: 导出CSV 
    | 显示表格

    其中(6-10-10) + (6-10-6-6-1)代表网络整体结构, 对于预处理阶段的浅层网络有6-10-10的网络结构, DBN主结构的输入层为6个节点, 隐含层为三层, 第一层是10个节点, 第二层和第三层为6个节点, 一个输出的结构, 由于改进的DBN的两部分的节点不在同一个网络嵌套中, 故为两个部分的复杂度相加.由上表我们可以清楚地看出改进的DBN模型在主结构中的深层网络中, 大大减少了非线性节点的个数, 从而在算法复杂度上实现数量级上的减小.

    2) 建模精度对比实验

    预测阶段采用检测输出的平均相对误差MRE (Mean relative error)来表示预测的精度.

    $ \begin{equation} {\rm MRE}=\frac{\sum\limits_{j=1}^{m}\left(\frac{\left |X_{obs, j}-X_{exp, j} \right |} {X_{exp, j}}\right)}{m} \end{equation} $

    (16)

    其中, $m$是检测数据的样本数. $X_{obs, j}$表示检测数据的输出值, $X_{exp, j}$表示检测数据的真值.平均相对误差反映出了在预测上偏离真值的平均水平.为清晰展现本文所提DBN的优势, 以华电二区监测点为例, 图 6图 7分别给出了改进DBN与传统的DBN、SVM和PLS在预测效果上的对比结果和建模误差趋势.

    图 6  华电二区的预测效果对比图
    Fig. 6  The comparison in the second area of Huadian with different structures
    图 7  不同结构预测的平均相对误差
    Fig. 7  The MRE of different structures

    图 6中, 横坐标为监测数据的100个采样点, 纵坐标为PM2.5的浓度.其中*代表模型输出的预测值, o代表实际值.我们可以直观地看出, 改进DBN的模型预测效果更佳, 同时比传统的分类方法在精度上有所提升.

    图 7中横坐标代表 100个监测时间点, 纵坐标代表各个预测值的相对误差.由图 6图 7可以清晰地展现出, 改进DBN模型的预测精度并没有因为降低输入的维度而降低.通过对比分析, 我们可以得到:首先, 传统DBN没有经过降维预处理, 预测精度不高; 另外, 由于DBN在处理海量数据建模时有显著的优势, 而本实验训练样本为500个, 因此, 所提改进的DBN在预测精度上与SVM提升不明显; 其次, 与ANN(BP)方法对比, 是因为BP只有一个隐含层, 属于浅层学习, 训练网络深度不足; 最后, PLS适用于处理线性模型的预测问题, 对非线性关系的建模精度欠佳.此外, 基于多种非线性特征提取机制下的复合分类预测方法, 表 2给出了该市地表水厂, 华电二区和胶片厂周边PM2.5浓度的建模精度和收敛速度对比.

    表 2  建模精度与收敛速度对比
    Table 2  The comparison of the network structure
    监测点 指标 NPCA-DBN NPCA-ANN NPCA-SVM NPCA-PLS DBN ANN SVM PLS
    地表 MRE ($\times10^{-2}$) 13.32 22.21 13.14 26.82 17.92 23.40 12.19 24.54
    水厂 训练时间(s) 44 16 180 46 89 33 349 94
    华电 MRE ($\times10^{-2}$) 14.57 25.15 13.04 29.48 17.01 24.16 10.22 27.16
    二区 训练时间(s) 37 12 211 49 90 38 401 103
    胶片 MRE ($\times10^{-2}$) 10.51 26.49 11.09 33.16 12.77 23.32 12.73 30.06
    训练时间(s) 42 16 198 57 108 42 399 108
    下载: 导出CSV 
    | 显示表格

    表 2我们可以得到, 本文所提改进DBN在建模精度和收敛速度上都有较大提升, NPCA数据预处理算法通过提取数据之间的非线性特征, 得到原有数据的非线性表达, 对于网络化表达的机器学习算法可以提高建模精度, 并降低训练时间.特别的, 同样采用NPCA数据预处理机制的复合分类方法, 对于基于线性化拟合的浅层学习算法随着训练时间的降低, 建模精度有所下降.

    基于所提出改进DBN的影响因素诊断方法, 在实验中, 我们将空气质量指数, PM10浓度, SO$_2$、CO、NO$_2$、O$_3$气体浓度, 风向, 风速, 相对湿度, 温度等10个过程变量作为诊断部分的输入变量.由于该地区的特殊性, 在4 000多次的采样数据中, 有二分之一采样点数据的PM2.5浓度都高于$100\, {\rm \mu g/m^3}$, 所以, 为了展现模型对PM2.5影响因素诊断结果, 我们实验设置的PM2.5预测限为$200{\rm \mu g/m^3}$, 即处于重度污染的情况下, 计算输入变量中对于结果的贡献率[28].并用贡献图的方式表达影响因素诊断结果.我国对PM2.5浓度级别划分如表 3所示[29].

    表 3  PM2.5浓度级别
    Table 3  The PM2.5 concentration level
    浓度范围(${\rm \mu g/m^3}$) 级别 优良级别
    0$\, \sim\, $50 1级
    50$\, \sim\, $100 2级
    101$\, \sim\, $150 3级 轻度污染
    151$\, \sim\, $200 4级 中度污染
    201$\, \sim\, $ 5级 重度污染
    下载: 导出CSV 
    | 显示表格

    在历史数据中选定所有未超限数据对应的输入, 求平均水平代表未超限数据组合作为参考输入变量集: reference (152, 168, 63, 1.55, 50, 42, 163, 2.26, 0.63, 3.88)针对华电二区监测区域, 在图 8中, 我们以超限组第20组贡献图为例说明诊断过程.

    图 8  华电二区超限数据贡献图
    Fig. 8  The contribution chart of the overrun data in the second area of Huadian

    由贡献图可以看出, 第七个变量对结果的贡献最大.我们观察验证第83组数据输入变量集为: $X_{20}= $ (179, 207, 79, 1.78, 73, 177, 266, 3.07, 0.44, 7.34)第6个变量的相对偏差为最大, 因此诊断结果为:造成此次污染物浓度过高的首要原因是风速的原因.

    从上述实验可以看出, 本文提出的改进的DBN模型在预测效果上并没有使精度降低, 同时, 加快了模型的收敛速度.并且在超标诊断中, 平均超标检测率达到$85\, \%$, 能够有效地诊断出PM2.5浓度超标的主要因素.

    本文提出的基于非线性特征提取的DBN模型能够有效完成含复杂非线性特征关系高维数据的预测建模诊断任务.基于信息熵理论, 证明了本文所提DBN模型相比传统DBN, 能够在不降低建模精度的同时, 达到降低网络和算法复杂度的优势, 对于深度学习理论在海量数据挖掘中的应用具有重要理论意义.将所提建模方法应用到一类PM2.5浓度预测与诊断问题中, 并与传统DBN、SVM、ANN、PLS等分类方法和含NPCA数据预处理机制的复合分类方法做了详细对比, 验证了所提方法的优势与正确性.需要说明的是, 本文采取基于数据驱动的方法对PM2.5进行浓度预测和影响因素诊断, 在PM2.5的形成机理上还未做过多的分析, 在未来的研究中将深入探讨PM2.5浓度变化机理.此外, 由于本文数据来源于特定城市的采样点, 因此在方法的适用性方面还要做深入的研究.下一步的工作将分为以下两部分进行: 1)理论方面, 面向深度置信网络结构本身的优化方法的研究, 研究自适应样本数据特征的网络模型结构. 2)应用方面, 尝试将所提方法应用到复杂流程工业的建模和诊断问题中.


  • Fig.  1  The robot system used in our evaluations. (a) Mobile robot platform. (b) Binocular visual system and DM642 image processing card.

    Fig.  2  Schematic overview of the method. The dash box is used for saliency modeling construction, and a 3-D map is generated by using the probability of occupancy.

    Fig.  3  The relation of $\Delta \varphi$ , $p$ ( $x$ , $y$ , $z$ ), and $p_i$ ( $x_i$ , $y_i$ , $z_i$ ), where $p$ ( $x$ , $y$ , $z$ ) is the center of the robot and $p_i$ ( $x_i$ , $y_i$ , $z_i$ ) is the feature point on the objects.

    Fig.  4  Occupancy grid maps creation when objects produce visual occlusion. We use the projection method to calculate the objects occupancy width w.

    Fig.  5  Overhead view of occupancy grid updating. The updated results using (12) will be close to the size of objects when robot moves from $A$ to $B$ . The shadows are the occupancy fields of occlusion.

    Fig.  6  An example of a saliency map. (a) Conspicuous objects. Parts 1 and 3 are of the same object; however, because of the differences in texture and distance, the object was segmented into two parts. (b) Indoor corridor and conspicuous SURF features.

    Fig.  7  A part of 3-D occupancy grid map. (a) The map is created using SURF features, and many grids show discontinuity. (b) The map is created by combining the conspicuous SURF features with the mean shift algorithm, and the discontinuity is reduced significantly.

    Fig.  8  Indoor corridor 3-D map with 1 dm $^3$ voxel size. The dash line and arrow are the trajectory and moving direction of mobile robot, respectively, and the small circles are the places used to evaluate the performance.

    Fig.  9  Outdoor 3-D map with 1 dm3 voxel size, where the dashed line and arrow are the trajectory and moving direction of mobile robot, respectively, and the little circles are the places used to evaluate the performance.

    Fig.  10  Evaluation of runtime (a) indoor and (b) outdoor with respect to feature type. The plots have been generated from 20 places marked in the trajectory of the robot with small circles in Figs. 8 and 9.

    Fig.  11  Evaluation of mapping accuracy (a) indoor and (b) outdoor with respect to feature type. The plots have been generated from 20 places marked on trajectory of robot with little circles in Figs. 8 and 9.

    Fig.  12  Evaluation of mapping accuracy under (a) stable illumination and (b) varying illumination. The results are obtained with SURF and the mapping error increases under varying illumination, however, VSM slightly increases.

    Fig.  13  Evaluation of runtime with VSM, OGM, and OMP. The results are obtained indoors, and the size of the grid is 0.1 m $\times$ 0.1 m $\times$ 0.1 m.

  • [1] T. K. Lee, S. H. Baek, Y. H. Choi, and S. Y. Oh, "Smooth coverage path planning and control of mobile robots based on high-resolution grid map representation, " Robot. Auton. Syst. , vol. 59, no. 10, pp. 801-812, Oct. 2011. http://www.researchgate.net/publication/220142222_Smooth_coverage_path_planning_and_control_of_mobile_robots_based_on_high-resolution_grid_map_representation
    [2] H. T. Cheng, H. P. Chen, and Y. Liu, "Topological indoor localization and navigation for autonomous mobile robot, " IEEE Trans. Automat. Sci. Eng. , vol. 12, no. 2, pp. 729-738, Apr. 2015. https://www.researchgate.net/publication/274573448_Topological_Indoor_Localization_and_Navigation_for_Autonomous_Mobile_Robot
    [3] I. J. Cox and J. J. Leonard, "Modeling a dynamic environment using a Bayesian multiple hypothesis approach, " Artif. Intell. , vol. 66, no. 2, pp. 311-344, Apr. 1994. https://www.researchgate.net/publication/223080507_Modeling_a_dynamic_environment_using_a_Bayesian_multiple_hypothesis_approach?ev=auth_pub
    [4] B. H. Guo and Z. H. Li, "Dynamic environment modeling of mobile robots based on visual saliency, " Control Theory Appl. , vol. 30, no. 7, pp. 821-827, Jul. 2013. http://en.cnki.com.cn/Article_en/CJFDTotal-KZLY201307006.htm
    [5] R. Sim and J. J. Little, "Autonomous vision-based exploration and mapping using hybrid maps and Rao-Blackwellised particle filters, " in Proc. 2006 IEEE/RSJ Int. Conf. Intelligent Robots and Systems, Beijing, China, 2006, pp. 2082-2089. https://www.researchgate.net/publication/224685128_Autonomous_vision-based_exploration_and_mapping_using_hybrid_maps_and_Rao-Blackwellised_particle_filters
    [6] Y. N. Wang, Y. M. Yang, X. F. Yuan, Y. Zuo, Y. L. Zhou, F. Yin, and L. Tan, "Autonomous mobile robot navigation system designed in dynamic environment based on transferable belief model, " Measurement, vol. 44, no. 8, pp. 1389-1405, Oct. 2011. http://www.researchgate.net/publication/251542234_Autonomous_mobile_robot_navigation_system_designed_in_dynamic_environment_based_on_transferable_belief_model
    [7] A. A. S. Souza, R. Maia, and L. M. G. Gonçalves, "3-D probabilistic occupancy grid to robotic mapping with stereo vision, " in Current Advancements in Stereo Vision, A. Bhatti, Ed. Croacia: INTECH, 2012, pp. 181-198.
    [8] D. Hähnel, W. Burgard, and S. Thrun, "Learning compact 3-D models of indoor and outdoor environments with a mobile robot, " Robot. Auton. Syst. , vol. 44, no. 1, pp. 15-27, Jul. 2003.
    [9] K. Pirker, M. Rüther, H. Bischof, and G. Schweighofer, "Fast and accurate environment modeling using three-dimensional occupancy grids, " in Proc. 2011 IEEE Int. Conf. Computer Vision Workshops, Barcelona, Spain, 2011, pp. 1134-1140. https://www.researchgate.net/publication/221430086_Fast_and_accurate_environment_modeling_using_three-dimensional_occupancy_grids
    [10] S. Kim and J. Kim, "Occupancy mapping and surface reconstruction using local gaussian processes with Kinect sensors, " IEEE Trans. Cybern. , vol. 43, no. 5, pp. 1335-1346, Oct. 2013. http://www.ncbi.nlm.nih.gov/pubmed/23893758
    [11] Y. Zhuang, N. Jiang, H. S. Hu, and F. Yan, "3-D-laser-based scene measurement and place recognition for mobile robots in dynamic indoor environments, " IEEE Trans. Instrum. Meas. , vol. 62, no. 2, pp. 438-450, Feb. 2013. https://www.researchgate.net/publication/260492325_3-D-Laser-Based_Scene_Measurement_and_Place_Recognition_for_Mobile_Robots_in_Dynamic_Indoor_Environments
    [12] F. Endres, J. Hess, J. Sturm, D. Cremers, and W. Burgard, "3-D mapping with an RGB-D camera, " IEEE Trans. Robot. , vol. 30, no. 1, pp. 177-187, Feb. 2014. https://www.researchgate.net/publication/260520054_3-D_Mapping_With_an_RGB-D_Camera
    [13] L. Itti, C. Koch, and E. Niebur, "A model of saliency-based visual attention for rapid scene analysis, " IEEE Trans. Pattern Anal. Mach. Intell. , vol. 20, no. 11, pp. 1254-1259, Nov. 1998. http://www.researchgate.net/publication/3192913_A_model_of_saliency-based_visual_attention_for_rapid_scene_analysis
    [14] A. Kimura, R. Yonetani, and T. Hirayama, "Computational models of human visual attention and their implementations: A survey, " IEICE Trans. Inf. Syst. , vol. E96-D, no. 3, pp. 562-578, Mar. 2013. https://www.researchgate.net/publication/275603606_Computational_Models_of_Human_Visual_Attention_and_Their_Implementations_A_Survey
    [15] S. Frintrop, E. Rome, and H. I. Christensen, "Computational visual attention systems and their cognitive foundations: A survey, " ACM Trans. Appl. Percept. , vol. 7, no. 1, pp. Article ID: 6, Jan. 2010. https://www.researchgate.net/publication/220244956_Computational_visual_attention_systems_and_their_cognitive_foundations_A_survey?ev=prf_cit
    [16] S. Frintrop and P. Jensfelt, "Attentional landmarks and active gaze control for visual SLAM, " IEEE Trans. Robot. , vol. 24, no. 5, pp. 1054-1065, Oct. 2008. https://www.researchgate.net/publication/224332109_Attentional_Landmarks_and_Active_Gaze_Control_for_Visual_SLAM?ev=auth_pub
    [17] P. Newman and K. Ho, "SLAM-loop closing with visually salient features, " in Proc. 2005 IEEE Int. Conf. Robotics and Automation, Barcelona, Spain, 2005, pp. 635-642. https://www.researchgate.net/publication/4210014_SLAM-Loop_Closing_with_Visually_Salient_Features
    [18] N. Ouerhani, A. Bur, and H. Hügli, "Visual attention-based robot self-localization, " in Proc. 2005 European Conf. Mobile Robotics, Ancona, Italy, 2005, pp. 8-13. https://www.researchgate.net/publication/33682208_Visual_attention-based_robot_self-localization
    [19] E. Einhorn, C. Schröter, and H. M. Gross, "Attention-driven monocular scene reconstruction for obstacle detection, robot navigation and map building, " Robot. Auton. Syst. , vol. 59, no. 5, pp. 296-309, May 2011. https://www.researchgate.net/publication/228572034_Attention-driven_monocular_scene_reconstruction_for_obstacle_detection_robot_navigation_and_map_building
    [20] R. Roberts, D. N. Ta, J. Straub, K. Ok, and F. Dellaert, "Saliency detection and model-based tracking: A two part vision system for small robot navigation in forested environment, " in Proc. SPIE 8387, Unmanned Systems Technology XIV, Baltimore, Maryland, USA, vol. 8387, Atricle ID 83870S. https://www.researchgate.net/publication/258716451_Saliency_detection_and_model-based_tracking_a_two_part_vision_system_for_small_robot_navigation_in_forested_environment
    [21] H. Bay, T. Tuytelaars, and L. Van Gool, "SURF: Speeded up robust features, " in Proc. 9th European Conf. Computer Vision, Graz, Austria, 2006, pp. 404-417. https://www.researchgate.net/publication/221303886_SURF_Speeded_Up_Robust_Features
    [22] D. G. Lowe, "Distinctive image features from scale-invariant keypoints, " Int. J. Comput. Vis. , vol. 60, no. 2, pp. 91-110, Nov. 2004.
    [23] D. Comaniciu and P. Meer, "Mean shift: A robust approach toward feature space analysis, " IEEE Trans. Pattern Anal. Mach. Intell. , vol. 24, no. 5, pp. 603-619, May 2002.
    [24] R. Rocha, J. Dias, and A. Carvalho, "Cooperative multi-robot systems: A study of vision-based 3-D mapping using information theory, " Robot. Auton. Syst. , vol. 53, no. 3-4, pp. 282-311, Dec. 2005. https://www.researchgate.net/publication/4210106_Cooperative_Multi-Robot_Systems_A_study_of_Vision-based_3-D_Mapping_using_Information_Theory
    [25] S. Thrun, W. Burgard, and D. Fox, Probabilistic Robotics. New York, NY, USA:MIT Press, 2005.
    [26] A. Murarka, "Building safety maps using vision for safe local mobile robot navigation, " Ph. D. dissertation, Dept. CS, Univ. Texas, Austin, USA, 2009. https://www.researchgate.net/publication/50417504_Building_safety_maps_using_vision_for_safe_local_mobile_robot_navigation
    [27] S. Hrabar, "An evaluation of stereo and laser-based range sensing for rotorcraft unmanned aerial vehicle obstacle avoidance, " J. Field Robot. , vol. 29, no. 2, pp. 215-239, Mar. -Apr. 2012. https://www.researchgate.net/publication/261847674_An_evaluation_of_stereo_and_laser-based_range_sensing_for_rotorcraft_unmanned_aerial_vehicle_obstacle_avoidance
  • 期刊类型引用(6)

    1. 王创,陈文杰,陈伟海,孙先涛,林岩. 适应人体重心起伏的悬吊减重康复系统设计. 北京航空航天大学学报. 2024(07): 2322-2330 . 百度学术
    2. 徐丹,黎华茂,杨慧,卫星,刘曦明,丁然,黄礼群,许萌. 悬吊运动疗法在青年军人膝关节前交叉韧带重建同期半月板缝合术后康复中的作用. 创伤外科杂志. 2023(08): 579-585 . 百度学术
    3. 高海波,牛福亮,刘振,于海涛,李楠. 悬吊式微低重力环境模拟技术研究现状与展望. 航空学报. 2021(01): 80-99 . 百度学术
    4. 于宁波,邹武林. 有限频域约束下串联弹性驱动器的刚度控制. 控制理论与应用. 2019(05): 711-719 . 百度学术
    5. 张从鹏,李小龙,解毅. 动态减重康复机器人控制系统开发. 机械工程师. 2019(09): 14-16 . 百度学术
    6. 申琳. 国际平衡能力研究前沿热点分析与演进. 中国学校体育(高等教育). 2018(01): 56-60 . 百度学术

    其他类型引用(7)

  • 加载中
图(13)
计量
  • 文章访问数:  2836
  • HTML全文浏览量:  305
  • PDF下载量:  777
  • 被引次数: 13
出版历程
  • 收稿日期:  2015-10-19
  • 录用日期:  2016-11-17
  • 刊出日期:  2017-07-20

目录

/

返回文章
返回