2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种基于加权时空上下文的鲁棒视觉跟踪算法

徐建强 陆耀

卢金燕, 徐德, 覃政科, 王鹏, 任超. 基于多传感器的大口径器件自动对准策略. 自动化学报, 2015, 41(10): 1711-1722. doi: 10.16383/j.aas.2015.c150053
引用本文: 徐建强, 陆耀. 一种基于加权时空上下文的鲁棒视觉跟踪算法. 自动化学报, 2015, 41(11): 1901-1912. doi: 10.16383/j.aas.2015.c150073
LU Jin-Yan, XU De, QIN Zheng-Ke, WANG Peng, REN Chao. An Automatic Alignment Strategy of Large Diameter Components with a Multi-sensor System. ACTA AUTOMATICA SINICA, 2015, 41(10): 1711-1722. doi: 10.16383/j.aas.2015.c150053
Citation: XU Jian-Qiang, LU Yao. Robust Visual Tracking via Weighted Spatio-temporal Context Learning. ACTA AUTOMATICA SINICA, 2015, 41(11): 1901-1912. doi: 10.16383/j.aas.2015.c150073

一种基于加权时空上下文的鲁棒视觉跟踪算法

doi: 10.16383/j.aas.2015.c150073
基金项目: 

国家自然科学基金(61273273,61271374),高等学校博士学科点专项科研基金(20121101110034)资助

详细信息
    作者简介:

    徐建强 北京理工大学计算机学院博士研究生.主要研究方向为目标跟踪,计算机视觉,模式识别.E-mail:xujq@bit.edu.cn

    通讯作者:

    陆耀 北京理工大学计算机学院教授.主要研究方向为神经网络,图像和信号处理,模式识别.本文通信作者.E-mail:vis_ly@bit.edu.cn

Robust Visual Tracking via Weighted Spatio-temporal Context Learning

Funds: 

Supported by National Natural Science Foundation of China (61273273, 61271374) and Research Fund for the Doctoral Program of Higher Education of China (20121101110034)

  • 摘要: 由于光照及外观变化、复杂背景、目标旋转与遮挡等因素的影响, 给实现鲁棒的视觉跟踪带来困难. 有效利用上下文(Context)中包含的有用信息有助于提升上述条件下视觉跟踪的鲁棒性. 时空上下文 (Spatio-temporal context, STC)算法是新近提出的一种基于时空上下文的目标跟踪算法, 它利用目标周围的稠密上下文信息, 取得了良好的跟踪效果. STC的不足是其同等对待整个上下文区域, 没有对上下文做进一步的区分, 减弱了上下文的作用. 本文采用动态分区处理思想, 根据上下文中不同区域与跟踪目标运动相似度大小, 赋予不同权值, 提出了基于加权时空上下文(Weighted spatio-temporal context, WSTC)的鲁棒视觉跟踪算法. 最后在公共数据集上进行的对比实验表明, 本文所提出的算法具有更好的跟踪效果和鲁棒性.
  • 近年来,使用深度学习方法,建立多层网络模型,尝试在样本数据上逐层提取高级特征已成为机器学习、模式识别、特征提取与数据挖掘等领域的一个重要研究方向. 神经科学研究表明人类大脑是一个由神经元组成的深度结构,对大脑皮层不同区域输入信息的多级抽象,可以使人脑完成复杂的物体识别任务[1]. 因此,深度学习相关研究专注于模拟人类大脑的多层结构以获取更好的学习性能.

    深度信念网络(Deep belief network,DBN) 是一种由多层非线性变量连接组成的生成式模型[2]. DBN 可以看作由多个受限玻尔兹曼机(Restricted Boltzmann machine,RBM) 层叠构成,其中前一个 RBM 的隐含层将作为下一个RBM 的可视层. 组成DBN 的每一个RBM 都可以使用上一层的输出单独训练,因此与传统的神经网络相比,DBN 的训练过程将会变得简单. 这种训练方法也有助于从无标签数据获取高级特征.

    随着深度学习方向研究的深入与发展,人们已提出多种改进的DBN 模型. 通过补充先验方式,Hinton 等导出一种快速的逐层贪婪算法可用于深度信念网络的训练[3]. 该算法应用于一个预训练过程,使用对比形式的Wake-sleep 算法对RBM 权值调优. 在此之后,所有RBM 组成的DBN 生成式模型获得了比判别式学习算法更优秀的手写字符分类效果. 然而,这种方法由于设计为使用二值图像数据并且缺少系统的方法处理感知不变性而存在一定局限性. Bengio 等进一步研究了这种算法,将其成功地扩展到输入为连续值或输入分布的结构并不能完全确定的情况,省去了有监督学习中对其状态的预测过程[4]. 实验结果表明,这种贪婪逐层训练策略有助于优化深层网络,同时也证明每一层的无监督训练方式也十分重要. Lee 等提出了一种称为卷积深度信念网络的层次生成模型,可用于全尺寸的图像数据处理[5]. 这种DBN 模型的关键方法是用概率的最大汇总将更高层的表示做压缩,可使模型具有平移不变性,从而能支持高效率的自底向上和自顶向下概率推断. Huang 等也对卷积DBN 进行研究并将其用于学习人脸识别的高分辨率图像特征,提出了一种全新的局部卷积RBM 模型,来获取额外的特征表示并应用到人工图像描述符如LBP (Local binary patterns) 中. 相关实验证明权值的学习不仅对于获得良好的多层特征十分重要,同时也提供了选择网络参数的健壮性方法[6]. 在此基础上,一种面部表情识别模型BDBN (Boosted deep belief network) 被提出,这种模型通过三个阶段的迭代来进行训练[7],能够学习到一组可有效描述表情相关的面部外形特征并用统计方法构建增强分类器. 在手写文字识别方面,Roy 等提出了一种使用DBN 的词语假设查找改进方法[8],将DBN 提取的有效区分性特征与基于递归神经网络的序列分类器组合,以进一步提高识别性能. 在语音识别领域,Mohamed 等用DBN 替代高斯混合模型,在TIMIT 数据集上获得了更好的音素识别效果[9]. 这种DBN 首先在没有区分信息的情况下预训练,然后使用反向传播的方法微调. 为了完全利用DBN 的生成性特征,Kang 等提出了对语音参数如频谱和F0 等建模,然后在语音合成功能的DBN 中同步生成这些参数[10]. 这种DBN 可以构建出优于HMM (Hidden Markov model) 模型的频谱,同时拥有更少的失真.

    尽管DBN 在众多应用领域都获得了更好的结果,在隐含层缺少约束的DBN 可能会产生非结构化的权值模式. 本文尝试在神经科学研究中寻找解决方法. 除一般神经元外,在人脑中还有另一种神经细胞称为胶质细胞(Glia cell). 在近期的神经科学研究中,胶质细胞已成为了解人脑工作机制的中心课题[11]. 胶质细胞可以用离子作为传递信号的媒介,如Ca2+、GLU (Glutamate)、ATP (Adenosine triphosphate) 等. 在这些离子中,Ca2+ 十分特殊,可以改变神经元的膜电位和相邻胶质细胞的状态. 一些研究人员已注意到这种生物作用机制,并将其应用于人工神经网络[12]. 这项研究提出了一种改进的多层感知器(Multilayer perceptron,MLP),在隐含层中包含了多个胶质细胞. 这些胶质细胞与MLP 中的神经元相连并能被神经元的输出激活,同时已激活的胶质细胞将向相邻的胶质细胞传递信号. 这种改进MLP 模型能够获取有助于优化其学习过程的隐含层神经元关联信息.

    与上述情况相似,DBN 同层单元间也没有连接,因此本文提出了一种基于与胶质细胞链连接的受限玻尔兹曼机的DBN 模型及改进的DBN 逐层训练方法,以提高训练效率,抽取更多有效信息. 在 RBM 的训练过程中,胶质细胞能够调整隐含层单元的激活概率并向其他胶质细胞发出信号. 在标准图像数据集上的实验结果显示,与传统DBN 以及其他几种模型相比,这种改进的DBN 模型可以获取更具抽象性的特征,同时提高分类准确率.

    DBN 是一种由多个隐含层组成的概率模型. 每个隐含层在训练中都可以获得比上一层更高级的数据特征. DBN 可以通过堆叠多个受限玻尔兹曼机 (RBM) 来构建.

    RBM 是一种二部无向图模型[13]. 如图 1 所示,RBM 由两层结构组成: 可视层和隐含层. D 维的可视层单元和K 维隐含层单元间通过对称的权值矩阵WD×K 连接. 在可视层单元间及隐含层单元间并不存在连接.

    图 1  RBM 结构示意图
    Fig. 1  The structure of RBM

    可视层单元和隐含层单元上的联合概率分布可定义为:

    $p\left( v,h \right)=\frac{1}{Z}eXp\left( -E\left( v,h \right) \right)$

    (1)

    $Z=\underset{D}{\mathop{\sum }}\,\underset{K}{\mathop{\sum }}\,eXp\left( -E\left( v,h \right) \right)$

    (2)

    其中,v 是可视层单元向量,h 是隐含层单元向量,Z 是归一化因子,定义为exp(-E(v,h)) 的所有可能组合的和.

    RBM 的权值和偏置定义了隐含层单元和可视层单元的一种可能状态下的能量E(v,h). 如果可视层单元为二值形式,则能量函数可定义为:

    $\begin{align} &E\left( v,h \right)=-\underset{i=1}{\overset{D}{\mathop{\sum }}}\,\underset{j=1}{\overset{K}{\mathop{\sum }}}\,{{W}_{i}}_{j}{{v}_{i}}{{h}_{j}}- \\ &\underset{j=1}{\overset{K}{\mathop{\sum }}}\,{{b}_{j}}{{h}_{j}}-\underset{i=1}{\overset{D}{\mathop{\sum }}}\,{{c}_{i}}{{v}_{i}} \\ \end{align}$

    (3)

    其中bjci 分别为隐含层单元和可视层单元的偏置,Wij 为隐含层单元和可视层单元间的权值. 如果可视层单元为实值,则能量函数定义为以下形式:

    $\begin{align} &E\left( v,h \right)=\frac{1}{2}\underset{i=1}{\overset{D}{\mathop{\sum }}}\,{{v}^{2}}_{j}-\underset{i=1}{\overset{D}{\mathop{\sum }}}\,\underset{j=1}{\overset{k}{\mathop{\sum }}}\,{{W}_{i}}_{j}{{v}_{i}}{{h}_{j}}- \\ &\underset{j=1}{\overset{K}{\mathop{\sum }}}\,{{b}_{j}}{{h}_{j}}-\underset{i=1}{\overset{D}{\mathop{\sum }}}\,{{c}_{i}}{{v}_{i}} \\ \end{align}$

    (4)

    从能量函数可以看出,给定可视层单元的状态,隐含层单元彼此相互独立. 同样,给定隐含层单元的状态,可视层单元也相互独立. 根据条件概率分布定义,对于隐含层,每个隐含单元的二进制状态hj 在下式情形可设置为1:

    $p\left( {{h}_{j}}=1\left| v \right. \right)=\sigma \left( \underset{i}{\mathop{\sum }}\,{{W}_{i}}_{j}{{v}_{i}}+{{b}_{j}} \right)$

    (5)

    其中σ(s) = 1=(1 + exp(-s)) 为sigmoid 函数. 与此类似,如果可视层是二值的,则可视层单元状态依赖于隐含层单元,其状态vi 在下式情形为1:

    $p\left( {{v}_{j}}=1\left| h \right. \right)=\sigma \left( \underset{i}{\mathop{\sum }}\,{{W}_{i}}_{j}{{h}_{i}}+{{c}_{i}} \right)$

    (6)

    如果可视层为实值,可视层单元是有对角协方差的独立高斯变量:

    $p\left( {{v}_{j}}\left| h \right. \right)=N\left( \underset{i}{\mathop{\sum }}\,{{W}_{i}}_{j}{{h}_{i}}+{{c}_{i}},1 \right)$

    (7)

    其中N(.,.) 是高斯分布函数.

    由于计算准确的梯度十分困难,因此RBM 训练时常采用一种近似算法,称为对比散度算法(Con- trastive divergence,CD).

    基于对数似然函数log P(v) 的梯度,可以导出 RBM 的权值更新规则,如下式所示:

    $\Delta {{w}_{ij}}=Edata\left( {{v}_{i}}{{h}_{j}} \right)-E\operatorname{mo}del\left( {{v}_{i}}{{h}_{j}} \right)$

    (8)

    其中,Edata(vihj) 是训练数据观测的期望,Emodel(vihj) 是由模型定义分布下的期望[14]. 由于难以计算,因此常用近似算法为对比散度(CD)[15]. 通过单步或多步吉布斯采样,上述两个期望将会更新. 对于单步采样的CD-1 算法,其过程可简述如下:

    初始化数据v0;

    从h0 ~ p(h|v0) 抽样;

    从v1 ~ p(v|h0) 抽样;

    从h1 ~ p(h|v1) 抽样;

    CD 算法的细节将在第2.2 节详述. 对于多步采样,其过程如图 2 所示.

    图 2  多步采样的CD 算法过程
    Fig. 2  Multistep sampling in CD algorithm

    DBN 网络的训练可采用一种贪婪逐层算法[16]. 首先,最底层RBM 使用原始训练数据,通过CD 算法训练. 然后其参数将会保存,推断出隐含层单元状态作为下一层RBM 的输入,下一层RBM 继续训练,直到训练成完整的深层结构.

    胶质细胞是人脑中一种特殊的神经细胞,可向神经元和其他胶质细胞传递信号. 研究人员已开始关注胶质细胞的特性,并将其应用于人工神经网络的训练过程. Ikuta 等提出了一种用胶质细胞改进的多层感知器模型[17]. 在这种模型的训练中,胶质细胞能够产生脉冲信号并在神经网络中传递. 实验结果表明与传统多层感知器相比,该模型拥有更好的学习性能.

    同样,DBN 可看作一种称为预训练深度神经网络(Pre-trained deep neural network) 的结构[18]. 这类模型使用无监督的预训练方式来促进后续的区分性微调过程. 受上述模型的启发,本文认为胶质细胞有助于RBM 的训练,可学习到RBM 同一层内单元间的关联信息. 本文简化了胶质细胞的定义,使之适合RBM 的结构. 以这种方式改进的RBM 及组成的DBN 结构如图 3 所示.

    图 3  胶质细胞链改进的RBM 及其组成的DBN 模型
    Fig. 3  Improved RBMs based on glia chains and a DBN composed of these RBMs

    图 3 中,除了RBM 的两层单元,还有一组胶质细胞以星形表示,连接成链式结构. 此外,每个胶质细胞还与RBM 隐含层对应位置的一个隐含单元相连. 在本文提出模型中,胶质细胞与所对应的隐含单元间没有权值,训练过程中所有胶质细胞的效果都能直接作用于隐含层单元,调整隐含单元的输出. 通过胶质细胞间的连接,每个胶质细胞也能够向其他胶质细胞传递信号,调整其他胶质细胞的胶质效果.

    在以胶质细胞链改进的RBM 训练中,隐含层单元的输出将会被与之相连的处于激活状态的胶质细胞调整,然后这个胶质细胞会将激活信号向其他胶质细胞传递. 例如,如果某个隐含单元h1 的输出高于指定的阈值,胶质细胞g1 将会被激活,之后产生一个信号传递给胶质细胞g2. 当此信号传递到g2 时,即使隐含单元h2 的输出没有达到阈值,胶质细胞g2 依然会激活,然后产生第二个信号向下传递,而第一个信号也会继续传播. 在本文中,为了简化计算,所有信号定义为单向传播,即从链上第一个胶质细胞传向最后一个.

    隐含层单元输出更新规则具体定义如下:

    ${{h}_{j}}=\sigma \left( {{{{h}'}}_{j}}+a\times {{g}_{j}} \right)$

    (9)

    其中,hj 是更新后的输出,σ 是sigmoid 函数,gj 是胶质效果值,α 是胶质效果的权重. 胶质效果权重α 是一个需人工设置的参数,设置此参数的目的是控制胶质效果对RBM 隐含层单元输出调整作用的大小,胶质效果将作为新的隐含层单元输出的一部分,胶质效果权重值越大,对隐含层单元输出的调整作用就越明显. 隐含层单元的原始输出h′j 可由下式计算:

    ${{{{h}'}}_{j}}=\underset{i}{\mathop{\sum }}\,{{w}_{ij}}{{v}_{i}}+{{b}_{j}}$

    (10)

    其中,Wij 是连接到隐含层单元的权值,vi 是可视层单元的状态,bj 是隐含层单元的偏置. 本文直接使用激活概率作为输出而非对每个隐含层单元状态随机采样,可以减少采样的噪声,加快学习速度[19]. 胶质效果值gj 定义为:

    ${{g}_{j}}\left( t \right)=\left\{ \begin{align} &1,{{{{h}'}}_{j}}\succ \theta \cup {{g}_{j-1}}\left( \left( t-1 \right)=1 \right)\cap \\ &{{t}_{j}}\prec T \\ &\beta gj\left( t-1 \right),其他 \\ \end{align} \right.$

    (11)

    其中,θ是指定的阈值,T 是激活后的不响应时间,β是衰减因子. 在本文中,已激活胶质细胞产生的信号每次前进到下一个胶质细胞,一个胶质细胞的激活将取决于所连接的隐含层单元输出是否达到了指定阈值,或前一个胶质细胞是否给它传递了信号,并且它的上次激活距离当前时刻差值必须大于不响应时间T. 如果此胶质细胞激活,它将向下一个胶质细胞传递信号,否则不会产生信号并且其胶质效果将逐渐衰减.

    在加入胶质细胞机制后,RBM 的学习算法得到改进: 训练中每次计算隐含层单元输出后,胶质细胞链会根据之前状态调整隐含层输出,并且保存下一次的胶质效果. 改进的RBM 训练算法伪码如下:

    输入: 训练样本χ1,学习率ε,胶质效果向量g

    输出: 权值矩阵W,隐含层偏置向量b,可视层偏置向量c

    训练阶段:

    1: 初始化v1 =χ1

    2: for j = 1; 2,...;m(对所有隐含单元)

    3: 计算p(h1j = 1|v1) =(σ∑iWijv1i + bj)

    4: 从p(h1|v1) 抽取h1j

    5: end for

    6: for i = 1; 2,...,n (对所有可见单元)

    7: 计算p(v2i = 1|h1)=(σ∑iWijv1i + cj)

    8: 从p(v2i|h1) 抽取v2i

    9: end for

    10: 计算h2j =∑iWijv1i +bj

    11: 计算新的胶质效果向量g 然后保存

    12: for j = 1,2,...,m (对所有隐含单元)

    13: 计算h2j =σ(h′2j + α* gj)

    14: end for

    按下式更新参数:

    15: WW +ε(p(h1 = 1|v1)v1T- p(h2 = 1|v2)v2T)

    16: bb +ε(p(h1 = 1|v1) - p(h2 = 1|v2))

    17: cc +ε(v1 -v2)

    由多个RBM 组成的DBN 训练包含两个部分: 预训练过程和微调过程. 在预训练中,组成DBN 的所有RBM 自底向上依次训练. 当某个RBM 用改进的CD 算法训练完成后,学习到的参数被保存,其隐含层输出将作为下层RBM 的输入,下层RBM 继续使用该算法训练,直到所有RBM 训练完成. 在微调阶段,所有RBM 组成的网络用反向传播方式训练,进一步调整模型参数,直至收敛. 在本文中,胶质细胞机制仅作用于预训练过程. DBN 的训练过程如图 4 所示.

    图 4  改进DBN 的训练过程
    Fig. 4  Training process of the improved DBN

    为了验证本文所提出模型的学习性能,本文在三个图像分类数据集上进行实验: MNIST 数据集[20]、CIFAR-10 数据集[21]、Rectangles images数据集[22]. 改进的RBM(DBN) 模型与其他几种模型结果做了比较: 传统RBM、稀疏自动编码器(Sparse auto-encoder)[23]、BP 神经网络(Back- propagation neural network)[24]. 实验的硬件平台为: CPU i5-3210 M,2.50 GHz,RAM 8 GB. 使用的深度学习框架为DeepLearnToolbox,运行的软件环境为Matlab2012. 对于多分类数据(MNIST 及 CIFAR-10),本文在实验中选取了所有类别的数据进行训练,最终给出所有类的平均错误率. 由于硬件条件有限,本文没有选取深度学习中的另一图像数据集ImageNet,而采用了矩形图像数据集Rectan- gles images,来测试模型在二分类数据上的性能,并且进行更多实验讨论模型关键参数的选择情况. 为了提高学习效率,本文使用了分批训练方式,训练数据分为多个批次,在每批数据训练后更新模型参数.

    MNIST 数据集(Mixed National Institute of Standards and Technology dataset) 是广泛应用于机器学习领域的一个大型手写数字数据集[25]. 该数据集包含60 000 张训练图像和10 000 张测试图像,每张图像都是一个0 到9 的手写数字,大小为28 像素× 28 像素.

    首先本文分别训练了改进RBM 和传统RBM,结构均为784 个可视层单元和100 个隐含层单元,模型训练所学习到的特征可视化后如图 5 所示.

    图 5  RBM (上) 和胶质细胞链改进的RBM (下) 学习特征的可视化
    Fig. 5  Visualization of features learned by RBM (above) and improved RBM (below)

    图 5 可以看出,传统RBM 学习到的特征多为模糊的块状区域,少量为字符的笔画,而改进RBM 学习到的特征多为更清晰的字符笔画,更有区分性和局部性.

    之后本文在此数据集上训练了几种不同模型: RBM、改进RBM、稀疏自动编码器、BP 神经网络. 这几种模型的算法程序均在DeepLearnToolbox 基础上实现,其共同拥有的可调参数如学习率等均调整并设为相同值,隐含层单元均设置为从200 逐渐增加到500,并比较它们在测试数据上的分类错误率及运行收敛时间,结果如表 1 所示.

    表 1  MNIST 数据集上不同模型的测试结果
    Table 1  Testing results of diαerent models on MNIST dataset
    模型 200 隐含单元 300 隐含单元 500 隐含单元
    测试 收敛 测试 收敛 测试 收敛
    错误率 时间 错误率 时间 错误率 时间
    (%) (s) (%) (s) (%) (s)
    RBM 3.03 70.06 2.83 94.48 2.55 146.23
    Sparse auto-encoder 3.34 121.01 2.91 153.67 2.59 198.21
    BP neural network 4.57 142.42 4.35 187.17 4.1 215.88
    RBM + Glial chain 2.82 65.27 2.62 90.42 2.4 137.91
    下载: 导出CSV 
    | 显示表格

    表 1 结果显示,与传统RBM 及其他几种模型相比,以胶质细胞链改进的RBM 拥有更好的分类性能. 随着隐含层单元数量的增加,所有模型的分类错误率都在不同程度上下降,但改进RBM 始终保持最低的错误率,并且具有更快的收敛速度. 由此可以推断,改进RBM 模型可学习到更优更具区分性的特征.

    为了进一步研究多隐含层结构模型的学习性能,本文分别训练了DBN 和胶质细胞链改进DBN 模型,均包含两个隐含层,单元数为第一层500,第二层200. 这两种DBN 共同具有的参数如学习率和动量等均设置为相同值. 表 2 显示了这两种模型的训练和测试分类错误率、收敛时间. 为了更详细地显示出两种模型的分类情况,本文统计了两种DBN 模型在前三个类别的False positive (FP) 及False negative (FN) 数据,如表 3 所示.

    表 2  MNIST 数据集上传统DBN 及改进DBN 的训练及测试错误率及收敛时间
    Table 2  Training, testing error rate and convergence time of DBN and improved DBN on MNIST dataset
    模型 训练错误率(%) 测试错误率(%) 收敛时间(s)
    DBN 1.69 2.59 184.07
    改进DBN 1.05 1.53 176.72
    下载: 导出CSV 
    | 显示表格
    表 3  MNIST 数据集上传统DBN 及改进DBN 的FP 及FN 数据
    Table 3  FP and FN data of DBN and improved DBN on MNIST dataset
    模型 类别1 类别2 类别3
    FP FN FP FN FP FN
    DBN 145 10 137 13 133 24
    改进DBN 28 9 12 10 33 16
    下载: 导出CSV 
    | 显示表格

    表 2表 3 可以看出,当采用多隐含层结构时,改进DBN 的分类错误率依然低于传统DBN,收敛速度更快,并且在三种具体类别的图像数据分类中,产生的FP 和FN 数据均较少,说明其分类效果更为优秀. 这进一步验证了增加的胶质细胞链能够改进深层结构的学习性能. 在胶质细胞链的调整效果下,DBN 能够获取同一隐含层单元间的关联信息,并且隐含层单元间可以通过胶质细胞传递信息.

    为了测试改进DBN 的最优性能,本文训练了包含三个隐含层的网络,其结构(包含输入) 为784- 500-500-2 000,在每个隐含层内还连接相同数量的胶质细胞. 在将参数调整后,改进DBN 模型获得了在MNIST 数据集上,本文所有实验的最低错误率,并与此数据集已记录模型的结果相比,如表 4 所示.

    表 4  MNIST 数据集上改进DBN 取得的最优结果与其他模型已有结果的比较
    Table 4  Comparison of DBN and other models0 bestresults on MNIST dataset
    模型 测试错误率(%)
    1 000 RBF + Linear classifer 3.60[20]
    DBN,using SparseRBMs pre-training a 784-500-500-2 000 network1.87[26]
    Boosted trees (17 leaves) 1.53[27]
    3-layer NN,500 + 300 HU,softmax,cross-entropy,weight decay1.51[28]
    SVM,Gaussian kernel 1.40[29]
    DBN,using RBMs pre-training a 784-500-500-2 000 network1.20[2]
    DBN,using RBMs with glial chain pre-training a 784-500-500-2 000 network 1.09
    下载: 导出CSV 
    | 显示表格

    CIFAR-10 数据集包含60 000 张32 × 32 大小的彩色图像,共有10 类. 每张图像中都包含一类物体,这些类别是完全独立的. 与MNIST 数据集相比,CIFAR-10 数据集更为复杂,彩色图像数据维度更高,因此识别难度将会更大.

    与之前实验类似,本文训练了RBM 和改进 RBM,其隐含层单元数从600 逐步增加到1 000. 模型训练后的分类错误率如图 6 所示. 从图中可以看出,在CIFAR-10 数据集上,改进RBM 的分类错误率依然低于传统RBM,尽管输入数据维数更高、内容更复杂,胶质细胞链改进的RBM 仍能学习到更优的图像特征.

    图 6  RBM 及胶质细胞改进RBM 在CIFAR-10 数据集上的测试分类错误率
    Fig. 6  Test error rate of RBM and RBM with glia chain on CIFAR-10 dataset

    同样,两种DBN 模型也在此数据上训练,两个隐含层单元数分别为1 000 和500,训练和测试错误率如表 5 所示. 可以看出,改进的DBN 模型在 CIFAR-10 数据集也获得了更低的训练错误、更高的测试分类准确率和更快的收敛速度.

    表 5  CIFAR-10 数据集上DBN 及胶质细胞改进DBN 的训练和测试分类错误率及收敛时间
    Table 5  Training, testing error rate and convergence time of DBN and improved DBN on CIFAR-10 dataset
    模型 训练错误率(%) 测试错误率(%) 收敛时间(s)
    DBN 32.67 50.07 474.21
    改进DBN 30.4 46.19 463.19
    下载: 导出CSV 
    | 显示表格

    表 6 为在“Airplane”“Automobile”“Bird”这三类图像数据中,DBN 和改进DBN 的FP 和FN 数据. 其结果显示出改进DBN 在识别这三类图像中的物体时,仍然具有更少的误分类,达到了更高的准确度.

    表 6  CIFAR-10 数据集上DBN 及胶质细胞改进DBN 的FP 和FN 数据
    Table 6  FP and FN data of DBN and improved DBN on CIFAR-10 dataset
    类别 Airplane Automobile Bird
    FP FN FP FN FP FN
    DBN 8 781 421 8 017 800 7 817 1 000
    改进DBN 4 986 36 5 074 333 4 731 676
    下载: 导出CSV 
    | 显示表格

    Rectangle images 数据集包含62 000 张28×28 的图像数据,每张图像中均有一个矩形图形,其高度和宽度不等. 在此数据集上的分类任务为识别矩形的高度和宽度中的较大值,而矩形的位置并不固定.

    与之前两个数据上实验相同,本文首先训练了不同隐含层单元数的RBM 和改进RBM,其分类结果如图 7 所示.

    图 7  Rectangles images 数据集上RBM 及胶质细胞改进 RBM 的测试分类错误率
    Fig. 7  Test error rate of RBM and RBM with glia chain on Rectangles images dataset

    图 7 可以看到,当隐含层单元数逐渐增加时,改进RBM 获得了更低的测试分类错误率,在隐含单元数为200 时最为明显,并且在隐含层单元增加的过程中,改进RBM 的错误率下降趋势更大,说明改进RBM 更适于多隐含层单元的模型,适合较复杂的图像数据的分类.

    对于两个隐含层的DBN 和改进DBN,其隐含单元数均设置为500 和200. 表 7 显示了两种模型的测试错误率、收敛时间、FP 和FN 数据. 从结果可以看出,改进的RBM 和DBN 模型仍然具有更优秀的学习性能.

    表 7  Rectangles images 数据集上DBN 及胶质细胞改进DBN 的训练和测试错误率、收敛时间、FP 和FN 数据
    Table 7  Training, testing error rate, convergence time, and FP, FN data of DBN and improved DBN on Rectangles images dataset
    模型 训练错误率(%) 测试错误率(%) 收敛时间(s) FP FN
    DBN 1.61 3.22 90.03 7 9
    改进DBN 0.59 1.4 46.3 5 2
    下载: 导出CSV 
    | 显示表格

    本文提出的改进DBN 模型包含三个重要参数: 胶质效果权重、衰减因子、胶质细胞阈值. 这三个参数将决定胶质细胞对DBN 的作用,进而影响训练模型的整体性能. 由于在目前的改进DBN 模型的定义中尚无这三个参数的自适应调整方法,因此现阶段胶质细胞参数的调整需通过人工设置及实验结果验证. 在本节中,本文在Rectangles images 数据集上重点考察了当这三个胶质细胞参数取值为0 到 1 区间内间隔为0.05 的20 个不同值时,对模型测试分类错误率的影响,在每个参数不同取值下,本文均进行了30 次实验,取测试分类错误率的平均值作为最终结果,希望能在结果中探讨参数的合理取值区间,为改进DBN 模型的应用提供一定的参考.

    本文将测试单隐含层和双隐含层的改进DBN 模型,其隐含单元数设置为: 第一隐含层500,第二隐含层200. 首先测试胶质效果权重不同取值下改进DBN 模型在数据上的测试分类错误率,如图 8 所示.

    图 8  胶质效果权重参数不同取值下改进DBN 模型的测试分类错误率
    Fig. 8  Testing error rate of improved DBN with diαerent values of glia eαect weight

    图 8 可以看出,当胶质效果权重取值在0.05 到1 的区间时,两种结构的改进DBN 模型获得的错误率均在不断波动. 但是可以明显看出,当权重取值靠近区间边缘时(单隐含层取值0.1,双隐含层取值0.95),都会出现较高的错误率,因此胶质效果权重不应设置过小或过大. 另一方面,当权重分别设置为0.85 和0.75 时,都获得了最低的错误率,但是其相邻取值时的错误率均出现了较高的点,并没有一定规律. 经过比较,可以看到权重取值为0.5 左右时,结果的变动较小,并且错误率相对较低,因此在此取值范围内,胶质效果适中,对DBN 模型的影响较好.

    图 9 显示了衰减因子参数为不同取值时的情况. 最高错误率出现在0.55 (单隐含层模型) 及0.95 (双隐含层模型),而最低错误率分别出现在取值为1.00 和0.05. 对于单隐含层模型,随着衰减因子逐渐增大,其分类错误率有下降趋势,而双隐含层模型的分类错误率则总体略有上升. 因此改进DBN 的衰减因子参数取值较大时对单隐含层模型较为适合,而取值较小时,对于双隐含层模型较适合.

    图 9  胶质衰减因子参数不同取值下改进DBN 模型的测试分类错误率
    Fig. 9  Testing error rate of improved DBN with diαerent values of attenuation factor

    图 10 为胶质细胞的阈值参数不同取值时两种结构改进DBN 模型的分类错误率变化情况. 其中胶质细胞阈值的取值在0.40 和0.45 时,单隐含层模型分别获得了最低和最高的错误率. 当取值为0.15 和0.20 时,双隐含层模型拥有最高和最低的错误率. 这两种取值都较为接近,并且没有一定的规律. 但是可以看到,在0.80 至0.90 的区间内,两种结构的改进DBN 模型的分类错误率均为较低水平,并且变化较小. 因此这个区间对胶质细胞阈值是一个较合理的取值区间. 这可以在一定程度上说明较高的胶质细胞阈值决定了只有少数的胶质细胞能够激活,也只有少数的DBN 隐含层单元获得更高的胶质效果,因此更有利于DBN 模型的训练.

    图 10  胶质阈值参数不同取值下改进DBN 模型的测试分类错误率
    Fig. 10  Testing error rate of improved DBN with diαerent values of glia threshold

    本文提出了一种基于人脑胶质细胞和神经元交互机制的改进DBN 模型,其中胶质细胞组成的链式结构与DBN 的隐含层相连. 在此结构基础上,提出一种改进的DBN 训练算法,以提取更优的数据特征. 在组成DBN 的RBM 训练过程中,胶质细胞能够调整隐含层单元的输出并向其他胶质细胞传递相关信息. 为了验证模型的学习性能,本文在 MNIST、CIFAR-10、Rectangles images 数据集上进行实验. 与其他几种模型相比,改进的DBN 能够提取更加适于图像分类任务的特征. 但目前本文提出的模型仍有不足之处,由于胶质细胞机制的引入,增加了需要调整的参数,增大了训练模型时寻找最优参数的难度. 在今后的工作中,我们将会进一步研究提高算法的运行效率以及胶质细胞参数的自适应调整方法.

  • [1] Babenko B, Yang M H, Belongie S. Robust object tracking with online multiple instance learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8):1619-1632
    [2] Wang Li-Jia, Jia Song-Min, Li Xiu-Zhi, Wang Shuang. Person following for mobile robot using improved multiple instance learning. Acta Automatica Sinica, 2014, 40(12):2916-2925(王丽佳, 贾松敏, 李秀智, 王爽. 基于改进在线多示例学习算法的机器人目标跟踪. 自动化学报, 2014, 40(12):2916-2925)
    [3] [3] Ross D A, Lim J, Lin R S, Yang M H. Incremental learning for robust visual tracking. International Journal of Computer Vision, 2008, 77(1-3):125-141
    [4] [4] Zhang K H, Zhang L, Yang M H. Fast compressive tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(10):2002-2015
    [5] [5] Kwon J, Lee K M. Visual tracking decomposition. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA:IEEE, 2010. 1269-1276
    [6] [6] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7):1409-1422
    [7] Li Zhen-Xing, Liu Jin-Mang, Li Song, Bai Dong-Ying, Ni Peng. Group targets tracking algorithm based on box particle filter. Acta Automatica Sinica, 2015, 41(4):785-798(李振兴, 刘进忙, 李松, 白东颖, 倪鹏. 基于箱式粒子滤波的群目标跟踪算法. 自动化学报, 2015, 41(4):785-798)
    [8] [8] Zhou X Z, Lu Y, Lu J W, Zhou J. Abrupt motion tracking via intensively adaptive Markov chain Monte Carlo sampling. IEEE Transactions on Image Processing, 2012, 21(2):789-801
    [9] [9] Zhou T F, Lu Y, Di H J. Nearest neighbor field driven stochastic sampling for abrupt motion tracking. In:Proceedings of the 2014 International Conference on Multimedia and Expo (ICME). Chengdu China:IEEE, 2014. 1-6
    [10] Grabner H, Matas J, Van Gool L, Cattin P. Tracking the invisible:learning where the object might be. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA:IEEE, 2010. 1285-1292
    [11] Dinh T B, Vo N, Medioni G. Context tracker:exploring supporters and distracters in unconstrained environments. In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, CO, USA:IEEE, 2011. 1177-1184
    [12] Wen L Y, Cai Z W, Zhen L, Dong Y, Li S Z. Online spatio-temporal structural context learning for visual tracking. In:Proceedings of the 2012 European Conference on Computer Vision (ECCV). Florence, Italy:Springer, 2012. 716-729
    [13] Yang M, Wu Y, Hua G. Context-aware visual tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(7):1195-1209
    [14] Zhang K H, Zhang L, Liu Q S, Zhang D, Yang M H. Fast visual tracking via dense spatio-temporal context learning. In:Proceedings of the 2014 European Conference on Computer Vision (ECCV). Czech Republic:Springer, 2014. 127-141
    [15] Sundaram N, Brox T, Keutzer K. Dense point trajectories by GPU-accelerated large displacement optical flow. In:Proceedings of the 2010 European Conference on Computer Vision (ECCV). Florence, Italy:Springer, 2010. 438-451
    [16] Nourani-Vatani N, Borges P V K, Roberts J M. A study of feature extraction algorithms for optical flow tracking. In:Proceedings of the 2012 Australasian Conference on Robotics and Automation. Victoria University of Wellington, New Zealand, 2012.
    [17] Kalal Z, Mikolajczyk K, Matas J. Forward-backward error:automatic detection of tracking failures. In:Proceedings of the 2012 International Conference on Pattern Recognition (ICPR). Istanbul Turkey:IEEE, 2010. 2756-2759
    [18] Wu Y, Lim J, Yang M H. Online object tracking:a benchmark. In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA:IEEE, 2013. 2411-2418
    [19] Zhang K H, Zhang L, Yang M H. Real-time compressive tracking. In:Proceedings of the 2012 European Conference on Computer Vision (ECCV). Florence, Italy:Springer, 2012. 864-877
    [20] Zhang T X, Ghanem B, Liu S, Ahuja N. Robust visual tracking via multi-task sparse learning. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA:IEEE, 2012. 2042-2049
    [21] Laura S L, Erik L M. Distribution fields for tracking. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA:IEEE, 2012. 1910-1917
    [22] Grabner H, Grabner M, Bischof H. Real-time tracking via on-line boosting. In:Proceedings of the 2006 British Machine Vision Conference. 2006, 47-56
    [23] Oron S, Bar-Hillel A, Levi D, Avidan S. Locally orderless tracking. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA:IEEE, 2012. 1940-1947
    [24] Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram. In:Proceedings of the 2006 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2006. 798-805
    [25] Bao C L, Wu Y, Ling H B, Ji H. Real time robust L1 tracker using accelerated proximal gradient approach. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA:IEEE, 2012. 1830-1837
  • 期刊类型引用(38)

    1. 郭肇禄,石涛,杨火根,张文生. 适应性引导的花朵授粉算法. 陕西师范大学学报(自然科学版). 2025(01): 114-130 . 百度学术
    2. 姚光磊,熊菊霞,杨国武,郑宏宇. 多策略混合的花朵授粉算法. 小型微型计算机系统. 2024(03): 613-620 . 百度学术
    3. 石涛,熊腾,赵玲珠. 花朵授粉算法研究综述. 软件导刊. 2023(04): 245-252 . 百度学术
    4. 张超,杨忆. 引入正弦余弦算子和新自花授粉的花授粉算法. 西安工程大学学报. 2023(02): 119-129 . 百度学术
    5. 周佳毅,钱谦,冯勇,伏云发. 自适应t扰动的正余弦花朵授粉算法. 科技通报. 2022(03): 52-61+71 . 百度学术
    6. 贾鹤鸣,李瑶,孙康健. 基于遗传乌燕鸥算法的同步优化特征选择. 自动化学报. 2022(06): 1601-1615 . 本站查看
    7. 李大海,伍兆前,王振东. 多策略增强花授粉算法及其应用. 计算机应用研究. 2022(08): 2388-2396+2402 . 百度学术
    8. 刘双,刘宇. 基于改进智能算法反演概率积分参数. 山东煤炭科技. 2022(10): 194-197 . 百度学术
    9. 陈金鹏,李睿熙,杨然,安俊秀. 基于质心自适应选取的密度万有引力聚类算法. 计算机工程与设计. 2022(12): 3396-3405 . 百度学术
    10. 王正通,程凤芹,尤文,李双. 基于改进灰狼优化算法的校园电采暖软启动应用. 现代电子技术. 2021(03): 167-171 . 百度学术
    11. 邢致恺,贾鹤鸣,宋文龙. 基于莱维飞行樽海鞘群优化算法的多阈值图像分割. 自动化学报. 2021(02): 363-377 . 本站查看
    12. 王正通,程凤芹,尤文,李双. 基于翻筋斗觅食策略的灰狼优化算法. 计算机应用研究. 2021(05): 1434-1437 . 百度学术
    13. 王治和,常筱卿,杜辉. 基于万有引力的自适应近邻传播聚类算法. 计算机应用. 2021(05): 1337-1342 . 百度学术
    14. 肖辉辉,万常选. 基于多策略的改进花授粉算法. 软件学报. 2021(10): 3151-3175 . 百度学术
    15. 王霞,王耀民,施心陵,高莲,李鹏. 噪声环境下基于蒲丰距离的依概率多峰优化算法. 自动化学报. 2021(11): 2691-2714 . 本站查看
    16. 邵良杉,李臣浩. 基于改进花粉算法的极限学习机分类模型. 计算机工程与应用. 2020(01): 172-179 . 百度学术
    17. 瞿博阳,李国森,焦岳超,柴旭朝,闫李. 自适应多策略花朵授粉算法. 计算机工程与设计. 2020(02): 440-448 . 百度学术
    18. 张娜,赵泽丹,包晓安,钱俊彦,吴彪. 基于改进的Tent混沌万有引力搜索算法. 控制与决策. 2020(04): 893-900 . 百度学术
    19. 刘漫丹. 一种新的启发式优化算法——五行环优化算法研究与分析. 自动化学报. 2020(05): 957-970 . 本站查看
    20. 谢聪,封宇. 一种改进的蝴蝶优化算法. 数学的实践与认识. 2020(13): 105-115 . 百度学术
    21. 何奕涛,李珺,郝丽艳. 具有引力机制的细菌觅食算法. 系统仿真学报. 2020(09): 1724-1735 . 百度学术
    22. 桑遥,尹君,王迪,王皓,景康. 基于增强重引力搜索的高维数据协同聚类算法. 计算机应用与软件. 2020(10): 300-306 . 百度学术
    23. 龙文,伍铁斌,唐明珠,徐明,蔡绍洪. 基于透镜成像学习策略的灰狼优化算法. 自动化学报. 2020(10): 2148-2164 . 本站查看
    24. 龙志伟,肖松毅,王晖,周新宇,李伟. 基于粒子群算法的水资源需求预测. 郑州大学学报(工学版). 2019(04): 32-35+47 . 百度学术
    25. 陈昌兴,王建彬,陈建平. 一种混合重心重构花授粉改进算法. 现代计算机. 2019(20): 18-22 . 百度学术
    26. 王坚浩,张亮,史超,车飞,丁刚,武杰. 基于混沌搜索策略的鲸鱼优化算法. 控制与决策. 2019(09): 1893-1900 . 百度学术
    27. 崔丽群,张磊,郭相卓,张晨. 基于随机替换和多样性控制的花朵授粉算法. 计算机工程与应用. 2019(18): 45-52 . 百度学术
    28. 陶志勇,崔新新. 混合改进的花朵授粉算法. 传感器与微系统. 2019(10): 139-142+145 . 百度学术
    29. 贺智明,李文静. 基于动态全局搜索和柯西变异的花授粉算法. 计算机工程与应用. 2019(19): 74-80+222 . 百度学术
    30. 周润,龙伟,李炎炎,石小秋,魏永来. 面向绿色再制造系统的AGV路径规划研究. 四川大学学报(自然科学版). 2019(05): 883-889 . 百度学术
    31. 邵良杉,兰亭洋,李臣浩. 基于改进花朵授粉算法的极限学习机模型. 计算机工程. 2019(12): 281-288 . 百度学术
    32. 张水平,陈阳. 基于进化控制与非均匀变异的花授粉算法研究. 高技术通讯. 2018(05): 417-424 . 百度学术
    33. 邵良杉,韩瑞达. 基于天牛须搜索的花朵授粉算法. 计算机工程与应用. 2018(18): 188-194 . 百度学术
    34. 张超. 基于Morlet小波变异的粒子群优化算法. 江汉大学学报(自然科学版). 2018(02): 109-119 . 百度学术
    35. 张超. 基于t-分布精英保留机制的花朵授粉算法. 安徽理工大学学报(自然科学版). 2018(03): 50-58 . 百度学术
    36. 陈西成,刘曙,范兵兵. 应用小生境混沌搜索策略的花朵授粉算法. 重庆大学学报. 2018(11): 92-99 . 百度学术
    37. 肖辉辉,段艳明. 基于改进花授粉算法的移动机器人路径规划研究. 软件导刊. 2018(11): 22-25 . 百度学术
    38. 张超. 一种精英反向学习的花授粉算法. 西安工程大学学报. 2017(06): 847-856 . 百度学术

    其他类型引用(32)

  • 加载中
计量
  • 文章访问数:  2406
  • HTML全文浏览量:  143
  • PDF下载量:  1166
  • 被引次数: 70
出版历程
  • 收稿日期:  2015-02-04
  • 修回日期:  2015-07-11
  • 刊出日期:  2015-11-20

目录

/

返回文章
返回