2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于判别性局部联合稀疏模型的多任务跟踪

黄丹丹 孙怡

黄丹丹, 孙怡. 基于判别性局部联合稀疏模型的多任务跟踪. 自动化学报, 2016, 42(3): 402-415. doi: 10.16383/j.aas.2016.c150416
引用本文: 黄丹丹, 孙怡. 基于判别性局部联合稀疏模型的多任务跟踪. 自动化学报, 2016, 42(3): 402-415. doi: 10.16383/j.aas.2016.c150416
HUANG Dan-Dan, SUN Yi. Tracking via Multitask Discriminative Local Joint Sparse Appearance Model. ACTA AUTOMATICA SINICA, 2016, 42(3): 402-415. doi: 10.16383/j.aas.2016.c150416
Citation: HUANG Dan-Dan, SUN Yi. Tracking via Multitask Discriminative Local Joint Sparse Appearance Model. ACTA AUTOMATICA SINICA, 2016, 42(3): 402-415. doi: 10.16383/j.aas.2016.c150416

基于判别性局部联合稀疏模型的多任务跟踪

doi: 10.16383/j.aas.2016.c150416
详细信息
    作者简介:

    黄丹丹   大连理工大学信息与通信工程学院博士研究生.2007年获得长春理工大学学士学位.主要研究方向为视频序列中的目标检测与目标跟踪.E-mail:dlut_huang@163.com

    通讯作者:

    孙怡   大连理工大学信息与通信工程学院教授.1986年获得大连理工大学学士学位.主要研究方向为图像处理, 模式识别与无线通信.本文通信作者.E-mail:lslwf@dlut.edu.cn

Tracking via Multitask Discriminative Local Joint Sparse Appearance Model

More Information
    Author Bio:

      Ph. D. candidate at the School of Information and Communication Engineering, Dalian University of Technology. She received her bachelor degree from Changchun University of Science and Technology in 2007. Her research interest covers object detection and object tracking in video sequences.E-mail:

    Corresponding author: SUN Yi    Professor at the School of Information and Communication Engineering, Dalian University of Technology. She received her bachelor degree from Dalian University of Technology in 1986. Her research interest covers image processing, pattern recognition, and wireless communication. Corresponding author of this paper.E-mail:lslwf@dlut.edu.cn
  • 摘要: 目标表观建模是基于稀疏表示的跟踪方法的研究重点, 针对这一问题, 提出一种基于判别性局部联合稀疏表示的目标表观模型, 并在粒子滤波框架下提出一种基于该模型的多任务跟踪方法(Discriminative local joint sparse appearance model based multitask tracking method, DLJSM).该模型为目标区域内的局部图像分别构建具有判别性的字典, 从而将判别信息引入到局部稀疏模型中, 并对所有局部图像进行联合稀疏编码以增强结构性.在跟踪过程中, 首先对目标表观建立上述模型; 其次根据目标表观变化的连续性对采样粒子进行初始筛选以提高算法的效率; 然后求解剩余候选目标状态的联合稀疏编码, 并定义相似性函数衡量候选状态与目标模型之间的相似性; 最后根据最大后验概率估计目标当前的状态.此外, 为了避免模型频繁更新而引入累积误差, 本文采用每5帧判断一次的方法, 并在更新时保留首帧信息以减少模型漂移.实验测试结果表明DLJSM方法在目标表观发生巨大变化的情况下仍然能够稳定准确地跟踪目标, 与当前最流行的13种跟踪方法的对比结果验证了DLJSM方法的高效性.
  • 目标跟踪是计算机视觉领域一个重要的研究课题, 也是许多实际应用系统不可缺少的部分, 例如视频监控、智能交通、增强现实以及运动分析等.由于其重要性, 研究者们提出了大量的目标跟踪算法[1-3], 并取得了显著的进展.然而如何在复杂环境中对外观时刻变化的目标进行长时间稳定地跟踪仍是当前的研究热点.

    目前常见的跟踪方法可分为两种:生成式方法和判别式方法.生成式跟踪方法首先对目标表观建模, 然后在后续图像中搜索与该模型最相似的区域作为跟踪结果, 这类方法最重要的部分是构建有效的表观模型.如文献[4]通过对目标区域中具有重要特征的子区域计算直方图来建模目标; 视觉跟踪分解(Visual tracking decomposition, VTD)算法[5]则将目标的表观模型分解为多个基本的小模型, 每个小模型描述目标表观的一种变化.以上两种方法都利用了局部的概念并将目标建模为局部模型.此外, 增量视觉跟踪(Incremental visual tracking, IVT)[6]采用目标区域的低维子空间对目标表观进行全局建模, 并且通过增量的学习子空间来自动更新目标模型.以上方法虽然对目标遮挡和形变具有一定的鲁棒性, 但是由于没有考虑背景信息, 因此当目标处于复杂背景时很难维持长时间的跟踪.判别式跟踪方法综合考虑目标与背景信息, 并且将目标跟踪建模为二类的分类问题, 通过正负样本训练一个二类的分类器将目标区域从背景中区分出来.由于判别式的方法很大程度上依赖于分类器的训练, 因此一个重要问题是如何减少跟踪中由累积误差引起的模型漂移.典型的判别式跟踪方法有多样例学习(Multiple instance learning, MIL)和跟踪学习检测(Tracking-learning detection, TLD). MIL[7]方法采用目标位置附近的多个样本构成正样本集, 从而包容正样本中引入的背景信息, 缓解了分类器更新中的漂移问题. TLD[8]则通过不断学习正负样本的结构信息而提高分类器的准确率, 从而保证跟踪的精度.

    近几年, 稀疏编码理论在计算机视觉领域取得了巨大成功, 因此也被引入到目标跟踪中.在基于稀疏表示的跟踪方法中, 字典的构造方法是表观建模以及相似性计算的基础, 根据字典构造方式的不同可将算法分为两类:基于整体模板和基于部分模板的方法.前者直接将整个目标区域作为基底来构造字典, 最典型的是l1跟踪[9]中的字典构造方法.该方法将目标区域和平移该区域所得到的目标模板直接列向量化作为字典的基底, 并在字典中加入噪声模板来处理部分遮挡问题.其他基于整体模板的字典构造方法都是文献[9-10]中方法的变形.例如, 文献[11]构造的字典中不仅包含目标模板, 同时还加入了背景模板, 使得字典具有判别性.文献[12]则用目标模板的独立分量分析矢量代替目标模板构成字典.文献[13]将目标模板的稀疏表示进一步扩展为核稀疏表示.基于整体模板构造字典的方法, 通常将目标表观建模为整体稀疏模型, 这类模型对目标的全局特征描述的较好, 但是对局部遮挡或剧烈形变的描述则较差.与基于整体模板的方法不同, 基于部分模板的字典构造方法提取目标区域中的小图像块作为字典的基底.局部稀疏选择模型(Local sparse k-selection, LSK)[14]选择目标区域中最具有表示能力的小图像块构成字典, 以此建立基于局部稀疏的表观模型.自适应结构局部稀疏表观模型(Adaptive structural local sparse appearance, ALSA)[15]则利用多个模板的局部空间结构信息构建字典, 并建立结构性的局部稀疏模型.文献[16]在构建字典时加入了判别信息, 并训练线性支持向量机跟踪目标.总体来说, 加入结构信息或判别信息的局部稀疏模型能更好地描述目标的特征.除了单独使用整体模板和部分模板的方法, 文献[17]将二者联合使用, 该联合模型结合了目标的整体特征和局部特征, 因此能在跟踪中有效地适应目标外观的多种变化.

    上述介绍的方法虽然在跟踪中各有优势, 但是它们在求解稀疏编码时, 采用的都是分别计算的方法, 即对每个候选区域的稀疏编码进行独立求解, 这种计算方法不但计算速度慢而且忽略了候选区域的结构信息.这里的结构信息不仅是指单个候选区域内部的局部图像块之间的结构, 还包括多个候选区域中处于相同位置的图像块之间的结构关系, 而现有的基于局部稀疏表示的模型只利用了单个区域内部的结构信息, 如文献[14-15].此外, 文献[18-21]在多任务框架下对所有候选区域进行联合稀疏编码, 在提高计算速度的同时还共享了联合稀疏编码的结构性.但是它们仅考虑候选区域间整体的结构信息, 却忽略了区域内部的结构关系.同时, 上述方法均将目标表观建模为整体稀疏模型, 因此仍然不能很好地处理目标的部分遮挡和视角旋转等问题.综合以上分析, 本文提出一种基于判别性局部联合稀疏模型的多任务跟踪方法(Discriminative local joint sparse appearance model based multitask tracking method, DLJSM).它将目标建模为目标区域内所有局部图像块的联合稀疏编码矩阵, 并在多任务框架下联合求解所有候选区域内图像块的稀疏表示.此外, 该方法还定义一个联合相似性函数来综合衡量候选区域与目标模型间的相似性, 相似性最大的候选区域即为跟踪结果, 最后通过在线更新来调整模型以适应目标的表观变化.与现有的基于多任务的跟踪方法不同, DLJSM采用局部模型描述目标, 因此具有局部稀疏模型在处理遮挡、形变等问题上的优势; 同时, 它为目标区域内的每个局部块分别构造字典, 字典中不仅包含目标模板还加入了背景模板, 因此在跟踪中具有更强的判别能力; 此外, 对所有局部图像块进行联合稀疏编码则使得DLJSM能更充分地利用多个候选区域的结构性, 从而更准确地跟踪目标.多个测试视频的跟踪结果验证了DLJSM的高效性.

    在文献[9]提出的l1跟踪框架中, 首先由目标模板D和噪声模板I构成稀疏字典B, 即B=[D I]; 然后利用字典$B$对每个候选区域进行稀疏编码, 得到稀疏系数矢量后, 根据候选区域的重建误估计目标的当前状态. l1跟踪对每个候选区域独立地计算稀疏编码, 因此运算速度较慢.在此基础上, MTT (Multi-task tracking)[18]将每个候选区域的稀疏编码视为一个独立的任务, 在多任务学习框架下对所有候选区域的稀疏编码进行联合求解. MTT方法首先构造观测矩阵X, X的每个列向量为一个候选区域, 则X可线性表示为$X=\left[D \;I\right]\left[{matrix}Z\\E{matrix}\right] = BC$.其中, ZE分别是稀疏系数矩阵和误差系数矩阵, 二者的第i列分别为第i个候选区域的稀疏表示系数和误差系数.系数矩阵C根据APG (Accelerated proximal gradient)算法进行联合求解.对于单个的候选区域而言, 上述求得稀疏编码的过程即称为该候选区域被联合稀疏表示. MTT算法同样根据各候选区域的重建误差对目标状态进行估计.

    类似地, 文献[20]也在多任务学习框架下进行目标跟踪.不同于MTT算法将每个候选区域的稀疏编码作为独立任务, 该方法对每个候选区域提取多种特征, 将每种特征的稀疏编码作为一个独立任务, 最后对单个候选区域的多种特征进行联合稀疏编码, 所有特征的重建误差之和最小的候选区域即为跟踪结果. MTMV (Multi-task multi-view)[19]跟踪综合了文献[18]与文献[20]的方法, 将候选区域的一种特征的稀疏编码当作独立任务, 对所有候选区域的所有特征进行联合稀疏表示.记${X^k}=[\boldsymbol x_1^k$, $\cdots$, $\boldsymbol x_n^k]$为n个候选区域的第k种特征构成的观测矩阵, Bk=[Dk Ik]为目标模板的第k种特征构成的字典, 其中, k=1, …, K, k为特征总数.观测矩阵$X = [{X^1}, \cdots, {X^K}]$在字典$B = [{B^1}, \cdots {B^K}]$上的稀疏编码$C = [{C^1}, \cdots, {C^K}]$可通过以下问题求解:

    $ \begin{align} C = \arg\min\limits_C \sum\limits_{k = 1}^K {\left\| {{B^k}{C^k} - {X^k}} \right\|} _F^2 + \lambda {\left\| {{C^k}} \right\|_{1, 2}} \end{align} $

    (1)

    其中, λ为平衡系数.最后利用候选区域的重建误差构造似然函数, 根据最大后验概率估计跟踪结果, 即

    $ \begin{align} i = \arg \max\limits_{i = 1, \cdots, n} \exp \left( { - \alpha \mathop \sum \limits_{k = 1}^K {{\left\| {{D^k}{Z^k} - {X^k}} \right\|}^2}} \right) \end{align} $

    (2)

    其中, α为常数, Zk为编码矩阵, Ck中对应于字典Dk的部分.除上述三种方法外, 文献[21]也利用联合稀疏表示的方法建模, 但是其采用反向稀疏的方法, 即利用候选区域来构造字典, 对目标和背景模板进行稀疏编码, 并构造相似性图来跟踪目标.本文只考虑基于正向稀疏表示的方法, 即利用目标模板构造字典, 从而对候选区域进行稀疏编码的建模方法[18-20].此外, 文献[22]提出一种基于结构稀疏模型的粒子滤波跟踪方法, 该方法利用多层金字塔结构的全局和局部窗口对目标进行信息提取和表观建模, 由于同时考虑了全局和局部特征, 因此对目标的描述更加全面和准确.文献[23]针对跟踪中出现的目标遮挡问题, 提出一种复合约束的稀疏多任务学习方法, 该方法综合考虑粒子间相关性, 对遮挡区域和非遮挡区域进行分别约束, 因此能够更准确地重构遮挡区域, 降低遮挡对跟踪的影响.

    上述基于多任务联合稀疏表示的跟踪方法, 对候选区域的编码矩阵进行两个约束, 一是每个列向量都具有少量的非零元素, 以保证每个候选区域或每个特征由有限的几个目标模板或特征线性表示; 二是所有列向量中非零元素的位置分布相同, 使得所有的候选区域或特征由共同的目标模板或特征线性表示.这两个约束合称为结构稀疏性, 这种特性使得算法对候选区域的稀疏编码更具有针对性, 从而使目标跟踪的结果更稳定.然而这类方法大多采用基于整体模板的方法构造字典, 因此将目标表观建模为整体稀疏模型.尽管文献[19-20]使用了多种特征描述目标, 但是这类方法仍然存在整体模型固有的缺点.例如, 很难处理目标大面积遮挡和大角度旋转等.针对这一问题, 本文提出一种基于判别性局部联合稀疏模型的目标跟踪方法.它将目标外观建模为联合稀疏编码矩阵, 矩阵的每一列均为目标区域中一个小图像块的联合稀疏表示矢量.该方法对所有候选区域的小图像块进行联合稀疏编码, 并且构造似然函数计算目标模型和候选区域间的相似性, 最后利用最大后验概率估计目标状态.此外, 目标模型通过在线更新实时地调整以适应由于光照、形变、视角变化等原因引起的表观变化.

    本节着重介绍用于描述目标表观的判别性局部联合稀疏模型.首先给出联合字典的学习方法; 然后介绍如何根据联合字典对目标的表观建模; 最后给出联合字典以及目标模型的在线更新方法.

    如前文所述, 加入结构信息和判别信息的局部稀疏模型在跟踪中表现的更加鲁棒, 因此本文采用基于部分模板的字典构造方法.为了增强判别性, 构成字典的部分模板由局部目标模板和局部背景模板构成, 这些局部模板取自于10个目标模板和10个背景模板.其中目标模板的选取与文献[9]中的方法相同, 即由指定的目标区域以及该区域向各个方向平移得到的图像构成, 以此保证目标模板能够准确的表达目标并减轻漂移, 如图 1(a)中的目标车辆外围的矩形所示.背景模板则从目标区域外的背景图像中采样得到, 如图 1(a)中远离目标车辆的矩形所示.目标模板和背景模板合称为整体模板, 将这些整体模板进行归一化, 归一化后的结果如图 1(b)所示.

    图 1  联合字典的学习过程
    Fig. 1  The flowchart of dictionary learning

    为使图像清晰明了, 图 1中仅给出部分整体模板.为了得到部分模板, 将每个整体模板划分为k个尺寸为m × m的图像块, 如图 1(b)中虚线框所示, 并按照从左到右, 从上到下的顺序对整体模板中的图像块进行标记, 每个图像块即为一个部分模板.为了更好的保留整体模板的结构信息, 本文将整体模板中相邻的两个图像块的重合率设为0.5, 即相邻的两个图像块有一半的区域是重合的.取每个模板内相同位置的图像块(图 1(b)中具有相同序号的图像块)构成一个字典, 共得到k个字典, 如图 1(c)所示.将初始字典表示为$D = \left\{ {{D^1}, \cdots, {D^k}, \cdots, {D^K}} \right\}$, 其中${D^i} = [\boldsymbol d_1^i, \cdots, \boldsymbol d_{20}^i] \in {{\boldsymbol R}^{{m^2} \times 20}}$, $\boldsymbol d_1^i \in {{\boldsymbol R}^{{ m^2} \times 1}}$为第一个模板的第i个图像块列向量化构成的基向量.联合字典的学习过程如图 1所示, 图 1(c)D+表示字典中由目标模板构成的部分, D-表示字典中由背景模板构成的部分.该字典具有两个优点: 1)由部分模板构造, 因此能更好地处理目标的部分遮挡以及局部形变; 2)加入背景模板, 因此具有更强的判别性, 更适合目标跟踪.

    从联合字典的构造方法可知, 目标区域经过归一化后, 其内的每个图像块xk均对应于一个字典, 那么xk可由对应的字典Dk 进行稀疏编码.考虑到联合稀疏表示在描述目标表观上的优势, 本文对所有图像块的稀疏编码进行联合求解.令$X =[{\boldsymbol x^1}$, $\cdots$, ${\boldsymbol x^k}, \cdots, {\boldsymbol x^K}] \in {{\boldsymbol R}^{{m^2} \times K}}$表示由k个图像块构成的观测矩阵, $A = [{\boldsymbol \alpha ^1}, \cdots, {\boldsymbol \alpha ^k}, \cdots, {\boldsymbol \alpha ^K}] \in {{\boldsymbol R}^{20 \times K}}$表示观测矩阵X的联合稀疏编码矩阵, 那么A可通过式(1)求解, 即

    $ \begin{align} A = \arg\min\limits_A \mathop \sum \limits_{k = 1}^K {\left\| {{{\boldsymbol x}^k} - {D^k}{{\boldsymbol \alpha }^k}} \right\|^2} + \lambda {\left\| A \right\|_{1, 2}} \end{align} $

    (3)

    其中, ${ \| A \|_{1, 2}} = {(\sum\nolimits_{k = 1}^K {{{({{ \| {{{\boldsymbol \alpha }^k}} \|}_1})}^2}} )^{{{ {\frac{1} {2}}}}}}$, 本文利用文献[24]中提出的方法对式(3)进行优化求解.由于在求解时对编码矩阵A进行了结构稀疏性的约束, 因此, A中每一列均包含有限个数的非零元素, 并且所有的非零元素分布在相同的行上.令$A=[A^+, A^-]^{\rm T}$, A+R10×K为编码矩阵中对应于D+的部分, A-R10×K为编码矩阵中对应于D-的部分.将目标表观模型定义为A+, 即联合稀疏编码中对应于目标模板的部分.建模的过程如图 2所示, 首先将目标区域分块, 如图 2(a)中左上角和右下角的区域所示, 然后对所有的局部图像根据对应的字典(图 2(b)中的Dk)进行联合稀疏表示, 解得的稀疏编码中对应于D+的部分即为目标的表观模型, 如图 2(c)A+所示.其中左边和右边矩形框内的矢量分别对应于图 2(a)中左上角和右下角的图像块.经过这个过程, 目标区域内的所有图像块均被联合稀疏表示.图 2(c)A+A-分别与字典D+D-相对应, 稀疏编码中的非零元素由灰色方块表示, 值越大则颜色越深.从图中可见, 尽管两个图像块的稀疏表示系数各不相同, 但是具有相同的分布, 即建立的目标模型具有结构稀疏性.

    图 2  目标表观建模示意图
    Fig. 2  The sketch map of modeling the target appearance

    从现有文献的跟踪效果来看, 局部稀疏模型已经被证明是一种比较有效的目标表观描述模型[14-15], 加入结构性信息后, 目标特征的位置分布被编码到目标模型中, 能更准确地描述目标区域, 同时也避免在跟踪中引入过多的背景信息而导致模型出现漂移.本文使用局部联合稀疏表示对目标表观建模, 是基于这样一个事实, 即线性描述局部图像块的基底, 应该来自于相同的目标模板.这种结构稀疏性约束, 在限制每个局部块被稀疏表示的同时, 还对表示局部图像块的模板进行整体结构上的约束.因此本文建立的联合稀疏模型, 除了具有局部模型在处理目标遮挡、形变等问题时的优点, 还具备结构性; 此外字典中包含的背景模板使得该模型同时具有更强的判别能力.该模型与第2.3节的更新方法相结合, 能及时准确地捕捉目标的表观变化, 更有利于长时间稳定地跟踪.

    跟踪过程中, 目标的表观会由于光照、本身形变、摄像角度和遮挡等原因产生部分或整体的变化.这些变化随着时间逐渐累加, 固定的目标模型会因为不能适应这些表观变化而失去效果, 从而导致跟踪失败.因此目标模型的更新是构成稳定跟踪系统必不可少的部分.本文建立的目标模型是基于联合稀疏表示的, 联合稀疏字典是构建模型的基础, 所以目标模型的更新过程实际上就是联合字典的更新过程.而本文中的字典由目标模板和背景模板构成, 因此联合字典更新主要集中于模板的更新.

    算法1.  联合字典与目标模型的更新方法

    1)计算权重最小的目标模板与当前跟踪结果之间的相似性, 初始状态下, 权重为均值分布, 目标模板与跟踪结果之间的相似性定义为二者的反余弦函数值.

    2) If计算得到的相似性处于阈值(θ1, θ2)内

      a)用当前的跟踪结果代替权重最小的目标模板;

       b)重新计算每个目标模板的权重, 计算方法与文献[19]相同;

      c)按照第2.1节的方法重新学习联合字典;

      d)将目标模型更新为当前跟踪结果的联合稀疏编码矩阵;

    Else

      目标模板、模板权重、联合字典与目标模型都保持不变.

    End

    如第2.1节所述, 背景模板是从当前帧的背景区域采样得到的, 在更新时, 只需对背景区域重新采样即可.对于目标模板的更新, 本文采用类似于文献[19]的方法.在跟踪中, 目标的表观变化具有连续性, 因此在一段时间之内, 可以认为目标的表观是不变的.在此假设下, 对模型进行每帧一次的更新不仅浪费时间而且可能由于频繁的更新而引入大量的累积误差, 最终导致模型漂移.为避免上述情况发生, 本文每5帧判断一次, 根据判断结果来决定联合字典和目标模型是否需要更新, 具体的更新方法如表 1所示.此外, 为了保证在跟踪过程中目标模板不会发生重大的漂移, 在字典更新时, 保留首帧中由指定的目标区域构成的目标模板.第4节的实验证明该更新算法与本文构建的目标模型相结合能更准确地描述目标表观, 进而获得更稳定的跟踪结果.

    表 1  DLJSM算法与非稀疏跟踪方法的结果对比
    Table 1  Comparison of the results between DLJSM algorithm and the methods not based on sparse representation
    中心误差(pixel)F -参数
    IVTVTDFragMILTLDDLJSMIVTVTDFragMILTLDDLJSM
    Girl29.623.881.631.3-14.40.7030.7400.1340.681-0.836
    Singerl9.13.742.1241.027.53.20.6420.8980.3940.0210.4440.904
    Faceoccll.29.589.518.616.06.30.8910.9030.9400.8380.7860.938
    Car44.0144.8180.5142.1-4.50.9370.3410.2630.262-0.939
    Sylv5.921.545.16.95.65.10.8370.6720.8090.8370.8350.867
    Race176.482.2221.4310.6-2.70.0250.3720.0530.013-0.721
    Jumping34.8111.921.241.8-5.20.2730.1750.4290.255-0.787
    Animal10.511.845.7252.6-9.70.7360.7650.1200.014-0.748
    下载: 导出CSV 
    | 显示表格

    本文提出的DLJSM方法将判别性局部联合稀疏模型嵌入到粒子滤波框架下, 并根据最大后验概率对目标状态进行估计.粒子滤波方法包括预测和更新两步[25].在预测阶段, 目标在第t帧的状态矢量st可由第一帧到第(t − 1)帧的观测z1:t−1根据式(4)得到

    $ \begin{align} P\left( {{s_t}{\rm{|}}{z_{1:t - 1}}} \right) = \mathop P\left( {{s_t}{\rm{|}}{s_{t - 1}}} \right)P({s_{t - 1}}|{z_{1:t - 1}}){{ d}_{{s_{t - 1}}}} \end{align} $

    (4)

    其中, ${s_t} = \left( {c_t^x, c_t^y, {w_t}, {h_t}, {r_t}, {v_t}} \right)$为第t帧的目标状态. ctxcty分别表示目标的中心位置坐标; wtht 分别表示目标在横纵坐标轴上的尺度; rtvt分别表示目标在横纵坐标轴上的角度. P (st|st−1)是自动模型, 本文采用仿射变换对其建模, 即

    $ \begin{align} P\left( {{s_t}{\rm{|}}{s_{t - 1}}} \right) = N\left( {{s_t};{s_{t - 1}}, \Sigma } \right) \end{align} $

    (5)

    其中, Σ为方差矩阵, 其形式为对角矩阵并且对角元素为仿射变换参数.根据式(5)可对第t帧的目标状态进行采样, 每个采样状态对应一个候选区域.那么在已知观测z1:t的情况下, 第t帧的目标状态更新为

    $ \begin{align} P\left( {{s_t}{\rm{|}}{z_{1:t}}} \right) = P\left( {{z_t}{\rm{|}}{s_t}} \right)P\left( {{s_t}{\rm{|}}{z_{1:t - 1}}} \right) \end{align} $

    (6)

    其中, P (zt|st)为观测模型, 反映了候选区域与目标模型之间的相似性, 本文将观测模型定义如下:

    $ \begin{align} P\left( {{z_t}{\rm{|}}s_t^i} \right) \propto f\left( {C_t^i, {B_t}} \right) \end{align} $

    (7)

    其中, sti为采样得到的第i个目标状态; Cti为状态sti对应的候选区域的表观模型; Bt为当前的目标表观模型; f为计算候选区域与目标模型间相似性的函数, 具体定义在后文中给出.为避免退化, 粒子滤波根据粒子的重要性权重进行重采样, 第i个粒子的重要性权重定义为: $g_t^i = g_t^{i - 1}P\left( {{z_t}{\rm{|}}s_t^i} \right)$.目标当前的状态$s_t^*$通过最大后验概率估计

    $ \begin{align} s_t^* = \arg\max\limits_{s_t^i} P\left( {s_t^i{\rm{|}}{z_{1:t}}} \right) \end{align} $

    (8)

    在上述跟踪框架下, DLJSM方法从视频序列的第2帧开始, 循环地对每帧图像进行候选区域采样、目标状态估计和重采样的过程.为了减少多余计算, 本文采用文献[26]中的方法对每次采样得到的候选区域进行筛选, 并根据目标表观变化的连续性去除偏移实际位置较大的粒子, 如图 3(a)中远离目标的矩形框所示.令$D_t^k = [{D_t^{k + }}\;{D_t^{k-}}]$表示第t帧的第k个字典, 其中$D_t^{k+}$与$D_t^{k-}$分别表示字典中由目标模板和背景模板构成的部分, $X_t^i$为第t帧中第i个粒子中所有图像块构成的观测矩阵.根据表观变化连续性, 目标当前状态附近的粒子与前一帧的目标状态接近, 转化为数学描述则为${e^i}=\sum\nolimits_{k = 1}^K \| D_t^{k + }B_{t - 1}^k$-$\boldsymbol x_t^{i, k} \|^2$的值比较小, 其中$\boldsymbol x_t^{i, k}$为$X_t^i$的第k列, $B_{t - 1}^k$为第t-1帧的目标稀疏编码矩阵的第k列. DLJSM算法通过滤除具有较大ei值的粒子, 减少了候选区域的个数, 提高了计算速度.实际跟踪中, 在合适的采样参数下, 大部分的粒子分布在目标周围, 根据表观变化的连续性, 这部分粒子都具有较小的ei值.同时将去除多余粒子的阈值ε设置为最大ei值的1/2, 这使得阈值与粒子的位置分布相关, 并保证了总有一部分具有较小ei值的粒子会被保留下来, 从而避免了所有粒子都被滤除而引起的粒子耗尽问题.在第4节的实验设置下, 平均每帧图片中大约有1/3的粒子被滤除.多余粒子的去除过程如图 3所示, 图 3(a)中的矩形框表示粒子滤波采样得到的候选区域.直观上看, 最外面的矩形框偏离目标实际的位置较远, 这样的粒子参与联合稀疏编码不仅浪费时间而且有可能对编码结果产生影响, 因此通过图 3(b)所示的滤波器后, 保留的候选区域如图 3(c)所示, 可见距离目标较远的矩形框均被去除, 而其他的粒子则并不受影响.

    图 3  多余粒子的去除
    Fig. 3  The elimination of extra particles

    经过粒子去除后, DLJSM方法对剩下的候选区域进行联合稀疏表示.首先将候选区域分块, 图像块的大小与目标区域分块的大小相同, 为避免混淆, 仍令$\boldsymbol x_t^{i, k}$表示第t帧中第i个候选区域的第k个图像块, 其中i=1, …, L; k=1, · · ·, K. L为剩余候选区域的个数, k为每个候选区域获得的图像块个数.则$\boldsymbol x_t^{i, k}$可由字典Dt k线性表示为

    $ \begin{align} \boldsymbol x_t^{i, k} = {\rm{}}D_t^k\boldsymbol \alpha _t^{i, k} + \boldsymbol o \end{align} $

    (9)

    其中, $\boldsymbol \alpha _t^{i, k}$为$\boldsymbol x_t^{i, k}$在字典Dt k上的稀疏编码, 令${A_t} = [\boldsymbol \alpha _t^{1, 1}, \cdots, \boldsymbol \alpha _t^{L, 1}, \cdots, \boldsymbol \alpha _t^{i, k}, \cdots, \boldsymbol \alpha _t^{L, K}] \in {{\boldsymbol R}^{20 \times (L \times K)}}$表示联合稀疏编码矩阵, 则At可由式(10)联合求解

    $ \begin{align} \mathop {\min }\limits_{{A_t}} \mathop \sum \limits_{k = 1}^K \mathop \sum \limits_{i = 1}^L {\left\| {\boldsymbol x_t^{i, k} - D_t^k\boldsymbol \alpha _t^{i, k}} \right\|^2} + \lambda \mathop \sum \limits_{i = 1}^L {\left\| {A_t^i} \right\|_F} \end{align} $

    (10)

    其中, $A_t^i = \left( {\boldsymbol \alpha _t^{i, 1}, \cdots, \boldsymbol \alpha _t^{i, k}, \cdots, \boldsymbol \alpha _t^{i, K}} \right)$, 本文利用文献[24]中提出的方法对上式进行优化求解.通过求解式(10), 每个候选区域均被稀疏编码为一个矩阵, 编码矩阵中对应于目标模板的部分即为候选区域的表观模型, 用Cti表示第i个候选区域的表观模型, 即$C_t^i = \left[{\boldsymbol c_t^{i, 1}, \cdots, \boldsymbol c_t^{i, k}, \cdots, \boldsymbol c_t^{i, K}} \right] \in {{\boldsymbol R}^{10 \times K}}$, 其中, $\boldsymbol c_t^{i, k}$为$\boldsymbol \alpha _t^{i, k}$中对应于$D_t^{k+}$的部分.

    为了估计当前的目标状态, 需要计算候选区域与目标模型之间的相似性, 本文从整体和局部两个方面综合衡量二者之间的相似性, 相似性函数定义如下:

    $ \begin{align} f\left( {C_t^i, {B_t}} \right) =&\ {f_h} \times {f_l}=\notag\\ &\ \exp \left( { - \beta \times E_t^i} \right)\mathop \sum \limits_{k = 1}^K \frac{{\min \left( {\boldsymbol c_t^{i, k}, B_t^k} \right)}}{{B_t^k}} \end{align} $

    (11)

    其中, ${f_h} = \exp \left( { - \beta \times E_t^i} \right)$为整体相似性函数, $E_t^i=\sum\nolimits_{k = 1}^K {{{\left\| {\boldsymbol x_t^{i, k} - D_t^{k + }\boldsymbol c_t^{i, k}} \right\|}^2}}$表示第i个候选区域的整体重建误差, β为归一化参数. ${f_l} =\sum\nolimits_{k = 1}^K \min ( \boldsymbol c_t^{i, k}$, $B_t^k)/{{B_t^k}}$为部分相似性函数, 若将目标与候选区域模型视为直方图, 那么fl是利用直方图相交来计算二者之间的相似性.由于同时考虑整体和局部的相似性, 式(11)能更全面地衡量目标模型与候选区域之间的相似性, 为目标状态估计提供更准确的观测模型, 因此更有助于长时间的目标跟踪.

    为了更清楚地说明DLJSM算法, 本节将该算法的各个步骤进行总结, 并给出流程图(图 4)以助于直观理解DLJSM算法.

    图 4  DLJSM跟踪算法流程图
    Fig. 4  The flowchart of DLJSM tracking algorithm

    算法2. DLJSM算法流程

    初始化阶段:

    1)指定目标区域, 在目标区域周围提取目标模板, 并在背景中采样得到背景模板;

    2)将目标模板和背景模板分块, 构造初始字典;

    3)根据式(3)构造初始目标模型.

    跟踪阶段:

    For i=1: FrameNum

      a)根据粒子滤波方法对目标状态进行采样;

       b)根据目标表观变化的连续性去除多余粒子;

      c)根据式(10)对剩余粒子进行联合稀疏编码;

      d)根据式(11)计算候选区域与目标模型间的相似性;

      e)根据式(7)和式(8)估计当前目标状态;

       f)更新粒子的重要性权重, 并进行重采样;

    If i是5的整数倍

         根据第2.3节方法更新字典以及目标模型;

       End

    End

    本节对DLJSM算法的有效性进行评估, 为了全面地说明本文算法的跟踪性能, 从定性、定量以及算法复杂度三个角度对DLJSM算法进行分析, 并选取13种当前目标跟踪领域比较流行的跟踪算法在12个测试视频上进行跟踪效果的对比.实验在Intel Core2 Duo 2.93GHz处理器, 内存为2.96GB的计算机上由Matlab 2011a执行.选取的测试视频中包含目标跟踪中的大部分难点, 例如:遮挡、位姿变化、运动模糊、光流变化、尺度变化以及复杂背景等.用于对比的跟踪方法可分为三类: 1)非稀疏的方法: Frag (Fragments-based tracking)[4], VTD[5], IVT[6], MIL[7]与TLD[8]; 2)基于单个稀疏的方法: l1[9], APG-l1[10], LSK[14], ALSA[15]以及SCM (Sparsity-based collaborative model)[17]; 3)基于联合稀疏的方法: MTT[18], MTMV[19]和DSSM (Discriminative sparse similarity map)[21].这些对比方法均为当前跟踪领域内效果较好的方法, 为了公平起见, 本节中所有的跟踪算法均使用作者提供的程序代码, 并赋值相同的初始状态.除此之外, 对基于贝叶斯推论的方法设置相同的采样个数. DLJSM算法的实验参数的设置如下:如果目标区域的初始宽高比小于$1/2$, 则将归一化尺寸定义为24像素(宽) × 48像素(高); 如果初始宽高比大于2, 则将归一化尺寸定义为48像素(宽) × 24像素(高); 否则将归一化尺寸定义为32像素× 32像素.构成字典的小图像块的尺寸为8像素× 8像素, 相邻图像块间的重叠率为0.5.图像块的个数k与归一化的尺寸有关, 当归一化的尺寸为24像素× 48像素或48像素× 24像素时, K=55;否则K=49.粒子个数为300, 字典更新的阈值θ1θ2分别为50和70, 去除多余粒子的阈值ε=0.5 × max(ei), 相似性函数中的归一化参数β=0.5.本节的实验结果均在上述参数设置下获得.

    本节对DLJSM算法进行定性的分析, 并给出它在各个测试视频上的跟踪结果.为了在图像中更清晰地显示DLJSM算法的跟踪结果, 每个测试视频只给出14种方法中效果最好的5个结果.

    测试1.当目标的光流与尺度发生剧烈变化时, DLJSM算法的跟踪效果.在图 5(a)所示的Singer1序列中, 目标的表观由于光流和尺度的剧烈改变而快速变化, 其中MTMV在第9帧就因为光流忽然变化而失去目标真正的尺度, 并且在后续的跟踪中不能再恢复, 而VTD, SCM和APG-l1在跟踪中均有不同程度的偏离.尽管这几种方法都能成功跟踪目标, 但是在准确性上DLJSM算法仍然领先于其他方法, 如第4.2节中表 1表 2所示.图 5(b)所示的Car4序列中, 目标经历了光线的明暗以及尺度不断变化的过程, 并且伴随由抖动产生的模糊.由于该视频序列中的目标为刚性物体, 在整个过程中并没有发生形变, 因此模型的更新效果是成功跟踪的一个重要因素.如果在更新中没有引入过多的累积误差, 那么模型不会产生重大的漂移, 对目标的描述就更加准确.在185帧, 目标由光线明亮的区域驶入阴影区域, SCM, ALSA和DSSM不能正确地捕捉到目标的尺度变化.从428帧可见, DSSM已经严重偏离了目标的实际位置, 而SCM和ALSA的跟踪结果区域仍然不准确. DLJSM算法和IVT方法在该视频序列上的良好的跟踪结果得益于二者的模型更新方法. DLJSM算法规定的每5帧判断是否需要更新减少了频繁更新带来的累积误差, 而在更新中保留首帧的目标区域则进一步减少了漂移的可能.在图 5(c)的Skating1序列中目标不仅经历了光流与尺度的变化, 同时还存在严重的形变以及遮挡.从结果图中可见, APG-l1方法采用整体稀疏模型建模目标表观, 因此不能很好地处理目标的非刚性形变, 在跟踪开始后不久就失去了目标.而SCM和ALSA也在中途失去了目标, 从而跟踪失败.在373帧, 虽然VTD方法还能定位目标, 但是偏差较大.而DLJSM方法由于采用局部联合稀疏模型, 同时加入了结构和区分信息, 因此能在整个序列中稳定地跟踪目标.

    图 5  目标的光流与尺度发生剧烈变化时的跟踪结果
    Fig. 5  Tracking results when targets undergo drastic changes of illumination and scale

    测试2. 当目标发生巨大形变时, DLJSM算法的跟踪效果.图 6(a)中目标的位姿不断变化, 并且经历尺度以及光流变化.在154帧, 目标的表观发生很大变化, SCM和ALSA跟踪结果不能准确覆盖目标区域, IVT和MTMV的定位偏离实际位置较大.从307帧可见, SCM和ALSA没有恢复对目标表观的正确描述, 仍然不能准确跟踪到目标区域.而DLJSM算法采用判别性的局部联合稀疏模型建模目标, 使得该模型能够正确捕捉到目标的局部形变; 提出的相似性计算函数则对相邻两帧间的表观相似性衡量的更准确.因此DLJSM算法在整个跟踪过程中都能很好地处理由目标形变带来的表观变化, 准确的定位目标位置以及目标区域.在图 6(b)的Girl序列中目标由于旋转而使表观彻底改变, LSK和DSSM对目标表观建立的模型在210帧已经产生漂移, 并且随着跟踪进行不能恢复.而在330帧, 除了LSK和DSSM不能准确跟踪目标外, SCM的跟踪区域明显小于实际的目标区域, 而MTMV方法的跟踪区域则明显大于实际区域. DLJSM算法则在整个序列中保持稳定准确的跟踪.对于图 6(c)中的视频序列, 目标由于位姿和光流变化而导致表观改变, 尽管这种改变是刚性的, 但在606帧, SCM和ALSA偏离了目标的正确位置, 并且在目标的表观恢复后仍然不能准确地跟踪, 如627帧所示.此外, DSSM由于加入了辨别信息而使得模型能够适应目标早期的表观变化, 但是随着跟踪的进行, 在627帧, DSSM仍然产生了漂移.而DLJSM算法除了加入辨别信息外还将结构信息整合到目标模型中, 因此虽然DSSM和DLJSM算法都具有最小的位置误差, 但是DLJSM算法的跟踪准确性最高.

    图 6  目标发生较大形变时的跟踪结果
    Fig. 6  Tracking results when targets0 appearance deform

    测试3. 当目标在跟踪中发生部分或严重遮挡时, DLJSM算法的跟踪效果.图 7(a)中所示的Race视频序列是一个极具挑战性的视频, 目标不仅经历多次的严重遮挡, 还存在光流变化, 巨大的形变以及剧烈的尺度变化.因此, 该序列对跟踪算法中目标的建模, 模型的更新以及相似性的判定都是极大的考验.从图 7(a)的153帧可见, 目标经历严重遮挡, 除了DLJSM算法和DSSM仍能定位目标外, 其余的方法均失去了目标, 但是DSSM方法的定位并不准确.在目标经历过多次部分或完全遮挡, 以及尺度和位姿变化后, 只有DLJSM算法仍然能跟踪上目标, 如720帧所示.对该视频的跟踪结果充分证明了判别性局部联合稀疏模型在描述目标表观上的准确性以及DLJSM算法在处理各种跟踪难点问题上的有效性. 图 7(b)所示的Faceocc视频序列中目标多次发生长时间的部分遮挡, 虽然图中的5种方法都能大致跟踪上目标, 但是当发生遮挡时, Frag, SCM, ALSA和MTMV均有不同程度的偏移, 如第572帧和580帧所示.相反地, DLJSM算法在跟踪中一直保持着稳定的结果.

    图 7  目标发生遮挡时的跟踪结果
    Fig. 7  Tracking results when targets are occluded

    测试4.当目标处于快速运动并产生运动模糊时, DLJSM算法的跟踪效果.图 8(a)中目标区域由于快速跳跃而产生严重的运动模糊.可见在43帧时, DSSM和MTMV严重偏离目标的真实位置, 而在95帧仍然没有恢复.虽然SCM, ALSA和DLJSM算法都能成功地跟踪目标, 但是DLJSM算法的误差更小, 跟踪更准确.图 8(b)的Animal序列中, 目标区域不仅存在运动模糊, 而且在背景中有相似区域出现.在34帧, MTT方法出现漂移, 而在52帧, VTD方法将背景中的相似区域错误地判别为目标.而DLJSM算法在整个过程中都能准确而稳定地跟踪目标, 原因是用来描述目标的判别性局部联合稀疏模型能够有效从背景中区分出目标, 而对所有的候选区域进行联合稀疏编码又进一步的共享了多个任务间的有效信息, 从而使跟踪更加鲁棒.

    图 8  目标快速运动时的跟踪结果
    Fig. 8  Tracking results when targets undergo rapid movement

    测试5.当目标处于复杂背景时, DLJSM算法的跟踪效果.图 9(a)的Car11视频序列中, 目标车辆行驶于低照度环境下, 因此背景与目标的分界并不清晰.图中的5种跟踪方法都能成功地跟踪目标, 只有ALSA方法在287帧附近产生漂移.对于利用增量子空间方法的IVT算法而言, 由于对图像数据进行了归一化以及子空间投影, 因此能够解决目标与背景间的低对比度问题.而从SCM, DSSM和DLJSM的跟踪结果可见, 对于利用稀疏表示的方法, 加入判别信息的局部模型能更好地处理这类低对比度问题.图 9(b)的Stone视频序列中目标处于杂乱的背景环境下, 并且在背景中存在多个与目标表观相似的区域.尽管图中的方法都能对目标进行定位, 但是在521帧, SCM和ALSA已经出现漂移并在后续跟踪中没有恢复.而MTT方法和DLJSM方法的成功跟踪则说明, 联合稀疏编码能够有效地处理由于相似区域而引起的误跟踪.

    图 9  目标处于复杂背景时的跟踪结果
    Fig. 9  Tracking results when targets are in complex background

    本节采用中心位置误差和重合面积参数对各种跟踪方法的性能进行定量分析.中心位置误差PosErr定义为

    $ \begin{align} {\rm{PosErr}} = {\rm{}}\sqrt {{{(c_x^g - c_x^t)}^2} + {{(c_y^g - c_y^t)}^2}} \end{align} $

    (12)

    其中, $c_x^t, c_y^t$表示当前跟踪结果的中心位置坐标, $c_x^g, c_y^g$表示中心位置坐标的参考值.重合面积Fscore定义为

    $ F_{\rm score} = {\rm{}}\frac{{2{R_g} \cap {R_t}}}{{{R_g}\mathop \cap \nolimits {R_t} + {R_g} \cup {R_t}}} $

    (13)

    其中, RgRt分别表示目标区域的参考值和实际跟踪值.

    1)与基于非稀疏的跟踪方法比较

    表 1给出了DLJSM算法与5种非稀疏的跟踪方法在测试视频上的平均中心位置误差值和平均重合面积参数, 其中最好的两个结果分别用粗体和斜体标示, "-"表示跟踪不稳定, 没有连续的跟踪结果.稀疏表示利用多个模板对目标进行线性表示, 能够对目标特征进行多方面的提取, 相较于非稀疏的方法能够更及时地捕捉目标外观的变化.而在跟踪过程中, 对稀疏编码的联合求解使得本文的联合稀疏模型能够更加准确地建模目标表观.同时, 综合考虑了整体与局部相似的相似性函数为当前的观测模型提供了更全面的衡量结果, 因此DLJSM算法的跟踪效果远优于表 1中的非稀疏方法, 尤其在处理运动模糊(Jumping)和剧烈形变(Race, Girl)方面.

    2)与基于单个稀疏表示的跟踪方法比较

    表 2给出了DLJSM算法与5种基于单个稀疏表示方法的对比结果.由于大量文献已经叙述了基于稀疏的方法在目标跟踪中取得的良好结果, 本节仅从目标表观建模的角度对以上方法进行对比与分析.在这5种方法中, l1和APG-l1方法基于整体稀疏模型; ALSA和LSK方法基于局部稀疏模型; SCM方法基于稀疏判别模型; 本文提出的DLJSM方法基于局部联合稀疏模型, 并且加入结构和判别信息.由于局部模型在处理部分遮挡以及剧烈形变方面更具有优势, 因此基于局部模型的方法优于基于整体模型的方法; 而基于判别模型的方法则同时利用目标和背景的信息建模, 所以跟踪效果更好. DLJSM方法综合局部模型和判别模型的优点, 并采用联合稀疏表示建模, 增强了结构性, 因此更适合在跟踪中描述目标表观.表 2中的结果证明, 相较于基于单个稀疏的跟踪方法, DLJSM获得了更好的跟踪结果.

    表 2  DLJSM算法与基于单个稀疏跟踪方法的结果对比
    Table 2  Comparison of the results between DLJSM algorithm and the methods based on single sparse representation
    中心误差(pixel)F -参数
    l1APG-l1SCMALSALSKDLJSMl1APG-l1SCMALSALSKDLJSM
    Animal23.123.920.2289.510.29.70.5830.6190.6520.0460.7320.748
    David20.113.79.811.411.89.30.6050.6520.7590.7070.7130.772
    Car1133.72.92.12.373.32.00.5010.8570.8950.8970.090.897
    Singer15.63.83.75.17.73.20.7800.8700.9100.8870.7420.904
    Race214.7203.928.7245.5217.22.70.0490.0590.6280.0620.0170.721
    Jumping38.016.46.112.363.55.20.2560.5820.7670.7480.2140.787
    Skatingl137.560.537.064.5106.48.10.2210.4750.6280.5800.3350.789
    下载: 导出CSV 
    | 显示表格

    3)与基于联合稀疏表示的跟踪方法比较

    表 3给出了DLJSM算法与基于联合稀疏表示跟踪方法的对比结果.尽管都是基于多任务联合稀疏表示的方法跟踪目标, DSSM, MTT与MTMV方法使用整体模板构造字典, 因此在跟踪性能上不如本文所使用的局部模型.从表 3可见, DLJSM算法在部分遮挡(Race, Animal)、剧烈形变以及复杂背景(Skating1)等情况下的跟踪结果远优于其他方法.

    表 3  DLJSM算法与基于联合稀疏表示跟踪方法的结果对比
    Table 3  Comparison of the results between DLJSM algorithm and the methods based on joint sparse representation
    中心误差(pixel)F -参数
    MTTMTMVDSSMDLJSMMTTMTMVDSSMDLJSM
    Car1117.427.72.02.00.6120.5140.8960.897
    David21.410.210.49.30.5650.7450.6630.772
    Race-41.24.32.7-0.1630.6950.721
    Skatingl-81.973.88.1-0.4510.5690.789
    Animal19.419.523.79.70.6300.6350.5740.748
    Stone3.312.543.92.80.7460.500.1660.720
    下载: 导出CSV 
    | 显示表格

    4)整体跟踪性能分析

    为了更直观地表现包括DLJSM算法在内的14种方法的跟踪结果, 图 10(a)图 10(b)分别给出这些算法在全部测试视频上的平均中心位置误差和平均重合面积参数.平均中心误差越小表示跟踪结果越准确, 而平均重合面积参数越大则表示跟踪效果越好.横轴序号代表的视频序列依次为: 1代表Skating1, 2代表Girl, 3代表Animal, 4代表David, 5代表Car11, 6代表Singer1, 7代表Faceocc, 8代表Car4, 9代表Sylv, 10代表Stone, 11代表Race, 12代表Jumping. 图 10中带有标记符的曲线表示DLJSM方法的跟踪结果, 可见其在图 10(a)中几乎全部处于最下方, 而在图 10(b)中则大部分都处于最上方, 图 10证明DLJSM方法的跟踪效果优于其他方法.

    图 10  所有跟踪方法在全部测试视频上的跟踪性能
    Fig. 10  Performance of all the tracking methods in test sequences

    除了上述平均跟踪结果, 图 11还给出了benchmark[2]中用于衡量整体跟踪性能的曲线: OPE (One-pass evaluation)的曲线下面积(Area under curve, AUC).其中图 11(a)表示精确度曲线, 横轴为误差阈值, 纵轴为误差小于阈值的帧数占总帧数的百分率.图 11(b)表示成功率曲线, 横轴为跟踪成功阈值, 若跟踪面积与参考面积的比值大于阈值, 则认为跟踪成功, 纵轴表示成功跟踪的帧数占总帧数的百分率, 成功率中对重合参数的定义与文献[2]相同, 即${({R_g} \cap {R_t})}/({{{R_g} \cup {R_t}}})$.从图 11可知, 当误差阈值设为20时, DLJSM算法的跟踪精确度达到97 %; 当成功跟踪阈值设为0.6时, 它的成功跟踪率达到77 %.这说明DLJSM算法在整个跟踪过程中能够准确稳定的跟踪目标.

    图 11  OPE曲线
    Fig. 11  One-pass evaluation curves

    从算法复杂度的角度分析, DLJSM算法的耗时主要集中在联合稀疏编码的求解上.由于本文采用文献[24]中提出的算法计算联合稀疏编码, 因此DLJSM算法的算法复杂度与其相同, 均为O(KLNm2 + 2TKLNm2), 其中k为字典的个数, L为滤除多余粒子后保留下来的粒子个数, n为整体模板的个数, m为局部图像块的尺寸, t为算法的迭代次数.实际的运行中, 为了提高算法的运算速度, 在编写DLJSM算法的代码时采用Matlab自带的并行计算功能, 同时将计算联合稀疏编码的迭代次数设为20, 文中所有实验结果均在此设置下得到.在本台计算机上, 针对所有测试视频, 跟踪每帧需要的处理时间平均为0.38s.

    本文提出一种基于判别性局部联合稀疏表示模型的多任务目标跟踪方法(DLJSM).该方法在字典中加入背景模板而使模型具有判别性, 并采用联合稀疏编码增强模型的结构性, 因此相较于其他基于稀疏表示的目标模型, 本文提出的模型具有更好的判别能力和描述能力.为了提高跟踪效率, DLJSM对采样得到的候选区域根据目标表观变化的连续性进行预处理并对剩余的候选区域进行联合稀疏编码.文中定义的相似性函数综合考虑候选区域与目标模型在整体结构与部分特征上的相似性, 因此能够为状态估计提供更准确的观测模型.此外, DLJSM采用的更新方法能够有效地捕捉目标的表观变化却不会引入过多的累积误差而导致模型漂移, 因此更适合跟踪任务.与13种跟踪算法的对比结果证明DLJSM跟踪方法的高效性.

  • 图  1  联合字典的学习过程

    Fig.  1  The flowchart of dictionary learning

    图  2  目标表观建模示意图

    Fig.  2  The sketch map of modeling the target appearance

    图  3  多余粒子的去除

    Fig.  3  The elimination of extra particles

    图  4  DLJSM跟踪算法流程图

    Fig.  4  The flowchart of DLJSM tracking algorithm

    图  5  目标的光流与尺度发生剧烈变化时的跟踪结果

    Fig.  5  Tracking results when targets undergo drastic changes of illumination and scale

    图  6  目标发生较大形变时的跟踪结果

    Fig.  6  Tracking results when targets0 appearance deform

    图  7  目标发生遮挡时的跟踪结果

    Fig.  7  Tracking results when targets are occluded

    图  8  目标快速运动时的跟踪结果

    Fig.  8  Tracking results when targets undergo rapid movement

    图  9  目标处于复杂背景时的跟踪结果

    Fig.  9  Tracking results when targets are in complex background

    图  10  所有跟踪方法在全部测试视频上的跟踪性能

    Fig.  10  Performance of all the tracking methods in test sequences

    图  11  OPE曲线

    Fig.  11  One-pass evaluation curves

    表  1  DLJSM算法与非稀疏跟踪方法的结果对比

    Table  1  Comparison of the results between DLJSM algorithm and the methods not based on sparse representation

    中心误差(pixel)F -参数
    IVTVTDFragMILTLDDLJSMIVTVTDFragMILTLDDLJSM
    Girl29.623.881.631.3-14.40.7030.7400.1340.681-0.836
    Singerl9.13.742.1241.027.53.20.6420.8980.3940.0210.4440.904
    Faceoccll.29.589.518.616.06.30.8910.9030.9400.8380.7860.938
    Car44.0144.8180.5142.1-4.50.9370.3410.2630.262-0.939
    Sylv5.921.545.16.95.65.10.8370.6720.8090.8370.8350.867
    Race176.482.2221.4310.6-2.70.0250.3720.0530.013-0.721
    Jumping34.8111.921.241.8-5.20.2730.1750.4290.255-0.787
    Animal10.511.845.7252.6-9.70.7360.7650.1200.014-0.748
    下载: 导出CSV

    表  2  DLJSM算法与基于单个稀疏跟踪方法的结果对比

    Table  2  Comparison of the results between DLJSM algorithm and the methods based on single sparse representation

    中心误差(pixel)F -参数
    l1APG-l1SCMALSALSKDLJSMl1APG-l1SCMALSALSKDLJSM
    Animal23.123.920.2289.510.29.70.5830.6190.6520.0460.7320.748
    David20.113.79.811.411.89.30.6050.6520.7590.7070.7130.772
    Car1133.72.92.12.373.32.00.5010.8570.8950.8970.090.897
    Singer15.63.83.75.17.73.20.7800.8700.9100.8870.7420.904
    Race214.7203.928.7245.5217.22.70.0490.0590.6280.0620.0170.721
    Jumping38.016.46.112.363.55.20.2560.5820.7670.7480.2140.787
    Skatingl137.560.537.064.5106.48.10.2210.4750.6280.5800.3350.789
    下载: 导出CSV

    表  3  DLJSM算法与基于联合稀疏表示跟踪方法的结果对比

    Table  3  Comparison of the results between DLJSM algorithm and the methods based on joint sparse representation

    中心误差(pixel)F -参数
    MTTMTMVDSSMDLJSMMTTMTMVDSSMDLJSM
    Car1117.427.72.02.00.6120.5140.8960.897
    David21.410.210.49.30.5650.7450.6630.772
    Race-41.24.32.7-0.1630.6950.721
    Skatingl-81.973.88.1-0.4510.5690.789
    Animal19.419.523.79.70.6300.6350.5740.748
    Stone3.312.543.92.80.7460.500.1660.720
    下载: 导出CSV
  • [1] Yilmaz A, Javed O, Shah M. Object tracking:a survey. ACM Computing Surveys (CSUR), 2006, 38(4):Article No. 13
    [2] Wu Y, Lim J, Yang M H. Online object tracking:a benchmark. In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA:IEEE, 2013. 2411-2418
    [3] Smeulders A W M, Chu D M, Cucchiara R, Calderara S, Dehghan A, Shah M. Visual tracking:an experimental survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7):1442-1468 doi: 10.1109/TPAMI.2013.230
    [4] Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram. In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA:IEEE, 2006. 798-805
    [5] Kwon J, Lee K M. Visual tracking decomposition. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA:IEEE, 2010. 1269-1276
    [6] Ross D A, Lim J, Lin R S, Yang M H. Incremental learning for robust visual tracking. International Journal of Computer Vision, 2008, 77(1-3):125-141 doi: 10.1007/s11263-007-0075-7
    [7] Babenko B, Yang M H, Belongie S. Visual tracking with online multiple instance learning. In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami FL, USA:IEEE, 2009. 983-990
    [8] Kalal Z, Matas J, Mikolajczyk K. P-N learning:bootstrapping binary classifiers by structural constraints. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA:IEEE, 2010. 49-56
    [9] Mei X, Ling H B. Robust visual tracking using L1 minimization. In:Proceedings of the 12th IEEE International Conference on Computer Vision. Kyoto, Japan:IEEE, 2009. 1436-1443
    [10] Bao C L, Wu Y, Ling H B, Ji H. Real time robust L1 tracker using accelerated proximal gradient approach. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA:IEEE, 2012. 1830-1837
    [11] Zhang S P, Yao H X, Zhou H Y, Sun X, Liu S H. Robust visual tracking based on online learning sparse representation. Neurocomputing, 2013, 100:31-40 doi: 10.1016/j.neucom.2011.11.031
    [12] Wang D, Lu H C, Yang M H. Online object tracking with sparse prototypes. IEEE Transactions on Image Processing, 2013, 22(1):314-325 doi: 10.1109/TIP.2012.2202677
    [13] Wang L F, Yan H P, Lv K, Pan C H. Visual tracking via kernel sparse representation with multikernel fusion. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(7):1132-1141 doi: 10.1109/TCSVT.2014.2302496
    [14] Liu B Y, Huang J Z, Yang L, Kulikowsk C. Robust tracking using local sparse appearance model and k-selection. In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA:IEEE, 2011. 1313-1320
    [15] Jia X, Lu H C, Yang M H. Visual tracking via adaptive structural local sparse appearance model. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA:IEEE, 2012. 1822-1829
    [16] Xie Y, Zhang W S, Li C H, Lin S Y, Qu Y Y, Zhang Y H. Discriminative object tracking via sparse representation and online dictionary learning. IEEE Transactions on Cybernetics, 2014, 44(4):539-553 doi: 10.1109/TCYB.2013.2259230
    [17] Zhong W, Lu H C, Yang M H. Robust object tracking via sparsity-based collaborative model. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA:IEEE, 2012. 1838-1845
    [18] Zhang T Z, Ghanem B, Liu S, Ahuja N. Robust visual tracking via multi-task sparse learning. In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA:IEEE, 2012. 2042-2049
    [19] Hong Z B, Mei X, Prokhorov D, Tao D C. Tracking via robust multi-task multi-view joint sparse representation. In:Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, NSW:IEEE, 2013. 649-656
    [20] Dong W H, Chang F L, Zhao Z J. Visual tracking with multifeature joint sparse representation. Journal of Electronic Imaging, 2015, 24(1):013006 doi: 10.1117/1.JEI.24.1.013006
    [21] Zhuang B H, Lu H C, Xiao Z Y, Wang D. Visual tracking via discriminative sparse similarity map. IEEE Transactions on Image Processing, 2014, 23(4):1872-1881 doi: 10.1109/TIP.2014.2308414
    [22] Zhang T Z, Liu S, Xu C S, Yan S C, Ghanem B, Ahuja N, Yang M H. Structural sparse tracking. In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:IEEE, 2015. 150-158
    [23] 王梦.基于复合稀疏模型的多任务视频跟踪算法研究[硕士学位论文], 上海交通大学, 中国, 2014.

    Wang Meng. Multi-Task Visual Tracking Using Composite Sparse Model[Master dissertation], Shanghai Jiao Tong University, China, 2014.
    [24] Yuan X T, Liu X B, Yan S C. Visual classification with multitask joint sparse representation. IEEE Transactions on Image Processing, 2012, 21(10):4349-4360 doi: 10.1109/TIP.2012.2205006
    [25] Doucet A, de Freitas N, Gordon N. Sequential Monte Carlo Methods in Practice. New York:Springer-Verlag, 2001.
    [26] Zhang T Z, Liu S, Ahuja N, Yang M H, Ghanem B. Robust visual tracking via consistent low-rank sparse learning. International Journal of Computer Vision, 2015, 111(2):171-190 doi: 10.1007/s11263-014-0738-0
  • 期刊类型引用(5)

    1. 王仁芳,刘云鹏,孙德超,张亮. 基于多核融合与局部约束的协同表示目标跟踪. 光电子·激光. 2019(01): 70-78 . 百度学术
    2. 姚涛,孔祥维,付海燕,TIAN Qi. 基于映射字典学习的跨模态哈希检索. 自动化学报. 2018(08): 1475-1485 . 本站查看
    3. 刘大千,刘万军,费博雯,曲海成. 前景约束下的抗干扰匹配目标跟踪方法. 自动化学报. 2018(06): 1138-1152 . 本站查看
    4. 李敬轩,宗群. 基于多特征和局部联合稀疏表示的目标跟踪. 激光与光电子学进展. 2017(10): 357-365 . 百度学术
    5. 黄丹丹,孙怡. 基于稀疏加权模型的局部判别跟踪. 计算机工程. 2016(09): 226-234 . 百度学术

    其他类型引用(9)

  • 加载中
图(11) / 表(3)
计量
  • 文章访问数:  3181
  • HTML全文浏览量:  200
  • PDF下载量:  843
  • 被引次数: 14
出版历程
  • 收稿日期:  2015-06-29
  • 录用日期:  2015-10-23
  • 刊出日期:  2016-03-20

目录

/

返回文章
返回