Design of Asynchronous Correlation Discriminant Single Object Tracker Based on Siamese Network
-
摘要: 现有基于孪生网络的单目标跟踪算法能够实现很高的跟踪精度, 但是这些跟踪器不具备在线更新的能力, 而且其在跟踪时很依赖目标的语义信息, 这导致基于孪生网络的单目标跟踪算法在面对具有相似语义信息的干扰物时会跟踪失败. 为了解决这个问题, 提出了一种异步相关响应的计算模型, 并提出一种高效利用不同帧间目标语义信息的方法. 在此基础上, 提出了一种新的具有判别性的跟踪算法. 同时为了解决判别模型使用一阶优化算法收敛慢的问题, 使用近似二阶优化的方法更新判别模型. 为验证所提算法的有效性, 分别在Got-10k、TC128、OTB和VOT2018 数据集上做了对比实验, 实验结果表明, 该方法可以明显地改进基准算法的性能.Abstract: The existing single target object tracking algorithms based on the siamese network can achieve very high tracking performance, but these trackers can not update online, and they heavily rely on the semantic information of the target in tracking. It caused the trackers, which based on the siamese network, fail when facing the disruptor who has similar semantic information. To address this issue, this paper proposes an asynchronous correlation response calculation model and an efficient method of using the target's semantic information in different frames. Based on this, a new discriminative siamese network-based tracker is proposed. To address the convergence speed issue in the traditional first-order optimization algorithm, an approximate second-order optimization method is introduced to update the discriminant model online. To evaluate the effectiveness of the proposed method, comparison experiments on Got-10k, TC128, OTB, and VOT2018 between the proposed tracker and other lastest state-of-the-art trackers are adopted. The experimental results demonstrate that the proposed method can significantly improve the performance of the baseline.
-
Key words:
- Siamese network /
- semantic information /
- asynchronous correlation /
- discriminative /
- update online
-
随着人工智能和传感器技术的发展, 人体姿态估计(Human pose estimation, HPE)逐渐应用于各种不同的领域, 如人机交互、运动捕捉[1-2]、虚拟替身、康复训练[3]、自动驾驶、视频监控和运动表现分析等[4-6]. 然而, 受视觉遮挡等因素影响[7], 这将增加视觉人体姿态估计中腕、肘等人体部件误识别的风险, 从而导致量测不确定性的存在, 而多视觉融合方法是处理视觉遮挡下HPE的主流方法之一[8-11].
针对多视觉融合估计问题, 文献[8]提出一种面向人体关节点位置信息的可靠性判别方法, 通过调节加权观测融合中的量测融合权重, 以提高HPE的鲁棒性. 而在文献[12]中, 将多视觉下的融合估计问题转换为优化问题, 利用骨骼长度作为约束条件, 并基于关节点位置信息的可靠性, 来调整优化过程中的权重大小, 从而减小视觉遮挡时的人体骨架抖动. 然而, 在求目标函数的过程中, 该方法易受初始数据的影响. 针对基于多视角融合的HPE问题, 文献[9]首次提出信息加权一致性滤波器(Information weighted consensus filter, IWCF), 通过平均一致性(Average consensus)[13]来获得邻近节点的信息. 同时, 使用Metropolis权重来提高IWCF的收敛速度, 实验证明融合后的人体姿态信息可获得更高的动作识别精度. 之后, 针对多视觉HPE中各传感器节点估计误差引起的关节点波动问题, 文献[10]将IWCF与交互式多模型(Interacting multiple model-based, IMM)相结合, 获得混合恒定速度(Constant velocity, CV)、恒定加速度(Constant acceleration, CA)和Singer运动等多模型下的姿态估计, 从而减小视觉遮挡的影响以及提高估计的精度.
另一方面, 针对人体姿态量测存在的噪声问题, 卡尔曼滤波(Kalman filtering, KF)[14]是一种有效的去噪方法. 其不仅在目标跟踪领域应用广泛[15-17], 而且在人体姿态估计领域也发挥重要的作用[18-20]. 例如, 文献[19]利用卡尔曼滤波器提高人体姿态估计的准确性. 针对人体姿态量测噪声统计特性的难以精确描述问题, 文献[20]提出一种基于鲁棒卡尔曼滤波的HPE方法, 利用假设检验对视觉遮挡下的复杂噪声进行识别, 并引入自适应因子来对量测噪声协方差进行调整, 从而减小量测不确定性对滤波器性能的影响. 此外, 针对量测信息缺失的目标跟踪问题, 文献[21]同样利用假设检验对量测信息进行有效筛选, 并利用渐进滤波方法来处理量测信息缺失造成的误差增大问题, 从而提高滤波器的鲁棒性. 针对渐进滤波对量测不确定性补偿的问题, 文献[22-23]提出带自适应量测更新的渐进高斯滤波方法, 给出渐进量测更新的终止条件. 这不仅有利于计算效率, 而且提高了对量测不确定性的自适应能力. 然而, 针对视觉遮挡造成量测噪声的复杂性, 现有估计方法并未充分考虑到局部量测不确定性的差异. 同时, 基于假设检验的方法局限于单一维度对量测进行筛选, 没有充分考虑到先验信息和局部量测以及不同局部量测之间的相容性问题.
为此, 本文构建分布式的渐进贝叶斯滤波融合框架, 提出基于渐进高斯滤波融合的人体姿态估计方法. 针对量测信息包含的复杂噪声, 设计分层性能评估方法, 从空间维度到时间维度对量测进行分类处理. 为解决量测不确定性下的融合估计问题, 设计一种分层分类的融合估计方法. 特别地, 针对量测统计特性变化问题, 引入渐进滤波方法, 利用局部估计间的交互信息来引导渐进量测更新, 从而隐式地补偿量测不确定性. 最后, 仿真与实验结果表明, 相比于现有的方法, 提高了人体姿态估计的准确性和鲁棒性.
1. 问题描述
如图1所示, 考虑一类多视觉融合环境下的人体姿态估计系统, 其中, 视觉传感器为深度相机, 用于采集人体目标的深度信息. 本文将人体目标视为由头、躯干、臂、手、腿、足等部件相互连接构成的多刚体系统. 这样, 人体姿态估计问题可看作人体各关节点位置估计问题. 首先, 利用卷积神经网络(Convolutional neural network, CNN) 的方法[24]从图像中识别出人体各部件, 并计算出人体各关节点在各个相机坐标系下的3D位置; 其次, 通过棋盘格标定法可获得相机坐标系相对于世界坐标系(即, 棋盘格)的旋转矩阵$ {R^{{c_i}2w}} $和平移向量$ {\boldsymbol{t}}^{{c_i}2w} $, 从而将在不同相机坐标系下检测的3D关节点统一到世界坐标系. 同时, 对人体运动建模如下:
$$ {{\boldsymbol{x}}_k} = {F_k}{{\boldsymbol{x}}_{k - 1}} + {{\boldsymbol{w}}_k} $$ (1) 其中, $k=1, 2,\cdots$ 表示离散时间序列, ${{\boldsymbol{x}}_k} = [{{( {{{\boldsymbol{x}}_{k,1}}} )}^\text{T}} \;\; \cdots\;\; {{{( {{{\boldsymbol{x}}_{k,L}}} )}{}^{\rm{T}}}} ]{}^{\rm{T}}$表示$ {k} $时刻人体姿态的状态, $ {{\boldsymbol{x}}_{k,l}} $表示关节点$ l $状态, $ l = 1, \cdots , L $, $ {L} $为选取的人体关节数量; $ {F_k} = {\rm{diag}}\{ {{F_{k,1}}}\;\; \cdots \;\; {{F_{k,L}}}\} $表示状态转移矩阵; 过程噪声${{\boldsymbol{w}}_k} = {[ {{{( {{{\boldsymbol{w}}_{k,1}}} )}^\text{T}}}\;\; \cdots \;\; {{{( {{{\boldsymbol{w}}_{k,L}}} )}{}^\text{T}}} ]{}^\text{T}}$服从零均值高斯分布, 其方差为$ {\mathop{\rm{cov}}} ( {{{\boldsymbol{w}}_k}} ) = {Q_k} $. 最后, 在此基础上, 将融合运动模型和单视觉量测信息形成人体姿态的局部估计, 进而融合各局部估计形成人体姿态的全局估计. 注意到视觉遮挡程度的不同, 将给人体关节点的检测与测量带来不同程度的影响, 从而导致复杂的量测噪声.
因此, 对人体姿态量测建模如下:
$$ {\boldsymbol{z}}_k^i = H_k^i{{\boldsymbol{x}}_k} + {\boldsymbol{v}}_k^i + {\boldsymbol{\xi}}_k^i $$ (2) 其中, ${\boldsymbol{z}}_k^i = {[ {{{( {{\boldsymbol{z}}_{k,1}^i} )}{}^\text{T}} \;\cdots\; {{( {{\boldsymbol{z}}_{k,L}^i} )}{}^\text{T}}} ]^\text{T}}$表示传感器$ i $的量测值, $ i = 1, \cdots , N $, $ {N} $为传感器总数, ${\boldsymbol{z}}_{k,l}^i = [ {z_{x,l}^i} \;\;{z_{y,l}^i}\;\;{z_{z,l}^i} ]^\text{T}$ 表示关节点的位置量测信息, $z_{x,l}^i, z_{y,l}^i, z_{z,l}^i$分别为关节点$ l $在$ {x} $、$ {y} $和$ {z} $轴上的量测值. $H_k^i = [ {{{( {H_{k,1}^i} )}^\text{T}}} \;\; \cdots \;\;{{{( {H_{k,L}^i} )}{}^\text{T}}} ]{}^\text{T}$为量测矩阵; 量测噪声${\boldsymbol{v}}_k^i = {[ {{{( {{\boldsymbol{v}}_{k,1}^i} )}^\text{T}}}\;\; \cdots \;\;{{{( {{\boldsymbol{v}}_{k,L}^i} )}{}^\text{T}}} ]{}^\text{T}}$服从零均值高斯分布, 且其协方差为$ {\mathop{\rm{cov}}} ( {{\boldsymbol{v}}_k^i} ) = R_k^i $. $ {\boldsymbol{\xi}}_k^i = U_k^i {\boldsymbol{\alpha}}_k^i + b{\boldsymbol{\beta}}_k^i $用来描述不同遮挡程度影响下引起的量测噪声. 其中, $ U_k^i = \text{diag}\{{{\boldsymbol{u}}_{k,1}^i}\;\; \cdots \;\;{{\boldsymbol{u}}_{k,L}^i} \} $, $ {\boldsymbol{u}}_{k,l}^i $服从零均值且协方差为$ R_{k, + }^i $的高斯分布; $ b $为幅值较大的数值, $ {\boldsymbol{\alpha}}_k^i $和$ {\boldsymbol{\beta}}_k^i $为随机变量且分别服从参数为$ {y_1}\;( {0 < {y_1} < 1} ) $和$ {y_2}\;( {0 < {y_2} < 1} ) $的伯努利分布.
相应地, 针对量测信息包含的复杂噪声, 将对量测进行检测和分类处理, 从而剔除高程度视觉遮挡下的量测野值, 同时通过渐进滤波隐式地补偿低程度视觉遮挡下的量测.
注1. 针对视觉遮挡程度的不同, 本文将量测主要分为两类. 即: 1)低程度视觉遮挡下的量测, 例如, 人体双臂交叉引起的腕、肘等关节小面积视觉遮挡, 用$ U_k^i {\boldsymbol{\alpha}}_k^i $来描述该情形下的量测不确定性; 2)高程度视觉遮挡下的量测, 例如, 人体侧身时腕、肘等关节受背部大面积视觉遮挡, 用$ b{\boldsymbol{\beta}}_k^i $来描述这种情况下的量测野值.
2. 自适应渐进高斯滤波融合
不同程度的视觉遮挡将造成量测统计特性变化, 进而导致局部滤波器性能下降并最终影响融合结果. 因此, 分两步从空间维度和时间维度上分别对量测进行相容性检测来实现量测筛选和分类处理.
考虑多视觉传感器的坐标位置和感知范围不同, 可能导致量测具有不同的噪声特性与误差模型. 如图2所示, 首先, 在空间维度上检测不同量测间马氏距离的平方, 即
$$ \begin{split} \gamma \left( {{\boldsymbol{z}}_k^i, {\boldsymbol{z}}_k^j} \right) = {\left( {{\boldsymbol{z}}_k^i - {\boldsymbol{z}}_k^j} \right)^\text{T}}\Sigma _{zz}^{ - 1}\left( {{\boldsymbol{z}}_k^i - {\boldsymbol{z}}_k^j} \right) \end{split} $$ (3) 其中, $ \Sigma _{zz}^{ - 1} $表示$( {\boldsymbol{z}}_k^i - {\boldsymbol{z}}_k^j ) $的协方差矩阵. 若$ \gamma ({\boldsymbol{z}}_k^i,{\boldsymbol{z}}_k^j) $落在置信区间内, 即$ \gamma ({\boldsymbol{z}}_k^i,{\boldsymbol{z}}_k^j) < {\chi _n} $, 则表示量测相容, 即视为正常量测, 否则认为其中可能存在异常量测, 需进一步在时间维度上分析相容性, 即检测预测值与量测的马氏距离平方:
$$ \begin{split} \gamma ({\boldsymbol{z}}_k^j, H_k^f\hat {{\boldsymbol{x}}}_{k|k - 1}^f) = \, & {\left( {{\boldsymbol{z}}_k^j - H_k^f\hat {{\boldsymbol{x}}}_{k|k - 1}^f} \right)^\text{T}}\Sigma _{zx}^{ - 1} \;\times \\ &\left( {{\boldsymbol{z}}_k^j - H_k^f\hat {{\boldsymbol{x}}}_{k|k - 1}^f} \right) \end{split} $$ (4) 其中, $ \Sigma _{zx}^{ - 1} $表示$ ( {{\boldsymbol{z}}_k^j - H_k^f\hat {{\boldsymbol{x}}}_{k|k - 1}^f} ) $的协方差矩阵. 若$ \gamma ({\boldsymbol{z}}_k^j, H_k^f\hat {{\boldsymbol{x}}}_{k|k - 1}^f) $ 落在置信区间内, 即
$$\gamma ({\boldsymbol{z}}_k^j, H_k^f\hat {{\boldsymbol{x}}}_{k|k - 1}^f) < {\chi _a} $$ 则表示量测中存在额外干扰, 否则视为野值.
根据量测相容性的检测结果, 将量测${Z_k} = \{ {\boldsymbol{z}}_k^1, \cdots , {\boldsymbol{z}}_k^N \}$分为$ G_k^n $, $ G_k^a $, $ G_k^d $等3组. 正常量测集合表示为
$$ \begin{split} G_k^n = &\left\{{{\boldsymbol{z}}_k^j|\gamma ({\boldsymbol{z}}_k^j,{\boldsymbol{z}}_k^i) < {\chi _n},{\boldsymbol{z}}_k^j,{\boldsymbol{z}}_k^i \in {Z_k},}\right.\\ & \left.{{\boldsymbol{z}}_k^j \ne {\boldsymbol{z}}_k^i,j = 1,2, \cdots}\right\} \end{split} $$ (5) 低程度视觉遮挡下的量测集合表示为
$$ \begin{split} G_k^a =\, & \left\{ {{\boldsymbol{z}}_k^j|\gamma ({\boldsymbol{z}}_k^j,H_k^f\hat {{\boldsymbol{x}}}_{k|k - 1}^f) < {\chi _a},\gamma \left( {{\boldsymbol{z}}_k^j,{\boldsymbol{z}}_k^i} \right) \ge } \right. \\ &\left.{{\chi _n},{\boldsymbol{z}}_k^j,{\boldsymbol{z}}_k^i \in {Z_k},{\boldsymbol{z}}_k^j \ne {\boldsymbol{z}}_k^i,j = 1,2, \cdots} \right\} \end{split} $$ (6) 集合$ G_k^d = {Z_k} - G_k^n - G_k^a $表示高程度视觉遮挡下的量测野值. $ {\chi_n} $, $ {\chi_a} $为置信区间, $ \hat {{\boldsymbol{x}}}_{k|k - 1}^f $为全局状态预测. 量测分组后, 得到不同视觉遮挡下的量测$ {\boldsymbol{z}}_k^{{n_j}} $, $ {\boldsymbol{z}}_k^{{a_j}} $, $ {\boldsymbol{z}}_k^{{d_j}} $, 其中${\boldsymbol{z}}_k^{{n_j}} \in G_k^n,{\boldsymbol{z}}_k^{{a_j}} \in G_k^a,{\boldsymbol{z}}_k^{{d_j}} \in G_k^d$.
本文方法框图如图3所示, 首先, 通过分层性能评估对量测进行分层和分类; 其次, 在局部估计中, 将拒绝量测野值$ {\boldsymbol{z}}_k^{{d_j}} $, 以避免量测野值对系统滤波性能造成较大的负面影响. 特别地, 在量测$ {\boldsymbol{z}}_k^{{a_j}} $更新过程中, 将渐进地引入量测信息对当前局部状态进行补偿, 即通过多次量测迭代得到相应补偿下的后验状态, 并通过局部估计间的交互信息来引导渐进量测更新. 最后, 融合人体姿态的各局部估计形成全局估计. 为此, 构建分布式渐进贝叶斯滤波融合框架如下.
1)人体姿态全局估计
$$ p({{\boldsymbol{x}}_k}|{Z_{1:k - 1}}) = \int {p({{\boldsymbol{x}}_k}|{{\boldsymbol{x}}_{k - 1}})p({{\boldsymbol{x}}_{k - 1}}|{Z_{1:k - 1}})\text{d}{{\boldsymbol{x}}_{k - 1}}} $$ (7) $$ \begin{split} & p({{\boldsymbol{x}}_k}|{Z_{1:k}}) = p({{\boldsymbol{x}}_k}|{Z_{1:k - 1}})\;\times\\ & \quad \frac{{\prod\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {p\left( {{{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k}^{{n_j}}} \right)} \prod\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {p\left( {{{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k}^{{a_j}}} \right)} }}{{\prod\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {p\left( {{{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k - 1}^{{n_j}}} \right)} \prod\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {p\left( {{{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}}} \right)} }} \end{split}$$ (8) 2)人体姿态局部估计
$$ p({{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k - 1}^i) = \int {p({{\boldsymbol{x}}_k}|{{\boldsymbol{x}}_{k - 1}})p({{\boldsymbol{x}}_{k - 1}}|{\boldsymbol{z}}_{1:k - 1}^i)\text{d}{{\boldsymbol{x}}_{k - 1}}} $$ (9) $$ p({{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k}^i) = \frac{{p({{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k - 1}^i)p({\boldsymbol{z}}_k^i|{{\boldsymbol{x}}_k})}}{{p({\boldsymbol{z}}_k^i|{\boldsymbol{z}}_{1:k - 1}^i)}} $$ (10) 对于量测$ {\boldsymbol{z}}_k^{{n_j}} \in G_k^n $, 采用卡尔曼滤波方法得到人体姿态局部估计; 而对$ {\boldsymbol{z}}_k^{{a_j}} \in G_k^a $, 则采用渐进高斯滤波(Progressive Gaussian filtering, PGF)方法对量测不确定性进行隐式补偿. 可将量测分解为多个伪量测的集成, 即
$$ \begin{align} &R_k^{{a_j}} = {\left[ {\sum\limits_{m = 1}^M {{{\left( {R_{k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}}} } \right]^{ - 1}} \end{align} $$ (11) $$ \begin{align} &{\boldsymbol{z}}_k^{{a_j}} = {\left[ {\sum\limits_{m = 1}^M {{{\left( {R_{k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}}} } \right]^{ - 1}}\sum\limits_{m = 1}^M {\left[ {{{\left( {R_{k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}}{\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}}} \right]} \end{align} $$ (12) 利用量测迭代更新, 渐进地引入量测信息. 其中$ {\lambda _m} $表示伪时间, 且满足
$$\left\{ \begin{aligned} &{\Delta _m} = {\lambda _m} - {\lambda _{m - 1}}\\ &{\Delta _m} > 0 \\ & \sum\limits_{m = 1}^M {{\Delta _m} = 1} \end{aligned}\right. $$ (13) 其中, $ {\lambda _0} = 0 $, $ m = 1, \cdots , M $, $ M $为总渐进步数, $ {\Delta _m} $表示渐进步长, ${\boldsymbol{z}}_{k, {\lambda _1}:{\lambda _M}}^{{a_j}} = \{ {{\boldsymbol{z}}_{k, {\lambda _1}}^{{a_j}}, \cdots, {\boldsymbol{z}}_{k, {\lambda _M}}^{{a_j}}} \}$表示整个渐进过程中的伪量测, $ {\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}} $表示第$ m $步的伪量测. 在不考虑视觉遮挡所引起的量测不确定性时, $ p\left( {{\boldsymbol{z}}_k^{{a_j}}|{{\boldsymbol{x}}_k}} \right) $可以表示为
$$ \begin{split} & p\left( {{\boldsymbol{z}}_k^{{a_j}}|{{\boldsymbol{x}}_k}} \right) =\\ &\;\;\; \frac{1}{{\sqrt {2\pi \left| {R_k^{{a_j}}} \right|} }}\exp \Bigg[ { - \frac{1}{2}{{\left( {{\boldsymbol{z}}_k^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k}} \right)}^\text{T}}} \;\times \\ &\;\;\; {{{\left( {R_k^{{a_j}}} \right)}^{ - 1}}\left( {{\boldsymbol{z}}_k^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k}} \right)} \Bigg]= \\ &\;\;\; \frac{1}{{\sqrt {2\pi \left| {R_k^{{a_j}}} \right|} }}\prod\limits_{m = 1}^M {\frac{1}{{{{\left( {\sqrt {2\pi \left| {\frac{{R_k^{{a_j}}}}{{{\Delta _m}}}} \right|} } \right)}^{ - 1}}}}\frac{1}{{\sqrt {2\pi \left| {\frac{{R_k^{{a_j}}}}{{{\Delta _m}}}} \right|} }}} \;\times \\ &\;\;\; \exp \Bigg[ - \frac{1}{2}{\left( {{\boldsymbol{z}}_k^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k}} \right)^\text{T}}\times\Bigg. \\ &\;\;\; \Bigg.{\left( {\frac{{R_k^{{a_j}}}}{{{\Delta _m}}}} \right)^{ - 1}}\left( {{\boldsymbol{z}}_k^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k}} \right)\Bigg]\\[-15pt] \end{split} $$ (14) 因此, $p( {{\boldsymbol{z}}_k^{{a_j}}|{{\boldsymbol{x}}_k}} ) = c_k^{{a_j}}\prod\nolimits_{m = 1}^M {p( {{\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}}|{{\boldsymbol{x}}_k}} )},$ 其中,
$$ \begin{split} &p({\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}}|{{\boldsymbol{x}}_k}) = {\left(\sqrt {2\pi \left| {R_{k, {\lambda _m}}^{{a_j}}} \right|} \right)^{ - 1}}\;\times\\ & \qquad\exp \Bigg[ - \frac{1}{2}{({\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k})^\text{T}}\;\times \Bigg. \\ & \qquad \Bigg.{(R_{k, {\lambda _m}}^{{a_j}})^{ - 1}}({\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k})\Bigg] \end{split} $$ (15) $R_{k, {\lambda _m}}^{{a_j}} = \frac{{R_k^{{a_j}}}}{{{\Delta _m}}}$, $ {\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}} = {\boldsymbol{z}}_k^{{a_j}} $, 归一化因子为
$$ \begin{split} c_k^{{a_j}} = {\left( {\sqrt {2\pi \left| {R_k^{{a_j}}} \right|} } \right)^{ - 1}}\prod\limits_{m = 1}^M {\sqrt {2\pi \left| {\frac{{R_k^{{a_j}}}}{{{\Delta _m}}}} \right|} } \end{split} $$ (16) 对于$ G_k^a $中的量测, 其局部后验分布可进一步描述为
$$ \begin{split} p({{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k}^{{a_j}}) = \frac{{p({{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}})\prod\limits_{m = 1}^M {p\left( {{\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}}|{{\boldsymbol{x}}_k}} \right)} }}{{{{\left( {c_k^{{a_j}}} \right)}^{ - 1}}p({\boldsymbol{z}}_k^{{a_j}}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}})}} \end{split} $$ (17) 同时, 在其渐进量测更新过程中, 引入$ G_k^n $中量测作为参照量来引导其渐进迭代, 令
$$ \begin{split} {\varphi _{{\lambda _m}}} =\, & \gamma \left( {{\boldsymbol{z}}_k^{{n_j}},H_k^{{a_j}}\hat {{\boldsymbol{x}}}_{k|k, {\lambda _m}}^{{a_j}}} \right)-\\ &\gamma \left( {{\boldsymbol{z}}_k^{{n_j}},H_k^{{a_j}}\hat {{\boldsymbol{x}}}_{k|k, {\lambda _{m - 1}}}^{{a_j}}} \right) \end{split} $$ (18) $ {\varphi _{{\lambda _m}}} $表示在渐进量测更新前后的估计值与参照量间马氏距离的差值, 当$ {\varphi _{{\lambda _m}}} \ge 0 $时停止$ p({{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k}^{{a_j}}) $中的渐进量测更新, 从而对量测不确定性隐式地补偿, 即通过$ {\varphi _{{\lambda _m}}} $值来判断是否继续引入伪量测$ {\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}} $来渐进迭代和逐步修正状态估计, 而无需显式地将不确定性(如协方差矩阵)作为输入. 结合式(17)和式(18), 量测渐进更新过程中的后验概率密度函数(Probability density function, PDF)可以表示为
$$ \begin{split} &p\left({{\boldsymbol{x}}_k}, {\lambda _m}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}}, {\boldsymbol{z}}_{k, {\lambda _1}:{\lambda _m}}^{{a_j}}\right) = \\ & \qquad {\eta _{k, {\lambda _m}}}p\left({{\boldsymbol{x}}_k}, {\lambda _1}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}}, {\boldsymbol{z}}_{k, {\lambda _1}}^{{a_j}}\right)\times \\ & \qquad\prod\limits_{m = 2}^{{\varphi _{{\lambda _m}}} < 0} {p\left({\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}}|{{\boldsymbol{x}}_k}\right)} \end{split} $$ (19) 其中, $ {\eta _{k, {\lambda _m}}} $表示归一化因子.
注2. 在量测渐进更新过程中, $ {\varphi _{{\lambda _m}}} < 0 $表示估计值与参照量之间马氏距离的趋势减小, 即所修正的状态估计有效; 由式(14)可知, 渐进量测集成的等效协方差$ \bar R_k^{{a_j}} = {( {\Delta _1}+{\sum\nolimits_{m = 2}^{{\varphi _{{\lambda _m}}} < 0} {{\Delta _m}} } )^{ - 1}}R_k^{{a_j}} $, $ m = 2 $表示至少渐进一步(将简化为$ {\sum\nolimits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0}} $). 通过控制量测渐进更新的步长从而自适应调整其协方差, 将量测不确定性的补偿问题转换为对量测渐进更新的步长控制问题.
令$ k-1 $时刻的局部估计和全局估计均为高斯分布, 即$p({{\boldsymbol{x}}_{k - 1}}|{\boldsymbol{z}}_{1:k - 1}^i) = \text{N}( {{{\boldsymbol{x}}_{k - 1}};\hat {{\boldsymbol{x}}}_{k - 1|k - 1}^i, P_{k-1|k-1}^i} ),$ $ p({{\boldsymbol{x}}_{k - 1}}|{Z_{1:k - 1}}) = \text{N}( {{{\boldsymbol{x}}_{k - 1}};\hat {{\boldsymbol{x}}}_{k - 1|k - 1}^f, P_{k-1|k-1}^f} ) $, 由状态方程(1)可得$ p({{\boldsymbol{x}}_k}|{{\boldsymbol{x}}_{k - 1}}) $ = $\text{N}( {{{\boldsymbol{x}}_k};{F_k}{{\boldsymbol{x}}_{k - 1}}, {Q_k}} ),$ 则由$ k $时刻的状态预测分布易知
$$ \begin{split} p\left( {{{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k - 1}^i} \right) = \text{N}\left( {{{\boldsymbol{x}}_k};\hat {{\boldsymbol{x}}}_{k|k - 1}^i, P_{k|k - 1}^i} \right) \end{split} $$ (20) $$ \begin{split} p\left( {{{\boldsymbol{x}}_k}|{Z_{1:k - 1}}} \right) = \text{N}\left( {{{\boldsymbol{x}}_k};\hat {{\boldsymbol{x}}}_{k|k - 1}^f, P_{k|k - 1}^f} \right) \end{split} $$ (21) 其中,
$$ \begin{split} \hat {{\boldsymbol{x}}}_{k|k - 1}^i = {F_k}\hat {{\boldsymbol{x}}}_{k - 1|k - 1}^i \end{split} $$ (22) $$ \begin{split} P_{k|k - 1}^i = {F_k}P_{k - 1|k - 1}^iF_k^\text{T} + {Q_k} \end{split} $$ (23) $$ \begin{split} \hat {{\boldsymbol{x}}}_{k|k - 1}^f = {F_k}\hat {{\boldsymbol{x}}}_{k - 1|k - 1}^f \end{split} $$ (24) $$ \begin{split} P_{k|k - 1}^f = {F_k}P_{k - 1|k - 1}^fF_k^\text{T} + {Q_k} \end{split} $$ (25) 定理1. 考虑系统(1)和(2)中, 当$ G_k^n \ne \emptyset $, $ G_k^a \ne \emptyset $, 若先验概率密度函数给出如式(20)和式(21), 则可得到全局状态滤波融合估计, 即
$$ \begin{split} &{\left( {P_{k|k}^f} \right)^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k}^f = {\left( {P_{k|k - 1}^f} \right)^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k - 1}^f\; + \\ &\;\;\sum\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {\left[ {{{\left( {P_{k|k}^{{n_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k}^{{n_j}} - {{\left( {P_{k|k - 1}^{{n_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}}} \right]}\;+\\ &\;\;\sum\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {\left[ {{{\left( {P_{k|k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k, {\lambda _m}}^{{a_j}} - {{\left( {P_{k|k - 1}^{{a_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k - 1}^{{a_j}}} \right]} \end{split} $$ (26) $$ \begin{split} {\left( {P_{k|k}^f} \right)^{ - 1}} =\;& {\left( {P_{k|k - 1}^f} \right)^{ - 1}}\;+\\ & \sum\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {\left[ {{{\left( {P_{k|k}^{{n_j}}} \right)}^{ - 1}} - {{\left( {P_{k|k - 1}^{{n_j}}} \right)}^{ - 1}}} \right]}\;+\\ & \sum\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {\left[ {{{\left( {P_{k|k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}} - {{\left( {P_{k|k - 1}^{{a_j}}} \right)}^{ - 1}}} \right]} \end{split} $$ (27) 其中,
$$ \begin{split} \hat {{\boldsymbol{x}}}_{k|k}^{{n_j}} = \hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}} + K_k^{{n_j}}\left( {{\boldsymbol{z}}_k^{{n_j}} - H_k^{{n_j}}\hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}}} \right) \end{split} $$ (28) $$ \begin{split} P_{k|k}^{{n_j}} = \left( {{{I}} - K_k^{{n_j}}H_k^{{n_j}}} \right)P_{k|k - 1}^{{n_j}} \end{split} $$ (29) $$ \begin{split} K_k^{{n_j}} = P_{k|k}^{{n_j}}{\left( {H_k^{{n_j}}} \right)^\text{T}}{\left( {R_k^{{n_j}}} \right)^{ - 1}} \end{split} $$ (30) $$ \begin{split} &{\left( {P_{k|k,{\lambda _m}}^{{a_j}}} \right)^{ - 1}}\hat {\boldsymbol{x}}_{k|k,{\lambda _m}}^{{a_j}} = {\left( {P_{k|k - 1}^{{a_j}}} \right)^{ - 1}}\hat {\boldsymbol{x}}_{k|k - 1}^{{a_j}} \;+\\ &\qquad\;\;\sum\limits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0} {\left[ {{{\left( {H_k^{{a_j}}} \right)}^\text{T}}{{\left( {R_{k,{\lambda _m}}^{{a_j}}} \right)}^{ - 1}}{\boldsymbol{z}}_{k,{\lambda _m}}^{{a_j}}} \right]} \end{split} $$ (31) $$ \begin{split} &{\left( {P_{k|k, {\lambda _m}}^{{a_j}}} \right)^{ - 1}} = {\left( {P_{k|k - 1}^{{a_j}}} \right)^{ - 1}}\;+\\ &\qquad \;\;\sum\limits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0} {\left[ {{{\left( {H_k^{{a_j}}} \right)}^\text{T}}{{\left( {R_{k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}}H_k^{{a_j}}} \right]} \end{split} $$ (32) 式中, ${{I}}$表示单位矩阵.
证明. 见附录A.
最后, 带量测分类处理的渐进高斯滤波融合算法(Progressive Gaussian filtering fusion with classification, PGFFwC)给出如下:
算法1. PGFFwC算法
1) 初始化;
2) while
3) 由式(21)得$\hat {\boldsymbol{x}}_{k{{|}}k - 1}^f, P_{k|k - 1}^f$;
4) for $i = 1:N$ do
5) 基于式(3)和式(4), 对量测$ {\boldsymbol{z}}_k^{i}$分层分类处理得$ {\boldsymbol{z}}_k^{j}$;
6) if $ {\boldsymbol{z}}_k^{j} \in G_k^n$
7) 由式(28)和式(29)得到局部估计$\hat {\boldsymbol{x}}_{k|k}^{{n_j}}, P_{k|k}^{{n_j}}\,;$
8) end if
9) if $ {\boldsymbol{z}}_k^{j} \in G_k^a$
10) 渐进量测更新;
11) while${\varphi _{{\lambda _m}}} < 0$ and $m<M$
12) 由式(31)和式(32), 渐进量测更新得$\hat {\boldsymbol{x}}_{k|k, {\lambda _m}}^{{a_j}},$ $ P_{k|k, {\lambda _m}}^{{a_j}} $;
13) end while
14) end if
15) if $ {\boldsymbol{z}}_k^{j} \in G_k^d$
16) 剔除该量测野值;
17) end if
18) end for
19) 由式(26)和式(27)状态融合, 得到$\hat {\boldsymbol{x}}_{k|k}^f, P_{k|k}^f\,;$
20) end while
如定理1所示, 人体姿态估计性能改善表现在两方面: 1)通过量测分层性能评估, 对量测进行分类处理; 2)利用局部估计间的交互信息来引导渐进量测更新, 从而隐式地补偿量测不确定性. 此外, 当渐进滤波中截止条件尚未触发时, 定理1将等价于集中式融合. 特别地, 当量测信息均为同一种情形下时, 则具有如下的等价形式:
推论1. 当$ G_k^n = \emptyset $, $ G_k^a \ne \emptyset $时, 式(26)和式(27)可以表示为
$$ \begin{split} &{\left( {P_{k|k}^f} \right)^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k}^f = {\left( {P_{k|k - 1}^f} \right)^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k - 1}^f\;{\rm{ + }}\\ &\qquad\sum\limits_{i = 1}^N {\sum\limits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0} {\left[ {{{\left( {H_k^i} \right)}^\text{T}}{{\left( {R_{k, {\lambda _m}}^i} \right)}^{ - 1}} {\boldsymbol{z}}_{k, {\lambda _m}}^i} \right]} } \end{split} $$ (33) $$ \begin{split} &{\left( {P_{k|k}^f} \right)^{ - 1}} = {\left( {P_{k|k - 1}^f} \right)^{ - 1}}\;+\\ &\qquad \sum\limits_{i = 1}^N {\sum\limits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0} {\left[ {{{\left( {H_k^i} \right)}^\text{T}}{{\left( {R_{k, {\lambda _m}}^i} \right)}^{ - 1}}H_k^i} \right]} } \end{split} $$ (34) 证明从略.
3. 仿真与实验
3.1 仿真验证
为验证本文方法的合理性与有效性, 设计由多个视觉传感器组成环境下的人体姿态估计仿真. 考虑存在不同程度视觉遮挡等因素, 采用式(2)的观测模型, 并假设人体关节目标的运动学模型如式(1), 状态转移矩阵参照文献[9, 19], 设置为${F_k} = {\rm{diag}}\left\{ {{F_0}}\;\;\cdots \;\;{{F_0}}\right\} ,$ 其中, ${F_0} = {\rm{diag}}\left\{ {{F_b}}\;\;{{F_b}}\;\;{{F_b}}\right\}$, ${F_b} = \left[ {\begin{aligned} & 1\;\;{\Delta t}\\& 0\;\;\;1 \end{aligned}} \right] ,$ 量测矩阵$ H_k^i = {\rm{diag}}\left\{ {H_0}\;\cdots \;{H_0}\right\} , $ 其中
$$ \begin{split} {H_0} = \left[ {\begin{array}{*{20}{l}} 1&0&0&0&0&0\\ 0&0&1&0&0&0\\ 0&0&0&0&1&0 \end{array}} \right] \end{split} $$ (35) $ {{\boldsymbol{x}}_{k,l}}={\left[{{x_{x,l}}}\;\;{{{\dot x}_{x,l}}}\;\;{{x_{y,l}}}\;\;{{{\dot x}_{y,l}}}\;\;{{x_{z,l}}}\;\;{{{\dot x}_{z,l}}} \right]^\text{T}} $, $ {x_{x,l}} $, $ {x_{y,l}} $, $ {x_{z,l}} $和$ {\dot {x}_{x,l}} $, $ {\dot {x}_{y,l}} $, $ {\dot {x}_{z,l}} $分别为人体关节点在$ x $, $ y $和$ z $轴上的位置和速度, 人体关节的总数量取为$ L $ = 17, 系统的采样时间$\Delta t =$ 0.03 s, 过程噪声$ {{\boldsymbol{w}}_k} $的协方差为$ {Q_k} = {\rm{diag}}\left\{{{Q_0}}\;\; \cdots\;\;{{Q_0}} \right\}$, 其中
$$ \begin{split} Q_0=\; &{\rm{diag}} \{0.09\;{\rm{cm}}^2, \;0.005\;{\rm{cm}}^2/{\rm{s}}^2, 0.09\;{\rm{cm}}^2,\;\\& 0.005 \;{\rm{cm}}^2/{\rm{s}}^2,\; 0.09\;{\rm{cm}}^2,\; 0.005 \;{\rm{cm}}^2/{\rm{s}}^2\} \end{split} $$ 人体骨架量测噪声$ {\boldsymbol{v}}_k^i $的协方差矩阵为$R_k^i =$${\rm{diag}}\left\{ {R_0} \cdots {R_0} \right\}$, 其中$R_0 =$ $ 5.0{I_{3 \times 3}} $$ {\rm{c}}{{\rm{m}}^{\rm{2}}} $, $ {I_{3 \times 3}} $表示3 × 3的单位阵. 设置不确定噪声$ {\boldsymbol{\xi}}_k^i $中低程度视觉遮挡干扰的协方差矩阵$ R_{k, + }^i $ = 5.0$ {I_{3 \times 3}} $$ {\rm{c}}{{\rm{m}}^{\rm{2}}} $, 出现的概率为$ {y_1} $ = 0.4; 高程度视觉遮挡下的野值设为幅值大小为40 cm的噪声, 即$ b= $40 cm, 出现的概率为$ {y_2}= $0.05. 以人体右臂腕关节点为例进行分析, 假设初始真实状态向量$ {{\boldsymbol{x}}_0} =$ [ 0 cm, 2.4 cm/s, 0 cm, 2.4 cm/s, 0 cm, 2.4 cm/s ]T, 关节点初始状态估计误差协方差为${P_0}= {I_{3 \times 3}}$, 状态估计初始值$ {\hat {{\boldsymbol{x}}}_{0|0}} $由高斯分布$ \text{N}\left( {{{\boldsymbol{x}}_0}, {P_0}} \right) $随机生成. PGF中渐进过程的总步数$ M $设为10步, 渐进步长$ \Delta _m $= 0.1, 量测评估机制中$ {\chi _n}= $ 15 cm, $ {\chi _a}= $ 30 cm.
便于仿真结果分析与比较, 定义位置误差指标为均方根误差(Root mean square error, RMSE), 其计算式为
$$ \begin{split}F_ {\rm{RMSE}} = \sqrt {\frac{1}{S}\sum\limits_{s = 1}^S {{{\left( {{H_k}{{\boldsymbol{x}}_k} - {H_k}{{\hat {{\boldsymbol{x}}}}_{k|k}}} \right)}^2}} } \end{split} $$ (36) 其中, $F_{\rm{RMSE}} $表示均方根误差, $ s = 1, \cdots , S $为仿真实验的序号, $ S $为蒙特卡罗仿真总次数, $ {\hat {{\boldsymbol{x}}}_{k|k}} $表示$ k $时刻的状态估计值, $ {{\boldsymbol{x}}_k} $表示$ k $时刻的状态真实值. 在局部滤波中采用带量测分类处理的渐进高斯滤波(PGF with classification, PGFwC) (即, PGFFwC中局部的滤波结果)、卡尔曼滤波、粒子滤波(Particle filtering, PF)、 鲁棒卡尔曼滤波(Robust Kalman filtering, RKF)[20]. 同时为进一步验证量测分层分类处理的作用, 加入不带量测分类处理的渐进高斯滤波方法(PGF without classification, PGFwoC) (即, 采用PGF方法无差别地处理量测数据)进行对比. 另外, 为验证PGFFwC的性能, 在融合算法中对比了集中式融合(Centralized fusion, CF)、协方差交叉(Covariance intersection, CI)融合、基于观测融合的自适应卡尔曼滤波(Adaptive measurement fusion-based Kalman filter, AMFKF)[25], 以及IWCF[9]的方法, 蒙特卡罗仿真结果如图4所示. 通过仿真结果可知, 无论在局部滤波还是在全局状态融合中, 本文所提方法的性能都更好. 同时, 通过图4可知, 带有量测分类处理的方法(PGFwC, PGFFwC)比未带量测分类处理的方法(PGFwoC, PGFFwoC)误差更小. 特别地, 包含量测分类处理的分布式状态融合方法(PGFFwC)提升的精度明显高于其他方法, 说明通过对量测进行分类处理后, 滤波器对量测不确定性的描述更准确, 从而在状态融合的过程中获得更高的精度.
3.2 实验验证
为进一步验证所提方法的有效性, 设计多视觉人体姿态估计实验, 实验平台如图5所示, 由两台微软公司的Azure Kinect DK相机[26-27], 一台Windows10操作系统的电脑和一个人体姿态估计对象组成. Azure Kinect DK视觉传感器包括彩色摄像头和深度摄像头, 采集到的彩色图像分辨率为1 920$ \times $1 080像素, 深度图像分辨率为512$ \times $512像素, 拍摄速度为30帧/s, 使用同步线缆硬件触发对两台相机进行同步数据采集, 并通过张正友相机标定法, 计算出从相机到主相机的旋转矩阵与平移向量, 以主相机坐标系作为世界坐标系. 在计算机上, 编写基于Visual Studio 2017的开发环境, 利用CNN的方法得到在深度相机空间下人体骨骼关节点的空间位置信息.
实验场景设置如下: 实验环境位于室内, 两台Azure Kinect DK呈约$ {45^ \circ } $角摆放, 人体目标位于两台相机前方1.5 m左右的位置进行挥臂运动, 用Azure Kinect DK来完成对人体关节点的捕捉, 整个过程会引入自遮挡以及由手持物遮挡造成的误识别. 这里需要补充说明的是, 人体关节点对应的实际人体位置并不明确, 即人体关节点的物理意义是不明确的. 故以高精度动作捕捉系统OptiTrack System[28] (精度0.5 mm) 来获取人体关节点的真实轨迹, 如图5所示, 该定位系统由12个Prime 13相机组成, 能够实时捕捉运动目标的位姿, 以追踪到的光学标记点的位置为真值, 即视为真实人体关节点位置进行对比.
在实验中, 采用的对比方法与仿真一致, 局部滤波分别采用PF, KF, RKF, PGFwC和PGFwoC的方法对比, 全局融合分别采用CF, CI, AMFKF, IWCF, PGFFwC和PGFFwoC的方法对比. 捕捉对象为人体右臂, 其中包括肩关节、肘关节和腕关节. 以人体右臂腕关节点为例分析, 滤波参数与仿真设置的一致, 图6表示该关节点在运动过程中, 不同方法处理下的累积位置误差分析图. 进一步, 表1所示为腕关节点、肘关节点以及肩关节点的位置误差均值, 从中可看出, PGFFwC方法下得到的误差更低. 由此说明该方法能有效提高人体姿态估计的精度和鲁棒性. 另外, 从3组关节点误差均值的整体对比中, 可看出腕关节点的误差相对更大, 肩关节点的误差相对更小, 表明机动性更强的关节点存在的误差也更大.
表 1 累积误差均值统计(mm)Table 1 Cumulative error mean statistics (mm)实验方法 腕关节 肘关节 肩关节 观测融合 166.44 124.44 96.56 CF 157.55 118.00 95.00 AMFKF 147.81 113.85 93.08 CI 127.63 117.85 99.62 IWCF 153.12 113.21 92.53 PGFFwoC 151.77 114.12 92.83 PGFFwC 119.47 108.98 84.11 4. 结束语
为处理视觉遮挡下人体姿态估计性能下降问题, 提出基于渐进高斯滤波融合的姿态估计方法. 首先, 采用CNN的方法从深度图像中识别并得出人体各关节点在相机坐标系下的3D位置, 并将其转换到世界坐标系下; 其次, 在多视觉骨架数据融合中, 构建分布式的渐进贝叶斯滤波融合框架并提出基于渐进高斯滤波融合的人体姿态估计方法. 针对量测信息中包含的复杂噪声, 分别从空间、时间维度对量测进行相容性分析与分类处理. 同时, 引入渐进量测更新与引导机制, 隐式地补偿量测不确定性.
附录 A. 定理1的证明
证明. 因为$ p({\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}}|{{\boldsymbol{x}}_k}) $, $ p({{\boldsymbol{x}}_k}|{\boldsymbol{z}}_{1:k{\rm{ - }}1}^{{a_j}}) $为高斯分布, 易知$ p({{\boldsymbol{x}}_k}, {\lambda _m}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}}, {\boldsymbol{z}}_{k, {\lambda _1}:{\lambda _m}}^{{a_j}}) $, $ p({{\boldsymbol{x}}_k}|{Z_{1:k}}) $也为高斯分布. 令
$$ \begin{split} &o({\boldsymbol{x}}_k) = \\ &\quad-\frac{1}{2}{\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^f} \right)^\text{T}}{\left( {P_{k|k - 1}^f} \right)^{ - 1}}\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^f} \right)-\\ &\quad\frac{1}{2}\sum\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {\left[ {{{\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k}^{{n_j}}} \right)}^\text{T}}{{\left( {P_{k|k}^{{n_j}}} \right)}^{ - 1}}\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k}^{{n_j}}} \right)} \right]}\;- \\ &\quad\frac{1}{2}\sum\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {\left[ {{{\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k,{\lambda _m}}^{{a_j}}} \right)}^\text{T}}{{\left( {P_{k|k,{\lambda _m}}^{{a_j}}} \right)}^{ - 1}}\left( {{{\boldsymbol{x}}_k} \;- } \right.} \right.} \\ &\;\;\left. {\left. {\hat {{\boldsymbol{x}}}_{k|k,{\lambda _m}}^{{a_j}}} \right)} \right] + \frac{1}{2}\sum\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {\left[ {{{\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}}} \right)}^\text{T}}{{\left( {P_{k|k}^{{n_j}}} \right)}^{ - 1}}} \right.} \times \\ \end{split} $$ $$\begin{split}&\quad\left. {\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}}} \right)} \right] + \frac{1}{2}\sum\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {\left[ {{{\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^{{a_j}}} \right)}^\text{T}}} \right.} \times\\&\quad \left. {{{\left( {P_{k|k,{\lambda _m}}^{{a_j}}} \right)}^{ - 1}}\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^{{a_j}}} \right)} \right]\end{split} \tag{A1} $$ 根据后验概率密度函数(8), 可得最大后验估计为
$$ \begin{split} \hat {{\boldsymbol{x}}}_{k|k}^f = &\arg \max p({{\boldsymbol{x}}_k}|{Z_{1:k}}) = \\ &\arg \mathop {\max }\limits_{{{\boldsymbol{x}}_k}} o\left( {{{\boldsymbol{x}}_k}} \right) \end{split} \tag{A2}$$ 求解$ \frac{{\partial o\left( {{{\boldsymbol{x}}_k}} \right)}}{{\partial {{\boldsymbol{x}}_k}}} = 0 $, 得全局状态估计为
$$ \begin{split} &{\left( {P_{k|k}^f} \right)^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k}^f = {\left( {P_{k|k - 1}^f} \right)^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k - 1}^f\;+ \\ &\qquad\sum\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {\left[ {{{\left( {P_{k|k}^{{n_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k}^{{n_j}} - {{\left( {P_{k|k - 1}^{{n_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}}} \right]} \;+ \\ &\qquad\sum\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {\left[ {{{\left( {P_{k|k,{\lambda _m}}^{{a_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k,{\lambda _m}}^{{a_j}}} \right.}\; - \\ &\qquad\left. { {{\left( {P_{k|k - 1}^{{a_j}}} \right)}^{ - 1}}\hat {{\boldsymbol{x}}}_{k|k - 1}^{{a_j}}} \right] \end{split}\tag{A3} $$ $$ \begin{split} &{\left( {P_{k|k}^f} \right)^{ - 1}} = {\left( {P_{k|k - 1}^f} \right)^{ - 1}}\; +\\ & \qquad\sum\limits_{{\boldsymbol{z}}_k^{{n_j}} \in G_k^n} {\left[ {{{\left( {P_{k|k}^{{n_j}}} \right)}^{ - 1}}} \right.} \left. { - \;{{\left( {P_{k|k - 1}^{{n_j}}} \right)}^{ - 1}}} \right] +\\ &\qquad\sum\limits_{{\boldsymbol{z}}_k^{{a_j}} \in G_k^a} {\left[ {{{\left( {P_{k|k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}} - {{\left( {P_{k|k - 1}^{{a_j}}} \right)}^{ - 1}}} \right]} \end{split} \tag{A4}$$ 其中, 由于量测$ {\boldsymbol{z}}_k^{{n_j}} \in G_k^n $中不含额外噪声干扰与野值, 局部状态估计$ \hat {{\boldsymbol{x}}}_{k|k}^{{n_j}} $即可用卡尔曼滤波得到
$$ {\hat{\boldsymbol{x}}_{k|k}^{{n_j}}} = \hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}} + K_k^{{n_j}}\left( {{\boldsymbol{z}}_k^{{n_j}} - H_k^{{n_j}}\hat {{\boldsymbol{x}}}_{k|k - 1}^{{n_j}}} \right) \tag{A5}$$ $$ P_{k|k}^{{n_j}} = \left( {I - K_k^{{n_j}}H_k^{{n_j}}} \right)P_{k|k - 1}^{{n_j}} \tag{A6}$$ $$ K_k^{{n_j}} = P_{k|k}^{{n_j}}{\left( {H_k^{{n_j}}} \right)^\text{T}}{\left( {R_k^{{n_j}}} \right)^{ - 1}}\tag{A7} $$ 对于${\boldsymbol{z}}_k^{{a_j}} \in G_k^a\, ,$ 在其局部状态更新中, 通过PDF式(19), 可求得最大后验状态估计
$$ \begin{split} \hat {{\boldsymbol{x}}}_{k|k}^{{a_j}} = \arg \max p({{\boldsymbol{x}}_k}, {\lambda _m}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}}, {\boldsymbol{z}}_{k, {\lambda _1}:{\lambda _m}}^{{a_j}}) \end{split} $$ 根据高斯分布的连乘性质, $p({{\boldsymbol{x}}_k}, {\lambda _m}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}}, {\boldsymbol{z}}_{k, {\lambda _1}:{\lambda _m}}^{{a_j}} )$也为高斯分布, 求得
$$ \begin{split} &\hat {{\boldsymbol{x}}}_{k|k, {\lambda _m}}^{{a_j}} = \arg \mathop { \max }\limits_{{{\boldsymbol{x}}_k}} p({{\boldsymbol{x}}_k}, {\lambda _m}|{\boldsymbol{z}}_{1:k - 1}^{{a_j}}, {\boldsymbol{z}}_{k, {\lambda _1}:{\lambda _m}}^{{a_j}}) = \\ &\quad\arg \mathop {\max }\limits_{{{\boldsymbol{x}}_k}} \exp \left\{ - \frac{1}{2}{\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^{{a_j}}} \right)^\text{T}}{\left( {P_{k|k - 1}^{{a_j}}} \right)^{ - 1}}\;\times\right. \end{split} $$ $$ \begin{split} & \quad\left( {{{\boldsymbol{x}}_k} - \hat {{\boldsymbol{x}}}_{k|k - 1}^{{a_j}}} \right) - \frac{1}{2}\sum\limits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0} \left[{{\left( {{\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k}} \right)}^\text{T}} \;\times \right.\\ &\left.\left.\quad{\left( {R_{k, {\lambda _m}}^{{a_j}}} \right)^{ - 1}}\left( {{\boldsymbol{z}}_{k, {\lambda _m}}^{{a_j}} - H_k^{{a_j}}{{\boldsymbol{x}}_k}} \right)\right]\right\} \end{split}\tag{A8} $$ 解法与式(A1) ~ (A4)类似, 得
$$ \begin{split} &{\left( {P_{k|k,{\lambda _m}}^{{a_j}}} \right)^{ - 1}}\hat {\boldsymbol{x}}_{k|k,{\lambda _m}}^{{a_j}} = {\left( {P_{k|k - 1}^{{a_j}}} \right)^{ - 1}}\hat {\boldsymbol{x}}_{k|k - 1}^{{a_j}} \;+\\ & \qquad\sum\limits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0} {\left[ {{{\left( {H_k^{{a_j}}} \right)}^\text{T}}{{\left( {R_{k,{\lambda _m}}^{{a_j}}} \right)}^{ - 1}}{\boldsymbol{z}}_{k,{\lambda _m}}^{{a_j}}} \right]} \end{split}\tag{A9} $$ $$ \begin{split} &{\left( {P_{k|k, {\lambda _m}}^{{a_j}}} \right)^{ - 1}} = {\left( {P_{k|k - 1}^{{a_j}}} \right)^{ - 1}}\;+\\ &\qquad\sum\limits_{m = 1}^{{\varphi _{{\lambda _m}}} < 0} {\left[ {{{\left( {H_k^{{a_j}}} \right)}^\text{T}}{{\left( {R_{k, {\lambda _m}}^{{a_j}}} \right)}^{ - 1}}H_k^{{a_j}}} \right]} \end{split}\tag{A10}$$ □ -
表 1 本文方法与基准算法的消融实验
Table 1 Ablation studies between the proposedalgorithm and baseline
算法 AO $ {\rm SR}_{0.5} $ $ {\rm SR}_{0.75} $ FPS Baseline 0.445 0.539 0.208 21.95 Baseline + AC 0.445 0.539 0.211 20.03 Baseline + AC + S 0.447 0.542 0.211 19.63 Baseline + AC + S + $D^{m\;=\;3}_{ {KL} }$ 0.442 0.537 0.209 18.72 Baseline + AC + S + $D^{m \;=\; 6}_{ KL }$ 0.457 0.553 0.215 18.60 Baseline + AC + S + $D^{m\;=\;9}_{ KL }$ 0.440 0.532 0.211 18.49 表 2 OTB2013上的背景干扰、形变等情景下的跟踪性能对比
Table 2 Tracking performance comparisons among trackers on OTB2013 in terms of background clustersand deformation
算法 背景干扰 形变 快速运动 平面内转动 成功率 精度 成功率 精度 成功率 精度 成功 精度 ECO-HC 0.700 0.559 0.567 0.719 0.570 0.697 0.517 0.648 ECO 0.776 0.619 0.613 0.772 0.655 0.783 0.630 0.764 ATOM 0.733 0.598 0.623 0.771 0.595 0.709 0.579 0.714 DIMP 0.749 0.607 0.602 0.740 0.618 0.739 0.561 0.685 MDNet 0.777 0.621 0.620 0.780 0.652 0.796 0.658 0.822 SiamFC 0.605 0.494 0.487 0.608 0.509 0.618 0.483 0.583 DaSiamRPN 0.728 0.592 0.609 0.761 0.565 0.702 0.625 0.780 SiamRPN (Baseline) 0.605 0.745 0.591 0.724 0.589 0.724 0.627 0.770 Baseline + AC 0.605 0.745 0.591 0.724 0.589 0.724 0.627 0.770 Baseline + AC + ${ D}_{ { {KL} } }^{ { {m} } \;=\; 3}$ 0.599 0.741 0.603 0.749 0.645 0.797 0.651 0.808 Baseline + AC + ${ D}_{ { {KL} } }^{ { {m} } \;=\; 6}$ 0.592 0.733 0.597 0.742 0.636 0.787 0.650 0.807 Baseline + AC + ${ D}_{ { {KL} } }^{ { {m} } \;=\; 9}$ 0.598 0.736 0.586 0.725 0.587 0.723 0.654 0.809 表 3 OTB2013上的光照变化、低分辨率等情景下的跟踪性能对比
Table 3 Tracking performance comparisons among trackers on OTB2013 in terms of illumination changeand low resolution
算法 光照变化 低分辨率 运动模糊 遮挡 成功率 精度 成功率 精度 成功率 精度 成功率 精度 ECO-HC 0.556 0.690 0.536 0.619 0.566 0.685 0.586 0.749 ECO 0.616 0.766 0.569 0.677 0.659 0.786 0.636 0.800 ATOM 0.604 0.749 0.554 0.654 0.529 0.665 0.617 0.762 DIMP 0.606 0.749 0.485 0.571 0.564 0.695 0.610 0.750 MDNet 0.619 0.780 0.644 0.804 0.662 0.813 0.623 0.777 SiamFC 0.479 0.593 0.499 0.600 0.485 0.617 0.512 0.635 DaSiamRPN 0.589 0.736 0.490 0.618 0.533 0.688 0.583 0.726 SiamRPN (Baseline) 0.585 0.723 0.519 0.653 0.532 0.684 0.586 0.726 Baseline + AC 0.585 0.723 0.519 0.653 0.532 0.684 0.586 0.726 Baseline + AC + ${ D}_{ {{KL} } }^{ {{m} } = 3}$ 0.600 0.749 0.554 0.697 0.610 0.785 0.593 0.740 Baseline + AC + ${ D}_{ {{KL} } }^{ {{m} } = 6}$ 0.592 0.741 0.546 0.688 0.596 0.770 0.586 0.732 Baseline + AC + ${ D}_{ {{KL} } }^{ {{m} } = 9}$ 0.581 0.724 0.549 0.689 0.533 0.687 0.576 0.716 表 4 OTB2013上的平面外旋转、视野外等情景下的跟踪性能对比
Table 4 Tracking performance comparisons among trackers on OTB2013 in terms of out-of-plane rotationand out of view
算法 平面外旋转 视野外 尺度变化 成功率 精度 成功率 精度 成功率 精度 ECO-HC 0.563 0.718 0.549 0.763 0.587 0.740 ECO 0.628 0.787 0.733 0.827 0.651 0.793 ATOM 0.607 0.751 0.522 0.563 0.654 0.792 DIMP 0.596 0.737 0.549 0.593 0.636 0.767 MDNet 0.628 0.787 0.698 0.769 0.675 0.842 SiamFC 0.500 0.620 0.574 0.642 0.542 0.665 DaSiamRPN 0.599 0.750 0.570 0.633 0.587 0.740 SiamRPN (Baseline) 0.598 0.736 0.658 0.725 0.608 0.751 Baseline + AC 0.598 0.736 0.658 0.725 0.608 0.751 Baseline + AC + ${ D}_{ { {KL} } }^{ { {m} } \;=\; 3}$ 0.611 0.760 0.702 0.778 0.656 0.819 Baseline + AC + ${ D}_{ {{KL} } }^{ {{m} } = 6}$ 0.604 0.752 0.659 0.733 0.631 0.791 Baseline + AC + ${ D}_{ {{KL} } }^{ {{m} } = 9}$ 0.597 0.740 0.660 0.735 0.603 0.755 表 5 VOT2018 上的实验结果
Table 5 Experimental results on VOT2018
算法 Baseline 非监督 实时性能 精度−鲁棒性 失败率 EAO FPS AO FPS EAO KCF 0.4441 50.0994 0.1349 60.0053 0.2667 63.9847 0.1336 SRDCF 0.4801 64.1136 0.1189 2.4624 0.2465 2.7379 0.0583 ECO 0.4757 17.6628 0.2804 3.7056 0.4020 4.5321 0.0775 ATOM 0.5853 12.3591 0.4011 5.2061 0 0 0 SiamFC 0.5002 34.0259 0.188 31.889 0.3445 35.2402 0.182 DaSiamRPN 0.5779 17.6608 0.3826 58.854 0.4722 64.4143 0.3826 SiamRPN (Baseline) 0.5746 23.5694 0.2941 14.3760 0.4355 14.4187 0.0559 Baseline + AC 0.5825 27.0794 0.2710 13.7907 0.4431 13.8772 0.0539 Baseline + AC + ${ D}_{ { {KL} } }^{ { {m} } \;=\; 3}$ 0.5789 14.8312 0.2865 13.6035 0.4537 13.4039 0.0536 Baseline + AC + ${ D}_{ { {KL} } }^{ { {m} } \;=\; 6}$ 0.5722 22.6765 0.2992 13.5359 0.4430 12.4383 0.0531 Baseline + AC + ${ D}_{ { {KL} } }^{ { {m} } \;=\; 9}$ 0.5699 22.9148 0.2927 13.5046 0.4539 12.1159 0.0519 -
[1] 刘巧元, 王玉茹, 张金玲, 殷明浩. 基于相关滤波器的视频跟踪方法研究进展. 自动化学报, 2019, 45(2): 265-275Liu Qiao-Yuan, Wang Yu-Ru, Zhang Jin-Ling, Yin Ming-Hao. Research progress of visual tracking methods based on correlation filter. Acta Automatica Sinica, 2019, 45(2): 265-275 [2] 刘畅, 赵巍, 刘鹏, 唐降龙. 目标跟踪中辅助目标的选择、跟踪与更新. 自动化学报, 2018, 44(7): 1195-1211Liu Chang, Zhao Wei, Liu Peng, Tang Xiang-Long. Auxiliary objects selecting, tracking and updating in target tracking. Acta Automatica Sinica, 2018, 44(7): 1195-1211 [3] 蔺海峰, 马宇峰, 宋涛. 基于SIFT特征目标跟踪算法研究. 自动化学报, 2010, 36(8): 1204-1208 doi: 10.3724/SP.J.1004.2010.01204Lin Hai-Feng, Ma Yu-Feng, Song Tao. Research on object tracking algorithm based on SIFT. Acta Automatica Sinica, 2010, 36(8): 1204-1208 doi: 10.3724/SP.J.1004.2010.01204 [4] Held D, Thrun S, Savarese S. Learning to track at 100 FPS with deep regression networks. In: Proceedings of the European Conference on Computer Vision. Amsterdam, Netherlands: 2016. 749−765 [5] Bertinetto L, Valmadre J, Henriques J F, Vedaldi A, Torr P H S. Fully-convolutional siamese networks for object tracking. In: Proceedings of the European Conference on Computer Vision. Amsterdam, Netherlands: 2016. 850−865 [6] Li B, Yan J J, Wu W, Zhu Z, Hu X L. High performance visual tracking with Siamese region proposal network. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 8971−8980 [7] Zhu Z, Wang Q, Li B, Wu W, Yan J J, Hu W M. Distractor-aware Siamese networks for visual object tracking. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: 2018. 103−119 [8] Li B, Wu W, Wang Q, Zhang F Y, Xing J L, Yan J J. SiamRPN++: Evolution of Siamese visual tracking with very deep networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 4277−4286 [9] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Veg-as, USA: IEEE, 2016. 4293−4302 [10] Henriques J F, Caseiro R, Martins P, Batista J. High-speed tracking with kernelized correlation filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596 doi: 10.1109/TPAMI.2014.2345390 [11] Danelljan M, Hager G, Khan F S, Felsberg M. Learning spatially regularized correlation filters for visual tracking. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 4310−4318 [12] Ma C, Huang J B, Yang X K, Yang M H. Hierarchical convolutional features for visual tracking. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 3074−3082 [13] Wang N Y, Yeung D Y. Learning a deep compact image representation for visual tracking. In: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: 2013. 809−817 [14] Danelljan M, Robinson A, Khan F S, Felsberg M. Beyond correlation filters: Learning continuous convolution operators for visual tracking. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands: 2016. 472− 488 [15] Danelljan M, Bhat G, Khan F S, Felsberg M. ECO: Efficient convolution operators for tracking. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolul, USA: IEEE, 2017. 6931−6939 [16] Bolme D S, Beveridge J R, Draper B A, Lui Y M. Visual object tracking using adaptive correlation filters. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: 2010. 2544−2550 [17] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149 doi: 10.1109/TPAMI.2016.2577031 [18] Danelljan M, Bhat G, Khan F S, Felsberg M. ATOM: Accurate tracking by overlap maximization. In: Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 4655−4664 [19] Jiang B R, Luo R X, Mao J Y, Xiao T T, Jiang Y N. Acquisition of localization confidence for accurate object detection. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: 2018. 816−832 [20] Wang Q, Zhang L, Bertinetto L, Hu W M, Torr P H S. Fast online object tracking and segmentation: A unifying approach. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 1328− 1338 [21] Huang L H, Zhao X, Huang K Q. GOT-10k: A large high-diversity benchmark for generic object tracking in the wild. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1562-1577 doi: 10.1109/TPAMI.2019.2957464 [22] Liang P P, Blasch E, Ling H B. Encoding color information for visual tracking: Algorithms and benchmark. IEEE Transactions on Image Processing, 2015, 24(12): 5630-5644 doi: 10.1109/TIP.2015.2482905 [23] Wu Y, Lim J, Yang M H. Object tracking benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848 doi: 10.1109/TPAMI.2014.2388226 [24] Kristan M, Matas J, Leonardis A, Vojir T, Pflugfelder R, Fernandez G, et al. A novel performance evaluation methodology for single-target trackers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(11): 2137-2155 doi: 10.1109/TPAMI.2016.2516982 [25] Ramasubramanian K, Singh A. Machine Learning Using R: With Time Series and Industry-Based Use Cases in R. Berkeley: Springer, 2017. 219−424 [26] Pearlmutter B A. Fast exact multiplication by the Hessian. Neural Computation, 1994, 6(1): 147-160 doi: 10.1162/neco.1994.6.1.147 [27] Zhang J M, Ma S G, Sclaroff S. MEEM: Robust tracking via multiple experts using entropy minimization. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: 2014. 188−203 [28] Hare S, Golodetz S, Saffari A, Vineet V, Cheng M M, Hicks S L, et al. Struck: Structured output tracking with kernels. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096-2109 doi: 10.1109/TPAMI.2015.2509974 [29] Jia X, Lu H C, Yang M H. Visual tracking via adaptive structural local sparse appearance model. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Pro-vidence, USA: IEEE, 2012. 1822−1829 [30] Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2006. 798−805 [31] Bhat G, Danelljan M, Van Gool L, Timofte R. Learning discriminative model prediction for tracking. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. Seo-ul, South Korea: IEEE, 2019. 6181−6190 期刊类型引用(3)
1. 杨旭升,李唯诣,张文安. 面向RTK定位的整数约束型渐进高斯滤波方法. 自动化学报. 2025(02): 366-375 . 本站查看
2. 李鑫,张丹,郭新,汪松,陈恩庆. 基于CNN和Transformer双流融合的人体姿态估计. 计算机工程与应用. 2025(05): 187-199 . 百度学术
3. 苏妍妍,邱志良,李帼,陆声链,陈明. 基于深度学习的二维单人姿态估计综述. 计算机工程与应用. 2024(21): 18-37 . 百度学术
其他类型引用(2)
-