2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

目标跟踪中基于IoU和中心点距离预测的尺度估计

李绍明 储珺 冷璐 涂序继

李绍明, 储珺, 冷璐, 涂序继. 目标跟踪中基于IoU和中心点距离预测的尺度估计. 自动化学报, 2024, 50(8): 1646−1659 doi: 10.16383/j.aas.c210356
引用本文: 李绍明, 储珺, 冷璐, 涂序继. 目标跟踪中基于IoU和中心点距离预测的尺度估计. 自动化学报, 2024, 50(8): 1646−1659 doi: 10.16383/j.aas.c210356
Li Shao-Ming, Chu Jun, Leng Lu, Tu Xu-Ji. Accurate scale estimation with IoU and distance between centroids for object tracking. Acta Automatica Sinica, 2024, 50(8): 1646−1659 doi: 10.16383/j.aas.c210356
Citation: Li Shao-Ming, Chu Jun, Leng Lu, Tu Xu-Ji. Accurate scale estimation with IoU and distance between centroids for object tracking. Acta Automatica Sinica, 2024, 50(8): 1646−1659 doi: 10.16383/j.aas.c210356

目标跟踪中基于IoU和中心点距离预测的尺度估计

doi: 10.16383/j.aas.c210356
基金项目: 国家自然科学基金(62162045), 江西省科技支撑计划项目(20192BBE50073)资助
详细信息
    作者简介:

    李绍明:南昌航空大学软件学院硕士研究生. 主要研究方向为计算机视觉和目标跟踪. E-mail: thorn_mo1905@163.com

    储珺:南昌航空大学软件学院教授. 主要研究方向为计算机视觉和模式识别. 本文通信作者.E-mail: chuj@nchu.edu.cn

    冷璐:南昌航空大学软件学院教授. 主要研究方向为图像处理, 生物特征模板保护和生物特征识别. E-mail: leng@nchu.edu.cn

    涂序继:南昌航空大学软件学院讲师. 主要研究方向为计算机视觉和图像处理. E-mail: 71068@nchu.edu.cn

Accurate Scale Estimation With IoU and Distance Between Centroids for Object Tracking

Funds: Supported by National Natural Science Foundation of China (62162045) and Jiangxi Provincial Science and Technology Key Project (20192BBE50073)
More Information
    Author Bio:

    LI Shao-Ming Master student at the School of Software, Nanchang Hangkong University. His research interest covers computer vision and object tracking

    CHU Jun Professor at the School of Software, Nanchang Hangkong University. Her research interest covers computer vision and pattern recognition. Corresponding author of this paper

    LENG Lu Professor at the School of Software, Nanchang Hangkong University. His research interest covers image processing, biometric template protection and biometric recognition

    TU Xu-Ji Lecturer at the School of Software, Nanchang Hangkong University. His research interest covers computer vision and image processing

  • 摘要: 通过分析基于交并比(Intersection over union, IoU)预测的尺度估计模型的梯度更新过程, 发现其在训练和推理过程仅将IoU作为度量, 缺乏对预测框和真实目标框中心点距离的约束, 导致外观模型更新过程中模板受到污染, 前景和背景分类时定位出现偏差. 基于此发现, 构建了一种结合IoU和中心点距离的新度量NDIoU (Normalization distance IoU), 在此基础上提出一种新的尺度估计方法, 并将其嵌入判别式跟踪框架. 即在训练阶段以NDIoU为标签, 设计了具有中心点距离约束的损失函数监督网络的学习, 在线推理期间通过最大化NDIoU微调目标尺度, 以帮助外观模型更新时获得更加准确的样本. 在七个数据集上与相关主流方法进行对比, 所提方法的综合性能优于所有对比算法. 特别是在GOT-10k数据集上, 所提方法的AO、$S{R}_{0.50}$和$ S{R}_{0.75} $三个指标达到了65.4%、78.7%和53.4%, 分别超过基线模型4.3%、7.0%和4.2%.
  • 目标跟踪技术通过分析视频第一帧中的目标, 在后续视频帧中估计出目标的运动轨迹. 跟踪过程通常使用外观模型对目标进行初定位, 然后在该位置估计目标的尺度, 用于表示目标的位置和大小. 再根据当前帧中目标的位置和尺度进行采样, 利用得到的样本更新目标外观模型, 寻找下一帧目标的位置. 因此, 准确的尺度估计可以帮助在线更新过程准确采集目标样本, 以获得更加鲁棒的外观模型, 提高定位精度.

    通用目标跟踪在推断期间只给定初始帧的目标信息, 跟踪模型需要在形变、遮挡等多种干扰因素下预测后续帧的目标尺度, 因此跟踪任务中的尺度估计极具挑战性[1-4].

    传统跟踪算法(如SRCF[5], ASRCF[6], DSST[7], SAMF[8]等)使用多尺度搜索方法估计被跟踪目标的尺度. Danelljan等[7]提出学习独立的一维尺度相关滤波器, 将多个不同大小的图像块缩放到固定尺度, 并转换为一维的特征向量进行描述, 再使用尺度相关滤波器对多个图像块的特征向量执行相关操作, 响应最大图像块的尺度则为当前目标的尺度. Li等[8]提出设置尺度因子池, 利用多尺度采样获得多个不同尺度的图像块, 将采集的样本缩放到固定尺度进行跟踪, 响应值最大的尺度为当前帧的目标尺度. 以上方法需要对选择的不同尺度图像块重复进行特征提取, 难以满足跟踪的实时性要求.

    基于深度学习的目标跟踪算法(如ATOM[9], SiamRPN[10], SiamMask[11], Ocean[12], SiamFC++[13], DiMP[14], PrDiMP[15], SiamRPN++[16], KYS[17], DCFST[32]等)使用大规模数据离线训练边界框回归分支得到目标的尺度估计模型, 在性能上超越了传统的跟踪方法. 与目标检测算法(如Fast R-CNN[18], Faster R-CNN[19], IOUNet[20]等)类似, 这些方法通常通过直接或间接预测边界框的坐标来训练尺度估计模型. 基于深度学习的跟踪算法可以分为Siamese系列跟踪算法和在线判别式跟踪算法.

    Siamese系列跟踪算法[10-13, 16]使用检测中的边界框回归, 通过离线学习建立目标的尺度估计模型. 此类方法通常使用训练集中目标的坐标信息监督网络的学习, 引入尺度先验信息, 并且该类方法将离线训练好的模型直接用于尺度估计, 缺乏对目标外观变化的自适应过程, 对目标尺度回归不准确.

    在线判别式跟踪方法[9, 14, 17]基于Jiang等[20]提出的边界框回归方法对目标的尺度进行估计. 这类方法首先对交并比(Intersection over union, IoU)预测模型进行离线训练, 然后在在线跟踪过程中对初始化的边界框进行微调, 最后选择IoU排名前$k $个边界框的平均值作为被跟踪目标的尺度. 基于IoU预测的尺度估计方法能够根据目标外观变化对目标的尺度进行微调, 使用对目标尺度不敏感的信息监督网络学习, 因此更加稳定可靠[15].

    跟踪成功率和跟踪精度是评价目标跟踪性能的主要指标. 跟踪成功率为预测框与真实框的重叠度(IoU)超过阈值的帧数占视频总帧数的比例, 而跟踪精度则衡量预测框与真实框中心点距离的误差. 实验中发现基于IoU预测的尺度估计的目标跟踪框架有较高的跟踪成功率, 但跟踪精度较低. 分析认为有两个方面的原因: 1)基于IoU预测的尺度估计在模型训练过程中, 当候选框和真实框的IoU相同但中心点距离不同时, 用于监督IoU预测分支学习的标签相同, 对具有相同IoU但中心点距离不同的候选框进行同等优化, 忽略了中心点距离这一重要信息; 2)在判别式跟踪方法中, 目标外观模型更新时需要利用成功跟踪的历史帧信息. 尺度估计不准确导致用于外观模型更新的样本无法准确表示目标, 污染外观模型, 影响后续的定位, 进而影响后续的目标尺度估计.

    针对以上问题, 本文从尺度估计模型训练和在线推理时参数梯度更新的角度, 分析基于IoU预测的尺度估计模型缺陷, 提出结合IoU和中心点距离预测的尺度估计方法, 并以此构建新的损失函数来学习尺度估计模型. 引入结合IoU和归一化中心点距离的度量NDIoU (Normalization distance IoU)作为尺度估计分支的输出, 在确保较高跟踪成功率的同时, 跟踪精度也得到进一步提升. 同时可以获得更加准确的历史帧目标样本用于外观模型更新, 反哺在线跟踪以得到更加鲁棒的外观模型. 本文的主要贡献如下:

    1) 分析中心点距离和IoU在目标跟踪中的作用, 提出了新的目标跟踪尺度估计框架, 增强目标定位的准确性, 在保证跟踪成功率的同时提高跟踪精度.

    2) 引入NDIoU, 结合判别式目标跟踪, 构建了同时兼顾成功率和精度的目标尺度估计损失.

    3) 本文算法在OTB-100[1]、UAV123[21]、VOT2018[22]、GOT-10k[23]、LaSOT[24]、TrackingNet[25]、TC128[26]七个主流数据集上的实验结果优于同类主流跟踪算法.

    本节首先分析基于IoU预测的尺度估计方法的缺陷. 然后提出结合IoU与候选框和真实框中心点之间距离的尺度估计方法. 通过引入中心点距离信息, 可以提高尺度预测的准确度.

    基于IoU预测的尺度估计将IoU作为一种度量方式来衡量网络预测的质量, 该尺度估计步骤如下:

    1) 离线训练尺度估计模型. 首先在原始的标记空间中进行采样生成候选框, 计算候选框与真实框的IoU, 将其作为标签, 记为$ {Io{U}}_{{\rm{target}}} $; 然后, 通过卷积神经网络(Convolution neural network, CNN)特征提取器得到视频帧的特征图, 将得到的候选框映射到该特征图上; 再使用Prpooling (Precision ROI Pooling)[20]将对应特征图中的候选区域池化到固定大小; 最后, 通过全连接得到预测的IoU, 记为${IoU}_{{\rm{pred}}}$. 在训练过程中, 最小化$ {L}_{2} $损失进行训练, 具体为

    $$ {L_{{\rm{IoU}}}} = \left\| {{{IoU}}_{{\rm{targ et}}} - {IoU}}_{{\rm{pred}}}\right\|^2 $$ (1)

    ${L_{{\rm{IoU}}}}$表示IoU损失函数, 其中,

    $$ {IoU}_{{{{\rm{target}}}}} = \frac{{{B_{{\rm{gt}}}} \cap {B_{{\rm{cand}}}}}}{{{B_{{\rm{gt}}}} \cup {B_{{\rm{cand}}}}}} $$ (2)

    式中, $ {B}_{{\rm{gt}}} $表示训练集视频的标记, $ {B}_{{\rm{cand}}} $表示根据真实的目标框生成的候选框.

    $$ {IoU}_{{\rm{pred}}} = \varphi \left( {{\boldsymbol{feat}}, \;w} \right) $$ (3)

    其中, $ \varphi $代表两个全连接层, $ w $代表全连接层参数, ${\boldsymbol{feat}}$表示Prpooling后候选框中目标的特征.

    2) 在线推断期间估计目标的尺度. 首先, 根据上一帧的跟踪结果得到初始尺度, 并在该尺度的基础上生成多个候选尺度框; 然后, 与训练过程相同, 将候选框映射到对应的特征图, 并通过可微的Prpooling操作后再经全连接层得到预测的IoU; 最后, 通过最大化IoU的方式计算尺度候选框的偏导数, 使用偏导数对边界框进行微调. 取IoU排名前$ k $的微调后的边界框平均值为预测的目标尺度.

    基于IoU预测的尺度估计依据IoU微调后的排名选择预测目标的尺度, 并且使用该尺度为目标外观模型的更新收集目标样本. 离线训练尺度估计分支时, 通过最小化式(1)使得网络的输出$ {IoU}_{{\rm{pred}}} $接近${IoU}_{{\rm{target}}} $. 在该过程中, $ {IoU}_{{\rm{pred}}} $预测分支通过梯度更新实现参数学习. 具体过程如下: 首先根据式(1), 利用链式法则对全连接层的参数$ w $求偏导, 即

    $$ \begin{split} \frac{{\partial {L_{{\rm{IoU}}}}}}{{\partial w}} =\;& - 2\left( {{{IoU}}_{{\rm{t}}{\rm{arg}} {\rm{et}}} - {IoU}_{{\rm{pred}}}} \right)\left( {\frac{{\partial {IoU}_{{\rm{pred}}}}}{{\partial w}}} \right)= \\ & - 2\left( {IoU}_{{\rm{t}}{\rm{arg}} {\rm{et}}} - {IoU}_{{\rm{pred}}} \right)\left( {\frac{{\partial \varphi \left( {{\boldsymbol{feat}},w} \right)}}{{\partial w}}} \right) \end{split} $$ (4)

    然后, 使用偏导数对$ w $进行更新:

    $$ {{w}} \leftarrow {w }-\eta \cdot \frac{{\partial {IoU}_{{\rm{pred}}}}}{{\partial w}} $$ (5)

    其中, $ \eta $表示参数更新的步长.

    结合式(4)和式(5)可以看出, 对${IoU}_{{\rm{pred}}}$预测分支的参数进行更新时, 只利用了候选框和真实框的IoU. 如果仅用IoU作为度量来训练尺度估计模型, 当出现如图1所示的情况时, 会导致模型参数学习效果变差.

    图 1  IoU相同但中心点距离不同的情况(红色代表候选的边界框, 绿色代表真实边界框)
    Fig. 1  Same IoU while different distances between centroids (Red represents the candidate bounding box, and green represents the ground-truth bounding box)

    图1(a) ~ 1(d)可以看出, 候选框和真实框的${{IoU}}_{{\rm{target}}}$相同, 但中心点之间距离不同. 由式(4)和式(5)可知, 此时$ w $的偏导数完全一样, 导致IoU预测分支的参数难以学习到中心点之间的距离信息. 在线推断期间, 当IoU预测最大时, 尺度框的中心点离目标的中心点距离较远, 回归不准确. 显然, 需要提出一个新的度量方式衡量网络预测的质量, 其能够同时描述IoU和边界框之间中心点的距离, 使得不同位置的相同${IoU}_{{\rm{pred}}}$能够对$ w $的偏导数有不同的贡献, 学习到更加准确的尺度回归特征, 促进尺度估计更加准确.

    由此, 本文提出结合IoU和中心点距离预测的方式, 从而对目标的尺度估计分支进行训练, 使其能够在保证较大重叠率的同时, 学习到的特征也能够反映预测尺度框与真实框之间的中心点距离. 即保证在线推断期间预测框和真实框的IoU最大时, 其中心点更接近, 在提高跟踪成功率的同时也提高目标跟踪的尺度估计精度.

    根据上文的分析, 提出能够同时度量IoU和中心点之间距离的新度量, 表示为

    $$ {{NDI{{o}}U}} = {{IoU}} - {{ND}} $$ (6)

    其中, ND表示归一化中心点距离. 中心点之间的距离定义为真实框与候选框中心点之间的欧氏距离, 具体为

    $$ D = \sqrt {{{(x{c_{{\rm{gt}}}} - x{c_{{\rm{cand}}}})}^2} + {{(y{c_{{\rm{gt}}}} - y{c_{{\rm{cand}}}})}^2}} $$ (7)

    其中, 点$(x{c}_{{\rm{gt}}},y{c}_{{\rm{gt}}})$和$ (x{c}_{{\rm{cand}}},y{c}_{{\rm{cand}}}) $分别为真实框和候选框的中心点.

    $\text{IoU}$计算的是候选框与真实框之间的重叠度, 其值在$ \left[\mathrm{0,1}\right] $之间. 中心点之间的距离为像素距离, 其值一般大于1. 如果直接采用中心点之间的距离作为预测结果, 则训练误差主要来自中心点之间的距离误差, 不利于尺度估计模型中参数的学习. 所以, 借鉴DIoU (Distance-IoU)[27]中的思想, 提出一个归一化量C, 归一化中心点之间的距离, 如图2(a)所示. 归一化后的中心点距离为

    图 2  标准化中心点之间的距离
    Fig. 2  Normalized distance between centroids
    $$ NORM(D) = \frac{{\sqrt {{{(x{c_{{\rm{gt}}}} - x{c_{{\rm{cand}}}})}^2} + {{(y{c_{{\rm{gt}}}} - y{c_{{\rm{cand}}}})}^2}} }}{C} $$ (8)

    在DIoU中, $ C $为同时包含预测框和真实框的最小闭包区域的对角线距离. 而在基于IoU预测的尺度估计模型中, 采样时的IoU阈值设定为0, 所以候选框一定会和真实框有重叠. 在这种情况下, 候选框和真实框之间的距离较小, 如果仍然采用DIoU中两个矩形框的最小闭包区域的对角线距离会使得归一化之后的距离更小, 影响中心点之间的距离信息对网络参数的贡献. 所以, C采用IoU为零时的最大中心点距离, 如图2(a)所示. 其计算方式与式(7)相同. 图2(b)给出了$ C $和中心点之间的距离$ D $的选择方式. 图2(a)中, 矩形框代表真实框, C为根据采样时的阈值设定为最大中心点之间的距离. 图2(b)中, 右上方的框代表采样时的候选框, 右下方的框代表最远中心点距离的候选框, D定义为候选框与真实框中心点之间的欧氏距离.

    在引入新的度量之后, 式(1)中的损失函数改写为

    $$ {L} = {\left\| {{{NDI{{o}}{U}}_{{\rm{t}}{\rm{arg}} {\rm{et}}}} - {{NDIo{U}}_{{\rm{pred}}}}} \right\|^2} $$ (9)

    与式(4)相同, 可以得到全连接层参数$ w $的偏导数为

    $$ \begin{split} \frac{{\partial {L_{{\rm{NDIoU}}}}}}{{\partial w}} = \;& - 2( {{NDIo{U}}_{{\rm{targ}} {\rm{et}}}} \;-\\ &{{NDIo{U}}_{{\rm{pred}}}} )\frac{{\partial \varphi \left( {{\boldsymbol{feat}},w} \right)}}{{\partial w}} \end{split} $$ (10)

    此时, 在后向传播中, 关于参数$ w $的偏导数带有中心点的距离信息, 这些信息能够在后向传播时帮助尺度回归特征的学习, 提高尺度估计的准确性.

    为说明引入中心点距离后的效果, 本文统计了基线算法DiMP50和本文算法在OTB-100数据集上所有的跟踪结果, 如图3所示.

    图 3  IoU和中心点距离对应视频帧数的统计
    Fig. 3  The number statistics of video frame corresponding to IoU and distances between centroids

    图3(a)可以看出, 基于NDIoU的跟踪结果中的视频帧大都分布在高IoU的位置, 基于IoU的尺度预测跟踪器在较高的IoU位置的视频帧较少. 从图3(b)可以看出, 在同样的IoU阈值下, 基于NDIoU的跟踪器跟踪结果中, 中心点距离接近0的视频帧数量明显多于基于IoU的跟踪器. 这说明本文的尺度估计方法能够得到更准确的边界框, 使得更多的跟踪成功的视频帧具有较大的IoU和较小的中心点距离.

    为更好地说明本文方法的优势, 图4给出了一个极具挑战的视频序列的跟踪结果. 该视频序列包含形变、平面内旋转、复杂背景和光照变化等情况. 图4中, 第1行为真实框, 第2行为基于IoU的尺度预测(DiMP50)的跟踪结果, 第3行为本文方法(基于NDIoU预测的尺度估计方法)的跟踪结果.

    图 4  在视频序列Dinosaur上跟踪的结果可视化
    Fig. 4  Visualization of tracking results on the video sequence Dinosaur

    在刚开始的第2帧, 两种算法尺度估计都比较准确. 但随着“小恐龙”的移动, 在第25帧和52帧中, 基于IoU的尺度估计开始变得不准确, 但本文方法还能准确估计出目标的尺度. 随着小恐龙的外观变化、平面内旋转和背景信息的干扰, 在第72帧和第101帧中, 基于IoU预测的尺度估计已经不能准确估计出目标的尺度, 但本文方法依然能够准确估计出目标的尺度.

    离线训练时, 分类分支与DiMP一样, 随机选择一个视频序列连续三帧建立外观模型, 按照5倍于目标大小进行采样, 最终视频帧缩放到$ 288\times 288 $像素大小, 用于特征提取. 用建立好的外观模型对测试帧中的前景和背景进行分类, 同时使用Hingle loss $ {L}_{h} $计算回归误差, 其中的阈值设置为0.05. 对于尺度估计分支, 首先生成能够同时度量IoU与中心点距离的NDIoU. 在预测NDIoU时, 将真实框投影到用于建立外观模型的特征图上, 使用Prpooling提取目标区域, 作为测试帧的特征图的引导. 同样, 使用生成的候选框, 从融合了当前视频序列中目标信息的测试帧特征图中提取候选区域特征, 使用全连接层预测NDIoU. 最后, 使用${L}_{{\rm{NDIoU}}}$计算预测的${{ NDIo{U}}}_{{\rm{pred}}}$与给定${{NDIo{U}}}_{{\rm{target}}}$的均方误差. 离线训练时的损失函数为

    $$ L = {L_{{\rm{NDIoU}}}} + \lambda {L_{{h}}}(s,{y_c}) $$ (11)

    其中, $ \lambda $是两个损失的平衡因子. 与DiMP一致, 实验设置$ \lambda =100 $. $ s $为分类分支的响应图得分, $ {y}_{c} $为高斯标签. 本文将提出的方法命名为ASEID (Accurate scale estimation with IoU and distance between centriods for object tracking), 在LaSOT、GOT-10k、TrackingNet以及COCO[28]数据集上进行联合训练.

    在线跟踪过程采用数据增广策略[29], 如左右翻转、平面旋转、模糊、相对平移等. 对每一个视频序列构建一个初始训练集, 用于在线迭代被跟踪目标的外观模型, 定位目标的粗略位置. 使用上一帧的目标尺度作为初始目标的尺度, 根据该尺度按照一定规则生成多个目标框作为初始化候选框, 将这些候选框映射到当前帧的特征图, 并按照训练中的方式提取出候选区域, 进行NDIoU预测. 然后最大化NDIoU, 计算初始化候选框的梯度, 根据梯度对初始化尺度框进行微调. 最终进行NDIoU排序, 选择前3个微调后的边界框的平均值作为最终的目标尺度.

    为了验证算法的有效性, 首先在OTB-100数据集上进行消融实验, 然后在OTB-100、VOT2018、GOT-10k、TrackingNet、LaSOT、UAV123、TC128 七个主流数据集上与当前相关主流算法进行比较, 尤其是结合深度学习的相关滤波方法.

    为更加公平地进行比较, 在OTB-100、UAV123、TC128、LaSOT、GOT-10k五个数据集上的测试, 本文在每个数据集上运行5次取平均值. 在GOT-10k的测试依赖于在线服务器, 将5次运行的平均结果上传到服务器进行测评. VOT2018遵循VOT (Visual object tracking)挑战中的设置, 运行15次. 在TrackingNet数据集上, 其测试同样依赖于在线的服务器评测, 运行1次. 实验中, 本文方法首先在OTB-100上调参, 后续除VOT2018, 其余数据集的评估都采用与OTB-100相同的参数, 以说明本文方法的泛化性能.

    实验的硬件环境为: i7-6850 CPU、16 GB RAM和一块1080ti的显卡. 基于PyTorch1.2[30], 采用开源框架PyTracking[31]实现本文所提算法. 算法跟踪速度为平均35帧/s.

    在本实验中, 分别使用多尺度搜索、IoU最大化微调和NDIoU预测尺度估计方法估计被跟踪目标尺度, 以验证本文算法的有效性, 实验结果见表1.

    表 1  OTB-100数据集上的消融实验
    Table 1  Ablation study on OTB-100 dataset
    方法 AUC (%)Precision (%)Norm.Pre (%)帧速率(帧/s)
    多尺度搜索68.488.883.821
    IoU68.489.484.235
    NDIoU69.891.387.335
    下载: 导出CSV 
    | 显示表格

    实验以DiMP50为基线模型, 使用ResNet50作为骨干网络提取视频帧的特征, 在OTB-100数据集上分析本文所提方法的有效性. 采用OTB-100数据集定义的评价指标AUC (Area under curve)和精确率(Precision)评价算法性能. 同时, 为了避免图像分辨率给评测结果带来影响和测试跟踪算法的速度, 也引入Norm.Pre和帧速率来评价跟踪器的性能.

    AUC表示成功率曲线图下的面积, 面积越大, 表示跟踪器在该指标下的性能越好. 用预测框与真实框的重叠率定义. 重叠率$ {S}_{{\rm{IoU}}} $计算式为

    $$ {S_{{\rm{IoU}}}} = \frac{{A\left( {R_g^t \cap {R^t}} \right)}}{{A\left( {R_g^t \cup {R^t}} \right)}} $$ (12)

    其中, $ {R}_{g}^{t} $和$ {R}^{t} $分别表示第$ t $帧时视频中目标的真实边界框和第$ t $帧时算法预测得到的边界框, $ A({R}_{g}^{t}\cap {R}^{t}) $和$ A({R}_{g}^{t}\cup {R}^{t}) $分别表示两个边界框的重叠面积和总面积, 成功率图(Success plot)对所有视频序列中的${S}_{{\rm{IoU}}}$进行统计, 计算在0 ~ 1之间的每个重叠率上的视频帧所占的比例来得到成功率曲线.

    Precision表示真实框与预测尺度框的中心点距离小于20 像素的视频帧所占的比例, 其反映了预测框和真实框的中心位置误差. Norm.Pre表示标准化的平均Precision, 对图像分辨率和尺度不敏感.

    1)多尺度搜索. 对上一帧的目标执行多尺度采样[2]. 在该过程中, 设置5个采样尺度因子, 分别为$\{-2, -\mathrm{1,0},\mathrm{1,2}\}$, 每个尺度的比例系数为1.02, 响应最大的样本尺度则为目标的估计尺度.

    2) IoU. 基于IoU预测训练尺度估计模型, 在线跟踪时通过最大化IoU来进行尺度微调. 本文遵循DiMP的设置, 使用初始第一帧的目标区域信息增强后续帧的特征, 作为实例引导网络学习预测边界框与真实框的IoU.

    3) NDIoU (本文方法). 结合IoU和候选框中心点的距离, 即在对IoU采样的同时对距离进行采样, 并结合采样设置对距离进行归一化, 训练过程中引入了候选框与真实框中心点之间的距离信息, 进一步改善了只使用IoU训练造成的尺度回归不准确问题.

    本文分别采用以上所描述的三种方法进行目标的尺度估计, 结果见表1. 从表1可以看出, 基于NDIoU的尺度估计方法取得了最佳性能, AUC、Precision、Norm.Pre三个指标相对于基于IoU的尺度估计跟踪方法分别提升了1.4%、1.9%、3.1%.

    表1还可以看出, 使用多尺度搜索进行尺度估计时, 采样后需要重新进行特征提取, 造成跟踪算法的平均帧率为21帧/s. 基于IoU的尺度估计跟踪算法中, 平均帧率达到35帧/s. 本文提出的基于NDIoU尺度估计的跟踪算法并没有增加特征和其他的计算成本, 平均帧率也保持在35帧/s, 与基于IoU的尺度估计跟踪算法持平, 可以达到实时跟踪, 远优于基于多尺度搜索的方法.

    需要注意的是, 由于实验硬件环境不同, 在本文的实验平台下, 基准算法DiMP50的跟踪速度为35帧/s, 低于原论文的速度(原论文中为43帧/s). 相比于基线算法, 本文方法没有增加参数量, 其计算量与DiMP50相当.

    实验 1. OTB-100数据集上的实验

    OTB-100数据集是广泛使用的视觉目标跟踪的基准测试集之一, 包含丰富的挑战场景(共包含11个类型的不同挑战). 该数据集有100个完全标注的视频序列, 使用两种评估指标(Precision得分和成功图的曲线下面积(AUC))进行评估.

    本文方法在该数据集上的性能优于所有对比算法. 如图5所示, 相比于本文的基线算法, AUC和Precision分别高出1.4%和1.9%. 与PrDiMP50[15]、KYS[17]等目前领域最优算法(State of the arts, SOTA)相比, Precision分别超过1.5%和1.0%.

    图 5  本文方法(ASEID)在OTB-100数据集上与相关方法的比较
    Fig. 5  Comparison of the proposed method (ASEID) with related algorithms on OTB-100 dataset

    实验 2. UAV123数据集上的实验

    UAV123包含123个视频序列, 这些序列由低空UAVs拍摄. 与其他的跟踪数据集不同, UAV123的视角为俯视的空中视角, 被跟踪的目标通常较小.

    本文方法与相关的9个方法进行了对比. 由表2可知, 本文方法领先所有的比较方法. 在Precision和Norm.Pre上都领先基线方法 1.1%. 相比于Siamese 系列最新算法 SiamBAN[33], 本文方法也取得了很大的优势.

    表 2  在UAV123数据集上和SOTA算法的比较(%)
    Table 2  Compare with SOTA trackers on UAV123 dataset (%)
    SiamBAN[33]CGACD[34]POST[35]MetaRTT[36]ECO[37]UPDT[38]DaSiamRPN[39]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    AUC63.163.362.956.952.454.256.963.264.364.5
    Precision83.383.380.080.974.176.878.184.485.086.1
    Norm.Pre66.870.974.279.180.581.6
    下载: 导出CSV 
    | 显示表格

    实验 3. VOT2018数据集上的实验

    VOT2018是视觉目标跟踪领域权威挑战赛VOT challenge在2018年使用的数据集, 共有60个视频序列, 包含多种不同的挑战. 该数据集使用旋转边界框进行标注, 并采用一种基于重置的方法进行分段评估. 该基准数据集使用Accuracy (A)、Robustness (R)和期望平均重叠率(Expected average overlap, EAO)三个评价指标.

    表3所示, 本文算法在EAO和Accuracy指标上均超出基线算法, 分别超出1.4%和1.8%. 相比于最新的PrDiMP算法, 本文算法综合评价指标EAO和Robustness均超出其1.2%, Accuracy与PrDiMP基本持平. 与MFT相比, Robustness低1.3%, 其原因是MFT使用ResNet、HOG、CN多种特征, 并使用多种分辨率特征上的定位结果进行融合, 得到最终的位置. 特征融合提高了特征表达能力, 但算法复杂度较高.

    表 3  在VOT2018数据集上与SOTA方法的比较
    Table 3  Compare with SOTA trackers on VOT2018 dataset
    DRT[40]RCO[22]UPDT[38]DaSiamRPN[39]MFT[41]LADCF[42]ATOM[9]SiamRPN++[16]DiMP50 (基线)[14]PrDiMP50[15]ASEID (本文)
    EAO0.3560.3760.3780.3830.3850.3890.4010.4140.4400.4420.454
    Robustness0.2010.1550.1840.2760.1400.1590.2040.2340.1530.1650.153
    Accuracy0.5190.5070.5360.5860.5050.5030.5900.6000.5970.6180.615
    下载: 导出CSV 
    | 显示表格

    实验 4. GOT-10k数据集上的实验

    GOT-10k是中国科学院自动化研究所提出的一个大规模跟踪数据集, 该数据集包含1万个现实生活场景的视频序列, 拥有上百万的手工标记(annotations). 其中, 180个视频序列用于测试评估跟踪器的性能. 其训练集和测试集之间没有目标类型的重叠, 这有利于测试跟踪器对模型在训练期间未见过的目标类别的泛化性能.

    表4所示, 相比于基线方法, 本文方法的$ S{R}_{0.50} $、$ S{R}_{0.75} $和AO分别领先7.0%、4.2%和 4.3%. 其中, $SR $表示测试时预测的边界框与真实边界框的重叠超过阈值的成功跟踪帧数占所有帧数的百分比, $AO $表示目标真实边界框和预测框之间重叠的平均值. 对比DCFST、PrDiMP、KYS、Ocean等当前的9个SOTA方法, 在$ S{R}_{0.50} $与AO两个指标上都取得了明显的优势. 在$ S{R}_{0.75} $上取得了次优的结果, 其原因是PrDiMP在分类分支采用了概率密度的回归方式进行计算, 而本文采用基于高斯标签的回归.

    表 4  在GOT-10k数据集上与SOTA方法的比较(%)
    Table 4  Compare with SOTA trackers on GOT-10k dataset (%)
    DCFST[32]PrDiMP50[15]KYS[17]SiamFC++[13]D3S[43]Ocean[12]ROAM[44]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    $ \mathit{S}{\mathit{R}}_{0.50}$68.373.875.169.567.672.146.663.471.778.7
    $ \mathit{S}{\mathit{R}}_{0.75} $44.854.351.547.946.216.440.249.253.4
    $ \mathit{A}\mathit{O}$59.263.463.659.559.761.143.655.661.165.4
    下载: 导出CSV 
    | 显示表格

    实验 5. LaSOT数据集上的实验

    LaSOT是一个包含1400个序列的大型数据集, 平均每个视频序列有2512帧, 最短和最长的序列分别有100011397帧. 其中, 测试集包含280个视频序列. 该数据集提供高质量的密集标记, 在该数据集中有较多的形变和遮挡情况.

    表5所示, 本文算法优于所有对比算法, 但效果提升不明显. 其原因为该数据集中很多视频序列比较长, 而本文所用方法没有针对外观模型的更新时机进行调整, 导致最终的跟踪性能提升不大.

    表 5  在LaSOT数据集上与SOTA方法的比较(%)
    Table 5  Compare with SOTA trackers on LaSOT dataset (%)
    ASRCF[6]POST[35]Ocean[12]GlobalT[45]SiamRPN++[16]ROAM[44]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    Precision33.746.356.652.756.944.550.556.957.5
    Success (AUC)35.948.156.052.149.644.751.456.957.2
    下载: 导出CSV 
    | 显示表格

    实验 6. TrackingNet数据集上的实验

    TrackingNet包含30000个视频序列, 有1400万密集标注, 其测试集包含511个视频序列. 该数据集涵盖了多种目标类别和场景, 要求跟踪算法具备判别力和生成力.

    表6所示, 本文方法优于所有对比算法, 与基线方法DiMP50相比, 在AUC、Precision和Norm.Pre上分别领先1.3%、2.4%和1.8%.

    表 6  在TrackingNet上与SOTA方法的比较(%)
    Table 6  Compare with SOTA trackers on TrackingNet (%)
    MDNet[46]ECO[37]DaSiamRPN[39]D3S[43]ROAM[44]CGACD[34]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    AUC60.655.463.872.867.071.170.374.075.3
    Precision56.549.259.166.462.369.364.868.771.1
    Norm.Pre70.561.873.377.180.181.9
    下载: 导出CSV 
    | 显示表格

    实验 7. TC128数据集上的实验

    Temple color-128数据集包含128个彩色视频序列, 使用AUC得分作为评估指标. 实验结果如表7所示, 本文所提算法取得了最佳的性能, AUC指标上超出基线算法2.0%, Precision指标上超出3.2%.

    表 7  在TC128上与SOTA算法比较(%)
    Table 7  Compare with SOTA trackers on TC128 (%)
    POST[35]MetaRTT[36]ASRCF[6]UDT[47]TADT[29]Re2EMA[48]RTMDNet[49]MLT[50]DiMP50 (基线)[14]ASEID (本文)
    AUC56.359.760.354.156.252.156.349.861.263.2
    Precision78.180.082.571.769.578.881.084.2
    下载: 导出CSV 
    | 显示表格

    OTB-100数据集中包含多种现实场景中的挑战, 分别为光照变化(Illumination variation, IV)、尺度变化(Scale variation, SV)、遮挡 (Occlusion, OCC)、形变 (Deformation, DEF)、运动模糊 (Motion blur, MB)、快速运动 (Fast motion, FM)、平面内旋转 (In-Plane rotation, IPR)、平面外旋转 (Out-of-plane rotation, OPR)、出视野(Out-of-view, OV)、背景杂乱 (Background clutter, BC)和低分辨率 (Low resolution, LR). 按照挑战因素对11种不同属性场景的跟踪结果进行统计. 根据统计结果, 对跟踪算法在不同场景下的性能进行分析. 与PrDiMP、KYS、ROAM等最新的SOTA的跟踪器进行比较.

    图6给出本文算法在11个属性中的成功率图. 可以看出, 在除背景杂乱外的10个挑战场景下, 我们的算法都取得了最优性能. 在11个属性上都超过了基线算法.

    图 6  OTB-100 数据集不同挑战性因素影响下的成功率图
    Fig. 6  Success plots on sequences with different challenging attributes on OTB-100 dataset

    图7给出本文算法在11个挑战属性上的精度图. 可以看出, 在形变、快速运动、平面内旋转、低分辨率、运动模糊、平面外旋转、尺度变化7个挑战场景取得了最优性能. 分别高出次优算法2.3%、2.9%、1.9%、1.4%、3.7%、0.3%、2.0%. 相比于基线算法, 本文在11个属性上均为最优.

    图 7  OTB-100 数据集不同挑战性因素影响下的精度图
    Fig. 7  Precision plots on sequences with different challenging attributes on OTB-100 dataset

    综合看来, 本文算法能够在保持成功率领先的同时, 精度也能得到很大提升. 但对于复杂背景, 本文算法的成功率和精度分别低于最优算法1.4%和4.0%.

    图8为本文方法与DiMP50[14]、ATOM[9]、SiamRPN++[16]、ROAM[44]等算法在Baseketball、Bird1、Bird2、Board、Girl2五个视频序列的对比结果. 所选视频序列存在光照、形变、遮挡、平面内旋转、复杂背景等多种干扰因素. Basketball、Bird1、Girl2三个视频序列都存在相似物干扰. 如Basketball中, 受到相似物干扰, SiamRPN++、DiMP50、ATOM和ROAM在后续帧中跟踪失败, 但本文方法仍能够成功跟踪该目标. 因为基于NDIoU预测的判别相关滤波器模型对目标的外观变化适应能力更强. 在Bird2、Board视频序列中存在严重的背景干扰和遮挡现象, 容易导致跟踪算法跟踪失败. 在Bird2视频序列中, 其他的跟踪器由于缺乏中心点距离的约束, 尺度估计不准确. 在Board视频序列中, ATOM、DiMP50和SiamRPN++ 算法, 由于其回归分支无法准确表达尺度回归的特征, 尺度估计不准确. ROAM算法无法准确定位目标, 主要原因为该算法无法正确对采样的候选样本进行分类. 当这些跟踪器失效时, 本文提出的方法依然能成功跟踪到目标.

    图 8  本文方法与相关方法的可视化比较
    Fig. 8  Visualization comparison of the proposed method and related trackers

    受益于基于NDIoU预测的尺度估计模型, 本文方法极大地改善了尺度估计的准确性, 可视化结果证明了所提出的跟踪方法优于基线方法和相关的比较算法.

    本文算法引入中心点距离, 缓解了外观模型更新受到污染的问题. 但在复杂环境下, 仍会发生跟踪失败. 图9图10给出了本文算法容易出现失败的几种典型情况.

    图 9  OTB-100数据集中的失败案例(绿色框代表真实框, 红色框代表本文算法的预测框)
    Fig. 9  Failure cases in OTB-100 dataset (The green box represents ground truth box, and the red box represents the prediction box)
    图 10  GOT-10k数据集中的失败案例(在GOT-10k的测试集中, 由于只能拿到测试视频序列的第一帧的真实框, 因此第一帧的标记代表被跟踪目标)
    Fig. 10  Failure cases in GOT-10k dataset (In GOT-10k test set, only the ground truth in the first frame of the test dataset can be obtained. Therefore, the bounding box of the first frame represents the tracked target)

    图9中, Human3视频序列出现了极度相似的干扰物, Soccer视频序列同时出现了相似背景、遮挡和相似干扰物等复杂环境, 跟踪发生漂移, 并且不容易找回.

    图10为GOT-10k的测试集中容易出现失败情况的案例. 由于采样原因, 导致视频序列中目标发生的形变并不连续, 并且较多的干扰物和复杂背景同时出现, 使得跟踪器在这些数据集上容易跟踪失败.

    从这些失败案例可以分析出, 跟踪发生漂移的原因是外观模型无法准确定位目标位置. 对于外观模型而言, 视频帧的空间和历史信息极为重要, 后续可以考虑同时挖掘时序和空间上的特征来进行外观建模, 以增强外观模型对目标和背景的判别能力, 改善外观模型的鲁棒性.

    结合判别式目标跟踪, 本文提出基于NDIoU预测的目标尺度估计框架, 并给出了基于NDIoU预测的损失函数, 解决了基于IoU预测的尺度估计模型缺乏中心点距离的约束导致目标尺度估计不准确的问题. 结合尺度估计模型参数的学习过程, 分析了基于IoU预测的尺度估计模型存在的问题. 根据分析的结果, 提出结合IoU和中心点距离预测(NDIoU)的尺度估计模型. 使用该模型得到的目标样本进行外观模型的更新, 增加了目标定位的准确性. 实验结果表明, 在保证算法速度能够实时的情况下, 本文所提出的方法有效提高了目标尺度回归的精度和跟踪的成功率. 最后, 将本文方法在OTB-100、UAV123、VOT2018、GOT-10k、LaSOT、TrackingNet、TC128七个主流数据集上与当前相关的主流SOTA方法进行比较, 本文所提出的方法优于相关的比较算法. 本文方法只从网络预测的度量方面提高了尺度估计的精度, 后续将结合外观模型提高算法的鲁棒性.

  • 图  1  IoU相同但中心点距离不同的情况(红色代表候选的边界框, 绿色代表真实边界框)

    Fig.  1  Same IoU while different distances between centroids (Red represents the candidate bounding box, and green represents the ground-truth bounding box)

    图  2  标准化中心点之间的距离

    Fig.  2  Normalized distance between centroids

    图  3  IoU和中心点距离对应视频帧数的统计

    Fig.  3  The number statistics of video frame corresponding to IoU and distances between centroids

    图  4  在视频序列Dinosaur上跟踪的结果可视化

    Fig.  4  Visualization of tracking results on the video sequence Dinosaur

    图  5  本文方法(ASEID)在OTB-100数据集上与相关方法的比较

    Fig.  5  Comparison of the proposed method (ASEID) with related algorithms on OTB-100 dataset

    图  6  OTB-100 数据集不同挑战性因素影响下的成功率图

    Fig.  6  Success plots on sequences with different challenging attributes on OTB-100 dataset

    图  7  OTB-100 数据集不同挑战性因素影响下的精度图

    Fig.  7  Precision plots on sequences with different challenging attributes on OTB-100 dataset

    图  8  本文方法与相关方法的可视化比较

    Fig.  8  Visualization comparison of the proposed method and related trackers

    图  9  OTB-100数据集中的失败案例(绿色框代表真实框, 红色框代表本文算法的预测框)

    Fig.  9  Failure cases in OTB-100 dataset (The green box represents ground truth box, and the red box represents the prediction box)

    图  10  GOT-10k数据集中的失败案例(在GOT-10k的测试集中, 由于只能拿到测试视频序列的第一帧的真实框, 因此第一帧的标记代表被跟踪目标)

    Fig.  10  Failure cases in GOT-10k dataset (In GOT-10k test set, only the ground truth in the first frame of the test dataset can be obtained. Therefore, the bounding box of the first frame represents the tracked target)

    表  1  OTB-100数据集上的消融实验

    Table  1  Ablation study on OTB-100 dataset

    方法 AUC (%)Precision (%)Norm.Pre (%)帧速率(帧/s)
    多尺度搜索68.488.883.821
    IoU68.489.484.235
    NDIoU69.891.387.335
    下载: 导出CSV

    表  2  在UAV123数据集上和SOTA算法的比较(%)

    Table  2  Compare with SOTA trackers on UAV123 dataset (%)

    SiamBAN[33]CGACD[34]POST[35]MetaRTT[36]ECO[37]UPDT[38]DaSiamRPN[39]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    AUC63.163.362.956.952.454.256.963.264.364.5
    Precision83.383.380.080.974.176.878.184.485.086.1
    Norm.Pre66.870.974.279.180.581.6
    下载: 导出CSV

    表  3  在VOT2018数据集上与SOTA方法的比较

    Table  3  Compare with SOTA trackers on VOT2018 dataset

    DRT[40]RCO[22]UPDT[38]DaSiamRPN[39]MFT[41]LADCF[42]ATOM[9]SiamRPN++[16]DiMP50 (基线)[14]PrDiMP50[15]ASEID (本文)
    EAO0.3560.3760.3780.3830.3850.3890.4010.4140.4400.4420.454
    Robustness0.2010.1550.1840.2760.1400.1590.2040.2340.1530.1650.153
    Accuracy0.5190.5070.5360.5860.5050.5030.5900.6000.5970.6180.615
    下载: 导出CSV

    表  4  在GOT-10k数据集上与SOTA方法的比较(%)

    Table  4  Compare with SOTA trackers on GOT-10k dataset (%)

    DCFST[32]PrDiMP50[15]KYS[17]SiamFC++[13]D3S[43]Ocean[12]ROAM[44]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    $ \mathit{S}{\mathit{R}}_{0.50}$68.373.875.169.567.672.146.663.471.778.7
    $ \mathit{S}{\mathit{R}}_{0.75} $44.854.351.547.946.216.440.249.253.4
    $ \mathit{A}\mathit{O}$59.263.463.659.559.761.143.655.661.165.4
    下载: 导出CSV

    表  5  在LaSOT数据集上与SOTA方法的比较(%)

    Table  5  Compare with SOTA trackers on LaSOT dataset (%)

    ASRCF[6]POST[35]Ocean[12]GlobalT[45]SiamRPN++[16]ROAM[44]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    Precision33.746.356.652.756.944.550.556.957.5
    Success (AUC)35.948.156.052.149.644.751.456.957.2
    下载: 导出CSV

    表  6  在TrackingNet上与SOTA方法的比较(%)

    Table  6  Compare with SOTA trackers on TrackingNet (%)

    MDNet[46]ECO[37]DaSiamRPN[39]D3S[43]ROAM[44]CGACD[34]ATOM[9]DiMP50 (基线)[14]ASEID (本文)
    AUC60.655.463.872.867.071.170.374.075.3
    Precision56.549.259.166.462.369.364.868.771.1
    Norm.Pre70.561.873.377.180.181.9
    下载: 导出CSV

    表  7  在TC128上与SOTA算法比较(%)

    Table  7  Compare with SOTA trackers on TC128 (%)

    POST[35]MetaRTT[36]ASRCF[6]UDT[47]TADT[29]Re2EMA[48]RTMDNet[49]MLT[50]DiMP50 (基线)[14]ASEID (本文)
    AUC56.359.760.354.156.252.156.349.861.263.2
    Precision78.180.082.571.769.578.881.084.2
    下载: 导出CSV
  • [1] Wu Y, Lim J, Yang M H. Object tracking benchmark. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834−1848 doi: 10.1109/TPAMI.2014.2388226
    [2] 孟琭, 杨旭. 目标跟踪算法综述. 自动化学报, 2019, 45(7): 1244−1260

    Meng Lu, Yang Xu. A survey of object tracking algorithms. Acta Automatica Sinica, 2019, 45(7): 1244−1260
    [3] 尹宏鹏, 陈波, 柴毅, 刘兆栋. 基于视觉的目标检测与跟踪综述. 自动化学报, 2016, 42(10): 1466−1489

    Yin Hong-Peng, Chen Bo, Chai Yi, Liu Zhao-Dong. Vision-based object detection and tracking: A review. Acta Automatica Sinica, 2016, 42(10): 1466−1489
    [4] 谭建豪, 郑英帅, 王耀南, 马小萍. 基于中心点搜索的无锚框全卷积孪生跟踪器. 自动化学报, 2021, 47(4): 801−812

    Tan Jian-Hao, Zheng Ying-Shuai, Wang Yao-Nan, Ma Xiao-Ping. AFST: Anchor-free fully convolutional siamese tracker with searching center point. Acta Automatica Sinica, 2021, 47(4): 801−812
    [5] Danelljan M, Häger G, Khan F S, Felsberg M. Learning spatially regularized correlation filters for visual tracking. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 4310−4318
    [6] Dai K, Wang D, Lu H C, Sun C, Li J. Visual tracking via adaptive spatially-regularized correlation filters. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 4665−4674
    [7] Danelljan M, Häger G, Khan F S, Felsberg M. Discriminative scale space tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1561−1575 doi: 10.1109/TPAMI.2016.2609928
    [8] Li Y, Zhu J. A scale adaptive kernel correlation filter tracker with feature integration. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 254−265
    [9] Danelljan M, Bhat G, Khan F S, Felsberg M. ATOM: Accurate tracking by overlap maximization. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 4655−4664
    [10] Li B, Yan J J, Wu W, Zhu Z, Hu X L. High performance visual tracking with Siamese region proposal network. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 8971−8980
    [11] Wang Q, Bertinetto L, Hu W M, Torr P H S. Fast online object tracking and segmentation: A unifying approach. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 1328−1338
    [12] Zhang Z P, Peng H W, Fu J L, Li B, Hu W M. Ocean: Object-aware anchor-free tracking. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 771−787
    [13] Xu Y D, Wang Z Y, Li Z X, Yuan Y, Yu G. SiamFC++: Towards robust and accurate visual tracking with target estimation guidelines. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 12549−12556
    [14] Bhat G, Danelljan M, Van Gool L, Timofte R. Learning discriminative model prediction for tracking. In: Proceedings of the International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 6181−6190
    [15] Danelljan M, Van Gool L, Timofte R. Probabilistic regression for visual tracking. In: Proceedings of the IEEE/CVF Conference Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 7181−7190
    [16] Li B, Wu W, Wang Q, Zhang F Y, Xing J L, Yan J J. SiamRPN++: Evolution of Siamese visual tracking with very deep networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 4277−4286
    [17] Bhat G, Danelljan M, Van Gool L, Timofte R. Know your surroundings: Exploiting scene information for object tracking. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 205−221
    [18] Girshick R. Fast R-CNN. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 1440−1448
    [19] Ren S, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137−1149 doi: 10.1109/TPAMI.2016.2577031
    [20] Jiang B R, Luo R X, Mao J Y, Xiao T T, Jiang Y N. Acquisition of localization confidence for accurate object detection. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 816−832
    [21] Mueller M, Smith N, Ghanem B. A benchmark and simulator for UAV tracking. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 445−461
    [22] Kristan M, Leonardis A, Matas J, Felsberg M, Pflugfelder R, Zajc L Č, et al. The sixth visual object tracking VOT2018 challenge results. In: Proceedings of the 15th European Conference on Computer Vision workshop. Munich, Germany: Springer, 2018. 3−53
    [23] Huang L H, Zhao X, Huang K Q. Got-10k: A large high-diversity benchmark for generic object tracking in the wild. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1562−1577 doi: 10.1109/TPAMI.2019.2957464
    [24] Fan H, Lin L T, Yang F, Chu P, Deng G, Yu S J, et al. LaSOT: A high-quality benchmark for large-scale single object tracking. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 5369−5378
    [25] Müller M, Bibi A, Giancola S, Subaihi S, Ghanem B. TrackingNet: A large-scale dataset and benchmark for object tracking in the wild. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 310−327
    [26] Liang P P, Blasch E, Ling H B. Encoding color information for visual tracking: Algorithms and benchmark. IEEE Transactions on Image Processing, 2015, 24(12): 5630−5644 doi: 10.1109/TIP.2015.2482905
    [27] Zheng Z H, Wang P, Liu W, Li J Z, Ye R G, Ren D W. Distance-IoU loss: Faster and better learning for bounding box regression. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 12993−13000
    [28] Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, et al. Microsoft COCO: Common objects in context. In: Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014. 740−755
    [29] Li X, Ma C, Wu B Y, He Z Y, Yang M H. Target-aware deep tracking. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 1369−1378
    [30] Paszke A, Gross S, Massa F, Lerer A, Bradbury J, Chanan G, et al. PyTorch: An imperative style, high-performance deep learning library. In: Proceedings of the 2019 Neural Information Processing Systems. Vancouver, Canada: MIT Press, 2019. Article No. 721
    [31] Danelljan M, Bhat G. PyTracking: Visual tracking library based on PyTorch [Online], available: https://gitee.com/zengzheming/pytracking, November 2, 2021
    [32] Zheng L Y, Tang M, Chen Y Y, Wang J Q, Lu H Q. Learning feature embeddings for discriminant model based tracking. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 759−775
    [33] Chen Z D, Zhong B N, Li G R, Zhang S P, Ji R R. Siamese box adaptive network for visual tracking. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 6667−6676
    [34] Du F, Liu P, Zhao W, Tang X L. Correlation-guided attention for corner detection based visual tracking. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 6835−6844
    [35] Wang N, Zhou W G, Qi G J, Li H Q. POST: Policy-based switch tracking. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 12184−12191
    [36] Jung I, You K, Noh H, Cho M, Han B. Real-time object tracking via meta-learning: Efficient model adaptation and one-shot channel pruning. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 11205−11212
    [37] Danelljan M, Bhat G, Khan F S, Felsberg M. ECO: Efficient convolution operators for tracking. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017. 6931−6939
    [38] Bhat G, Johnander J, Danelljan M, Khan F S, Felsberg M. Unveiling the power of deep tracking. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 493−509
    [39] Zhu Z, Wang Q, Li B, Wei W, Yan J J, Hu W M. Distractor-aware Siamese networks for visual object tracking. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 103−119
    [40] Sun C, Wang D, Lu H C, Yang M H. Correlation tracking via joint discrimination and reliability learning. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 489−497
    [41] Bai S, He Z Q, Dong Y, Bai H L. Multi-hierarchical independent correlation filters for visual tracking. In: Proceedings of the IEEE International Conference on Multimedia and Expo (ICME). London, UK: IEEE, 2020. 1−6
    [42] Xu T Y, Feng Z H, Wu X J, Kittler J. Learning adaptive discriminative correlation filters via temporal consistency preserving spatial feature selection for robust visual object tracking. IEEE Transactions on Image Processing, 2019, 28(11): 5596−5609 doi: 10.1109/TIP.2019.2919201
    [43] Lukezic A, Matas J, Kristan M. D3S——A discriminative single shot segmentation tracker. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 7131−7140
    [44] Yang T Y, Xu P F, Hu R B, Chai H, Chan A B. ROAM: Recurrently optimizing tracking model. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020. 6717−6726
    [45] Huang L H, Zhao X, Huang K Q. GlobalTrack: A simple and strong baseline for long-term tracking. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 11037−11044
    [46] Nam H, Han B. Learning multi-domain convolutional neural networks for visual tracking. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 4293−4302
    [47] Wang N, Song Y B, Ma C, Zhou W G, Liu W. Unsupervised deep tracking. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019. 1308−1317
    [48] Huang J L, Zhou W G. Re.2EMA: Regularized and reinitialized exponential moving average for target model update in object tracking. In: Proceedings of the 33th AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence. Honolulu, USA: AIAA, 2019. Article No. 1037
    [49] Jung I, Son J, Baek M, Han B. Real-time MDNet. In: Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018. 89−104
    [50] Choi J, Kwon J, Lee K M. Deep meta learning for real-time target-aware visual tracking. In: Proceedings of the International Conference on Computer Vision. Seoul, South Korea: IEEE, 2019. 911−920
  • 期刊类型引用(1)

    1. 杨绪祺,谭启凡,苏航,谭浩. 面向无人机视觉制导的自适应目标跟踪方法. 兵工学报. 2025(02): 67-77 . 百度学术

    其他类型引用(1)

  • 加载中
图(10) / 表(7)
计量
  • 文章访问数:  986
  • HTML全文浏览量:  600
  • PDF下载量:  153
  • 被引次数: 2
出版历程
  • 收稿日期:  2021-04-24
  • 录用日期:  2021-11-02
  • 网络出版日期:  2021-11-29
  • 刊出日期:  2024-08-22

目录

/

返回文章
返回