2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于异步相关判别性学习的孪生网络目标跟踪算法

许龙 魏颖 商圣行 张皓云 边杰 徐楚翘

许龙, 魏颖, 商圣行, 张皓云, 边杰, 徐楚翘. 基于异步相关判别性学习的孪生网络目标跟踪算法. 自动化学报, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237
引用本文: 许龙, 魏颖, 商圣行, 张皓云, 边杰, 徐楚翘. 基于异步相关判别性学习的孪生网络目标跟踪算法. 自动化学报, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237
Xu Long, Wei Ying, Shang Sheng-Xing, Zhang Hao-Yun, Bian Jie, Xu Chu-Qiao. Design of asynchronous correlation discriminant single object tracker based on siamese network. Acta Automatica Sinica, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237
Citation: Xu Long, Wei Ying, Shang Sheng-Xing, Zhang Hao-Yun, Bian Jie, Xu Chu-Qiao. Design of asynchronous correlation discriminant single object tracker based on siamese network. Acta Automatica Sinica, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237

基于异步相关判别性学习的孪生网络目标跟踪算法


DOI: 10.16383/j.aas.c200237
详细信息
    作者简介:

    东北大学模式识别专业博士研究生. 2016 年获得内蒙古大学学士学位. 主要研究方向为机器学习与目标跟踪. E-mail: wahaha4ever@163.com

    东北大学博士生导师. 1990 年获得哈尔滨工业大学学士学位, 1997 年和~2001 年分别获得东北大学硕士学位和博士学位. 主要研究方向包括图像处理与模式识别, 医学图像计算和分析, 计算机辅助诊断等. 本文通信作者. E-mail: weiying@ise.neu.edu.cn

    东北大学控制工程专业研究生. 主要研究方向为模式识别, 计算机视觉和深度学习. E-mail: ssh3108@163.com

    东北大学控制工程专业硕士. 2019 年获得东北大学学士学位. 主要研究方向为目标跟踪与目标检测. E-mail: nicolascloud@163.com

    东北大学信息科学与工程学院硕士研究生. 2017 年获得东北大学学士学位. 主要研究方向为视觉目标跟踪. E-mail: qbzxbj@163.com

    东北大学控制工程专业研究生. 主要研究方向为计算机视觉领域下的目标跟踪. E-mail: xuchuqiao@mail.neu.edu.cn

  • 基金项目:  国家自然科学基金(61871106)资助

Design of Asynchronous Correlation Discriminant Single Object Tracker Based on Siamese Network

More Information
  • Fund Project:  Supported by National Natural Science Foundation of China (61871106)
  • 摘要: 现有基于孪生网络的单目标跟踪算法能够实现很高的跟踪精度, 但是这些跟踪器不具备在线更新的能力, 而且其在跟踪时很依赖目标的语义信息, 这导致基于孪生网络的单目标跟踪算法在面对具有相似语义信息的干扰物时会跟踪失败. 为了解决这个问题, 本文提出了一种异步相关响应的计算模型, 并提出一种高效利用不同帧间目标语义信息的方法. 在此基础上, 提出了一种新的具有判别性的跟踪算法. 同时为了解决判别模型使用一阶优化算法收敛慢的问题, 本文使用近似二阶优化的方法更新判别模型. 为验证所提算法的有效性, 本文分别在Got-10k, TC128, OTB 和VOT2018 上做了对比实验, 实验结果表明, 本文提出的方法可以明显地改进基准算法的性能.
  • 图  1  (b)和(c)分别表示滤波器 ${\rm k}_0$ 与滤波器 ${\rm k}_{\rm{t}} = \phi({\rm{z}}_{\rm{t}})$ 计算得到的响应得分图

    Fig.  1  (b), and (c) denote the response which is calculated by ${\rm k}_0$ and ${\rm k}_t = \phi({\rm{z}}_{\rm{t}})$ respectively

    图  2  本文算法与其他先进跟踪器在Got-10k上的对比情况

    Fig.  2  Comparison between the proposed method with other advanced trackers on Got-10k

    图  3  Got-10k上跟踪结果对比实验. 其中虚线框表示本文算法的跟踪结果, 实线框表示基准算法的跟踪结果

    Fig.  3  Comparison of tracking results on Got-10k. The dotted line box indicates the tracking results of the proposed algorithm, and the solid line box indicates the baseline results

    图  4  本文所提出的算法在TC128 上的精度-成功率对比实验结果

    Fig.  4  The accuracy-success rate comparison experiment results of the proposed algorithm on TC128

    图  5  本文所提出的算法在OTB2015上的精度-成功率对比实验结果

    Fig.  5  The accuracy-success rate comparison experiment results of the proposed algorithm on OTB2015

    图  6  在OTB50的6 个序列上的实验结果. 其中Init Sampler 表示第一帧目标计算得到的 ${\rm k}_0$ , Current Sampler 表示当前帧目标计算得到的 ${\rm k}_t$ , Optim Sampler 表示对当前 ${\rm k}_t$ 进行优化后得到的 ${\rm k}_{\rm{t}} = \dfrac{1}{{\rm{m}}}\sum_{{\rm{i}}}^{{\rm{m}}}\Phi_{\rm{i}}({\rm{k}}_{\rm{t}})$

    Fig.  6  The response visualization on OTB50. Init Sampler denotes ${\rm k}_0$ , which is obtained in the first frame. Current Sampler denotes ${\rm k}_{\rm{t}}$ , which is calculated in the current frame. Optim Sampler denotes the ${\rm k}_{\rm{t}} = \dfrac{1}{{\rm{m}}}\sum_{{\rm{i}}}^{{\rm{m}}}\Phi_{\rm{i}}({\rm{k}}_{\rm{t}})$ , which is obtained after optimized discriminate model

    图  7  精度鲁棒性-跟踪失败情况对比图

    Fig.  7  Comparison of accuracy robustness and tracking faliure

    图  8  在VOT2018序列的不同情景下精度鲁棒性对比情况

    Fig.  8  Comparison of accuracy robustness performance under different attributes on VOT2018

    图  9  在VOT2018的baseline下的EOA对比曲线

    Fig.  9  Comparison of expected overlap performance on VOT2018

    图  10  在VOT2018的unsupervised下的EOA对比曲线

    Fig.  10  EOA comparison curve of unsupervisized training on VOT2018

    图  11  在VOT2018的realtime下的EOA对比曲线

    Fig.  11  EOA comparison curve in realtime on VOT2018

    图  12  在VOT2018的实时性能对比下不同跟踪器的期望重叠率性能排名情况对比

    Fig.  12  Ranking of different trackers' expected overlap ratio in real time on VOT2018

    表  1  本文所提方法与基准算法的消融实验

    Table  1  The ablation expirement of the proposed algorithm and the benchmark algorithm

    AO $ {\rm SR}_{0.5} $ $ {\rm SR}_{0.75} $ FPS
    baseline 0.445 0.539 0.208 21.95
    baseline+AC 0.445 0.539 0.211 20.03
    baseline+AC+S 0.447 0.542 0.211 19.63
    baseline+AC+S+ $ {\rm D}_{{\rm{KL}}} $ m = 3 0.442 0.537 0.209 18.72
    baseline+AC+S+ $ {\rm D}_{{\rm{KL}}} $ m = 6 0.457 0.553 0.215 18.60
    baseline+AC+S+ $ {\rm D}_{{\rm{KL}}} $ m = 9 0.440 0.532 0.211 18.49
    下载: 导出CSV

    表  2  OTB2013 的 BC、DEF 等情景下的跟踪精度对比结果

    Table  2  Comparison of tracking accuracy under 11 attributes on OTB2013

    BC BC DEF DEF FM FM IPR IPR
    S P S P S P S P
    ECO-HC 0.700 0.559 0.567 0.719 0.570 0.697 0.517 0.648
    ECO 0.776 0.619 0.613 0.772 0.655 0.783 0.630 0.764
    ATOM 0.733 0.598 0.623 0.771 0.595 0.709 0.579 0.714
    DIMP 0.749 0.607 0.602 0.740 0.618 0.739 0.561 0.685
    MDNet 0.777 0.621 0.620 0.780 0.652 0.796 0.658 0.822
    SiamFC 0.605 0.494 0.487 0.608 0.509 0.618 0.483 0.583
    DaSiamRPN 0.728 0.592 0.609 0.761 0.565 0.702 0.625 0.780
    SiamRPN(baseline) 0.605 0.745 0.591 0.724 0.589 0.724 0.627 0.770
    baseline+AC 0.605 0.745 0.591 0.724 0.589 0.724 0.627 0.770
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.599 0.741 0.603 0.749 0.645 0.797 0.651 0.808
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.592 0.733 0.597 0.742 0.636 0.787 0.650 0.807
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.598 0.736 0.586 0.725 0.587 0.723 0.654 0.809
    下载: 导出CSV

    表  3  OTB2013的IV、LR等情景下的跟踪精度对比结果

    Table  3  Comparison of tracking accuracy under 11 attributes on OTB2013

    IV IV LR LR MB MB OCC OCC
    S P S P S P S P
    ECO-HC 0.556 0.690 0.536 0.619 0.566 0.685 0.586 0.749
    ECO 0.616 0.766 0.569 0.677 0.659 0.786 0.636 0.800
    ATOM 0.604 0.749 0.554 0.654 0.529 0.665 0.617 0.762
    DIMP 0.606 0.749 0.485 0.571 0.564 0.695 0.610 0.750
    MDNet 0.619 0.780 0.644 0.804 0.662 0.813 0.623 0.777
    SiamFC 0.479 0.593 0.499 0.600 0.485 0.617 0.512 0.635
    DaSiamRPN 0.589 0.736 0.490 0.618 0.533 0.688 0.583 0.726
    SiamRPN(baseline) 0.585 0.723 0.519 0.653 0.532 0.684 0.586 0.726
    baseline+AC 0.585 0.723 0.519 0.653 0.532 0.684 0.586 0.726
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.600 0.749 0.554 0.697 0.610 0.785 0.593 0.740
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.592 0.741 0.546 0.688 0.596 0.770 0.586 0.732
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.581 0.724 0.549 0.689 0.533 0.687 0.576 0.716
    下载: 导出CSV

    表  4  OTB2013的OPR、OV等情景下的跟踪精度对比结果

    Table  4  Comparison of tracking accuracy under 11 attributes on OTB2013

    OPR OPR OV OV SV SV
    S P S P S P
    ECO-HC 0.563 0.718 0.549 0.763 0.587 0.740
    ECO 0.628 0.787 0.733 0.827 0.651 0.793
    ATOM 0.607 0.751 0.522 0.563 0.654 0.792
    DIMP 0.596 0.737 0.549 0.593 0.636 0.767
    MDNet 0.628 0.787 0.698 0.769 0.675 0.842
    SiamFC 0.500 0.620 0.574 0.642 0.542 0.665
    DaSiamRPN 0.599 0.750 0.570 0.633 0.587 0.740
    SiamRPN(baseline) 0.598 0.736 0.658 0.725 0.608 0.751
    baseline+AC 0.598 0.736 0.658 0.725 0.608 0.751
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.611 0.760 0.702 0.778 0.656 0.819
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.604 0.752 0.659 0.733 0.631 0.791
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.597 0.740 0.660 0.735 0.603 0.755
    下载: 导出CSV

    表  5  VOT2018 上的实验结果

    Table  5  Experimental results on VOT2018

    baseline unsupervised realtime
    A-R rank Failures EAO FPS AO FPS EAO
    KCF 0.4441 50.0994 0.1349 60.0053 0.2667 63.9847 0.1336
    SRDCF 0.4801 64.1136 0.1189 2.4624 0.2465 2.7379 0.0583
    ECO 0.4757 17.6628 0.2804 3.7056 0.402 4.5321 0.0775
    ATOM 0.5853 12.3591 0.4011 5.2061 0 NaN 0
    SiamFC 0.5002 34.0259 0.188 31.889 0.3445 35.2402 0.182
    DaSiamRPN 0.5779 17.6608 0.3826 58.854 0.4722 64.4143 0.3826
    SiamRPN(baseline) 0.5746 23.5694 0.2941 14.3760 0.4355 14.4187 0.0559
    baseline+AC 0.5825 27.0794 0.2710 13.7907 0.4431 13.8772 0.0539
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.5789 14.8312 0.2865 13.6035 0.4537 13.4039 0.0536
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.5722 22.6765 0.2992 13.5359 0.4430 12.4383 0.0531
    baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.5699 22.9148 0.2927 13.5046 0.4539 12.1159 0.0519
    下载: 导出CSV
  • [1] 刘巧元, 王玉茹, 张金玲, 殷明浩. 基于相关滤波器的视频跟踪方法研究进展. 自动化学报, 2019, 45(2): 265−275

    LIU Qiao-Yuan, WANG Yu-Ru, ZHANG Jin-Ling, YIN Ming-Hao. Research Progress of Visual Tracking Methods Based on Correlation Filter. ACTA AUTOMATICA SINICA, 2019, 45(2): 265−275
    [2] 刘畅, 赵巍, 刘鹏, 唐降龙. 目标跟踪中辅助目标的选择、跟踪与更新. 自动化学报, 2018, 44(7): 1195−1211

    LIU Chang, ZHAO Wei, LIU Peng, TANG Xiang-Long. Auxiliary Objects Selecting, Tracking and Updating in Target Tracking. ACTA AUTOMATICA SINICA, 2018, 44(7): 1195−1211
    [3] 蔺海峰, 宇峰, 宋涛. 基于SIFT特征目标跟踪算法研究. 自动化学报, 2010, 36(8): 1204−1208

    LIN Hai-Feng, MA Yu-Feng, SONG Tao. Research on Object Tracking Algorithm Based on SIFT. ACTA AUTOMATICA SINICA, 2010, 36(8): 1204−1208
    [4] Bolme D S, Beveridge J R, Draper B A, Lui Y M. Visual object tracking using adaptive correlation fllters. In: 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, 2010. 2544−2550
    [5] Henriques J F, Caseiro R, Martins P, Batista J. High-Speed Tracking with Kernelized Correlation Filters. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 3, 1 March 2015. 583−596
    [6] Danelljan M, Hger G, Khan F S, Felsberg M. Learning Spatially Regularized Correlation Filters for Visual Tracking. In: 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 2015. 4310−4318
    [7] Danelljan M, Bhat G, Khan F S, Felsberg M. ECO: E–cient Convolution Operators for Tracking. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017. 6931−6939
    [8] Nam H, Han B. Learning Multi-domain Convolutional Neural Networks for Visual Tracking. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016. 4293−4302
    [9] Ma C, Huang J, Yang X, Yang M. Hierarchical Convolutional Features for Visual Tracking. In: 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 2015. 3074−3082
    [10] Wang Nai-Yan, Dit-Yan Yeung. Learning a deep compact image representation for visual tracking. In: 2013 Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 1 (NIPS’ 13). Curran Associates Inc., Red Hook, NY, USA. 809−817
    [11] Held D, Thrun S, Savarese S. Learning to Track at 100 FPS with Deep Regression Networks. In: Leibe B., Matas J., Sebe N., Welling M. (eds) Computer Vision – European Conference on Computer Vision (ECCV) 2016. ECCV 2016. Lecture Notes in Computer Science, vol 9905. Springer, Cham. 749−765
    [12] Bertinetto L, Valmadre J, Henriques J F, Vedaldi A, Torr P H S. Fully-Convolutional Siamese Networks for Object Tracking. In: Hua Gang, JÉgou HervÉ(eds) Computer Vision – ECCV 2016 Workshops. ECCV 2016. Lecture Notes in Computer Science, vol 9914. Springer, Cham. 850−865
    [13] Li B, Yan J, Wu W, Zhu Z, Hu X. High Performance Visual Tracking with Siamese Region Proposal Network. In: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018. 8971−8980
    [14] Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, 2017. 1137−1149
    [15] Li B, Wu W, Wang Q, Zhang F, Xing J, Yan J. SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019. 4277−4286
    [16] Wang Q, Zhang L, Bertinetto L, Hu W, Torr P H S. Fast Online Object Tracking and Segmentation: A Unifying Approach. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019. 1328−1338
    [17] Zhang J, Ma S, Sclarofi S. MEEM: Robust Tracking via Multiple Experts Using Entropy Minimization. In: Fleet D., Pajdla T., Schiele B., Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8694. Springer, Cham. 188−203
    [18] Hare Sam, Safiari Amir, Torr Philip H S. Struck: Structured Output Tracking with Kernels. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 10, 2016. 2096−2109
    [19] Grabner H, Leistner C, Bischof H. Semi-supervised OnLine Boosting for Robust Tracking. In: Forsyth D., Torr P., Zisserman A. (eds) Computer Vision – ECCV 2008. ECCV 2008. Lecture Notes in Computer Science, vol 5302. Springer, Berlin, Heidelberg. 234−247
    [20] Jia X, Lu H, Yang M. Visual tracking via adaptive structural local sparse appearance model. In: 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, RI, 2012. 1822−1829
    [21] Adam A, Rivlin E, Shimshoni I. Robust Fragments-based Tracking using the Integral Histogram. In: 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), New York, NY, USA, 2006. 798−805
    [22] Danelljan M, Bhat G, Khan F S, Felsberg M. ATOM: Accurate Tracking by Overlap Maximization. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, 2019. 4655−4664
    [23] Danelljan M, Bhat G, Khan F S, M Felsberg. ECO: E–cient Convolution Operators for Tracking. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017. 6931−6939
    [24] Jiang B, Luo R, Mao J, Xiao T, Jiang Y. Acquisition of Localization Confldence for Accurate Object Detection. In: Ferrari V., Hebert M., Sminchisescu C., Weiss Y. (eds) Computer Vision – ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, vol 11218. Springer, Cham. 816−832
    [25] Huang L, Zhao X, Huang K. GOT-10k: A Large HighDiversity Benchmark for Generic Object Tracking in the Wild. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019. 1−1
    [26] Liang P, Blasch E, Ling H. Encoding Color Information for Visual Tracking: Algorithms and Benchmark. In: IEEE Transactions on Image Processing, 2015. 5630−5644
    [27] Wu Y, Lim J, Yang M. Object Tracking Benchmark. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015. 1834−1848
    [28] Zhu Z, Wang Q, Li B, Wu W, Yan J, Hu W. DistractorAware Siamese Networks for Visual Object Tracking. In: Ferrari V., Hebert M., Sminchisescu C., Weiss Y. (eds) Computer Vision – ECCV 2018. ECCV 2018. Lecture Notes in Computer Science, vol 11213. Springer, Cham. 103−119
    [29] Bhat Goutam, Danelljan Martin, Gool Luc Van, Timofte Radu. Learning Discriminative Model Prediction for Tracking. In: 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019. 6181−6190
    [30] Kristan M, et al. A Novel Performance Evaluation Methodology for Single-Target Trackers. In: IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 38, no. 11, 2016. 2137−2155
    [31] Danelljan M, Robinson A, Shahbaz Khan F, Felsberg M. Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking. In: Leibe B., Matas J., Sebe N., Welling M. (eds) Computer Vision – ECCV 2016. ECCV 2016. Lecture Notes in Computer Science, vol 9909. Springer, Cham. 472−488
    [32] Ramasubramanian K, Singh A. (2017) Machine Learning Theory and Practices. In: Machine Learning Using R. Apress, Berkeley, CA.
    [33] Pearlmutter B A. Fast Exact Multiplication by the Hessian. In Neural Computation, vol. 6, no. 1, 1994. 147−160
  • [1] 李逸楷, 张通, 陈俊龙. 面向边缘计算应用的宽度孪生网络[J]. 自动化学报, doi: 10.16383/j.aas.c200555
    [2] 林金花, 姚禹, 王莹. 基于深度图及分离池化技术的场景复原及语义分类网络[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170439
    [3] 闫敬, 张立, 罗小元, 濮彬, 关新平. 异步时钟下基于信息物理融合的水下潜器协同定位算法[J]. 自动化学报, doi: 10.16383/j.aas.c180377
    [4] 丁其川, 赵新刚, 李自由, 韩建达. 基于自更新混合分类模型的肌电运动识别方法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170301
    [5] 曹然, 梅杰. 有向图中网络Euler-Lagrange系统无需相对速度信息的群一致性[J]. 自动化学报, doi: 10.16383/j.aas.2018.c160637
    [6] 张仰森, 郑佳, 李佳媛. 一种基于语义关系图的词语语义相关度计算模型[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170002
    [7] 胡艳艳, 金增旺, 薛晓玲, 孙长银. 基于异步IMM融合滤波的网络化系统故障诊断[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160768
    [8] 黄步添, 刘琦, 何钦铭, 刘振广, 陈建海. 基于语义嵌入模型与交易信息的智能合约自动分类系统[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160655
    [9] 赵孝礼, 赵荣珍. 全局与局部判别信息融合的转子故障数据集降维方法研究[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160317
    [10] 黄丹丹, 孙怡. 基于判别性局部联合稀疏模型的多任务跟踪[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150416
    [11] 刘莉, 万九卿. 视觉传感网络分布式在线数据关联[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00117
    [12] 田枫, 沈旭昆. 基于标签集相关性学习的大规模网络图像在线标注[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.01635
    [13] 王正齐, 刘贤兴. 基于神经网络逆系统的无轴承异步电机非线性内模控制[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.00433
    [14] 陈峰, 徐文立. 基于无源性的异步机自适应控制[J]. 自动化学报
    [15] 苗原, 李春文. 多元齐次多项式定号性判别方法[J]. 自动化学报
    [16] 王晓蒲, 霍剑青, 刘同怀. 用相关卷积运算提取特征信息的神经网络对手写数字的识别方法[J]. 自动化学报
    [17] 唐万生, 李光泉. 广义系统的能控、能观性判别条件[J]. 自动化学报
    [18] 邓志东, 孙增圻, 刘建伟. 神经网络异步自学习控制系统[J]. 自动化学报
    [19] 王珏, 戴汝为. 一种语义网络[J]. 自动化学报
    [20] 李白男, 钟延炯. 多功能伪随机信号相关仪及冷轧机控制系统在线辨识[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  13
  • HTML全文浏览量:  5
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-04-21
  • 录用日期:  2020-09-07

基于异步相关判别性学习的孪生网络目标跟踪算法

doi: 10.16383/j.aas.c200237
    基金项目:  国家自然科学基金(61871106)资助
    作者简介:

    东北大学模式识别专业博士研究生. 2016 年获得内蒙古大学学士学位. 主要研究方向为机器学习与目标跟踪. E-mail: wahaha4ever@163.com

    东北大学博士生导师. 1990 年获得哈尔滨工业大学学士学位, 1997 年和~2001 年分别获得东北大学硕士学位和博士学位. 主要研究方向包括图像处理与模式识别, 医学图像计算和分析, 计算机辅助诊断等. 本文通信作者. E-mail: weiying@ise.neu.edu.cn

    东北大学控制工程专业研究生. 主要研究方向为模式识别, 计算机视觉和深度学习. E-mail: ssh3108@163.com

    东北大学控制工程专业硕士. 2019 年获得东北大学学士学位. 主要研究方向为目标跟踪与目标检测. E-mail: nicolascloud@163.com

    东北大学信息科学与工程学院硕士研究生. 2017 年获得东北大学学士学位. 主要研究方向为视觉目标跟踪. E-mail: qbzxbj@163.com

    东北大学控制工程专业研究生. 主要研究方向为计算机视觉领域下的目标跟踪. E-mail: xuchuqiao@mail.neu.edu.cn

摘要: 现有基于孪生网络的单目标跟踪算法能够实现很高的跟踪精度, 但是这些跟踪器不具备在线更新的能力, 而且其在跟踪时很依赖目标的语义信息, 这导致基于孪生网络的单目标跟踪算法在面对具有相似语义信息的干扰物时会跟踪失败. 为了解决这个问题, 本文提出了一种异步相关响应的计算模型, 并提出一种高效利用不同帧间目标语义信息的方法. 在此基础上, 提出了一种新的具有判别性的跟踪算法. 同时为了解决判别模型使用一阶优化算法收敛慢的问题, 本文使用近似二阶优化的方法更新判别模型. 为验证所提算法的有效性, 本文分别在Got-10k, TC128, OTB 和VOT2018 上做了对比实验, 实验结果表明, 本文提出的方法可以明显地改进基准算法的性能.

English Abstract

许龙, 魏颖, 商圣行, 张皓云, 边杰, 徐楚翘. 基于异步相关判别性学习的孪生网络目标跟踪算法. 自动化学报, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237
引用本文: 许龙, 魏颖, 商圣行, 张皓云, 边杰, 徐楚翘. 基于异步相关判别性学习的孪生网络目标跟踪算法. 自动化学报, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237
Xu Long, Wei Ying, Shang Sheng-Xing, Zhang Hao-Yun, Bian Jie, Xu Chu-Qiao. Design of asynchronous correlation discriminant single object tracker based on siamese network. Acta Automatica Sinica, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237
Citation: Xu Long, Wei Ying, Shang Sheng-Xing, Zhang Hao-Yun, Bian Jie, Xu Chu-Qiao. Design of asynchronous correlation discriminant single object tracker based on siamese network. Acta Automatica Sinica, 2020, 46(x): 1−19. doi: 10.16383/j.aas.c200237
  • 视觉目标跟踪算法广泛应用于水下机器人, 无人机协同, 机器人设计等诸多领域[1,2,3], 得到一个跟踪精度高, 速度快的跟踪器面临着各种各样的挑战. 近些年来, 大量的研究成果涌现出来, 极大地推进了该领域的发展, 其中又以基于孪生网络的跟踪算法性能最好[15,16,22,28,29].

    目标跟踪的核心问题是目标与背景的分类问题, 在第一帧中给定任意要跟踪的目标, 目标跟踪算法都能在接下来的帧中给出该目标的准确位置. 近些年来, 以基于粒子滤波加分类为代表的 MDNet[8] 和基于相关滤波为代表的 KCF[5] 等判别类跟踪方法受到了研究人员的广泛重视, 以这两类跟踪框架为基础, 又衍生出了大量的跟踪算法[6,9,10,31,23]. Wang N 等[10] 首先将编码器特征引入到目标跟踪的任务中, 取得了不错的跟踪性能, 但是由于该方法得到的特征比较简单, 该模型很难应付目标发生较大变化时的情景. 为解决这个问题, Ma C 等[9] 充分利用卷积神经网络不同层之间的卷积特征进行跟踪, 利用更高效的图像特征提高了跟踪的性能. 进一步地, Nam H 等[8] 提出了一种多域学习的算法 MDNet, 并引入了一个更大的卷积神经网络用于提取目标特征, 在当时的基准上取得了最好的性能. 但是, 由于 MDNet 基于粒子滤波算法, 速度较慢, 因此越来越多的研究转移到了相关滤波的框架下. Bolme D S 等[4] 首先将相关滤波器引入到了目标跟踪的任务中, 将目标跟踪由分类任务变成了相似度计算的任务, 通过求解最小二乘问题得出可能是目标位置的最高响应. 为了解决 Bolme D S 等[4] 的算法在跟踪过程中训练样本过少的问题, Henriques J F 等[5] 将循环矩阵的思想引入到训练样本的生成过程中, 同时充分利用了循环矩阵的特点, 从而能以很快的速度优化一个非闭合的二次优化问题. 出于计算速度的考虑, 相关滤波的相关性计算都在频域中进行[4], 在实际的应用中会遇到截断误差 (边界效应) 的问题, 为了解决这一问题, Danelljan M 等[6] 在求解滤波器的过程中引入了一个空间正则化项, 并使用 Gauss-Sediel[6] 求解滤波器, 同时将原始的图像特征[4,5] 替换为对应图像的深度特征, 进行相关滤波器的计算, 进一步提高了跟踪的性能. 为了解决滤波器在离散空间计算导致的跟踪精度损失问题, Danelljan M 等[31] 使用插值的方法, 将滤波器的计算转移到了连续域空间, 并取得了很好的跟踪效果, 但是由于需要计算的滤波器数量比较多, 这导致算法速度较慢. 为了解决这一问题, Danelljan M 等[7] 提出了一种降维的方法, 求解出对响应贡献最大的几组滤波器进行跟踪, 同时利用高斯混合模型进行样本空间的管理, 实现了速度与精度的提升.

    随着相关滤波算法的发展和完善, 同为相似度计算的孪生网络模型进入了人们的视野中. Held D 等[11] 将孪生网络的结构引入到了目标跟踪的相似度计算中. Bertinetto L 等[12] 进一步设计了训练数据集的结构, 以此为基础衍生出了大量的基于孪生网络的跟踪算法. Bo Li 等[13] 将检测中的 RPN[14] 结构引入到了跟踪中, Bertinetto L 等[12] 利用边框回归以及锚点的方法, 缓解了边界框结果精度低的问题. 为了进一步解决边界框定位精度的问题, Danelljan M 等[22] 将目标检测算法中的 IOUNet[24] 边框回归组件引入到了跟踪中, 提出了一个非孪生网络结构的跟踪器, 相比于 RPN 结构, IOUNet 有着更高的边界框回归的精度, 这帮助该算法获得了更高的跟踪性能, 同时由于该算法可以在线更新, 因此其具有更高的判别性能. Qiang Wang 和 Bo Li 等[15,16] 提出了更深网络结构的 SiamRPN++[15], DaSiamRPN[28], 以及将分割引入到孪生网络跟踪器的 SiamMask[16], 进一步提高了跟踪器的精度. 但是这些基于孪生网络的跟踪算法只通过离线训练获得一组网络参数, 其相似度的计算很大程度上依赖于目标的语义信息, 这导致其在在线跟踪时很难处理具有相同语义干扰物的识别问题.

    为了解决基于孪生网络的跟踪器对于相似目标判别能力弱的问题, 本文提出了一种异步相关的理论模型, 并基于此提出了一种新的具有判别性的跟踪方法. 在进行在线更新的过程中, 本文使用了二阶优化的方法对所提出的模型进行更新, 相比于传统的一阶优化, 本文使用的方法可以在更少的迭代次数下实现更快的收敛. 为了验证本文提出算法的有效性, 本文在 Got-10k[25], TC128[26], OTB[27], 和 VOT2018[30] 上分别进行了对比实验, 实验结果表明本文所提出的方法可以有效地提升在线跟踪器的判别能力以及鲁棒性, 同时还能保证较高的跟踪速度.

    • 在目标跟踪中, 跟踪任意目标的任务可以看做是相似性学习的问题. 基于孪生网络的跟踪器利用孪生网络可以学习相似性的特点实现跟踪. 假设要学习的相似性函数由孪生网络 $ {\rm f}({\rm{x}},{\rm{z}}|\theta) $ 表示, 其中 $ {\rm x} $ 表示搜索区域, $ {\rm z} $ 表示样本图像, $ \rm \theta $ 表示该网络的参数. 经过 $ {\rm f}({\rm{x}},{\rm{z}}) $ 的计算, 得到一个目标样本 $ {\rm z} $ 在搜索区域 $ {\rm x} $ 中不同位置的打分, 当前位置得分越高, 说明当前的目标越有可能处于这个位置. 在实际应用中, $ {\rm x} $ $ {\rm z} $ 并不直接参与相似性的计算, 而是先经过一个特征提取器 $ \phi $ 得到相应的特征 $ \phi({\rm{x}}) $ $ \phi({\rm{z}}) $ , 然后将这些特征送入相似度计算函数 $ {\rm g} $ 来进行打分, 得到相应的相似性度量函数如式 (1) 所示:

      $$ \begin{array}{l} {\rm f}({\rm{x}}, {\rm{z}}| \theta) = {\rm{g}}(\phi({\rm{x}}), \phi({\rm{z}})) \end{array} $$ (1)

      其中, $ \phi $ 是一个基于卷积的特征提取器. Bo Li 等[13] 通过提升 $ \phi $ 的结构, 并引入检测中的边框回归提升了性能. Wang Qiang 等[15,16] 通过将 $ \phi $ 做的更深更大, 进一步提升了跟踪器的性能. 相似性函数 $ {\rm g} $ 是一个简单的距离或者相似性度量函数, 在基于孪生网络的跟踪器中, $ {\rm g} $ 的形式与 ECO[23]相似, 都是使用相关滤波的操作进行相似度计算.

      式 (1) 得到的孪生网络 $ {\rm f} $ 通过在通用数据集上构造特定形式的数据集进行离线训练, 在训练的过程中, 利用判别的方法对 $ {\rm f} $ 进行训练. 设定正样本的概率为 $\rm \dfrac{1}{1+{\rm{e}}^{-{\rm{v}}}}$ , 负样本的概率为 $\rm 1-\dfrac{1}{1+{\rm{e}}^{-{\rm{v}}}}$ , 将其带入交叉熵的计算公式, 得到相应的损失函数定义如下式 (2) 所示:

      $$ \begin{array}{l} {\rm l}({\rm{y}}, {\rm{v}}) = {\rm{log}}(1+{\rm{exp}}(-{\rm{yv}})) \end{array} $$ (2)

      其中 $ {\rm y}\in[-1, +1] $ , 表示是否是目标, $ {\rm v} $ 表示相似性计算后的实际得分. 在训练过程中, 利用所有候选位置的平均损失来表示最终的训练损失函数:

      $$ \begin{array}{l} {\rm L}({\rm{y}}, {\rm{v}}) = \dfrac{1}{{\cal{D}}}\displaystyle\sum\limits_{{\rm{u}}\in {\cal{D}}}l({\rm{y}}[{\rm{u}}], {\rm{v}}[{\rm{u}}]) \end{array} $$ (3)

      其中 $ {\cal{D}} $ 表示最后得到的相关性计算得分图, $ {\rm u} $ 表示 $ {\cal{D}} $ 中的所有位置. 通过随机梯度下降的方法最小化式 (4) 所示的损失函数, 从而得到网络的参数 $ \theta $ :

      $$ \begin{array}{l} {\rm arg}\min\limits_{\theta} = \underset{({\rm{z,x,y}})}{{\rm{E}}}{\rm{L}}({\rm{y}}, {\rm{f}}({\rm{z}}, {\rm{x}}|\theta)) \end{array} $$ (4)

      其中训练样本对 $ \rm(z,x) $ 从精心标注好的视频数据集采样, 搜索区域 $ {\rm x} $ 以目标区域 $ {\rm z} $ 为中心, 保持目标宽高比例不变, 裁剪固定大小的区域, 超出区域的部分用图像像素平均值填充. 所有操作都是在离线状态下进行的, 即此时跟踪器不进行跟踪, 只进行训练.

    • 为了给目标跟踪器引入判别性, 本文以 SiamRPN[13] 为基准算法做了大量的实验工作, 发现了孪生网络跟踪器的一些异步相关特性可以对相同语义特征的目标进行有效的抑制, 同时可以缓解跟踪过程中目标发生形变的问题.

    • 在传统跟踪器工作的过程中, 在第一帧时, 跟踪器利用第一帧目标的样本 $ {\rm z}_0 $ 计算得到当前要跟踪目标的滤波器 $ {\rm k}_0 $ , 然后在接下来的第 $ {\rm t} $ 帧, 利用 $ {\rm x}_{\rm{t}} $ $ {\rm k}_0 $ , 通过互相关计算, 得到目标的响应图 $ {\cal{D}} $ , 相应的计算过程如式(5)所示:

      $$ \begin{array}{l} {\rm f}({\rm{x}}_{\rm{t}}|\theta, {\rm{k}}_0) = {\rm{g}}(\phi({\rm{x}}_{\rm{t}}),{\rm{k}}_0) \end{array} $$ (5)

      在整个跟踪的过程中, $ {\rm k}_0 $ 保持不变, 这意味着如果目标的状态发生了很大的变化 (包括形状, 大小, 颜色等), 跟踪器的识别能力就会降低.

      假设被跟踪目标随着时间 $ {\rm t} $ 的变化而变化, 当前滤波器 $ {\rm k}_0 $ 与时刻 $ {\rm t} $ 下的 $ {\rm x}_{\rm{t}} $ 计算得到的得分会发生衰减, 设这个衰减因子为 $ \eta $ , 时刻 $ {\rm t} $ 后, 得分强度会变为 $ {\rm v}_{\rm{t}}({\rm{u}}) = \eta\cdot {\rm{v}}_0(u), {\rm{u}} \in {\cal{D}} $ . 同时, 由于上面提到的孪生网络 $ {\rm f}({\rm{z}},{\rm{x}}|\theta) $ 并不是为当前跟踪的类别特定训练的, 而是对尽可能多类的目标进行训练, 从而实现一定的通用性. 因此假设搜索区域中存在同类目标 $ {\rm z}_{{\rm{fake}}} $ (例如人类, 汽车, 同类的动物及物体等). 经过卷积以后, 在 $ {\rm t} = 0 $ 时刻, 跟踪目标与同类目标得分应满足:

      $$ \begin{array}{l} {\rm v}_0({\rm{u}}) > {\rm{v}}_0({\rm{u}}_{{\rm{fake}}}) \end{array} $$ (6)

      然而因为有上面衰减因子 $ \eta $ 的存在, 会在某一时刻 $ {\rm t} $ $ {\rm v}_{\rm{t}}({\rm{u}}) \le {\rm{v}}_{\rm{t}}({\rm{u}}_{{\rm{fake}}}) $ , 此时, 跟踪器会错误地判断目标的位置, 将 $ {\rm u}_{{\rm{fake}}} $ 当做是真正的目标, 从而导致跟踪失败. 图1 所示为分别采用初始的 $ {\rm k}_0 $ 与当前的 $ {\rm k}_{\rm{t}} $ 所得到的目标响应得分图.

      图  1  (b)和(c)分别表示滤波器 ${\rm k}_0$ 与滤波器 ${\rm k}_{\rm{t}} = \phi({\rm{z}}_{\rm{t}})$ 计算得到的响应得分图

      Figure 1.  (b), and (c) denote the response which is calculated by ${\rm k}_0$ and ${\rm k}_t = \phi({\rm{z}}_{\rm{t}})$ respectively

      图1所示的结果可以看出, 上面的假设是合理的, 因此可以利用 $ {\rm k}_{\rm{t}} $ 所具备的目标判别能力对基准算法 SiamRPN 进行改进.

    • 基于上面的假设, 本文提出了一种异步相关的打分策略, 从而为跟踪器引入了对于真实目标与虚假同类目标的可判别性.

      由于目标的形变会导致 $ {\rm k}_0 $ $ \eta $ 的衰减速率计算真实的目标得分, 为此本文直接将 $ {\rm t} $ 时刻的样本图像 $ {\rm z}_{\rm{t}} $ 引入到跟踪的过程中, 得到如式 (7) 的在线打分公式:

      $$ \begin{array}{l} {\rm f}({\rm{x}}_{\rm{t}}, {\rm{z}}_{\rm{t}}|\theta) = {\rm{g}}(\phi({\rm{x}}_{\rm{t}}),\phi({\rm{z}}_{\rm{t}})) \end{array} $$ (7)

      公式 (7) 虽然引入了当前时刻 $ {\rm t} $ 下的样本图像 $ {\rm z}_{\rm{t}} $ , 在一定程度上消除了目标形变带来的打分衰减效应, 但是由于跟踪器在跟踪过程中存在着一定的噪声以及跟踪结果上的偏差 (例如跟踪位置的错误, 跟踪得到的目标尺寸的错误), 如果直接采用式 (7) 的打分方式, 这些误差会随着时间 $ {\rm t} $ 逐渐累积, $ {\rm k}_{\rm{t}} $ 会被污染, 从而导致跟踪器无法找到目标.

      为了解决上述问题, 本文将第一帧计算得到的 $ {\rm k}_0 $ 作为监督信息, 引入一个可在线学习的判别性模型 $ \Phi $ , 得到新的打分公式如下:

      $$ \begin{array}{l} {\rm f}({\rm{x}}_{\rm{t}}, {\rm{z}}_{\rm{t}}|\theta, {\rm{w}}) = {\rm{g}}(\phi({\rm{x}}_{\rm{t}}),\Phi(\phi({\rm{z}}_{\rm{t}}))) \end{array} $$ (8)

      其中 $ \theta $ 是离线训练好的一组参数, 在跟踪的过程中不发生变化, $ {\rm w} $ 是需要在线更新的参数. 令 $ {\rm k}_{\rm{t}} = \phi({\rm{z}}_{\rm{t}}) $ , 代入式 (8) 有:

      $$ \begin{array}{l} {\rm f}({\rm{x}}_{\rm{t}}, {\rm{k}}_{\rm{t}}|w) = ({\rm{a}}({\rm{w}}*{\rm{k}}_{\rm{t}}))*\phi({\rm{x}}_{\rm{t}}) \end{array} $$ (9)

      其中, $ \phi(\cdot) $ 表示离线训练好的特征提取器, $ {\rm a} $ 表示激活函数, $ {\rm w} $ 表示在线判别模型 $ \Phi $ 的权重, $ * $ 表示卷积操作. 为得到一个较为合理的映射, 令 ${\rm{\hat{k}}_{\rm{t}}} = \Phi({\rm{k}}_{\rm{t}}) = {\rm{a}}({\rm{w}}*{\rm{k}}_{\rm{t}})$ , 构建用于在线更新的相似度计算损失函数如式 (10) 所示:

      $$ \begin{array}{l} {\rm L}_{{\rm{up}}}({\rm{w}}) = \displaystyle\sum\limits_{{\rm{j}} = {\rm{t-n}}}^{\rm{t}} \gamma_{\rm{j}}(\hat{{\rm{k}}_{\rm{j}}}-{\rm{k}}_0)^2+\lambda ||{\rm{w}}||_2 \end{array} $$ (10)

      其中 $ \left\| \cdot \right\|$ 表示 L2 范数, 对神经网络权重 $ {\rm w} $ 进行正则化, $ \lambda $ 是正则化系数, $ {\rm n} $ 表示样本的个数, $\gamma_{\rm{j}} = \dfrac{1}{{\rm{C}}}\alpha^{{\rm{t-j}}}, {\rm{C}} = \sum_{{\rm{j}} = {\rm{t-n}}}^{\rm{t}}\alpha^{{\rm{t-j}}}$ 表示第 $ {\rm j} $ 个样本的权重, $ 0<\alpha<1 $ 表示样本权重的衰减参数.

      由式 (10) 可知, 在实际跟踪的过程中, 本文提出的算法不仅利用了 $ {\rm t} $ 时刻的样本图像 $ {\rm x}_{\rm{t}} $ , 同时还能保证由 $ {\rm x}_{\rm{t}} $ 得到的滤波器 $ {\rm k}_{\rm{t}} $ 不会偏离真实的滤波器 $ {\rm k}_0 $ 太远. 由于滤波器 $ \Phi(\phi({\rm{z}}_{\rm{t}})) $ $ {\rm k}_0 $ 存在较小的差距, 同时 $ \Phi(\phi({\rm{z}}_{\rm{t}})) $ 还包含了时刻 $ {\rm t} $ 目标的信息, 因此这样的滤波器在面对相同类别的目标时具有更高的判别性.

    • 除了利用当前时刻 $ {\rm t} $ $ {\rm k}_{\rm{t}} $ 计算目标的响应外, 同时还可以充分利用时刻 $ {\rm t} $ 之前特定的 $ {\rm m} $ 个判别性网络 $\Phi_{\{1, \cdots, {\rm{m}}\}}\in {\cal{S}}$ 来计算最终的得分响应:

      $$ \begin{array}{l} {\rm s}_{\rm{t}} = \dfrac{1}{{\rm{m}}}\displaystyle\sum\limits_{{\rm{i}} = 1}^{{\rm{m}}}\Phi_{\rm{i}}(\phi({\rm{z}}_{\rm{t}})) \end{array} $$ (11)

      其中 $ {\rm s}_{\rm{t}} $ 表示当前时刻 $ {\rm t} $ 的得分响应图. $ \Phi_{\rm{i}} $ 表示不同时刻得到的判别性模型.

      在实际的应用中, 假设相邻帧之间的判别性模型更为相似, 而距离较远的帧之间的判别性模型差异更大. 这样的假设与实际情况相符合, 因为随着时间 $ {\rm t} $ 的增加, 不同帧下相同目标之间的差异会变得更大. 根据这个假设, 本文提出了一种利用不同的 $ \Phi_{\rm{i}} $ 网络参数 $ {\rm w}_{\rm{i}} $ 之间的 KL 散度对 $ \Phi_{\rm{i}} $ 管理的策略, 计算不同网络参数分布之间的 KL 散度矩阵 $ {\cal{D}}_{{\rm{kl}}} $ , 如下式所示:

      $$ \begin{array}{l} {\cal{D}}_{{\rm{kl}}}^{({\rm{i, j}})}({\rm{P}}({\rm{w}}_{\rm{i}})|{\rm{P}}({\rm{w}}_{\rm{j}})) =\displaystyle \sum\limits_{{\rm{t}} = 1}^{\rm{N}} {\rm{P}}({\rm{x}}_{\rm{t}}){\rm{log}}\left(\dfrac{{\rm{P}}({\rm{x}}_{\rm{t}})}{{\rm{q}}({\rm{x}}_{\rm{t}})}\right) \end{array} $$ (12)

      其中 $ {\rm P}({\rm{w}}_{\rm{i}}), {\rm{P}}({\rm{w}}_{\rm{j}})\in {\bf R}^{1\times {\rm{N}}} $ 表示 $ {\rm w}_{\rm{i}}, {\rm{w}}_{\rm{j}} $ 相应的概率分布 (直方图分布), $ \rm(i, j) $ 表示 $ {\cal{D}}_{{\rm{kl}}} $ 中第 $ {\rm i} $ 行, 第 $ {\rm j} $ 列的元素.

      对于每一帧得到的新的 $ \Phi_{\rm{t}} $ , 计算其与 $ {\rm m} $ 个现有网络的 KL 散度向量 $ {\bf d}_{\rm{t}} $ , 找到最小 KL 散度距离所对应的 $ \Phi_{\rm{k}}, {\rm{k}}\in {\rm{m}} $ , 及其距离 $ {\rm d}_{\rm{t}}({\rm{i}}) $ . 利用如式 (13) 所示的策略 $ {\rm u} $ , 对 $ {\rm m} $ 个判别性模块进行更新.

      $$ \begin{array}{l} {\rm u} = \left\{\begin{matrix} {\cal{S}}({\rm{k}}) = \Phi_{\rm{t}}, & {\rm if}\;\; {\rm{d}}_{\rm{t}}({\rm{i}}) > {\rm{min}}({\cal{D}}_{{\rm{kl}}})\\ {\rm none}, & {\rm others} \end{matrix}\right. \end{array} $$ (13)

      由式 (13) 可知, 本文利用判别模型参数间 KL 散度的不同, 保留差异最大的 $ {\rm m} $ 个判别器作为异步相关响应打分的依据, 这样的做法可以最大程度上保留目标在不同形态时的语义信息, 在遇到具有相似语义目标的时候, 不同帧中目标的历史信息会帮助跟踪器做出很好的判断, 从而增强了跟踪器的判别能力.

    • 传统的一阶优化算法例如 SGD, Adam 等[32] 在优化过程中比二阶的优化方法有更快的速度, 因为二阶优化算法涉及到二阶信息的计算, 这些信息有助于找到一个网络泛化能力最强的解, 但是高昂的计算代价让其在对海量的数据进行训练时处于劣势.

      在本文提出的在线更新策略中, 因为要学习的参数和样本少, 因此近似二阶的优化算法更适用于本任务, 可以同时兼顾速度与精度.

      在进行二阶优化的过程中, Hessian 矩阵的计算是影响速度的关键因素. 在本文中, 为简化计算形式, 根据式 (10) 定义残差为: $ {\rm r}_{\rm{j}}({\rm{w}}) = \sqrt{\gamma_{\rm{j}}}(\hat{{\rm{k}}}_{\rm{j}}-{\rm{k}}_0) $ , $ {\rm r}_{{\rm{n}}+1} = \sqrt{\lambda}{\rm{w}} $ . 将 $ {\rm r}_{\rm{j}}({\rm{w}}) $ 以及 $ {\rm r}_{{\rm{n}}+1} $ 拼接起来, 构成 $ {\bf r}(w) $ . 此时, 式 (10) 可以等价为:

      $$ \begin{array}{l} {\rm L}_{{\rm{up}}}({\rm{w}}) = ||{\bf r}({\rm{w}})||^2 \end{array} $$ (14)

      对式 (14) 进行二阶泰勒展开, 有:

      $$ \begin{split} &{\hat{\rm L}}_{{\rm{up}}}({\rm{w}}) \approx {\rm{L}}_{{\rm{up}}}({\rm{w}}+\Delta {\rm{w}})=\\ & {\rm{L}}_{{\rm{up}}}({\rm{w}})+\dfrac{\partial {\rm{L}}_{{\rm{up}}}({\rm{w}})}{\partial {\rm{w}}}\Delta {\rm{w}} + \dfrac{1}{2}\Delta {\rm{w}}^{\rm{T}} \dfrac{\partial^2 {\rm{L}}_{{\rm{up}}}({\rm{w}})}{\partial {\rm{w}}^2}\Delta {\rm{w}}+ \\ & O(||\Delta w||^2)=\\ &{\bf r}_{\rm{w}}^{\rm{T}} {\bf r}_{\rm{w}} + 2\Delta {\rm{w}}^{\rm{T}} \nabla^{\rm{T}} {\bf r}_{\rm{w}} + \Delta {\rm{w}}^{\rm{T}} {\rm{H}}_{\rm{w}} \Delta {\rm{w}} + {\rm{O}}(||\Delta {\rm{w}}||^2) \end{split} $$ (15)

      其中, $ \nabla^{\rm{T}} $ 表示 $\rm\dfrac{\partial {\rm{L}}_{{\rm{up}}}}{\partial {\rm{w}}}$ , 利用 PyTorch 的自动求导机制, $ \nabla^{\rm{T}} $ 可以很方便的求出来. $ {\rm H}_{\rm{w}} $ 表示 Hessian 矩阵, $ {\rm O}(||\Delta {\rm{w}}||^2) $ 是一个极小量, 可以忽略不计. 优化的目的是寻找一个合适的 $\Delta {\rm{w}}$ , 使得 $ {\hat{\rm L}}_{{\rm{up}}}({\rm{w}}) $ 最小.

      具体的优化流程如下:

      步骤 1. 初始化网络权重 $ {\rm w} $ , 残差 $ {\rm r}({\rm{w}}) $ , $ {\rm N}_{{\rm{CG}}} $ , $ {\rm N} $ .

      步骤 2. for i = 1,···, $ {\rm N} $ do.

      步骤 3. 计算 $ {\rm w} $ 下的 $ \nabla {\rm{L}}_{{\rm{up}}}({\rm{w}}) $ , ${\rm H}_{\rm{w}}{\rm{ v}}\!=\! {\cal{R}}_{\rm{v}}\{\nabla_{{\rm{w}}}({\rm{w}})\}$ , 代入式 (15), $ \Delta w \leftarrow 0 $ .

      步骤 4. for j = 1,···, $ {\rm N}_{{\rm{CG}}} $ , $ \Delta {\rm{w}} = \Delta {\rm{w}}_0 $ , $ {\rm d}_{\rm{i}} = {\rm{d}}_0 = -\nabla {\rm{L}}_{{\rm{up}}}({\rm{w}}) $ do.

      步骤 5. 计算步长: 计算 $ \alpha $ 来最小化式 (15)

      $$ \alpha = -\frac{{{\rm{d}}_{\rm{j}}}^{\rm{T}} ({\rm{H}}_{{\rm{w}}} \Delta {\rm{w}} + {\rm{b}})}{{{\rm{d}}_{\rm{j}}}^{\rm{T}} {\rm{H}}_{{\rm{w}}} {\rm{d}}_{\rm{j}}} $$

      步骤 6. 更新权重: $ \Delta {\rm{w}} = \Delta {\rm{w}} + \alpha {\rm{d}}_{\rm{j}} $ .

      步骤 7. 更新方向: Let ${\rm d}_{{\rm{j}}+1} = -\nabla {\rm{L}}_{{\rm{up}}}(\Delta {\rm{w}}) + \beta_{\rm{j}} {\rm{d}}_{\rm{j}}$ , 其中

      $$ \beta_{\rm{j}} = \frac{\nabla {\rm{L}}_{{\rm{up}}}(\Delta {\rm{w}})^{\rm{T}} {\rm{H}}_{{\rm{w}}} {\rm{d}}_{\rm{j}}}{{{\rm{d}}_{\rm{j}}}^{\rm{T}} {\rm{H}}_{w} {\rm{d}}_{\rm{j}}} $$

      步骤 8. end for.

      步骤 9. $ {\rm w} = {\rm{w}} + \Delta {\rm{w}} $ .

      步骤 10. end for.

      不同于 ATOM[22] 利用雅克比矩阵近似计算 Hessian 矩阵的方式, 为避免求解 $ {\rm H}_{\rm{w}} $ 的逆矩阵, 本文利用 Pearlmutter B 等提出的 $ {\cal{R}}\{\cdot\} $ [33] 直接求解 $ {\rm H}_{\rm{w}} {\rm{v}} $ , 进一步提高了优化过程中的精度与速度. 令 $ \Delta {\rm{w}} = {\rm{rv}} $ , 其形式如式 (16) 所示:

      $$ \begin{array}{l} {\rm H}_{\rm{w}} {\rm{v}} = \lim\limits_{r \rightarrow 0}\dfrac{\nabla(w + r v)-\nabla(w)}{r} = \dfrac{\partial}{\partial r}\nabla(w+rv)|_{r = 0} \end{array} $$ (16)
    • 本文使用基于 Python 的 PyTorch 作为实验平台, CPU 为 I5 3210, 内存大小为 16GB, GPU 为 2060Super. 分别在 Got-10k[25] 的 180 个视频序列, TC128[26] 的 128 个视频序列, OTB 的 100 个视频序列, 以及 VOT2018[30] 的 60 个视频序列上进行实验. 利用 $ {\rm m} $ 个判别模块 $ \Phi $ 进行异步相关性计算, 其中每个判别模块有 256 个卷积核, 每个卷积核的大小为 $ 1\times 1 $ . 在优化的过程中, $ {\rm N} = 5 $ , $ \alpha = 0.3 $ , 共轭梯度下降迭代次数 $ {\rm N}_{{\rm{CG}}} = 100 $ , 实际计算过程中, 由于网络很快就收敛, 因此共轭梯度优化部分只迭代很少的次数. 本文算法在四个评测数据集上采用同一套参数进行测试.

      在对比实验部分, 本文对比了所提出的算法与最新的基于孪生网络的目标跟踪算法, 包括 SiamFC[12], SiamRPN++[15], DaSiamRPN[28] 等, 并且对比了其他的跟踪算法, 例如基于相关滤波算法的 ECO[23], 以及判别性跟踪器 ATOM[22] 等, 由于不同跟踪器源码, 评估数据集及其结果公开情况的不同, 因此在下面的对比分析中, 参与对比的跟踪器会略有不同.

    • Got-10k 包含 10000 多个真实运动对象的视频片段和 150 多万个手动标记的边界框, 覆盖现实世界中 560 多个类的运动对象和 80 多个类的运动模式, 本文使用其测试集对所提算法进行测试, 测试集包含 84 个对象类和 32 个运动类, 180 个视频片段. 本文利用 Got-10k 对所提方法与基准算法进行对比分析, 包括消融实验, 量化分析等.

    • TC128 包含 128 个视频序列, 与 OTB2013 一样, TC128 也为不同的序列标注了不同的情景, 用来评估跟踪器在不同条件下的性能表现, 由于与 OTB2013 重合, 因此本文不做进一步评估. TC128 重点评估了目标的颜色模型 (RGB) 对于跟踪器在性能上的影响, 因此可以作为本文在颜色模型 (RGB) 上评估跟踪器的一个补充.

    • OTB2013包含50个跟踪序列, 利用AUC(曲线下面积) 来显示跟踪器的总体性能, 同时利用精度图 (Precision plot) 和成功率图 (Success plot) 来评估跟踪器的性能. OTB2013针对跟踪中的11种情况对不同的序列赋予相应的标签, 包括背景干扰 (Background Clutter), 光照变化 (Illumination Variation), 平面外旋转 (Out-of-plane Rotation), 形变 (Deformation), 视野外 (Out of View), 快速运动 (Fast Motion), 尺度变化 (Scale Variation), 遮挡 (Occlusion), 平面内旋转 (In-plane Rotation), 运动模糊(Motion Blur), 以及低分辨率(Low Resolution). 在OTB2013的基础上, OTB2015又扩充了50个新序列. 本文中使用One-Pass Evaluation(OPE)[27]的方法对跟踪器精度和成功率进行评估, 同时评估所提算法在不同情景下的精度以及成功率的性能表现.

    • VOT2018数据集有60个公共测试序列, 共21356帧, 在评估跟踪器时共分为3大类评估模式包括基准模式 (baseline), 非监督模式 (unsupervised), 实时模式 (realtime), 评估跟踪器的排名使用到的主要评估指标是期望平均重叠率 (EAO). 本文使用文献[24] 提供的工具包对跟踪器进行性能评估, 除了对EAO进行评估, 本文还对所提方法的精度 - 鲁棒性和实时性能进行评估.

    • 为验证所提算法的有效性, 本文在Got-10k[25]和TC128[26] 上进行了自身对比实验, 包括消融实验与量化分析. 同时也与一些最先进或者经典的跟踪器进行对比. 表1所示为基准算法与本文所提算法在Got-10k上的性能对比情况.

      表 1  本文所提方法与基准算法的消融实验

      Table 1.  The ablation expirement of the proposed algorithm and the benchmark algorithm

      AO $ {\rm SR}_{0.5} $ $ {\rm SR}_{0.75} $ FPS
      baseline 0.445 0.539 0.208 21.95
      baseline+AC 0.445 0.539 0.211 20.03
      baseline+AC+S 0.447 0.542 0.211 19.63
      baseline+AC+S+ $ {\rm D}_{{\rm{KL}}} $ m = 3 0.442 0.537 0.209 18.72
      baseline+AC+S+ $ {\rm D}_{{\rm{KL}}} $ m = 6 0.457 0.553 0.215 18.60
      baseline+AC+S+ $ {\rm D}_{{\rm{KL}}} $ m = 9 0.440 0.532 0.211 18.49

      其中 AC(Asynchronous correlation) 表示本文提出的异步相关模块, $ {\rm D}_{{\rm{KL}}} $ 表示判别性模块管理算法, 该算法利用 KL 散度对 $ {\rm m} $ 个异步相关判别模型进行管理. FPS 表示算法每秒可处理的帧数, 值越大表示性能越好. S 表示本文使用的二阶优化算法. AO 表示所有帧上跟踪的结果和真实标签之间重叠率的平均值, 值越大表示性能越好. $ {\rm SR} $ 表示跟踪的成功率, 值越大表示性能越好, 下标 $ {\rm SR}_{0.75} $ 表示成功率高于 0.75 的百分比. 由表1 可以看出, 本文提出的算法比基准算法在 AO, $ {\rm SR}_{0.5} $ , 和 $ {\rm SR}_{0.75} $ 三个指标下分别提升 1.2%, 1.4%, 和 0.7%. 因此使用本文提出的异步相关判别模型 $\Phi$ 可以明显地改善基准算法在 Got-10k 上的性能.

      本文同时对比了 $ {\rm m} = 3,6,9 $ 个异步互相关模块 $ \Phi $ 的情景下算法的性能表现, 发现当 $ {\rm m} = 6 $ 时, 算法的性能是最好的, 在只使用 AC 的情况下, $ {\rm SR}_{0.75} $ 比基准算法高出 0.3%, 当引入二阶优化算法 S 后, 平均重叠率 AO 以及 $ {\rm SR}_{0.5} $ 分别提升 0.2% 和 0.3%, 而当 $ {\rm m} = 3, 9 $ 时跟踪器的性能出现了下降, 关于 $ {\rm m} $ 对于性能的影响, 下面的实验有进一步的说明. 在模型的优化方面, 将一阶的 Adam 优化算法替换为本文所使用的二阶优化方法 (S) 后, AO 提升了 0.2%, 可以看出本文所使用的二阶优化方法可以有效地提高跟踪的精度, 同时对于跟踪速度的影响较小. 同时可以看出, 在跟踪器的输出状态与目标真实状态的重叠率阈值越大时, 采用多个异步互相关模块方法的优势越明显. 这说明异步互相关模型是在损失了部分低精度区间性能的情况下, 在高精度区间的性能上取得了更好的表现, 这对于提升跟踪器精的确跟踪能力十分重要.

      图2所示为本文所提方法在 $ {\rm m} = 6 $ 时与其他先进的跟踪器在Got-10k上的对比情况.

      图  2  本文算法与其他先进跟踪器在Got-10k上的对比情况

      Figure 2.  Comparison between the proposed method with other advanced trackers on Got-10k

      图2 可以看出, 在平均成功率的性能表现上, 本文所提的方法分别比基准算法 SiamRPN 的改进算法 SiamRPN++[15], SiamMask[16] 高出 0.4% 和 0.5%. 而 SiamRPN++ 和 SiamMask 分别比基准算法提升了 0.8% 和 0.7%, 相比之下, 本文所提的方法相对于基准算法提升了 1.2%, 可见本文所提的算法在 Got-10k 的评价标准下对于基准算法的提升较大, 同时本文的算法在面对最新的一些跟踪器时, 也具有较大的优势. 分析原因发现, Got-10k 中存在着大量相似语义信息的跟踪情景, 这正是本文提出异步相关判别模型所要解决的问题, 通过利用帧间被跟踪样本信息的共享以及初始目标提供的监督信息, 本文所提的方法在一定程度上缓解了相似语义目标所导致的跟踪失败问题, 相比于 SiamRPN++ 和 SiamMask, 本文的算法在应对这类情景时有着较为明显的优势. 观察图2 所示的结果可以发现, 包括 GOTURN 在内的基于孪生网络的跟踪算法在参与对比的 11 种算法中占据着前六名的位置, 基于相关滤波算法的 CCOT 和 ECO 分别处于第七和第八名, 而多域目标跟踪算法 MDNet 则位于第九名, 排在同样基于相关滤波的跟踪算法 SRDCF 和 KCF 之前.

      为评估跟踪器在实际跟踪中的性能表现, 本文在 Got-10k 测试集的 8 个具有代表性序列上进行了改进前后跟踪结果的对比分析, 对比结果如图3 所示. 其中虚线框表示本文算法的跟踪结果, 实线框表示基准算法的跟踪结果.

      图  3  Got-10k上跟踪结果对比实验. 其中虚线框表示本文算法的跟踪结果, 实线框表示基准算法的跟踪结果

      Figure 3.  Comparison of tracking results on Got-10k. The dotted line box indicates the tracking results of the proposed algorithm, and the solid line box indicates the baseline results

      图3 可以看出, Got-10k 中的目标跟踪任务更具挑战性, 在第一个目标发生遮挡的情景下, 本文所提的方法通过不同帧间的信息共享, 准确地在遮挡发生时跟踪到了目标; 在第二个水下相似背景的跟踪过程中, 本文的算法通过利用最新的当前样本来生成核, 从而及时地响应了目标的形状变化, 跟踪到了目标; 在第三个有相似语义目标的情景下, 本文的算法同样利用及时更新的样本核准确地跟踪到了目标; 在第四个目标发生尺度变化的跟踪情景中, 通过异步信息的计算以及当前样本核的帮助, 本文的算法准确地跟踪到了目标; 在第五到第八的四个序列中, 本文的算法在处理相应的复杂环境进行跟踪时同样表现出了较基准算法更强的性能优势.

      Liang P 等[26] 指出, 利用不同的颜色模型对于提升跟踪器的性能具有很大的帮助, 不同于 OTB2015 中包含一些灰度图像的情景, TC128 中的 128 个序列均为彩色序列, 其中 70 个序列为新增的, Liang P, 等认为这些彩色图像在理论上会更能充分评估跟踪器的性能. 为此本文在 TC128 上对跟踪器的精度和成功率进行自身对比实验, 实验中默认使用二阶优化算法 (S) 来优化 AC 模型, 并选择了跟踪器 ECO, ECO-HC[7], SRDCF, MEEM[17], Struck[18], KCF, ASLA[20], Frag[21], 和 SemiT[19] 作为对比, 得到精度和成功率图如图4 所示.

      图  4  本文所提出的算法在TC128 上的精度-成功率对比实验结果

      Figure 4.  The accuracy-success rate comparison experiment results of the proposed algorithm on TC128

      图4 可知, 本文所提算法在 $ {\rm m} = 3 $ 时性能最好. 与基准算法相比, 在加入 AC 与 $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 后, 所提方法的精度以及成功率分别提升 1.6% 和 1%. 而 SRDCF 的改进算法 ECO-HC 相较于 SRDCF 分别提高 0.8% 和 1.5%, 因此本文所提的方法相比于基准算法有着较大的提升. 值得注意的是, 在 Got-10k 上第八名的 ECO 在 TC128 上是第一名, 类似的现象也发生在 VOT2018 的评估结果中. 本文提出的算法比采用了多专家模型的 MEEM 在精度以及成功率上分别提升了 9.5%, 7.8%. 本文提出的算法比基于相关滤波的 KCF 算法在精度和成功率上分别提升了 17.8%, 15.2%. 比起其他的跟踪器比如 Struck, ASLA 等算法, 本文的算法具有较大的性能优势. 同时由图4 可以看到, 当 $ {\rm m} = 6 $ 时, 所提算法的性能较 $ {\rm m} = 9 $ 时在精度和成功率的性能上分别提升了 0.1%, 0.1%, 注意到本文所提出的方法在精度与成功率上均要好于基准算法. 为进一步研究 $ {\rm m} $ 对于性能的影响, 本文在接下来的评测中将分别对比 $ {\rm m} = 3,6,9 $ 时跟踪器的性能.

    • 本节将进一步分析所提算法在 OTB2015/2013 上的性能表现, 包括成功率图, 精度图, 以及在不同的跟踪情景下, 不同跟踪器的性能对比情况.

      首先, 本文在 OTB2015 上对比了所提算法与最先进的跟踪器包括 DaSiamRPN[28], ATOM[22], 和 DIMP[29] 等, 以及具有代表性的算法包括 ECO[7], MDNet[8], 和 SiamFC[12] 等, 结果如图5 所示.

      图  5  本文所提出的算法在OTB2015上的精度-成功率对比实验结果

      Figure 5.  The accuracy-success rate comparison experiment results of the proposed algorithm on OTB2015

      图5 可以看出, 本文所提的方法比基准算法在平均精确度性能上提升了 1.7%, 在平均成功率性能上比基准算法提升了 1.2%. 当 $ {\rm m} = 3 $ $ {\rm m} = 6 $ 时的精度性能表现几乎相同. 当 $ {\rm m} = 6 $ 时, 本文所提的算法达到相较于基准算法的最好性能. 同时可以看出, SiamRPN 的另一个改进算法 DaSianRPN 较基准算法分别提升了 2.5% 和 2%, 稍高于本文算法对于基准算法的提升. 分析原因发现, 在 SiamRPN 的基础上, DaSiamRPN 在离线训练阶段通过数据增强的技术来生成用于网络训练的数据样本对, 替换了基准算法的训练数据来对 SiamRPN 重新训练, 通过扩充训练数据样本对的多样性, 来增强原始 SiamRPN 的泛化能力, 使之在面对更复杂的跟踪情景或者快速变化的目标时有着更好的跟踪性能, 同时 DaSiamRPN 也采用了一种利用得分图进行干扰物感知的算法来提升性能. 对比 DaSiamRPN 与本文所提的方法可以看出, 本文的算法只需要更新一个简单的 AC 模型, 且无需修改主干网络的参数, 同时还能保证两者在 OTB2015 上有着相近的性能表现 (精度与成功率相差 0.8%). 经典的 ECO 与 MDNet 算法依然分别占据第一名和第二名的位置, 最新的 ATOM 以及 DIMP 算法则分别是第三名和第五名.

      为了对所提方法在不同的跟踪情景下进行综合评估, 本文选取了 OTB2013[27] 的 50 个序列中 11 种跟踪情景对所提算法进行评估, 这些跟踪的情景广泛地发生在实际跟踪过程中, 因此能够较为客观地评估跟踪算法在不同跟踪情景下的性能表现. 同时为了对比的公平, 本文将所提方法与基准算法以及一些最新的方法, 包括 ATOM, DaSiamRPN 以及 DIMP 等, 做了对比实验, 相应的实验结果如表2, 3, 4所示.

      表 2  OTB2013 的 BC、DEF 等情景下的跟踪精度对比结果

      Table 2.  Comparison of tracking accuracy under 11 attributes on OTB2013

      BC BC DEF DEF FM FM IPR IPR
      S P S P S P S P
      ECO-HC 0.700 0.559 0.567 0.719 0.570 0.697 0.517 0.648
      ECO 0.776 0.619 0.613 0.772 0.655 0.783 0.630 0.764
      ATOM 0.733 0.598 0.623 0.771 0.595 0.709 0.579 0.714
      DIMP 0.749 0.607 0.602 0.740 0.618 0.739 0.561 0.685
      MDNet 0.777 0.621 0.620 0.780 0.652 0.796 0.658 0.822
      SiamFC 0.605 0.494 0.487 0.608 0.509 0.618 0.483 0.583
      DaSiamRPN 0.728 0.592 0.609 0.761 0.565 0.702 0.625 0.780
      SiamRPN(baseline) 0.605 0.745 0.591 0.724 0.589 0.724 0.627 0.770
      baseline+AC 0.605 0.745 0.591 0.724 0.589 0.724 0.627 0.770
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.599 0.741 0.603 0.749 0.645 0.797 0.651 0.808
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.592 0.733 0.597 0.742 0.636 0.787 0.650 0.807
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.598 0.736 0.586 0.725 0.587 0.723 0.654 0.809

      表 3  OTB2013的IV、LR等情景下的跟踪精度对比结果

      Table 3.  Comparison of tracking accuracy under 11 attributes on OTB2013

      IV IV LR LR MB MB OCC OCC
      S P S P S P S P
      ECO-HC 0.556 0.690 0.536 0.619 0.566 0.685 0.586 0.749
      ECO 0.616 0.766 0.569 0.677 0.659 0.786 0.636 0.800
      ATOM 0.604 0.749 0.554 0.654 0.529 0.665 0.617 0.762
      DIMP 0.606 0.749 0.485 0.571 0.564 0.695 0.610 0.750
      MDNet 0.619 0.780 0.644 0.804 0.662 0.813 0.623 0.777
      SiamFC 0.479 0.593 0.499 0.600 0.485 0.617 0.512 0.635
      DaSiamRPN 0.589 0.736 0.490 0.618 0.533 0.688 0.583 0.726
      SiamRPN(baseline) 0.585 0.723 0.519 0.653 0.532 0.684 0.586 0.726
      baseline+AC 0.585 0.723 0.519 0.653 0.532 0.684 0.586 0.726
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.600 0.749 0.554 0.697 0.610 0.785 0.593 0.740
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.592 0.741 0.546 0.688 0.596 0.770 0.586 0.732
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.581 0.724 0.549 0.689 0.533 0.687 0.576 0.716

      表 4  OTB2013的OPR、OV等情景下的跟踪精度对比结果

      Table 4.  Comparison of tracking accuracy under 11 attributes on OTB2013

      OPR OPR OV OV SV SV
      S P S P S P
      ECO-HC 0.563 0.718 0.549 0.763 0.587 0.740
      ECO 0.628 0.787 0.733 0.827 0.651 0.793
      ATOM 0.607 0.751 0.522 0.563 0.654 0.792
      DIMP 0.596 0.737 0.549 0.593 0.636 0.767
      MDNet 0.628 0.787 0.698 0.769 0.675 0.842
      SiamFC 0.500 0.620 0.574 0.642 0.542 0.665
      DaSiamRPN 0.599 0.750 0.570 0.633 0.587 0.740
      SiamRPN(baseline) 0.598 0.736 0.658 0.725 0.608 0.751
      baseline+AC 0.598 0.736 0.658 0.725 0.608 0.751
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.611 0.760 0.702 0.778 0.656 0.819
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.604 0.752 0.659 0.733 0.631 0.791
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.597 0.740 0.660 0.735 0.603 0.755

      其中 下划线表示当前跟踪器在所有参与对比的跟踪器中是第一名, 加粗字体表示当前跟踪器在与基准算法对比过程中是第一名. 其中 S 表示成功率 (Success), P表示精度 (Precision). 由表2, 表3, 以及表4 可知, 当 $ {\rm m} = 3 $ 时, 本文提出的算法在形变(DEF), 快速运动 (FM), 平面内旋转 (IPR), 光照变化 (IV), 低分辨率 (LR), 运动模糊 (MB), 遮挡 (OCC), 平面外旋转 (OPR), 视野外 (OV), 尺度变化 (SV) 这 10 种跟踪情景下的 P 和 S 上分别比基准算法提升(1.2%, 2.5%), (5.6%, 7.3%), (2.4%, 3.8%), (1.5%, 2.6%), (3.5%, 4.4%), (7.8%, 9.8%), (0.7%, 1.4%), (1.3%, 2.4%), (4.4%, 5.3%), (4.8%, 6.8%). 而在背景干扰 (BC) 的跟踪情景下所提算法的性能与基准算法相近. 从上面的分析可以看出, 本文所提的算法在很大程度上较为全面地提升了基准算法的性能, 即在面对复杂的跟踪情景时本文所提出的异步相关模型带来了更好的跟踪性能. 选择不同的 $ {\rm m} $ 可能会带来不同的性能表现, 通过选择合适的 $ {\rm m} $ , 本文所提出的算法具有一定的优化空间.

      分析算法性能提升的原因可以发现, 在性能提升较大的 10 种跟踪情景下, 所提的方法在面对这些挑战时相对于基准算法有着更强的鲁棒性. 这 10 种情景大多对应的是目标在被跟踪的过程中其外观所发生的几类变化, 而本文正是通过在线更新参与计算样本核的多个 AC 模块, 来部分地解决目标在跟踪过程中发生形变, 从而导致当前目标样本的语义信息与初始选定样本的语义信息发生较大的偏差的问题. 通过利用不同帧间的样本核映射策略, 本文所提的方法可以在这些复杂的情景下学习到更为鲁棒的判别性样本的核. 通过利用具有判别性的异步相关策略, 本文所提出的方法可以通过实时更新的方式将这些扰动对性能的影响降到最低, 同时, 多个异步相关模块加权的形式可以在很大程度上利用均值滤波的优势对干扰带来的噪声进行平滑. 进一步地, 异步相关模块的训练方式保证了样本的核在最大程度上不偏离初始选定目标的语义, 在提升对于形变和相同语义目标鲁棒性的同时, 保证了所跟踪目标的准确性, 从而保证了算法的性能.

      为进一步验证所加入的异步相关响应模型带给跟踪器的判别性, 本文在 OTB2015 中选择了具有复杂背景的 Board, Crowds, Girl2, 相似语义目标的 Bolt2, Jogging 等具有代表性的 6 个序列进行对比试验, 对应的实验结果如图6 所示.

      图  6  在OTB50的6 个序列上的实验结果. 其中Init Sampler 表示第一帧目标计算得到的 ${\rm k}_0$ , Current Sampler 表示当前帧目标计算得到的 ${\rm k}_t$ , Optim Sampler 表示对当前 ${\rm k}_t$ 进行优化后得到的 ${\rm k}_{\rm{t}} = \dfrac{1}{{\rm{m}}}\sum_{{\rm{i}}}^{{\rm{m}}}\Phi_{\rm{i}}({\rm{k}}_{\rm{t}})$

      Figure 6.  The response visualization on OTB50. Init Sampler denotes ${\rm k}_0$ , which is obtained in the first frame. Current Sampler denotes ${\rm k}_{\rm{t}}$ , which is calculated in the current frame. Optim Sampler denotes the ${\rm k}_{\rm{t}} = \dfrac{1}{{\rm{m}}}\sum_{{\rm{i}}}^{{\rm{m}}}\Phi_{\rm{i}}({\rm{k}}_{\rm{t}})$ , which is obtained after optimized discriminate model

      图6 可以看出, 对有相同语义信息的目标, Current Sampler 计算得到的结果较 Init Sampler 的结果有更准确的响应, 这是因为在加入了异步相关响应计算后, 由于不同帧之间的目标信息被充分利用, 因此, 对于具有相同语义信息的目标有很明显的抑制作用. 同时发现, 由于利用目标的语义信息对其相应的位置进行打分, 因此目标外观在跟踪的过程中发生多次变化后, 如图1 以及图6 所示, 采用 Current Sampler 计算得到的响应结果比在第一帧计算的结果有着更强的响应, 同时在进行多帧 AC 平均后, 得到的响应更为集中, 在应对相似语义背景以及目标形变上更为鲁棒.

    • 为进一步评估本文所提算法的性能与最先进算法在精确度以及鲁棒性方面的对比情况, 本文在 VOT2018 上对所提算法做了相应的对比实验, Bo Li 等指出 SiamRPN++ 在 VOT2018 上的性能要好于 DaSiamRPN, 因此为了让更多的跟踪器参与比较, 本文选用 DaSiamRPN 在 VOT2018 上的实验结果与本文所提的算法进行比较. 表5 所示为本文算法与前面提到的先进跟踪器在 3 种评估框架 baseline, unsupervised, realtime 下的性能对比结果. 由于 ATOM 未提供 VOT2018 下 unsupervised 和 realtime 下的实验结果, 因此与这些指标相关的值均设置为 0.

      表 5  VOT2018 上的实验结果

      Table 5.  Experimental results on VOT2018

      baseline unsupervised realtime
      A-R rank Failures EAO FPS AO FPS EAO
      KCF 0.4441 50.0994 0.1349 60.0053 0.2667 63.9847 0.1336
      SRDCF 0.4801 64.1136 0.1189 2.4624 0.2465 2.7379 0.0583
      ECO 0.4757 17.6628 0.2804 3.7056 0.402 4.5321 0.0775
      ATOM 0.5853 12.3591 0.4011 5.2061 0 NaN 0
      SiamFC 0.5002 34.0259 0.188 31.889 0.3445 35.2402 0.182
      DaSiamRPN 0.5779 17.6608 0.3826 58.854 0.4722 64.4143 0.3826
      SiamRPN(baseline) 0.5746 23.5694 0.2941 14.3760 0.4355 14.4187 0.0559
      baseline+AC 0.5825 27.0794 0.2710 13.7907 0.4431 13.8772 0.0539
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 3} $ 0.5789 14.8312 0.2865 13.6035 0.4537 13.4039 0.0536
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 6} $ 0.5722 22.6765 0.2992 13.5359 0.4430 12.4383 0.0531
      baseline+AC+ $ {\rm D}_{{\rm{KL}}}^{{\rm{m}} = 9} $ 0.5699 22.9148 0.2927 13.5046 0.4539 12.1159 0.0519

      其中, baseline 是指 VOT2018 中基于复位的监督实验[30]. 而 unsupervised 原理与 OTB 的评估策略一致, 即被评估的跟踪器仅用第一帧给定的目标信息来初始化跟踪器, 然后记录其在后续帧中的跟踪结果, 最后计算平均的跟踪重叠率 AO(average overlap). Kristan M 等认为, 这样的评估方式与 OTB 中的所使用的曲线下面积的方式是等价的. VOT2018 中的 realtime 实验部分用以评估跟踪器的实时性能, 限定跟踪器的响应时间, 如果跟踪器的未能实时地 (25 fps, 40 ms 每帧) 反馈跟踪结果, 则评测工具将采用上一帧的跟踪结果. A-R 是 Accuracy-Robustness 的简称, 其中 Accuracy 评估的是跟踪器在每一帧中的预测结果与实际状态的重叠率, Robustness 评估的则是每个序列的平均失败次数. VOT2018 通过利用跟踪器在序列上运行 15 次的结果求取对应的平均值. Failures 表示当重叠率低于某一阈值时视为失败时的统计结果. EAO(Expected Average Overlap) 是对每个跟踪器在一个短时图像序列上未发生重置的平均重叠率的期望值, 表示期望平均重叠率, 是 VOT 评价跟踪器跟踪效果的主要指标. 这个值越大, 表示跟踪器跟踪的精确度越高.

      表5可以看出, 本文所提的算法在三种评测方案中均要好于基准算法. 在baseline的AR-rank指标下, 本文所提的方法比基准算法提升了0.79%, 相比于基准算法的另一个改进算法 DaSiamRPN 提升了0.46%. 由此可见本文所提的方法比 DaSiamRPN 在该指标下对于基准算法有着更大的提升. 当 $ {\rm m} = 3 $ 时, 本文提出的方法在 baseline 的 Failures 指标下比起基准算法明显降低了8.7382, 对比于DaSiamRPN降低了2.8296. 由此可见本文所提出的方法可以显著降低跟踪过程中跟踪失败的机率.

      $ {\rm m} = 6 $ 时, 在baseline的EAO指标下, 本文所提的方法比基准算法提升了 0.51%.

      在与基准算法于baseline的FPS指标的对比中可以发现, 本文所提的方法对于速度的影响很小, 在最坏的情况下, 跟踪器的速度只降低了0.8714帧/秒.

      在 unsupervised(非监督) 的 AO 指标的对比下, 当 $ {\rm m} = 9 $ 时, 本文所提的方法比基准算法提升了 1.84%, 可见本文所提的异步相关模型可以有效地提升基准算法在非监督模式下的性能, 分析原因发现, 本文所提的方法在跟踪过程中实际上是一个弱监督的跟踪算法, 其监督信息由第一帧指定, 为此相比于基准算法和 SiamFC, 本文所提的方法在非监督的评估模式下具有较大的优势.

      在 realtime(实时性能) 对比上, 由于本文所提的算法采用了附加的模块, 同时实时性能的评估也受到了实验平台硬件性能的影响, 因此本文所提的算法在该指标下的性能整体上较基准算法要弱, 最好的情况下 EAO 性能比基准算法降低 0.2%. 在接下来的工作中本文将集中提升算法的实时跟踪性能.

      为了对表5 所示的结果有更直观的理解, 图7 所示为参与对比的不同跟踪器在 baseline 下的精度 - 鲁棒性 (AR) 以及跟踪失败率的对比情况.

      图  7  精度鲁棒性-跟踪失败情况对比图

      Figure 7.  Comparison of accuracy robustness and tracking faliure

      图7可以看出, 在精度鲁棒性对比图中, 当 $ {\rm m} = 3 $ 时所对应的精度鲁棒性是最高的, 要好于基准算法和 DaSiamRPN, 同时性能与 ATOM 几乎一致. 可以看出, 本文算法在只采用 AC 的情况下, 相应的精度较基准算法有所提高, 但是鲁棒性则较基准算法有所下降, 分析原因后发现这是因为单一的 AC 可能会带来未知的噪声, 而在使用了多个 AC 的情况下, 由于利用了不同帧间的目标信息, 不同 AC 模块之间的噪声可以通过均值滤波的方式进行抑制. 在 AC 内部噪声被抑制的同时, 多个异步相关模块的引入也带来了对于目标在多种状态 (包括形状, 色彩等) 的鲁棒性, 这使得跟踪器具有了目标在不同时间维度上的信息, 在利用这些信息处理接下来的目标帧时, 跟踪器可以充分利用前几帧的目标信息来计算当前帧目标的响应. 由于本文采用的是 $ {\rm D}_{KL} $ 的策略, 因此, 这里的前几帧不一定是前面连续的几帧, 更有可能是在历史的多帧中选取 AC 差异最大的几帧. 通过利用这些不同时刻目标差异信息来增强跟踪器对于目标各种变化的鲁棒性, 使得算法可以在精度与鲁棒性上都表现的较好, 这一结果是与理论预期是相符合的. 同时由于采用多个 AC 模块做均值的方式, 也可以对跟踪过程中的噪声起到均值滤波的效果, 从而提升跟踪性能.

      图8所示为不同的跟踪器在VOT2018序列的不同情景下精度鲁棒性对比情况, 包含光照变化 (illumination change), 相机运动 (camera motion), 运动变化 (motion change), 遮挡 (occlusion), 尺度变化 (size change) 以及不属于上述五种情景的其他情景 (tag empty) 时的精度鲁棒性对比, 这些情景与OTB2013中的类似, 不同的是 OTB 中包含11种情景, 这里包含6种.

      图  8  在VOT2018序列的不同情景下精度鲁棒性对比情况

      Figure 8.  Comparison of accuracy robustness performance under different attributes on VOT2018

      图8 可以看出, 当 $ {\rm m} = 3 $ 时, 跟踪器在相机运动, 光照变化, 运动变化, 遮挡, 以及尺度变化5个方面的精度与鲁棒性上要优于基准算法. 在相机运动的情景下, 本文所提算法的精度达到了与第一名的算法ATOM相近的性能, 鲁棒性也要好于ECO, 仅次于ATOM. 在鲁棒性和精度方面均好于 DaSiamRPN. 在尺度变换, 遮挡, 运动变化, 光照变化4个方面的情景下, 本文所提的算法在鲁棒性上达到了第一名的成绩, 不仅远好于基准算法, 同时比最新的ATOM, DaSiamRPN等跟踪器都有更好的性能表现. 在尺度变换的精确度指标下, 本文所提的算法与基准算法的准确度基本保持一致, 这与理论预期一致, 即本文所提到的算法并未针对目标的尺度做特异性的优化. 因此本文所提的算法在不损失算法精确度的情况下, 提升了算法在应对尺度变换时的鲁棒性. 这说明本文所提出的异步相关模块并不会降低算法处理目标多尺度时的性能.

      在运动变换的情景下, 本文所提算法的精确度与第一名的算法 ATOM 基本保持一致, 同时高于其他算法. 分析原因发现, 运动变化使得被跟踪的目标在运动的过程中发生较大的形变, 这种形变随着时间的推移, 使得当前的目标与第一帧选定的目标在外观上发生了很大的变化, 如果此时依然使用第一帧样本计算得到的核进行跟踪, 其性能就不如使用当前发生形变的目标样本计算得到的核进行跟踪, 这一实验结果验证了在目标长时间发生形变后, 本文所提的算法可以有效地提升跟踪的性能.

      在其他的跟踪情景 (tag empty) 下, 本文所提的算法在精确度与鲁棒性上与基准算法基本保持一致 (基本重合), 同时与DaSiamRPN以及第一名的ATOM差距不大. 在光照变化的情景下, 本文所提的算法在鲁棒性和精度性能上高于基准算法和DaSiamRPN, 分析其原因依然是光照变化导致被跟踪的目标发生了剧烈的外观变化, 而本文所提的算法则在解决这些外观变化方面具备一定的优势.

      在应对遮挡的情景时, 本文所提的算法在精度以及鲁棒性上均与第一名的ATOM保持一致, 同时在鲁棒性上高于基准算法与DaSiamRPN, 这一现象的原因可以归结为多个AC模块的引入, 利用第一帧选定的未被遮挡的目标作为监督, 在线更新当前采样得到的目标样本, 从而使其在兼顾多帧目标和遮挡语义的同时, 也能保持与初始选定的目标相近的语义信息, 保证了跟踪的性能.

      由前面的分析可知, 所提的方法可以在不同的跟踪情景下有效地提升基准算法的性能, 同时在多个情景下, 本文所提的方法都能够达到最好的性能. 图9 所示为在baseline下各个跟踪器的期望重叠率得分的对比情况的进一步分析, 该分析包括随着序列长度的变化期望重叠率的变化情况, 以及不同跟踪器的期望重叠率性能的排名情况.

      图  9  在VOT2018的baseline下的EOA对比曲线

      Figure 9.  Comparison of expected overlap performance on VOT2018

      图9可以看出, 所有参与对比跟踪器的期望平均重叠率随着跟踪序列长度的增加在逐渐下降, 这是因为跟踪器在长时序列中会由于跟踪结果的不精确造成一定的跟踪误差, 序列的长度越长, 这样的误差累积的就越多, 从而导致参与对比的所有跟踪器在越长序列中的平均性能表现就越差. 由图9所示的实验结果可以看出, 基于相关滤波的KCF和SRDCF在序列长度增加到200帧后, 其对应的期望重叠率性能便低于0.2, 这说明KCF和SRDCF的跟踪性能对于序列的长度更为敏感. SiamFC 在序列长度超过200帧时性能同样出现了较为明显的下降, 对应的EAO只有0.2. 这一指标下性能最好的是ATOM和 DaSiamRPN. 本文所提出的算法在 $ {\rm m} = 6 $ 时比基准算法有较大的提升, 不过出于对算法性能评估的公平性, 本文在所有的评估中都采用同一套参数.

      通过分析图9可以发现, 序列越长的评估方式对于跟踪器性能的要求越高, 评估得到的结果也就更为准确. 因此, 在其他条件相同的情况下, 较长的序列更能对跟踪器进行全面的评价. 比起基准算法, 本文所提的方法在期望重叠率上的性能有着明显的增加, 当 $ {\rm m} = 6 $ 时取得最高的性能, 相对于基准算法提升了0.51%. 在只采用 AC 的情况下, 跟踪器的性能是最差的, 分析原因发现这是由于只使用一个AC模块进行评估时, 随着序列长度的逐渐增加, 由于其鲁棒性较差且缺少对于跟踪误差的均值平滑策略, 因此其性能下降的速率也是最快的. 相比之下, 采用了多个异步互相关模块的算法在序列增加时由于有着更强的鲁棒性, 因此其性能的下降速率也是相对较慢的. 这一趋势和在Got-10k上的结果略有不同, 可见不同的数据集测试时其对于跟踪器性能要求的侧重是不同的. 在下面的排名中, 本文的改进算法仅次于ATOM和DaSiamRPN, 并高于基准算法, 位于第三名.

      VOT的非监督模式可以评估跟踪器在非监督模式下的跟踪性能, 其对于性能的衡量方式与OTB相似, 该评估策略更符合实际的跟踪情景. 本文在VOT2018的非监督实验模式下与基准算法以及其他最新的跟踪器做了对比实验, 得到非监督模式下的期望重叠率对比曲线如图10所示.

      图  10  在VOT2018的unsupervised下的EOA对比曲线

      Figure 10.  EOA comparison curve of unsupervisized training on VOT2018

      图10可以看出, 本文所提出的算法在非监督模式下的4个情景上对基准算法有明显的提升, 这一结论和前面对于表5所示实验结果的分析一致, 尤其是在其他 (empty) 的情景下, 本文的算法在 $ {\rm m} = 3 $ 时的性能与第一名的 DaSiamRPN 保持一致, 同时高于基准算法. 当 $ {\rm m} = 9 $ 时, 本文所提的算法在所有的6种情况下的性能都要好于基准算法, 同时在光照变化的情景下要好于DaSiamRPN. 在所有的7种情况下, 本文所提的算法均要好于OTB中第一名的算法ECO. 不同的 $ {\rm m} $ 取值对于跟踪器性能的影响也不同, 当 $ {\rm m} = 9 $ 时, 跟踪器在所有的 6 种情景下表现都是最好的, 在整体对比环节, $ {\rm m} = 9 $ 时也有着更好的性能. 同时, 与最先进的单目标跟踪器相比, 本文提出的算法也具有较强的竞争力. 由于ATOM未给出在非监督模式下的评测结果, 因此这里显示的都为0.

      从上面的实验结果可以看出, 比起基准算法, 本文所提出的方法在跟踪精度以及跟踪的鲁棒性方面都有很大的提升, 在 VOT2018 的实时性能对比实验中, 得到的期望平均重叠率曲线如图11 所示.

      图  11  在VOT2018的realtime下的EOA对比曲线

      Figure 11.  EOA comparison curve in realtime on VOT2018

      图11可以看出, 随着视频序列长度的增加, 跟踪器的平均期望重叠率普遍出现了下降, 这与其在baseline下期望重叠率评估实验中的结果保持一致. 同时由图11 可以看出, 本文所提的算法与基准算法的实时性能相比较差, 分析原因发现, 实时性能主要依赖于跟踪器在计算上的复杂度, 以及硬件平台的计算性能. 这一指标对于评估平台 (CPU, GPU, 内存, 硬盘等) 的硬件性能要求较高. 同时正如前面所分析的, 对比于在同等评估平台下评估的基准算法, 本文所提出的改进算法由于使用了异步互相关模型, 因此增加了额外的计算开销, 因而其实时性能较基准算法差, 但是损失的实时性能要远小于跟踪精度与鲁棒性的提升, 可以通过引入一个更高性能硬件平台来解决. 相反, 跟踪的精度和鲁棒性在此时变得比较重要.

      为更加直观地看出本文所提算法与其他算法在实时性能上的对比情况, 本文将不同跟踪器在实时性能上的期望重叠率排名情况进行可视化如图12所示.

      图  12  在VOT2018的实时性能对比下不同跟踪器的期望重叠率性能排名情况对比

      Figure 12.  Ranking of different trackers' expected overlap ratio in real time on VOT2018

      图12 可以看出, 本文所提的算法在实时性能上是较弱的, 随着 $ {\rm m} $ 的增加, 跟踪器的实时性能越差, 但是在平均期望重叠率的性能表现上与基准算法的差别不大. 这样的实验结果与理论预期相符, 即 $ {\rm m} $ 越大, 就会有越多的异步相关模型被引入, 这会导致需要优化的参数增多, 降低了算法的处理速度. 虽然所提算法在实时性能上有所牺牲, 但是正如前面讨论的那样, 该指标下的跟踪精度损失很小, 同时, 本文的算法在监督实验, 非监督实验上的性能都要普遍优于基准算法.

    • 针对基于孪生网络的单目标跟踪器在面对相似语义目标时会发生跟踪失败的情况, 本文提出了一种异步相关的判别性学习模型, 在Got-10k, TC128, OTB以及VOT2018上的实验结果表明, 本文提出的算法可以显著地提升跟踪器的鲁棒性以及跟踪精度. 在 Got-10k 上的消融实验表明, 本文所提出的异步相关判别模型, 二阶优化方法, 以及基于KL散度的多模型融合管理算法可以有效地提升跟踪性能, 并在 TC128 上对这一结果做了进一步地验证. 在OTB上对跟踪器在不同跟踪条件下的跟踪性能做了对比实验, 发现所提出的算法可以有效地改善基准算法在11种跟踪情景下的性能, 并在Got-10k中的几个序列上进行了实验结果的可视化以验证所提方法为基准算法带来的判别性, 同时在OTB上对这一判别性进行了研究, 对其进行了进一步的验证. 本文在VOT2018中对所提算法的精度 - 鲁棒性做了研究, 验证了所提方法可以有效地提升基准算法的精度和鲁棒性, 本文的算法由于引入了异步相关模型, 在实时性能上要弱于基准算法, 但是依然能够保持与基准算法相近的精度表现. 实验发现, 不同的异步相关判别模块对于性能影响是不同的, 但它们之间的差距较小. 在未来的工作中, 本文将探究一种自适应使用异步相关模型个数的方法, 以增强跟踪器的泛化性能.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回