管皓 薛向阳 安志勇

管皓, 薛向阳, 安志勇. 深度学习在视频目标跟踪中的应用进展与展望. 自动化学报, 2016, 42(6): 834-847. doi: 10.16383/j.aas.2016.c150705
GUAN Hao, XUE Xiang-Yang, AN Zhi-Yong. Advances on Application of Deep Learning for Video Object Tracking. ACTA AUTOMATICA SINICA, 2016, 42(6): 834-847. doi: 10.16383/j.aas.2016.c150705
doi: 10.16383/j.aas.2016.c150705

国家自然科学基金 61572138

上海市科技创新行动计划项目资助 15511104402


    薛向阳 复旦大学计算机科学技术学院教授. 主要研究方向为视频大数据分析, 计算机视觉, 深度学习. E-mail: xyxue@fudan.edu.cn

    安志勇 复旦大学计算机科学技术学院博士后. 2008年获得西安电子科技大学博士学位. 主要研究方向为图像与视频内容分析、检索. E-mail: azytyut@163.com


    管皓 复旦大学计算机科学技术学院博士研究生. 主要研究方向为多媒体内容分析, 深度学习. 本文通信作者. E-mail: guanh13@fudan.edu.cn

Advances on Application of Deep Learning for Video Object Tracking


National Natural Science Foundation of China 61572138

and Science and Technology Commission of Shanghai Municipality 15511104402

More Information
    Author Bio:

    XUE Xiang-Yang Professor at the School of Computer Science, Fudan University. His research interest covers big video data analysis, computer vision, and deep learning

    AN Zhi-Yong Postdoctor at the School of Computer Science, Fudan University. He received his Ph. D. degree from Xidian University in 2008. His research interest covers image and video content analysis and retrieval

    Corresponding author: GUAN Hao Ph. D. candidate at the School of Computer Science, Fudan University. His research interest covers video analysis and deep learning. Corresponding author of this paper
  • 摘要: 视频目标跟踪是计算机视觉的重要研究课题, 在视频监控、机器人、人机交互等方面具有广泛应用. 大数据时代的到来及深度学习方法的出现, 为视频目标跟踪的研究提供了新的契机. 本文首先阐述了视频目标跟踪的基本研究框架. 对新时期视频目标跟踪研究的特点与趋势进行了分析, 介绍了国际上新兴的数据平台、评测方法. 重点介绍了目前发展迅猛的深度学习方法, 包括堆叠自编码器、卷积神经网络等在视频目标跟踪中的最新具体应用情况并进行了深入分析与总结. 最后对深度学习方法在视频目标跟踪中的未来应用与发展方向进行了展望.
  • 图  1  视频目标跟踪系统框架

    Fig.  1  The framework of video object tracking

    图  2  产生式外观模型

    Fig.  2  The generative appearance model

    图  3  判别式外观模型

    Fig.  3  The discriminative appearance model

    图  4  多媒体内容识别的框架

    Fig.  4  The framework of recognition in multimedia

    图  5  深度学习的基本模型

    Fig.  5  The basic models of deep learning

    图  6  自编码器示意图

    Fig.  6  The illustration of autoencoder

    图  7  去噪自编码器示意图

    Fig.  7  The illustration of denoise autoencoder

    图  8  用于跟踪的去噪自编码器架构[65]

    Fig.  8  Denoise autoencoder for video tracking[65]

    图  9  卷积神经网络的基本架构示意[60, 73]

    Fig.  9  The illustration of convolutional neural network[60, 73]

    图  10  基于卷积网络的跟踪算法与其他方法的对比实验[81](FCNT 为基于卷积网络的跟踪器, DLT 为基于堆叠自编码器的跟踪器[65].)

    Fig.  10  Comparison of CNN-based tracking method and other trackers[81] (FCNT is a CNN-based tracker and DLT is an autoencoder-based tracker[65].)

