朱煜 赵江坤 王逸宁 郑兵兵

国家自然科学基金 61370174, 61271349

中央高校基本科研业务费专项资金资助 WH1214015


    赵江坤 华东理工大学信息科学与工程学院硕士研究生. 主要研究方向为智能视频分析与模式识别. E-mail: zhaojk90@gmail.com

    王逸宁 华东理工大学信息科学与工程学院硕士研究生. 主要研究方向为智能视频分析与模式识别. E-mail: wyn885@126.com

    郑兵兵 华东理工大学信息科学与工程学院硕士研究生. 主要研究方向为智能视频分析与模式识别. E-mail: 13162233697@163.com


    朱煜华 东理工大学信息科学与工程学院教授. 1999年获得南京理工大学博士学位. 主要研究方向为智能视频分析与理解, 模式识别方法, 数字图像处理方法及应用. 本文通信作者. E-mail: zhuyu@ecust.edu.cn

A Review of Human Action Recognition Based on Deep Learning


National Natural Science Foundation of China 61370174, 61271349

and the Fundamental Research Funds for the Central Universities WH1214015

    Author Bio:

    ZHAO Jiang-Kun Master student at the School of Information Science and Engineering, East China University of Science and Technology. His research interest covers intelligent video analysis and pattern recognition

    WANG Yi-Ning Master student at the School of Information Science and Engineering, East China University of Science and Technology. His research interest covers intelligent video analysis and pattern recognition

    ZHENG Bing-Bing Master student at the School of Information Science and Engineering, East China University of Science and Technology. His research interest covers intelligent video analysis and pattern recognition

    Corresponding author: ZHU Yu Professor in the School of Information Science and Engineering, East China University of Science and Technology. She received her Ph. D. degree from Nanjing University of Science and Technology, China in 1999. Her research interest covers intelligent video analysis and understanding, pattern recognition, digital image processing methods and applications. Corresponding author of this paper
  • 摘要: 人体行为识别和深度学习理论是智能视频分析领域的研究热点, 近年来得到了学术界及工程界的广泛重视, 是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础. 近年来, 被广泛关注的深度学习算法已经被成功运用于语音识别、图形识别等各个领域.深度学习理论在静态图像特征提取上取得了卓著成就, 并逐步推广至具有时间序列的视频行为识别研究中. 本文在回顾了基于时空兴趣点等传统行为识别方法的基础上, 对近年来提出的基于不同深度学习框架的人体行为识别新进展进行了逐一介绍和总结分析; 包括卷积神经网络(Convolution neural network, CNN)、独立子空间分析(Independent subspace analysis, ISA)、限制玻尔兹曼机(Restricted Boltzmann machine, RBM)以及递归神经网络(Recurrent neural network, RNN)及其在行为识别中的模型建立, 对模型性能、成果进展及各类方法的优缺点进行了分析和总结.
  • 图  1  动作识别原理框图

    Fig.  1  The °owchart of action recognition

    图  2  Weizman 数据库部分动作示例

    Fig.  2  Examples of Weizman database

    图  3  KTH 数据库部分动作示例

    Fig.  3  Examples of KTH database

    图  4  UCF Sports 数据库部分动作示例

    Fig.  4  Examples of UCF Sports database

    图  5  Hollywood 数据库部分动作示例

    Fig.  5  Examples of Hollywood database

    图  6  基于光流法的运动信息表征方法

    Fig.  6  Movement information representation method based on optical °ow method

    图  7  3D 梯度方向直方图获得过程

    Fig.  7  HOG3D descriptor

    图  8  3DCNN 结构图

    Fig.  8  The structure of 3DCNN

    图  9  多分辨率卷积神经网络结构图

    Fig.  9  The structure of multiresolution convolution neural network

    图  10  AutoEncoder 结构图

    Fig.  10  The structure of AutoEncoder

    图  11  ISA-3D 结构图

    Fig.  11  The structure of ISA-3D

    图  12  RNN 结构图

    Fig.  12  The structure of RNN

    图  13  LSTM 单元

    Fig.  13  The unit of LSTM

    表  1  基于几何形状或基于运动信息的识别结果(%)

    Table  1  The results of recognition methods based on geometric shapes or motion information (%)

    Fujiyoshi 等[1] Chaudhry 等[2]
    Weizman -100
    表  2  基于时空兴趣点的特征提取方法在KTH、UCF Sports 及Hollywood 数据库上的结果(%)

    Table  2  The results of methods based on the interest of time and space on the KTH, UCF Sports and Hollywood databases (%)

    Harris 3D[5] 89/80/44 92/78/45 81/71/33 92/75/43 - -
    Cuboids[6] 90/83/46 89/78/46 82/73/39 88/77/43 89/77/45 -
    Hessian[8] 85/79/41 89/79/46 78/66/36 89/75/43 - 81/77/38
    Dense[11] 85/86/45 86/82/47 79/77/39 88/83/46 - -
    表  3  基于CNN 的行为识别算法结果(%)

    Table  3  The results of action recognition based on CNN (%)

    KTH UCF101
    Ji 等[29]90.2 -
    Simonyan 等[33] -88
    表  4  ISA 在三个数据库上的结果统计(%)

    Table  4  The results of ISA on three databases (%)

    KTH UCF Sports Hollyword 2
    Le 等[36]93.986.553.3
图(13) / 表(4)
  • 收稿日期:  2015-10-31
  • 录用日期:  2016-04-18
