张冰冰 葛疏雨 王旗龙 李培华

张冰冰, 葛疏雨, 王旗龙, 李培华.基于多阶信息融合的行为识别方法研究.自动化学报, 2021, 47(3): 609-619 doi: 10.16383/j.aas.c180265
ZHANG Bing-Bing, Ge Shu-Yu, WANG Qi-Long, LI Pei-Hua. Multi-order Information Fusion Method for Human Action Recognition. Acta Automatica Sinica, 2021, 47(3): 609-619 doi: 10.16383/j.aas.c180265
doi: 10.16383/j.aas.c180265

国家自然科学基金 61971086

国家自然科学基金 61806140

国家自然科学基金 61471082


    张冰冰  大连理工大学信息与通信工程学院博士研究生. 2016年获长春工业大学硕士学位. 主要研究方向为人体行为识别, 图像分类, 深度学习. E-mail: icyzhang@mail.dlut.edu.cn

    葛疏雨  大连理工大学信息与通信工程学院硕士研究生. 2016年获大连理工大学通信工程专业学士学位. 主要研究方向为图像分类, 人体行为识别, 深度学习. E-mail: gsy@mail.dlut.edu.cn

    王旗龙  博士, 天津大学智能与计算学部副教授. 主要研究方向为图像建模, 视觉数据分类, 深度学习. E-mail: qlwang@mail.dlut.edu.cn


    李培华  博士, 大连理工大学信息与通信工程学院教授. 主要研究方向为基于信息几何的图像分类与检索. 本文通信作者. E-mail: peihuali@dlut.edu.cn

Multi-order Information Fusion Method for Human Action Recognition


National Natural Science Foundation of China 61971086

National Natural Science Foundation of China 61806140

National Natural Science Foundation of China 61471082

    Author Bio:

    ZHANG Bing-Bing  Ph. D. candidate at the School of Information and Communication Engineering, Dalian University of Technology. She received her master degree from Changchun University of Technology in 2016. Her research interest covers human action recognition, image classiflcation, and deep learning

    GE Shu-Yu  Master student at the School of Information and Communication Engineering, Dalian University of Technology. He received his bachelor degree from Dalian University of Technology in 2016. His research interest covers image classiflcation, human action recognition, and deep learning

    WANG Qi-Long  Ph. D., associate professor at the College of Intelligence and Computing, Tianjin University. His research interest covers image modeling, visual classiflcation, and deep learning

    Corresponding author: LI Pei-Hua  Ph. D., professor at the School of Information and Communication Engineering, Dalian University of Technology. His research interest covers image classiflcation and search using theoretical and computational methods of information geometry. Corresponding author of this paper
  • 摘要: 双流卷积神经网络能够获取视频局部空间和时间特征的一阶统计信息, 测试阶段将多个视频局部特征的分类器分数平均作为最终的预测. 但是, 一阶统计信息不能充分建模空间和时间特征分布, 测试阶段也未考虑使用多个视频局部特征之间的更高阶统计信息. 针对这两个问题, 本文提出一种基于二阶聚合的视频多阶信息融合方法. 首先, 通过建立二阶双流模型得到视频局部特征的二阶统计信息, 与一阶统计信息形成多阶信息. 其次, 将基于多阶信息的视频局部特征分别进行二阶聚合, 形成高阶视频全局表达. 最后, 采用两种策略融合该表达. 实验表明, 本文方法能够有效提高行为识别精度, 在HMDB51和UCF101数据集上的识别准确率比双流卷积神经网络分别提升了8 % 和2.1 %, 融合改进的密集点轨迹(Improved dense trajectory, IDT) 特征之后, 其性能进一步提升.
  • 图  1  基于二阶聚合的多阶信息融合方法流程图

    Fig.  1  The flow chart of multi-order information fusion based on second-order aggregation

    图  2  视频局部特征z进行压缩双线性池化操作流程图

    Fig.  2  The flow chart of compact bilinear pooling of one local video feature z

    图  3  表达级融合过程示意图

    Fig.  3  Fusion at the representation level

    图  4  分类器分数级融合过程示意图

    Fig.  4  Fusion at the classifier score level

    图  5  HMDB51上对视频序列中均匀采样帧数目$N$的评估

    Fig.  5  Evaluation of the number $N$ of the frames uniformly sampled from the video on HMDB51

    图  6  HMDB51和UCF101数据集在不同视频全局表达维度d下对表达级融合策略和分类器分数级融合策略的评估

    Fig.  6  Evaluation of representation level fusion strategy and class score level fusion strategy under the difierent dimension of the video representation on HMDB51 and UCF101 dataset

    表  1  一阶、二阶空间和时间流网络在UCF101和HMDB51上准确率的比较

    Table  1  Comparisons of first-order spatial and temporal network with second-order spatial and temporal network on UCF101 and HMDB51

    模型 网络类型 UCF101 (%) HMDB51 (%)
    ResNet-50[9] 一阶空间 $ 82.30 $ $ 48.90 $
    iSQRT-COV-ResNet-50-2K 二阶空间 $ {\bf 85.29} $ $ {\bf 49.65} $
    ResNet-50[9] 一阶时间 $ 87.00 $ $ 55.80 $
    iSQRT-COV-ResNet-50-2K 二阶时间 $ {\bf 88.07} $ $ {\bf 57.64} $
    表  2  UCF101和HMDB51上多阶信息融合有效性评估

    Table  2  Evaluation of the efiectiveness of multi-order information fusion on UCF101 and HMDB51

    一阶空间流 一阶时间流 二阶空间流 二阶时间流 UCF101 (%) HMDB51 (%)
    91.70 61.20
    92.90 65.17
    91.34 61.63
    92.67 63.50
    92.50 65.18
    92.96 66.14
    91.78 60.60
    91.12 58.71
    92.75 64.74
    表  3  UCF101和HMDB51上基于二阶聚合的视频不同多阶信息融合评估

    Table  3  Evaluation of fusing difierent multi-order information of the video based on second-order aggregation on UCF101 and HMDB51

    一阶空间信息 一阶时间信息 二阶空间信息 二阶时间信息 UCF101 (%) HMDB51 (%)
    89.28 64.24
    87.57 59.56
    92.58 65.93
    92.07 64.10
    92.68 68.02
    92.60 67.45
    88.64 61.44
    92.55 64.88
    92.98 68.15
    表  4  不同融合方法测试时间比较

    Table  4  Test speed comparison of different fusion methods

    方法 测试方式 时间(s/视频)
    一阶双流网络融合(基线)[9] 10-crop 9.670
    二阶双流网络融合 10-crop 10.459
    一阶+二阶双流网络融合 10-crop 20.129
    多阶信息二阶聚合 1-crop 6.412
    表  5  基于双流卷积神经网络架构的行为识别方法比较

    Table  5  Comparison of difierent human action recognition arthogram based on two-stream convolutional network

    方法 网络架构 UCF101 (%) HMDB51 (%)
    Two-stream[6] VGG-M $88.0$ $59.4$
    Two-stream 3D卷积+ 3D池化[7] VGG-16 $92.5$ $66.4$
    Two-stream[9] ResNet-50 $91.7$ $61.2$
    ST-ResNet*[8] ResNet-50 $93.4$ $66.4$
    ST-multiplier network[9] ResNet-50 (空间), ResNet-152 (时间) $94.2$ $68.9$
    Two-Stream fusion + IDT[7] VGG-16 $93.5$ $69.2$
    ST-ResNet + IDT[8] ResNet-50 $94.6$ $70.3$
    ST-multiplier + IDT[9] ResNet-50 (空间), ResNet-152 (时间) $94.9$ $72.2$
    本文方法 ResNet-50 93.8 69.2
    本文方法+联合训练[8] ResNet-50 94.1 70.7
    本文方法+ IDT ResNet-50 94.6 74.4
