2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

多聚点子空间下的时空信息融合及其在行为识别中的应用

杨天金 侯振杰 李兴 梁久祯 宦娟 郑纪翔

杨天金, 侯振杰, 李兴, 梁久祯, 宦娟, 郑纪翔. 多聚点子空间下的时空信息融合及其在行为识别中的应用. 自动化学报, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327
引用本文: 杨天金, 侯振杰, 李兴, 梁久祯, 宦娟, 郑纪翔. 多聚点子空间下的时空信息融合及其在行为识别中的应用. 自动化学报, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327
Yang Tian-Jin, Hou Zhen-Jie, Li Xing, Liang Jiu-Zhen, Huan Juan, Zheng Ji-Xiang. Recognizing action using multi-center subspace learning-based spatial-temporal information fusion. Acta Automatica Sinica, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327
Citation: Yang Tian-Jin, Hou Zhen-Jie, Li Xing, Liang Jiu-Zhen, Huan Juan, Zheng Ji-Xiang. Recognizing action using multi-center subspace learning-based spatial-temporal information fusion. Acta Automatica Sinica, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327

多聚点子空间下的时空信息融合及其在行为识别中的应用


DOI: 10.16383/j.aas.c190327
详细信息
    作者简介:

    常州大学信息科学与工程学院研究生硕士. 主要研究方向为包括行为识别,机器学习.E-mail: yangtianjin128@163.com

    常州大学信息科学与工程学院教授,2015年获内蒙古农业大学机械专业博士学位,主要研究兴趣包括行为识别,机器学习. 本文通讯作者E-mail: houzj@cczu.edu.cn

    常州大学信息科学与工程学院研究生硕士,主要研究兴趣包括行为识别,机器学习.E-mail: lixing03201012@163.com

    常州大学信息科学与工程学院教授,2001年获北京航空航天大学计算机软件与理论工学博士,主要研究兴趣机器学习.E-mail: jzliang@cczu.edu.cn

    常州大学信息科学与工程学院副教授,2019年获江苏大学农业电气化与自动化专业博士学位,她的研究兴趣是信息智能处理.E-mail: huanjuan@cczu.edu.cn

    常州大学信息科学与工程学院计算机科学与技术学生.E-mail: zjx991031@163.com

  • 基金项目:  国家自然科学基金项目(61803050,61063021)资助, 江苏省物联网移动互联技术工程重点实验室开放课题项目(JSWLW-2017-013), 浙江省公益技术研究社会发展项目(2017C33223)

Recognizing Action Using Multi-center Subspace Learning-based Spatial-temporal Information Fusion

More Information
  • Fund Project:  Supported by National Natural Science Foundation of China (61803050,61063021), Jiangsu Province Networking and Mobile Internet Technology Engineering Key Laboratory Open Research Fund Project (JSWLW-2017-013), Zhejiang Public Welfare Technology Research Social Development Project(2017C33223)
  • 摘要: 基于深度图序列的人体行为识别, 一般通过提取特征图来提高识别精度, 但这类特征图通常存在时序信息缺失的问题. 针对上述问题, 本文提出了一种新的深度图序列表示方式, 即深度时空图(Depth Space Time Maps, DSTM), 该算法降低了特征图的冗余度, 弥补了时序信息缺失的问题. 本文通过融合空间信息占优的Depth Motion Maps (DMM) 与时序信息占优的DSTM, 进行高精度的人体行为研究. 提出了一种名为多聚点子空间学习Multi-Center Subspace Learning (MCSL)的多模态数据融合算法. 该算法为各类别数据构建了多个投影聚点,以此增大了样本的类间距离, 降低了投影目标区域维度. 本文在MSR-Action3D深度数据集和UTD-MHAD深度数据集上进行人体行为识别最后实验结果表明, 本文方法相较于现有人体行为识别方法有着较高的识别率.
  • 图  1  DSTM流程图

    Fig.  1  DSTM flowchart

    图  2  单聚点子空间学习

    Fig.  2  Subspace learning

    图  3  多聚点子空间学习

    Fig.  3  Multi-center subspace learning

    图  4  正反高抛动作

    Fig.  4  Positive and negative high throwing action

    图  5  参数选择

    Fig.  5  The parameter of selection

    图  6  DSTM在不同分类器识别效果

    Fig.  6  DSTM recognition of different classifiers

    表  1  MSR数据库中的人体行为

    Table  1  Human Actions in MSR

    动作 样本数 动作 样本数
    高挥手(A01) 27 双手挥(A11) 30
    水平挥手(A02) 26 侧边拳击(A12) 30
    锤(A03) 27 弯曲(A13) 27
    手抓(A04) 25 向前踢(A14) 29
    打拳(A05 26 侧踢(A15) 20
    高抛(A06) 26 慢跑(A16) 30
    画叉(A07) 27 网球挥拍(A17) 30
    画勾(A08) 30 发网球(A18) 30
    画圆(A09) 30 高尔夫挥杆(A19) 30
    拍手(A10) 30 捡起扔(A20) 27
    下载: 导出CSV

    表  2  MSR数据库中的人体行为

    Table  2  Human Actions in MSR

    动作 样本数 动作 样本数
    向左滑动(B01) 32 手臂卷曲(B16) 32
    向右滑动(B02) 32 挥网球(B15) 32
    挥手(B03) 32 网球发球(B17) 32
    鼓掌(B04) 32 推(B18)) 32
    扔(B05) 32 敲(B19) 32
    双手交叉(B06) 32 抓(B20) 32
    拍篮球(B07) 32 捡起扔(B21) 32
    画叉(B08) 31 慢跑(B22) 31
    画圆(B09) 32 走(B23) 32
    持续画圆(B10) 32 坐下(B24) 32
    画三角(B11) 32 站起来(B25) 32
    打保龄球(B12) 32 弓步(B26) 32
    冲拳(B13) 32 蹲(B27) 32
    挥羽毛球(B14) 32
    下载: 导出CSV

    表  3  MSR数据库中的人体行为

    Table  3  Human Actions in MSR

    AS1 AS2 AS3
    A02 A01 A06
    A03 A04 A14
    A05 A07 A15
    A06 A08 A16
    A10 A09 A17
    A13 A11 A18
    A18 A14 A19
    A20 A12 A20
    下载: 导出CSV

    表  4  MSR数据库上不同特征的识别率

    Table  4  Different of feature action recognition on MSR

    method Test One Test Two Test Three
    AS1 AS2 AS3 avg AS1 AS2 AS3 avg AS1 AS2 AS3 avg
    MEI-HOG 69.79 77.63 79.72 75.71 84.00 89.58 93.24 88.94 86.95 86.95 95.45 89.78
    MEI-LBP 57.05 56.58 64.19 59.27 66.66 69.79 78.37 71.61 69.56 73.91 77.27 73.58
    DSTM-HOG 83.22 71.71 87.83 80.92 94.66 84.37 88.23 89.80 91.30 82.61 95.95 89.95
    DSTM-LBP 84.56 71.71 87.83 81.37 88.00 82.29 95.94 88.74 86.96 82.61 95.45 88.34
    MHI-HOG 69.79 72.36 70.95 71.03 88.00 84.37 89.19 87.19 95.65 82.60 95.45 91.23
    MHI-LBP 51.67 60.52 54.05 55.41 73.33 70.83 78.37 74.18 82.60 65.21 72.72 73.51
    DMM-HOG 88.00 87.78 87.16 87.65 94.66 87.78 100.00 94.15 100.00 88.23 95.45 94.56
    DMM-LBP 89.52 87.78 93.20 90.17 93.11 85.19 100.00 92.77 94.03 88.98 92.38 91.80
    下载: 导出CSV

    表  5  UTD数据库上不同特征的识别率

    Table  5  Different of feature action recognition on UTD

    method Test One Test Two Test Three
    MEI-HOG 69.51 65.42 68.20
    MEI-LBP 45.12 51.97 52.61
    DSTM-HOG 71.08 80.28 89.54
    DSTM-LBP 68.81 80.97 86.06
    MHI-HOG 56.44 66.58 73.14
    MHI-LBP 49.82 53.82 57.40
    DMM-HOG 78.39 75.40 87.94
    DMM-LBP 68.98 74.94 86.75
    下载: 导出CSV

    表  6  DMM和DSTM对比实验结果

    Table  6  Experimental results of DMM and DSTM

    method D1 D2
    DSTM 62.83 81.53
    DMM 32.17 63.93
    下载: 导出CSV

    表  7  DMM和DSTM平均处理时间

    Table  7  Average processing time of DMM and DSTM

    method D1(s) D2(s)
    DSTM 2.1059 3.4376
    DMM 5.6014 8.6583
    下载: 导出CSV

    表  8  $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $ 在上的实验结果

    Table  8  Experimental results on $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $

    method Recognition rate (%) method Recognition rate (%)
    文献[13]方法 86.50 文献[38]方法 81.7
    文献[34]方法 91.45 文献[39]方法 90.01
    文献[35]方法 90.01 文献[40]方法 89.48
    文献[36]方法 89.40 本文学习方法 90.32
    文献[37]方法 77.47
    $\mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1}$ 采用设置二测试2
    下载: 导出CSV

    表  9  $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $ 在上的实验结果

    Table  9  Experimental results on $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $

    method Recognition rate (%) method Recognition rate (%)
    MHI-LBP 68.75 MCSL+DMM 89.28
    MEI-LBP 71.43 MCSL+DSTM 91.96
    DCA[23] 94.64 CCA[22] 83.05
    DSTM-LBP 87.50 子空间学习 92.85
    DSTM-HOG 89.28 本文学习方法 98.21
    $\mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2}$ 采用设置二测试4 | MCSL为多聚点子空间学习英文简写
    下载: 导出CSV

    表  10  UTD-MHAD在设置二测试4上的实验结果

    Table  10  Experimental results on UTD-MHAD

    method Recognition rate (%) method Recognition rate (%)
    MHI-LBP 62.40 MCSL+DMM 93.64
    MEI-LBP 57.80 MCSL+DSTM 95.37
    DCA[23] 92.48 CCA[22] 87.28
    DSTM-LBP 89.59 子空间学习 93.64
    DSTM-HOG 91.90 本文学习方法 98.84
    下载: 导出CSV
  • [1] Yousefi S, Narui H, Dayal S, Ermon S, Valaee S. A Survey on Behavior Recognition Using WiFi Channel State Information. IEEE Communications Magazine, 2017, 55(10): 98−104 doi:  10.1109/MCOM.2017.1700082
    [2] Mabrouk A B, Zagrouba E. Abnormal behavior recognition for intelligent video surveillance systems: A review. Expert Systems with Applications, 2018, 91: 480−491 doi:  10.1016/j.eswa.2017.09.029
    [3] Fang C C, Mou T C, Sun S W, Chang P C. Machine-Learning Based Fitness Behavior Recognition from Camera and Sensor Modalities//2018 IEEE International Conference on Artificial Intelligence and Virtual Reality (AIVR). IEEE, 2018: 249−250
    [4] Chen C, Liu K, Jafari R, Kehtarnavaz N. Home-based Senior Fitness Test measurement system using collaborative inertial and depth sensors//Engineering in Medicine and Biology Society. IEEE, 2014: 4135−4138
    [5] Laver K E, Lange B, George S, Deutsch J E, Saposnik G, Crotty M. Virtual reality for stroke rehabilitation. Cochrane database of systematic reviews, 2017, (11)
    [6] Sun J, Wu X, Yan S, Cheong L F, Chua T S, Li J. Hierarchical spatio-temporal context modeling for action recognition. Cvpr, 2009: 2004−2011
    [7] 胡建芳, 王熊辉, 郑伟诗, 赖剑煌. RGB-D行为识别研究进展及展望. 自动化学报, 2019, 45(5): 829−840

    Hu Jianfang, Wang Xionghui, Zheng Weishi, Lai Jianhuang. RGB-D Action Recognition: Recent Advances and Future Perspectives. Acta Automatica Sinica, 2019, 45(5): 829−840
    [8] Bobick A F, Davis J W. The Recognition of Human Movement Using Temporal Templates. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2001, 23(3): 257−267
    [9] 苏本跃, 蒋京, 汤庆丰, 盛敏. 基于函数型数据分析方法的人体动态行为识别. 自动化学报, 2017, 43(5): 866−876

    Su Benyue, Jiang Jing, Tang Qingfeng, Sheng Min. Human Dynamic Action Recognition Based on Functional Data Analysis. Acta Automatica Sinica, 2017, 43(5): 866−876
    [10] Anderson D, Luke R H, Keller J M, Skubic M, Rantz M J, Aud M A. Modeling human activity from voxel person using fuzzy logic. IEEE Transactions on Fuzzy Systems, 2009, 17(1): 39−49 doi:  10.1109/TFUZZ.2008.2004498
    [11] 朱红蕾, 朱昶胜, 徐志刚. 人体行为识别数据集研究进展. 自动化学报, 2018, 44(6): 978−1004

    Zhu Honglei, Zhu Yusheng, Xu Zhigang. Research Advances on Human Activity Recognition Datasets. Acta Automatica Sinica, 2018, 44(6): 978−1004
    [12] Wu Y, Jia Z, Ming Y, Sun J, Cao L. Human behavior recognition based on 3D features and hidden markov models. Signal, Image and Video Processing, 2016, 10(3): 495−502 doi:  10.1007/s11760-015-0756-6
    [13] Wang J, Liu Z, Chorowski J, Chen Z, Wu Y. Robust 3d action recognition with random occupancy patterns//Computer vision-ECCV 2012. Springer, Berlin, Heidelberg, 2012: 872−885
    [14] Zhang H, Zhong P, He J, Xia C. Combining depth-skeleton feature with sparse coding for action recognition. Neurocomputing, 2017, 230: 417−426 doi:  10.1016/j.neucom.2016.12.041
    [15] Zhang S, Chen E, Qi C, Liang C. Action Recognition Based on Sub-action Motion History Image and Static History Image//MATEC Web of Conferences. EDP Sciences, 2016, 56: 02006.
    [16] Liu Z, Zhang C, Tian Y. 3D-based deep convolutional neural network for action recognition with depth sequences. Image and Vision Computing, 2016, 55: 93−100 doi:  10.1016/j.imavis.2016.04.004
    [17] Xu Y, Hou Z, Liang J, Chen C, Jia L, Song Y. Action recognition using weighted fusion of depth images and skeleton's key frames. Multimedia Tools and Applications, 2019: 1−16
    [18] Wang P, Li W, Li C, Hou Y. Action recognition based on joint trajectory maps with convolutional neural networks. Knowledge-Based Systems, 2018, 158: 43−53 doi:  10.1016/j.knosys.2018.05.029
    [19] Kamel A, Sheng B, Yang P, Li P, Shen R, Feng D D. Deep convolutional neural networks for human action recognition using depth maps and postures. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2018
    [20] Li C, Hou Y, Wang P, Li W. Joint distance maps based action recognition with convolutional neural networks. IEEE Signal Processing Letters, 2017, 24(5): 624−628 doi:  10.1109/LSP.2017.2678539
    [21] Yang X, Zhang C, Tian Y L. Recognizing actions using depth motion maps-based histograms of oriented gradient//Proceedings of the 20th ACM international conference on Multimedia. ACM, 2012: 1057−1060
    [22] Li A, Shan S, Chen X, Gao W. Face recognition based on non-corresponding region matching//2011 International Conference on Computer Vision. IEEE, 2011: 1060−1067
    [23] Haghighat M, Abdel-Mottaleb M, Alhalabi W. Discriminant correlation analysis: Real-time feature level fusion for multimodal biometric recognition. IEEE Transactions on Information Forensics and Security, 2016, 11(9): 1984−1996 doi:  10.1109/TIFS.2016.2569061
    [24] Rosipal R, Kr?mer N. Overview and recent advances in partial least squares//International Statistical and Optimization Perspectives Workshop" Subspace, Latent Structure and Feature Selection". Springer, Berlin, Heidelberg, 2005: 34−51
    [25] Liu H, Sun F. Material identification using tactile perception: A semantics-regularized dictionary learning method. IEEE/ASME Transactions on Mechatronics, 2018, 23(3): 1050−1058 doi:  10.1109/TMECH.2017.2775208
    [26] Zhuang Y T, Yang Y, Wu F. Mining Semantic Correlation of Heterogeneous Multimedia Data for Cross-Media Retrieval. IEEE Transactions on Multimedia, 2008, 10(2): 221−229 doi:  10.1109/TMM.2007.911822
    [27] Chen C, Jafari R, Kehtarnavaz N. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor//2015 IEEE International conference on image processing (ICIP). IEEE, 2015: 168−172
    [28] Sharma A, Kumar A, Daume H, Jacobs D W. Generalized multiview analysis: A discriminative latent space//2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 2160−2167
    [29] Wang K, He R, Wang L, Wang W, Tan T. Joint feature selection and subspace learning for cross-modal retrieval. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(10): 2010−2023 doi:  10.1109/TPAMI.2015.2505311
    [30] Shotton J, Fitzgibbon A, Cook M, Sharp T, Finocchio M, Moore R, et al. Real-Time Pose Recognition in Parts from Single Depth Images//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2013: 1297−1304
    [31] Chen C, Jafari R, Kehtarnavaz N. Action recognition from depth sequences using depth motion maps-based local binary patterns//2015 IEEE Winter Conference on Applications of Computer Vision. IEEE, 2015: 1092−1099
    [32] Nie F, Huang H, Cai X, Ding C H. Efficient and robust feature selection via joint?2, 1-norms minimization//Advances in neural information processing systems. 2010: 1813−1821
    [33] He R, Tan T, Wang L, Zheng W S. l21 regularized correntropy for robust feature selection//2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 2504−2511
    [34] Koniusz P, Cherian A, Porikli F. Tensor representations via kernel linearization for action recognition from 3d skeletons//European Conference on Computer Vision. Springer, Cham, 2016: 37−53
    [35] Ben Tanfous A, Drira H, Ben Amor B. Coding Kendall's Shape Trajectories for 3D Action Recognition//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2840−2849
    [36] Vemulapalli R, Chellapa R. Rolling rotations for recognizing human actions from 3d skeletal data//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4471−4479
    [37] Wang L, Huynh D Q, Koniusz P. A Comparative Review of Recent Kinect-based Action Recognition Algorithms. arXiv preprint arXiv: 1906.09955, 2019.
    [38] Rahmani H, Mian A. 3D action recognition from novel viewpoints//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1506−1515
    [39] Tanfous A B, Drira H, Amor B B. Sparse Coding of Shape Trajectories for Facial Expression and Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019
    [40] Amor B B, Su J, Srivastava A. Action recognition using rate-invariant analysis of skeletal shape trajectories. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(1): 1−13
  • [1] 袁静, 章毓晋. 融合梯度差信息的稀疏去噪自编码网络在异常行为检测中的应用[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150667
    [2] 齐美彬, 檀胜顺, 王运侠, 刘皓, 蒋建国. 基于多特征子空间与核学习的行人再识别[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150344
    [3] 朱煜, 赵江坤, 王逸宁, 郑兵兵. 基于深度学习的人体行为识别算法综述[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150710
    [4] 桂振文, 吴侹, 彭欣. 一种融合多传感器信息的移动图像识别方法[J]. 自动化学报, doi: 10.16383/j.aas.2015.c140177
    [5] 徐玉华, 田尊华, 张跃强, 朱宪伟, 张小虎. 自适应融合颜色和深度信息的人体轮廓跟踪[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.01623
    [6] 储珺, 杨樊, 张桂梅, 汪凌峰. 一种分步的融合时空信息的背景建模[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00731
    [7] 温景容, 武穆清, 宿景芳. 信息物理融合系统[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00507
    [8] 杜友田, 李谦, 周亚东, 吴陈鹤. 基于异质信息融合的网络图像半监督学习方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.01923
    [9] 李新德, 杨伟东, DEZERT Jean. 一种飞机图像目标多特征信息融合识别方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.01298
    [10] 谷军霞, 丁晓青, 王生进. 基于人体行为3D模型的2D行为识别[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00046
    [11] 杜友田, 陈峰, 徐文立. 基于多层动态贝叶斯网络的人的行为多尺度分析及识别方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00225
    [12] 苏宏升. 基于贝叶斯最优分类器的多源模糊信息融合方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00282
    [13] 罗本成, 原魁, 陈晋龙, 朱海兵. 一种基于不确定分析的多传感器信息动态融合方法[J]. 自动化学报
    [14] 杨烜, 裴继红, 杨万海. 基于边缘信息的多光谱高分辨图像融合方法[J]. 自动化学报
    [15] 杨烜, 裴继红, 杨万海. 基于边缘信息的多光谱高分辨图像融合方法[J]. 自动化学报
    [16] 韩崇昭, 朱洪艳. 多传感信息融合与自动化[J]. 自动化学报
    [17] 文成林, 周东华, 潘泉, 张洪才. 多尺度动态模型单传感器动态系统分布式信息融合[J]. 自动化学报
    [18] 邬永革, 黄炯, 杨静宇. 基于多传感器信息融合的机器人障碍检测和环境建模[J]. 自动化学报
    [19] 杨敬安. 关于融合多针图确定物体三维表面绝对深度的研究[J]. 自动化学报
    [20] 王成业. 空间信息在图象分类中的应用[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  8
  • HTML全文浏览量:  4
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-04-29
  • 录用日期:  2019-11-15

多聚点子空间下的时空信息融合及其在行为识别中的应用

doi: 10.16383/j.aas.c190327
    基金项目:  国家自然科学基金项目(61803050,61063021)资助, 江苏省物联网移动互联技术工程重点实验室开放课题项目(JSWLW-2017-013), 浙江省公益技术研究社会发展项目(2017C33223)
    作者简介:

    常州大学信息科学与工程学院研究生硕士. 主要研究方向为包括行为识别,机器学习.E-mail: yangtianjin128@163.com

    常州大学信息科学与工程学院教授,2015年获内蒙古农业大学机械专业博士学位,主要研究兴趣包括行为识别,机器学习. 本文通讯作者E-mail: houzj@cczu.edu.cn

    常州大学信息科学与工程学院研究生硕士,主要研究兴趣包括行为识别,机器学习.E-mail: lixing03201012@163.com

    常州大学信息科学与工程学院教授,2001年获北京航空航天大学计算机软件与理论工学博士,主要研究兴趣机器学习.E-mail: jzliang@cczu.edu.cn

    常州大学信息科学与工程学院副教授,2019年获江苏大学农业电气化与自动化专业博士学位,她的研究兴趣是信息智能处理.E-mail: huanjuan@cczu.edu.cn

    常州大学信息科学与工程学院计算机科学与技术学生.E-mail: zjx991031@163.com

摘要: 基于深度图序列的人体行为识别, 一般通过提取特征图来提高识别精度, 但这类特征图通常存在时序信息缺失的问题. 针对上述问题, 本文提出了一种新的深度图序列表示方式, 即深度时空图(Depth Space Time Maps, DSTM), 该算法降低了特征图的冗余度, 弥补了时序信息缺失的问题. 本文通过融合空间信息占优的Depth Motion Maps (DMM) 与时序信息占优的DSTM, 进行高精度的人体行为研究. 提出了一种名为多聚点子空间学习Multi-Center Subspace Learning (MCSL)的多模态数据融合算法. 该算法为各类别数据构建了多个投影聚点,以此增大了样本的类间距离, 降低了投影目标区域维度. 本文在MSR-Action3D深度数据集和UTD-MHAD深度数据集上进行人体行为识别最后实验结果表明, 本文方法相较于现有人体行为识别方法有着较高的识别率.

English Abstract

杨天金, 侯振杰, 李兴, 梁久祯, 宦娟, 郑纪翔. 多聚点子空间下的时空信息融合及其在行为识别中的应用. 自动化学报, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327
引用本文: 杨天金, 侯振杰, 李兴, 梁久祯, 宦娟, 郑纪翔. 多聚点子空间下的时空信息融合及其在行为识别中的应用. 自动化学报, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327
Yang Tian-Jin, Hou Zhen-Jie, Li Xing, Liang Jiu-Zhen, Huan Juan, Zheng Ji-Xiang. Recognizing action using multi-center subspace learning-based spatial-temporal information fusion. Acta Automatica Sinica, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327
Citation: Yang Tian-Jin, Hou Zhen-Jie, Li Xing, Liang Jiu-Zhen, Huan Juan, Zheng Ji-Xiang. Recognizing action using multi-center subspace learning-based spatial-temporal information fusion. Acta Automatica Sinica, 2020, 46(x): 1−12. doi: 10.16383/j.aas.c190327
  • 人体行为识别是计算机视觉领域和模式识别领域的一个重要的分支, 应用范围十分广泛, 在智能监控、虚拟现实等应用中表现十分优秀[1-5]. 传统的人体行为识别是使用彩色摄像机[6]生成的RGB图像序列, 而RGB图像受到光照、背景、摄像器材的影响十分的大, 识别稳定性较差.

    随着技术的发展, 特别是微软Kinect体感设备的推出, 基于图像序列的人体行为识别研究得到了进一步的发展. 相比于彩色图像序列, 深度图序列更有优势. 不仅可以忽略光照和背景带来的影响, 还可以提供深度信息, 深度信息表示为在可视范围内目标与深度摄像机的距离. 深度图序列相较于彩色图序列, 提供了丰富的人体3D信息, Hu等人[7]综述了RGB-D行为识别研究进展和展望. 至今已经探索了多种基于深度图序列的表示方法, 以Bobick等人[8]的运动能量图(motion energy images, MEI)、运动历史图(motion history images, MHI)作为的时空模板的人体行为识别的特征提取方法, 提高了识别的稳健性; Su等人[9]采用函数型数据分析的行为识别方法; Anderson等人[10]基于三维Zernike的图像数据尝试行为分类, 并且该分类对于具有低阶矩的行为是有效的; Wu等人[12]基于三维特征和隐马尔可夫模型对人体行为动作进行分类并加以识别; Wang[13]等人从深度视频中提取随机占用模式(Random Occupancy Pattern, ROP)特征, 并用稀疏编码技术进行重新编码; Zhang[14]等人使用梯度信息和稀疏表达将深度和骨骼相结合, 用于提高识别率; Zhang[15]等人从深度序列中提取的动作运动历史图像和静态历史图像(Sub-action Motion History Image SMHI and Static History Image SHI); Liu[16]等人利用深度序列和相应的骨架联合信息, 采用深度学习进行动作识别; Xu[17]等人提出了深度和骨骼融合的人体行为识别; Wang[18-20]等人采用卷积神经网络进行人体行为识别;Yang[21]等人深度运动图(Depth Motion Maps, DMM), 将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2D地图, 在此基础上差分堆叠整个深度序列动作能量图生成DMM. DMM虽然展现出人体行为丰富的空间信息, 但是无法记录人体行为的时序信息. 针对现有深度序列特征图时序信息缺失的问题, 本文提出了一种新的深度序列表征方式, 即深度时空图(Depth Space Time Maps, DSTM).

    DMM特征侧重于表征人体行为的空间信息, 而DSTM侧重于表征人体行为的时序信息. 通过融合空间信息与时序信息进行人体行为识别, 可以提高人体行为识别的鲁棒性, 其中融合算法的可靠性直接影响了识别的精确度. 在一些实际应用中, 数据以不同的方式从不同的区域中收集, 但表现的却是相同的主旨, 随着这种多媒体数据的快速增长, 需要有效的分析融合不同模式的数据. 常见的用于不同模态的数据的融合方法主要依赖于子空间学习, 例如Li等人[22]将典型性相关分析(Canonical Correlation Analysis, CCA)应用于基于非对应区域匹配的人脸识别, 使用CCA来学习一个公共空间, 其中可以测量两个非对应面部区域是否属于同一面部的可能性; Haghighat等人[23]改进CCA提出的判别相关分析(Discriminant Correlation Analysis, DCA); Rosipal[24]等人使用偏最小二乘法(Partial Least Squares, PLS)用于执行多模态人脸识别; Liu等人[25]的字典学习(dictionary learning method)广泛应用于多视图的人脸识别, Zhuang等人[26]使用基于图的学习方法(graph-based learning method)进行多模态的融合; Sharma[28]等人将线性判别分析(LDA)和边际Fisher分析(MFA)扩展到它们的多视图对应物, 即广义多视图LDA (GMLDA)和广义多视图MFA (GMMFA), 并将它们应用于处理跨媒体检索问题; wang等人[29]对子空间学习进行改进, 同样将它们应用于跨媒体的检索问题. 为增大不同模态数据经过投影后的类间距离, 本文提出多聚点子空间学习算法用于融合空间信息与时序信息进行人体行为识别.

    • Bobick[7]通过对彩色序列中相邻帧进行图片差分, 获得人体行为的区域, 在此基础上进行二值化后生成二值的图像序列 $ D(x, y, t), $ 进一步获得二值特征图MEI:

      $$ E_{\tau}(x, y, t) = \bigcup\limits_{i = 0}^{\tau-1} D(x, y, t-i) $$ (1)

      其中 $ E_{\tau}(x, y, t) $ 为视频序列中帧处, 由帧序列生成的MEI.

      Bobick[7]在MEI的基础上, 为了表示出行为的时序性, 提出了MHI. 在MHI中像素亮度是该点处运动的时间历史函数. MHI通过简单的替换和衰减运算获得:

      $$ \begin{array}{l}{H_{\sigma}(x, y, t)} =\\ { \left\{\begin{array}{ll}{\sigma,} & {\;{\rm{if}}\; D(x, y, t) = 1} \\ {\max \left(0, H_{\sigma}(x, y, t-1)-1\right),} & {\rm { otherwise }}\end{array}\right.}\end{array} $$ (2)

      其中 $ H_{\sigma}(x, y, t) $ 的初始像素亮度为 $ \sigma ,D(x, y, t) $ 为整个图像序列.

    • Yang[21]等人提出了将深度图序列中的深度帧投影到笛卡尔直角坐标平面上, 易于获取3D结构和形状信息, 在这个过程中提出了DMM (Depth Motion Maps)描述行为, 每个深度帧在投影后获得主视图, 侧视图和俯视图三个2D投影图, 表示为 $ map_{v}, $ 假设一个有 $ N $ 帧的深度图序列, $ DMM_{v} $ 特征计算方式:

      $${\rm{DM}}{{\rm{M}}_v} = \sum\limits_{i = 2}^N {\left| {{\rm{map}}_v^i - {\rm{map}}_v^{i - 1}} \right|} v \in \{ {\rm{f}},{\rm{s}},{\rm{t}}\} $$ (3)

      其中 $ i $ 表示帧索引, $ {map}_{v}^{i} $ 表示第 $ i $ 帧深度帧在 $ v $ 方向上的投影, $ f $ 表示主视图, $ s $ 表示侧视图 $ t $ 表示俯视图.

    • 子空间学习的应用是庞大的数据集样本背后最质朴的特征选择与降维, 空间学习的基础是Harold Hotelling提出的典型性相关分析[16](Canonical Correlation Analysis, CCA), CCA主要思想是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合), 用这些指标的相关关系来表示原来的两组变量的相关关系, 假设有两组数据样本 $ X $ $ Y, $ 其中 $ X $ $ x_{1} \times m $ 的样本矩阵, $ Y $ $ x_{2} \times m $ 的样本矩阵, 对 $ X , Y $ 做标准化后CCA的计算公式:

      $$ \arg \max (a, b) = \frac{{\rm{cov}}\left(X^{\prime}, Y^{\prime}\right)}{\sqrt{D\left(X^{\prime}\right) D\left(Y^{\prime}\right)}} $$ (4)

      其中 $ a , b $ 分别为 $ X , Y $ 的投影矩阵, $X^{\prime} = a^{\mathrm{T}} \cdot X, Y^{\prime} =$ $a^{\mathrm{T}} \cdot Y,$ 其中 $ cov $ 为协方差, $ {\rm{cov}}\left(X^{\prime}, Y^{\prime}\right) $ 协方差和方差的计算公式:

      $$ \begin{split} {\rm{cov}}\left(X^{\prime}, Y^{\prime}\right) =& {\rm{cov}}\left(a^{\mathrm{T}} X, b^{\mathrm{T}} Y\right)= \\ & \mathrm{E}\left(<a^{\mathrm{T}} X, b^{\mathrm{T}} Y>\right) =\\ & a^{\mathrm{T}} \mathrm{E}\left(X X^{\mathrm{T}}\right) b \end{split} $$ (5)
      $$ D(X) = {\rm{cov}}(X, X) = \mathrm{E}\left(X X^{\mathrm{T}}\right) $$ (6)

      CCA的优化目标公式:

      $$ \arg \max (a, b) = \frac{a^{\mathrm{T}} {\rm{cov}}(X, Y) b}{\sqrt{a^{\mathrm{T}} {\rm{cov}}(X, X) a} \sqrt{b^{\mathrm{T}} {\rm{cov}}(Y, Y) b}} $$ (7)

      以CCA为基础的子空间学习将大规模的数据样本进行优化, 但它的计算复杂度很高, 同时无法消除阶级间的相关性并无法限制类内的相关性.

    • 由于DMM存在着无法记录人体行为的时序信息的缺陷, 本文提出一种深度图序列表示算法DSTM, DSTM反映的是人体3D时空行为在空间直角坐标轴上的分布随着时间变化情况, 人体所在空间直角坐标系三个轴分别为宽度轴( $ w $ )代表宽度方向、高度轴( $ h $ )代表高度方向、深度轴( $ d $ )代表深度方向, 图1为DSTM的流程图.

      图  1  DSTM流程图

      Figure 1.  DSTM flowchart

      图1所示, 首先将深度帧投影在三个笛卡尔正交面上, 获得主视图, 侧视图和俯视图三个2D投影图, 表示为 $ \operatorname{map}_{v} , v \in\{\mathrm{f}, \mathrm{s}, \mathrm{t}\} .$ 然后根据每张2D投影图得到两个轴的行为分布情况. 任选两张2D投影图即可得到宽度轴, 高度轴, 深度轴的行为分布情况.

      $ a $ 轴上的投影投影列表:

      $${\rm{su}}{{\rm{m}}_a}(i) = \sum\limits_{x = 1}^W {{{{\mathop{\rm map}\nolimits} }_v}} (x, i)\;{\rm{or}}\;\sum\limits_{y = 1}^{\rm{H}} {{{{\mathop{\rm map}\nolimits} }_v}} (i, y)$$ (8)

      其中 $ a \in\{\mathrm{w}, \mathrm{h}, \mathrm{d}\}, \mathrm{W}, \mathrm{H} $ 分别表示为2D投影图的宽度和高度. $ sum_{a} $ 表示2D投影图序列在 $ a $ 轴上投影列表. 2D投影图序列在a轴上的投影列表进行二值化:

      $$ {\rm{list}}_{a}(i) = \left\{\begin{array}{l}{1, {\rm{sum}}_{a}(i)>\varepsilon} \\ {0, { {\rm{otherwise}} }}\end{array}\right. $$ (9)

      其中 $ list_{a} $ 表示在2D投影图序列在 $ a $ 轴上的投影列表进行二值化, $ a \in\{\mathrm{w}, \mathrm{h}, \mathrm{d}\}, \varepsilon $ 表示二值化的阈值. 假设有N帧投影, DSTM的计算公式:

      $$ \mathrm{DSTM}_{a}(\mathrm{t}) = \mathrm{list}_{a}^{\mathrm{t}} $$ (10)

      其中 $ {\rm{list}}_{a}^{t} $ 表示第t帧2D投影图序列在 $ a $ 轴上投影列表进行二值化后, $ {\rm{DSTM}}_{a}(\mathrm{t}) $ 表示 $ {\rm{DSTM}}_{a} $ 的第t行.

      最后对DSTM的进行感兴趣区域(region of interest, ROI)处理, 根据感兴趣区域的主旨, 对图片进行裁剪、大小归一化处理.

    • 子空间学习存在着计算复杂度高, 同时存在无法消除阶级间相关性的缺陷, 本文提出了多聚点子空间学习的方法, 在约束平衡模态间样本关系的同时, 通过构建同类别各样本的多个投影聚点, 疏远不同类别样本的类间距离, 降低了投影目标区域维度. 多聚点子空间学习算法的思想可表示为.

      $$ \begin{split}&{\min _{U_{1}, \cdots, U_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}\!-\!Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21}}+ \\ &{\lambda_{2} \Omega\left(\mathrm{U}_{1}, \cdots, \mathrm{U}_{M}\right)\!+\!\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{\mathrm{L}\!-\!1}\left\|X_{p}^{T} U_{p}-G_{c}\right\|_{F}^{2}}\end{split} $$ (11)

      其中 $ X_{p} $ 表示未经投影各模态样本, 即原空间样本; $ U_{p} ,p = 1, \cdots, M $ 是各模态样本的投影矩阵; $ X_{p}^{T} U_{p} $ 表示经投影后各模态样本, 即子空间样本; $ L $ 表示类别总数; $ Y $ 为子空间内目标投影矩阵, 由各类别样本目标投影聚点 $ y_{i} $ 组成; $ G_{c} $ 为多个各模态同一类别样本新建目标投影点矩阵; $ \lambda_{1}, \lambda_{2} , \lambda_{3} $ 为各项超参.

    • 我们将传统子空间学习称为单聚点子空间学习. 多聚点子空间学习与单据点子空间学习的主要区别是聚点个数的不同, 具体定义如下:

      (1)单聚点子空间学习: 通过学习每种模态数据的投影矩阵, 将不同类别数据投影到公共子空间. 投影矩阵的学习通常是最小化投影后样本与各类数据唯一主聚点的距离得到, 公式如下:

      $$ \min\limits_{U_{1}, \cdots, U_{M}} \sum\limits_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum\limits_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21} $$ (12)

      公式(12)中, $ Y $ 为子空间内目标投影矩阵, 由各类别样本目标投影聚点 $ y_{i} $ 组成, 可表示为 $Y = [\mathrm{y}_{1}, $ $ \mathrm{y}_{2}, \cdots, \mathrm{y}_{N}]^{\mathrm{T}} ,$ 其中 $y_{i} = \left(\mathrm{v}_{1}, \mathrm{v}_{2}, \cdots, \mathrm{v}_{j}, \cdots, \mathrm{v}_{\mathrm{L}}\right), j = 1,$ $\cdots, \mathrm{L} , \mathrm{v}_{j} = \left\{\begin{aligned}&{1,} \quad {x_{\mathrm{i}} \in j-\operatorname{th} \mathrm{class}} \\ &{0,} \quad {\rm { otherwise }}\end{aligned}\right.$ , $ x_{i} $ 为样本

      图2为单聚点子空间学习. 通过最小化子空间样本与各类别投影聚点之间距离来减少样本的类内距离.

      图  2  单聚点子空间学习

      Figure 2.  Subspace learning

      (2)多聚点子空间学习: 多聚点子空间学习是对单聚点子空间学习的优化, 都是通过学习每种模态数据的投影矩阵, 将不同类别数据投影到公共子空间. 不同的是, 投影矩阵的学习是同时最小化投影后样本与各类数据唯一主聚点以及与多个副聚点的总距离得到, 有以下公式:

      $$ \begin{split}&{\min _{U_{1}, \cdots, U_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21}} +\\ &\qquad{\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{\mathrm{L}-1}\left\|X_{p}^{T} U_{p}-G_{c}\right\|_{F}^{2}}\end{split} $$ (13)

      $ G_{c} $ 为各类别样本的第c个副投影聚点集合矩阵. 副投影聚点为其他类别投影聚点关于当前类别目标投影聚点的对称聚点. $ G_{c} $ 的构建步骤如下:

      Input: a. 子空间样本: $ \mathrm{Y} = \left\{\mathrm{y}_{i}\right\}, i = 1,\cdots, \mathrm{L} $

      Input: b. 类别数: $ L $

      Output: a.多聚点子空间内目标投影矩阵: $ G_{c} $

      $ \mathrm{A} \Leftarrow \mathrm{Y} $

      for all $ c \Leftarrow\{1,\cdots, L-1\} $ do

      for all $ j \Leftarrow\{1, \cdots, \mathrm{L}\} \mathrm{d} \mathrm{o} $

        if $ c = =0 $ then

          $ \mathrm{B}^{0} \Leftarrow \mathrm{A}^{j-1} $

        else

          $ \mathrm{B}^{j} \Leftarrow \mathrm{A}^{j-1} $

        end if

      end for

      $ \mathrm{A} \Leftarrow \mathrm{B} $

      $ G_{c} \Leftarrow 2 \mathrm{Y}_{j}-\mathrm{A} $

      end for

      注* $ {{\rm{B}}^j} $ 为矩阵 $ B $ 中第 $ j $

      图3为多聚点子空间学习. 通过为各类别样本构建了多个投影聚点并使用了模态内、模态间数据相似度关系, 使得子空间样本向多个投影目标点附近的超平面聚拢, 有效增大了子空间样本之间的距离, 降低了投影目标区域的维度, 使得投影目标区域从n维的超球体变为n-1维的超平面, 使得同一类别的子空间样本更为紧凑, 从而有效的提高了算法的特征优化效果. 因此结合使用数据模态内、模态间相似度关系的多聚点子空间学习可表示为:

      图  3  多聚点子空间学习

      Figure 3.  Multi-center subspace learning

      $$ \begin{split}&{\min _{U_{1}, \cdots, U_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M}\left\|\mathrm{U}_{p}\right\|_{21}} +\\ &{\lambda_{2} \Omega\left(\mathrm{U}_{1}, \cdots, \mathrm{U}_{M}\right)\!+\!\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{\mathrm{L}-1}\left\|X_{p}^{T} U_{p}\!-\!G_{c}\right\|_{F}^{2}}\end{split} $$ (14)
    • 本文以公式(14)第一项为基准确定式中各项超参, 设定子空间样本与目标投影聚点之间约束程度等同于同类别子空间样本之间约束程度. 第一项中子空间样本与目标投影点之间约束共有个, 计算如式所示:

      $$ {F_1} = M \times N $$ (15)

      其中 $ M $ 为模态数, $ N $ 为样本数.

      第三项中子空间样本之间约束共有 $ {F_2} $ 个, 其中同一模态子空间样本相似度的约束共有 $ {F_a} $ 个, 不同模态同一类别的子空间样本之间的相似度的约束共有 $ {F_b} $ 个, $ {F_2} ,{F_a} , {F_b} $ 计算如式所示:

      $$ {F_a} = \frac{{M \times N \times N}}{2} $$ (16)
      $$ {F_b} = \sum\limits_{{\rm{i = 1}}}^L {[{N_i} \times M} \times ({N_i} \times M + 1)]/2 $$ (17)
      $$ {F_2} = {F_a} + {F_b} $$ (18)

      其中 $ L $ 为样本类别数; $ N_i $ 为各类样本数, 并且 $ N = $ $ \sum\nolimits_{i = 1}^{\rm{L}} {{N_i}} $

      第四项中子空间样本与目标投影聚点之间约束共有 $ {F_3} $ 个, $ {F_3} $ 计算如式所示:

      $$ {F_3} = {F_1} \times (L - 1) = M \times N \times (L - 1) $$ (19)

      在子空间样本与目标投影聚点之间约束程度等同于同类别子空间样本之间约束程度前提下, 根据 $ {F_1} $ $ {F_2} $ $ {F_3} $ 比例关系, 可以确定第三项与第四项超参如公式(15)-(19)所示:

      $$ \begin{split}\lambda_{2} \!=& \frac{F_{1}}{F_{2}} \!=\! \frac{2 \!\times\! M \times N}{M \!\times\! N \!\times\! N\!+\!\sum\limits_{i = 1}^{L}\left[N_{i} \!\times\! M \!\times\!\left(N_{i} \!\times\! M\!+\!1\right)\right]} =\\ &{ \frac{2}{N}+\frac{2 \sum\limits_{i = 1}^{L} N_{i}}{M \sum\limits_{i = 1}^{L} N_{i}^{2}+\sum\limits_{i = 1}^{L} N_{i}}}\\[-30pt]\end{split} $$ (20)
      $$ {\lambda _3}{\rm{ = }}\frac{{{F_1}}}{{{F_3}}} = \frac{{M \times N}}{{M \times N \times (L - 1)}} = \frac{1}{{L - 1}} $$ (21)

      最后本文通过实验, 以最终识别率依据, 确定 $ {\lambda _1} $ .

    • 对于本文公式(16)中的几项可进行优化, 公式中的第二项是对各模态的数据样本投影矩阵的约束项, 防止算法过拟合. 第二项中含有 $ {l_{2,1}} $ 范数, 它是非平滑且不能得到的一个闭式解[32]. 对于投影矩阵, 其 $ {l_{2,1}} $ 范数定义:

      $$ \sum\limits_{p = 1}^M {{{\left\| {{{\rm{U}}_p}} \right\|}_{21}}} \!=\! \sum\limits_{p = 1}^M {\left( {\sum\limits_{i = 1}^m {\sqrt {\sum\limits_{j = 1}^n {u_{ij}^2} } } } \right)} \!=\! \sum\limits_{p = 1}^M {{\rm{Tr}}} \left( {{\rm{U}}_p^T{{\rm{R}}_p}{{\rm{U}}_p}} \right) $$ (22)

      其中 $ {R_p} = [{r_{ij}}] $ 是一个对角阵, $ {r_{ij}} = \dfrac{1}{{2||{u_p}|{|_2}}} , {u_p} $ 表示投影矩阵 $ U $ 的第 $ i $ 个行向量, 为了避免 $ ||{u_p}|{|_2} $ 的值为0, 根据文献[33]对于 $ {l_{2,1}} $ 的分析, 引入一个不为0的无穷小数 $ \varepsilon , {r_{ij}} $ 重新定义为:

      $$ {r_{ij}} = \frac{1}{{2\sqrt {||{u_p}||_2^2 + \varepsilon } }} $$ (23)

      公式(14)中第三项是不同模态同一类别的子空间样本之间的约束. 第三项可以通过如下方式进行推导

      $$ \begin{split} \Omega\left(\mathrm{U}_{1}, \cdots, \mathrm{U}_{M}\right) =& \frac{1}{2} \sum\limits_{i = 1}^{N} \sum\limits_{j = 1}^{N} W_{i j}\left\|f_{i}-f_{j}\right\|^{2} =\\ & \sum\limits_{i = 1}^{N} \sum\limits_{j = 1}^{N} W_{i j} f_{i}^{2}-\sum\limits_{i = 1}^{N} \sum\limits_{j = 1}^{N} W_{i j} f_{i} f_{j} =\\ & \mathrm{F} D F^{T}-F W F^{T} =\\ & {\rm{Tr}}\left(\mathrm{FLF}^{T}\right) =\\ & \sum\limits_{p = 1}^{M} \sum\limits_{q = 1}^{M} {\rm{Tr}}\left(\mathrm{U}_{p}^{T} \mathrm{X}_{p}^{b} \mathrm{L}_{\mathrm{pq}}\left(\mathrm{X}_{q}^{b}\right)^{T} \mathrm{U}_{q}\right) \end{split} $$ (24)

      其中 $ \mathrm{N}^{\prime} $ 是所有模态的样本总数, $ p,q $ 为两个不同的模态, $ L $ 是拉普拉斯矩阵并且 $ F = (F_1^T,\cdots,F_M^T) =$ $ (U_1^TX_1^b,\cdots,U_M^TX_M^b) ,W $ 为模态相似度矩阵, 其定义为:

      $$ W_{ij}^{pq} = \left\{ {\begin{array}{*{20}{l}} {1,}&{{\rm{x}}_i^p\;{\rm{is}}\;{\rm{the}}\;{\rm{same}}\;{\rm{category}}\;{\rm{of}}\;x_j^q}\\ {0,}&{{\rm{ otherwise }}} \end{array}} \right. $$ (25)

      公式(14)通过优化后可以重新表达为

      $$ \begin{split}&{\min _{U_{1}, V_{M}} \sum_{p = 1}^{M}\left\|X_{p}^{T} U_{p}-Y\right\|_{F}^{2}+\lambda_{1} \sum_{p = 1}^{M} {\rm{Tr}}\left(U_{p}^{T} {\bf{R}}_{p} \mathrm{U}_{p}\right)+} \\ &{\lambda_{2} \sum_{p = 1}^{M} \sum_{q = 1}^{M} {\rm{Tr}}\left(\mathrm{U}_{p}^{T} \mathrm{X}_{p}^{b} \mathrm{L}_{\mathrm{pq}}\left(\mathrm{X}_{q}^{b}\right)^{T} \mathrm{U}_{q}\right)^{+}} \\ &{\lambda_{3} \sum_{p = 1}^{M} \sum_{c = 1}^{L-1}\left\|X_{p}^{T} U_{p}-G_{c}\right\|_{F}^{2}}\\[-20pt]\end{split} $$ (26)

      通过下述步骤求解线性系统问题来计算(26)的最优解

      Input: a.原空间样本: $ {X_p},p = 1,\cdots,M $

      Input: b.子空间样本: $ Y{\rm{ = \{ }}{{\rm{y}}_i}{\rm{\} ,}}i{\rm{ = 1}} \cdots L $

      Output: 子空间内目标投影矩阵: $ {U_p},p = 1,\cdots,M $

      a. 计算 $ L $ 的拉普拉斯矩阵

      b. 设置 $ t = 0 $ , 初始化 $ U_{p} $

      repeat 1,2:

      1. 通过求解方程(26)中的线性系统问题, $ U_p^t $ 更新如下:

      $$ \begin{split} U_{p}^{t+1} = &\left(\mathrm{X}_{p} \mathrm{X}_{p}^{T}+\lambda_{\mathrm{s}} \mathrm{X}_{p} \mathrm{X}_{p}^{T}+\lambda_{1} \mathrm{R}_{p}+\right.\\ &\left.\lambda_{2} \mathrm{X}_{p} \mathrm{L}_{p p}\left(\mathrm{X}_{p}\right)^{T}\right)^{-1}\left(\mathrm{X}_{p} \mathrm{Y}+\lambda_{\mathrm{s}} \sum\limits_{c = 1}^{L} \mathrm{X}_{p} \mathrm{G}_{c}-\right.\\ &\left.\lambda_{2} \sum\limits_{p \neq q} X_{p} L_{p q}\left(\mathrm{X}_{q}\right)^{T} \mathrm{U}_{q}^{t}\right) \\[-20pt]\end{split} $$ (27)

      2. $ t = t + 1 $

      until convergence

      通过算法2进行求解, 先计算出拉普拉斯矩阵, 然后求解出然后代入公式(27)进行重复求解, 重复步骤1, 2, 直到收敛.

    • 文献[11]对数据集进行了详细的研究,本文采用的是由Kinect摄像头采集的MSR-Action3D[30]数据库和UTD-MHAD[27]数据库.

      MSR-Action3D(MSR)数据库由10个人20个动作重复 $ 2\sim 3 $ 次, 共计557个深度图序列, 涉及人的全身动作. 详情如表1所示

      表 1  MSR数据库中的人体行为

      Table 1.  Human Actions in MSR

      动作 样本数 动作 样本数
      高挥手(A01) 27 双手挥(A11) 30
      水平挥手(A02) 26 侧边拳击(A12) 30
      锤(A03) 27 弯曲(A13) 27
      手抓(A04) 25 向前踢(A14) 29
      打拳(A05 26 侧踢(A15) 20
      高抛(A06) 26 慢跑(A16) 30
      画叉(A07) 27 网球挥拍(A17) 30
      画勾(A08) 30 发网球(A18) 30
      画圆(A09) 30 高尔夫挥杆(A19) 30
      拍手(A10) 30 捡起扔(A20) 27

      UTD-MHAD (UTD)数据库由8个人(4男4女) 27个动作重复4次, 共计861个深度图序列. 详情如表2所示

      表 2  MSR数据库中的人体行为

      Table 2.  Human Actions in MSR

      动作 样本数 动作 样本数
      向左滑动(B01) 32 手臂卷曲(B16) 32
      向右滑动(B02) 32 挥网球(B15) 32
      挥手(B03) 32 网球发球(B17) 32
      鼓掌(B04) 32 推(B18)) 32
      扔(B05) 32 敲(B19) 32
      双手交叉(B06) 32 抓(B20) 32
      拍篮球(B07) 32 捡起扔(B21) 32
      画叉(B08) 31 慢跑(B22) 31
      画圆(B09) 32 走(B23) 32
      持续画圆(B10) 32 坐下(B24) 32
      画三角(B11) 32 站起来(B25) 32
      打保龄球(B12) 32 弓步(B26) 32
      冲拳(B13) 32 蹲(B27) 32
      挥羽毛球(B14) 32

      为了验证时序信息在人体行为中的重要性, 本文将与原深度图序列顺序相反的行为称为反序行为. 本文中的反序行为是通过将正序行为的深度图序列进行反序排列操作得到新数据库D1, D2, 其中D1为MSR数据库及MSR反序数据库, D2为UTD数据库及UTD反序数据库. D1正反高抛动作如图4所示.

      图  4  正反高抛动作

      Figure 4.  Positive and negative high throwing action

    • 本文采用10×10像素的图像单元分割图像, 每2×2个图像单元构成一个图像块, 以10像素为步长滑动图像块来提取图像的HOG[28]特征. 采用采样半径为2, 采样点数为8的参数设置来提取图像LBP[31]特征. 尺寸归一化后 $ {\rm{DM}}{{\rm{M}}_f} $ 大小为320*240, $ {\rm{DM}}{{\rm{M}}_s} $ 大小为500*240, $ {\rm{DM}}{{\rm{M}}_t} $ 大小为320*500, 所以DMM-HOG的特征数量为120 924. DMM-LBP的特征数量为276 800. 同样尺寸归一化后 $ \mathrm{DSTM}_{\mathrm{w}} $ 大小为320*60, $ \mathrm{DSTM}_{\mathrm{h}} $ 大小为240*60, $ \mathrm{DSTM}_{\mathrm{d}} $ 大小为500*60, 所以DMM-HOG的特征数量为18 540. DMM-LBP的特征数量为63 600.

      实验中分为两个设置. 设置一在MSR数据库的上将20个行为分为3组(AS1、AS2、AS3)[31]方法相同, 行为分布情况如表1, 其中AS1和AS2组内相似度较高, AS3组内相似度较低. 如表3所示

      表 3  MSR数据库中的人体行为

      Table 3.  Human Actions in MSR

      AS1 AS2 AS3
      A02 A01 A06
      A03 A04 A14
      A05 A07 A15
      A06 A08 A16
      A10 A09 A17
      A13 A11 A18
      A18 A14 A19
      A20 A12 A20

      设置二在MSR数据库和UTD数据库上选取全部的动作.

      在设置中可采用4种测试方法. 测试1, 1/3作为训练数据, 2/3作为测试数据; 测试2[13], 1/2作为训练数据, 1/2作为测试数据; 测试3, 2/3作为训练数据, 1/3作为测试数据; 测试4, 采用5折交叉验证

    • 本文提出的人体识别的模型中, 首先要确定参数 $ {\lambda _1}, {\lambda _2}, {\lambda _3} $ 的值. 在进行子空间学习的时候, 参数对于结果有着巨大的影响, 所以需要优先估计最优的参数. 通过列举参数的不同, 以识别率的高低作为评判标准. 识别率= (预测正确测试样本数/总测试样本数), 通过采用设置一测试1的方法, 采用HOG特征进行实验, 其中根据公式(20)(21)分别可以得到 ${\lambda _2}{\rm{ = }}\dfrac{1}{{13\;847}} , {\lambda _3} = \dfrac{1}{{19}},$ 根据图5可知, 当 $ {\lambda _1} = 20$ 时, 本文算法具有较高的人体识别性能.

      图  5  参数选择

      Figure 5.  The parameter of selection

    • 同一种特征图而言, 采用不同的分类器识别效果会有较大的差异. 为了选择特征图识别效果较好的分类器, 本实验通过DSTM在不同的分类器的识别效果, 最终以识别率作为标准, 采用设置一测试3的方法, 如图6所示:

      图  6  DSTM在不同分类器识别效果

      Figure 6.  DSTM recognition of different classifiers

      图6中可以发现HOG特征采用了不同的分类器得到的识别率差异较, 不同特征图采用同一分类器, 与同一特征图采用不同分类器, 支持向量机(SVM)的识别效果较好, 下面实验均采用SVM作为分类器.

    • 为了筛出空间信息和时序信息的特征图, 采用设置一在MSR数据库使用测试一、二、四的方法上进行实验, 并且对3组实验结果设置了平均值. 采用设置二在UTD数据库上使用测试1, 测试2, 测试3的方法进行实验; 通过个体识别率和平均识别率来筛出空间信息和时序信息的特征图.

      表4表5使用HOG和LBP两个特征图序列. 表4中无论单个识别率或平均识别率和表5中所有动作的识别率可以得出结论: 在同一特征图中, HOG特征较LBP特征有着更高的识别率. LBP特征反映的是像素周围区域的纹理信息; HOG特征能捕获轮廓, 弱化光照, 对于深度图有着更好的表征特点, 有着较高的识别率. 就本文实验而言. HOG特征更适合于本实验.

      表 4  MSR数据库上不同特征的识别率

      Table 4.  Different of feature action recognition on MSR

      method Test One Test Two Test Three
      AS1 AS2 AS3 avg AS1 AS2 AS3 avg AS1 AS2 AS3 avg
      MEI-HOG 69.79 77.63 79.72 75.71 84.00 89.58 93.24 88.94 86.95 86.95 95.45 89.78
      MEI-LBP 57.05 56.58 64.19 59.27 66.66 69.79 78.37 71.61 69.56 73.91 77.27 73.58
      DSTM-HOG 83.22 71.71 87.83 80.92 94.66 84.37 88.23 89.80 91.30 82.61 95.95 89.95
      DSTM-LBP 84.56 71.71 87.83 81.37 88.00 82.29 95.94 88.74 86.96 82.61 95.45 88.34
      MHI-HOG 69.79 72.36 70.95 71.03 88.00 84.37 89.19 87.19 95.65 82.60 95.45 91.23
      MHI-LBP 51.67 60.52 54.05 55.41 73.33 70.83 78.37 74.18 82.60 65.21 72.72 73.51
      DMM-HOG 88.00 87.78 87.16 87.65 94.66 87.78 100.00 94.15 100.00 88.23 95.45 94.56
      DMM-LBP 89.52 87.78 93.20 90.17 93.11 85.19 100.00 92.77 94.03 88.98 92.38 91.80

      表 5  UTD数据库上不同特征的识别率

      Table 5.  Different of feature action recognition on UTD

      method Test One Test Two Test Three
      MEI-HOG 69.51 65.42 68.20
      MEI-LBP 45.12 51.97 52.61
      DSTM-HOG 71.08 80.28 89.54
      DSTM-LBP 68.81 80.97 86.06
      MHI-HOG 56.44 66.58 73.14
      MHI-LBP 49.82 53.82 57.40
      DMM-HOG 78.39 75.40 87.94
      DMM-LBP 68.98 74.94 86.75

      表4表5中选择同为HOG特征的特征图, 从表中的识别率可以得出DMM和DSTM与MEI和MHI相比有更高的识别率, 主要原因是MEI将深度帧二值化后的进行叠加, 掩盖了时序图中每张图的轮廓信息, 丢失了时序图自身的深度信息, 但反映出一定的轮廓信息, 保留了一定的空间信息; MHI虽然通过图像的亮度衰减, 增加了一部分的时序信息, 但由于人为干预图像的亮度丢失了图像自身的深度信息.

      使用DSTM和DMM的优势主要有以下几点: 一是DMM是将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2D地图, 在此基础上差分堆叠整个深度序列动作能量图. 相较于MEI, DMM充分了使用了时序图的深度信息, 丰富了特征中的空间信息, 很大程度上保留了轮廓信息, 并且从三个方向上可以很明显的看出行为动作, 充分展现了空间信息. 二是DSTM是将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2维地图, 提取任意两个2维地图投影到3个正交轴上获取三轴坐标投影, 将获得的坐标投影二值化后按时间顺序进行拼接. DSTM将深度帧的时序信息很好的保留了下来, 相较于MHI有了很大程度上的改善. DSTM较好保存了时序信息.

      时序信息在行为识别中有着重要的作用. 对比DMM, DSTM蕴含着重要的时序信息. 本文在D1和D2数据库上采用设置二, 使用测试1的方法

      通过对比表6的识别率和表7时间复杂度, 在D1与D2数据库的实验证明, DMM由于未含有时序信息,与DSTM识别率差异较大. 另外DMM相较于DSTM时间复杂度较高, DSTM的时序信息在行为识别中起着重要的作用.

      表 6  DMM和DSTM对比实验结果

      Table 6.  Experimental results of DMM and DSTM

      method D1 D2
      DSTM 62.83 81.53
      DMM 32.17 63.93

      表 7  DMM和DSTM平均处理时间

      Table 7.  Average processing time of DMM and DSTM

      method D1(s) D2(s)
      DSTM 2.1059 3.4376
      DMM 5.6014 8.6583
    • 本文选取的深度运动图代表的空间信息与深度时空图代表的特征图使用多聚点子空间学习的算法(简称本文方法). 为了表征本文方法对于单一特征有着更高的识别率以及本文方法对于融合方法同样有着更高的识别率, 通过与当前主流单一算法和融合算法进行比较. 在MSD-Action3D上采用设置二测试2, 设置二测试4的方法. 在UTD-MHAD上采用设置二测试4

      表8采用了均文献[13]方法的实验设置,其中文献[34-40]方法使用了深度学习的模型框架. 识别率最高为91.45. 本文的识别率达到了90.32%,接近文献[34]中的最优结果, 主要原因是: 本文提出的DSTM算法可以将深度帧的时序信息很好地保留下来,因此获得的特征信息更加丰富和完善. 多聚点子空间的方法构建了多个投影聚点并使用了模态内、模态间数据相似度关系, 使得子空间样本向多个投影目标点附近的超平面聚拢, 有效增大了子空间样本之间的距离, 所以在行为识别中表现出了较为优越的性能. 表9表10在多聚点子空间学习加单个特征图的识别率有一定的提升,但相较于融合DSTM特征和DMM特征图略有不足. 在采用不同的融合方法时, 识别率也有一定提升. 本文方法的识别率在MSR数据库高达98.21%和UTD数据库98.84%. 为了更深层次的了解本文方法的识别效果, 本文给出了本文方法的每个动作识别效果的混淆矩阵.

      表 8  $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $ 在上的实验结果

      Table 8.  Experimental results on $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1} $

      method Recognition rate (%) method Recognition rate (%)
      文献[13]方法 86.50 文献[38]方法 81.7
      文献[34]方法 91.45 文献[39]方法 90.01
      文献[35]方法 90.01 文献[40]方法 89.48
      文献[36]方法 89.40 本文学习方法 90.32
      文献[37]方法 77.47
      $\mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{1}$采用设置二测试2

      表 9  $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $ 在上的实验结果

      Table 9.  Experimental results on $ \mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2} $

      method Recognition rate (%) method Recognition rate (%)
      MHI-LBP 68.75 MCSL+DMM 89.28
      MEI-LBP 71.43 MCSL+DSTM 91.96
      DCA[23] 94.64 CCA[22] 83.05
      DSTM-LBP 87.50 子空间学习 92.85
      DSTM-HOG 89.28 本文学习方法 98.21
      $\mathrm{MSR}-\mathrm{Action} 3 \mathrm{D}^{2}$采用设置二测试4 | MCSL为多聚点子空间学习英文简写

      表 10  UTD-MHAD在设置二测试4上的实验结果

      Table 10.  Experimental results on UTD-MHAD

      method Recognition rate (%) method Recognition rate (%)
      MHI-LBP 62.40 MCSL+DMM 93.64
      MEI-LBP 57.80 MCSL+DSTM 95.37
      DCA[23] 92.48 CCA[22] 87.28
      DSTM-LBP 89.59 子空间学习 93.64
      DSTM-HOG 91.90 本文学习方法 98.84

      融合DMM的空间信息和DSTM的时序信息的两种特征图后, 得到空间时序特征. 多聚点子空间学习是通过为各类别样本构建了多个投影聚点. 图7(b)为MSR的混淆矩阵, 从中可以看出整体识别率, 图中显示本文方法将画叉识别成画圈, 发网球识别成了画勾. 两类动作差异性小, 较容易出错. 图7 (c)为UTD的混淆矩阵, 从图中显示本文方法将慢跑别成走路. 出现错误原因是动作行为轨迹相似性较大.

    • 针对现有的深度图序列特征图冗余过多, 时序和空间信息缺失等问题, 本文提出一种新的深度序列表示方式DSTM和多聚点子空间学习, 并在此基础上进行了人体行为识别研究. 首先将深度帧投影到笛卡尔直角坐标平面上, 生成的主视图, 俯视图, 侧视图三个2D地图, 提取任意两个2D地图投影到3个正交轴上获取三轴坐标投影, 将获得的坐标投影二值化后按时间顺序进行拼接生成DSTM, 对每张DSTM提取HOG特征以获得时序信息, 然后对DMM提取HOG特征以获得空间信息. 多聚点子空间学习, 在约束平衡模态间样本关系的同时, 通过构建了同类别各样本的多个副投影聚点, 疏远不同类别样本的类间距离, 降低了投影目标区域维度, 最后送入分类器进行人体行为识别. 本实验表明本文提出的DSTM和多聚点子空间学习的方法能够减少深度序列的冗余, 保留丰富的空间信息和良好的时序信息, 有效的提高行为识别的准确性.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回