2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

人体行为识别数据集研究进展

朱红蕾 朱昶胜 徐志刚

朱红蕾, 朱昶胜, 徐志刚. 人体行为识别数据集研究进展. 自动化学报, 2018, 44(6): 978-1004. doi: 10.16383/j.aas.2018.c170043
引用本文: 朱红蕾, 朱昶胜, 徐志刚. 人体行为识别数据集研究进展. 自动化学报, 2018, 44(6): 978-1004. doi: 10.16383/j.aas.2018.c170043
ZHU Hong-Lei, ZHU Chang-Sheng, XU Zhi-Gang. Research Advances on Human Activity Recognition Datasets. ACTA AUTOMATICA SINICA, 2018, 44(6): 978-1004. doi: 10.16383/j.aas.2018.c170043
Citation: ZHU Hong-Lei, ZHU Chang-Sheng, XU Zhi-Gang. Research Advances on Human Activity Recognition Datasets. ACTA AUTOMATICA SINICA, 2018, 44(6): 978-1004. doi: 10.16383/j.aas.2018.c170043

人体行为识别数据集研究进展

doi: 10.16383/j.aas.2018.c170043
基金项目: 

国家自然科学基金 61563030

甘肃省自然科学基金 1610RJZA027

详细信息
    作者简介:

    朱昶胜 兰州理工大学计算机与通信学院教授.2006年获得兰州理工大学博士学位.主要研究方向为高性能计算, 数据分析与理解.E-mail:zhucs2008@163.com

    徐志刚 兰州理工大学计算机与通信学院副教授.2012年获得中国科学院研究生院博士学位.主要研究方向为计算机视觉与图像处理.E-mail:xzgcn@163.com

    通讯作者:

    朱红蕾 兰州理工大学计算机与通信学院博士研究生.2004年获得兰州理工大学硕士学位.主要研究方向为计算机视觉与模式识别.本文通信作者.E-mail:zhuhllut@139.com

Research Advances on Human Activity Recognition Datasets

Funds: 

National Natural Science Foundation of China 61563030

Natural Science Foundation of Gansu Province 1610RJZA027

More Information
    Author Bio:

    Professor at the School of Computer and Conmunacation, Lanzhou University of Technology. He received his Ph. D. degree from Lanzhou University of Technology in 2006. His research interest covers high performance computing, data analysis, and understanding

    Associate professor at the School of Computer and Conmunacation, Lanzhou University of Technology. He received his Ph. D. degree from Graduate University of Chinese Academy of Sciences in 2012. His research interest covers computer vision and image processing

    Corresponding author: ZHU Hong-Lei Ph. D. candidate at the School of Computer and Conmunacation, Lanzhou University of Technology. She received her master degree from Lanzhou University of Technology in 2004. Her research interest covers computer vision and pattern recognition. Corresponding author of this paper
  • 摘要: 人体行为识别是计算机视觉领域的一个研究热点,具有重要理论价值和现实意义.近年来,为了评价人体行为识别方法的性能,大量的公开数据集被创建.本文系统综述了人体行为识别公开数据集的发展与前瞻:首先,对公开数据集的层次与内容进行归纳.根据数据集的数据特点和获取方式的不同,将人体行为识别的公开数据集分成4类.其次,对4类数据集分别描述,并对相应数据集的最新识别率及其研究方法进行对比与分析.然后,通过比较各数据集的信息和特征,引导研究者选取合适的基准数据集来验证其算法的性能,促进人体行为识别技术的发展.最后,给出公开数据集未来发展的趋势与人体行为识别技术的展望.
  • 人体行为识别是一个多学科交叉的研究方向, 涉及图像处理、计算机视觉、模式识别、机器学习、人工智能等多个学科, 是计算机视觉领域的一个重要研究课题[1].随着数字图像处理技术和智能硬件制造技术的飞速发展, 人体行为识别在智能视频监控[1-3]、自然人机交互[4-6]、智能家居[7-9]、虚拟现实[10]等领域具有广泛的应用前景.

    自以色列魏茨曼科学研究所于2001年发布基于事件的视频分析数据库[11]以来, 许多人体行为数据集陆续公开发布, 对促进人体行为识别方法的研究起到关键的作用, 也对计算机视觉研究的发展具有很大的推动作用.公开的人体行为数据集为众多研究者提供了一定的研究规范, 使研究者可以利用相同的输入数据来比较不同识别方法的相关性能, 是校验识别方法性能优劣的重要标准.

    人体行为数据集的更新和发展在计算机视觉领域起到了方向标的作用.而各个公开的人体行为数据集在相机状态、拍摄视角、活动场景、行为类别以及视频规模等方面具有很大的差异.因此, 对公开数据集进行对比分析, 有利于研究者根据自己的需求选择合适的数据集, 缩短研究周期.截至目前, 已有一些涉及行为识别数据集相关的综述性文章[12-14]. Ahad等[12]简单介绍了与人体行为相关的数据集信息. Chaquet等[13]较详尽地介绍与人体行为和活动相关的数据集, 并罗列出应用各个数据集的相应文献, 但没有提供数据集的最新研究成果.而等[14]针对涉及深度信息的行为识别数据集进行了详细介绍, 但有些数据集的信息和研究成果需要更新.还有一些综述性文章[15-18], 侧重于行为识别的研究方法, 而对相关数据集介绍较简单.

    根据数据集的数据特点和获取方式, 可以把人体行为识别领域常用的公开数据集分为4类:通用数据集、真实场景数据集、多视角数据集和特殊数据集.而根据人的行为方式可以将公开数据集分为三类:个体行为数据集、交互行为数据集和群体行为数据集.根据第一种分类方式, 下面的章节将分别对4类数据集及其研究方法进行详细介绍.

    通用行为识别数据集, 它们包含受试者在受限场景下执行的一系列简单动作, 如KTH[19]和Weizmann[20-21].

    KTH[19]数据集发布于2004年, 是计算机视觉领域的一个里程碑.该数据集提供了4类场景下25个不同受试者的6种人体行为:步行(Walking)、慢跑(Jogging)、跑步(Running)、拳击(Boxing)、挥手(Hand waving)和拍手(Hand clapping), 其示例如图 1所示.

    图 1  KTH数据集示例图[19]
    Fig. 1  Sample images of KTH dataset[19]

    该数据集的4类场景分别为室外(s1)、室外不同着装(s2)、室外放大(s3)和室内(s4).数据集一共包含599个视频, 其中8个受试者的视频作为训练集, 8个受试者的视频作为验证集, 9个受试者的视频作为测试集.该数据集的视频具有尺度、衣着和光照的变化, 但其场景中背景相对静止, 摄像机位置也相对固定, 只有焦距的变化.因此该数据集相对比较简单, 但由于场景变化, 目前其识别准确率未能达到100 %. Zhou等[22]基于多核学习(Multiple kernel leaning, MKL), 针对时空兴趣点(Space-time interest points, STIP)利用语义上下文特征树模型增强行为描述符的辨别力, 其识别率达到98.67 %.而Xu等[23]利用三个低层特征: STIP、空间星图(SSG)和时间星图(TSG)构建基于中层特征的视觉词袋(MLDF), 达到98.83 %的识别率.

    Weizmann[20-21]数据集发布于2005年, 一共包含9个不同受试者的10种人体行为:走(Walk)、跑(Run)、双腿跳(Jump)、侧身跑(Gallop sideways)、弯腰(Bend)、挥单手(One-hand wave)、挥双手(Two-hands wave)、原地跳(Jump in place)、开合跳(Jumping Jack)和单腿跳(Skip).该数据集一共包含93个视频, 其分辨率较低, 为144 $\times$ 180.数据集视频场景中的背景、视角及摄像头都是静止的, 并提供利用背景消减法得到的剪影信息, 如图 2所示.此外, 该数据集还提供包含两个单独动作的视频序列:一个是不同视角下人体行走的视频; 另一个为衣着和人物等方面有细微差异的行走动作序列.该数据集比较简单, 研究者于2008年利用度量学习方法[25]和中层运动特征[26]已达100 %的识别率.

    图 2  Sample images of KTH dataset[19]
    Fig. 2  Sample images and silhouettes of Weizmann dataset[24]

    通用数据集提出较早, 包含行为类型简单、规模较小.目前研究者对其关注较少, 仅利用它来对比验证算法的性能.

    通用数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 1所示.

    表 1  通用数据集的最新研究成果概览表
    Table 1  Summary of state-of-the-art research results on general datasets
    数据集名称最新识别率年份研究方法评价方案
    98.83 %[23]2016MLDFCS: Tr: 16; Te: 9
    KTH98.67 %[22]2016Semantic context feature-tree (MKL)CS: Tr: 16; Te: 9
    98.5 %[43]2015Local region tracking (HBRT/VOC)CS: Tr: 16; Te: 9
    100 %[44]20173D-TCCHOGAC+3D-HOOFGACLOOCV
    100 %[45]2016$\Re$ transform + LLE (SVM)LOOCV
    Weizmann100 %[46]2016SDEG + $\Re$ transformLOOCV
    100 %[47]20143D cuboids + mid-level feature (RF)LOSOCV
    100 %[25]2008Metric learningLOSOCV
    100 %[26]2008Mid-level motion featuresLOOCV
    *Tr: training set; Te: test set; CS: cross-subject; LOOCV: leave-one-out cross validation; LOSOCV: leave-one-subject-out cross validation
    下载: 导出CSV 
    | 显示表格

    真实场景数据集主要是从电影或视频中收集的数据, 比如Hollywood[27]、UCF Sports[28]、Hollywood 2[29]、UCF YouTube[30]、Olympic Sports[31]、HMDB51[32]、UCF50[33]、UCF101[34]、Sports-1M[35]数据集等.它们共同的特点是相机、场景不固定且同类动作的类内散度比较大, 因而极具挑战性.

    Hollywood (HOHA)[27]数据集来自32部电影, 从中抽取由不同的演员在不同的环境下执行的相同动作.该数据集包括8种行为类别:接电话(AnswerPhone)、下车(GetOutCar)、握手(HandShake)、拥抱(HugPerson)、亲吻(Kiss)、坐下(SitDown)、端坐(SitUp)、起立(StandUp), 并具有一个或多个标签.该数据集被划分成两部分:从12部电影获得的2个训练集和从其余的20部电影获得的测试集.其中, 2个训练集包括一个自动训练集和一个干净训练集.自动训练集使用自动脚本进行行为标注, 包含233个视频样本, 并具有超过60 %的正确标签; 而干净训练集则包含219个视频样本, 具有手动验证标签.测试集包含211个视频样本, 均具有手动验证标签. Kulkarni等[36]针对连续行为识别, 基于动态时间规整提出一种新颖的视觉对准技术动态帧规整(DFW), 达到59.9 %的识别率.而Shabani等[37]基于标准判别词袋行为识别框架, 通过对比基于结构的特征和基于运动的特征的性能, 使用非对称运动特征进行有效的稀疏紧凑表示达到62 %的识别率.

    Hollywood 2[29]数据集是Hollywood[27]的扩展, 来自69部电影, 包含12种行为类别和10类场景, 共有3 669个视频.该数据集包含两个子集:行为数据集(2 517个视频, 现实际有2 442个视频)和场景数据集(1 152个视频).行为数据集(Actions)在Hollywood[27]的基础上增加了4种行为类别:开车(DriveCar)、吃饭(Eat)、打架(FightPerson)和跑(Run), 其示例如图 3所示.

    图 3  Hollywood 2数据集示例图[48]
    Fig. 3  Sample images of Hollywood 2 Dataset[48]

    该数据集的训练集从33部电影中获得, 而测试集从其余的36部电影中获得.行为数据集包含2个训练集和一个测试集(884个视频).其中, 2个训练集包括一个自动训练集和一个干净训练集.自动训练集使用自动脚本进行行为标注, 包含810个视频样本(现实际有735个); 而干净训练集则包含823个视频样本.场景数据集(Scenes)包含一个自动标注的训练集(570个视频)和一个测试集(582个视频).因为视频中演员的表情、姿态、穿着各异, 再加上相机运动、光照条件、遮挡、背景等诸多因素影响, 其视频接近于真实场景下的情况, 因此该数据集极具挑战性. Fernando等[38]采用卷积神经网络(Cellular neural networks, CNN), 利用Fisher向量(Fisher vector, FV)和秩池化(Rank pooling, RP)对改进稠密轨迹(Improved dense trajectory, iDT)[39]描述符编码, 并结合分层秩池化(HRP)编码的CNN特征, 达到76.7 %的识别率. Liu等[40]提出一种分层聚类多任务学习(HC-MTL)方法, 同时利用低秩(Low rank)和组稀疏(Group sparsity)结构进行正则化, 达到78.5 %的识别率.而Wang等[41]利用改进的双流卷积神经网络(Two-stream ConvNets, TCNN)[42], 在多个卷积层计算EPT (Evolution-preserving dense trajectory)描述符, 并与稠密轨迹(DT)[49]描述符融合, 同时利用VideoDarwin技术, 达到78.6 %的识别率.

    UCF Sports[28]数据集主要来自BBC和ESPN等广播电视频道, 包含150个视频.该数据集包含10种运动类别:跳水(Diving)、高尔夫挥杆(Golf Swing)、踢足球(Kicking)、举重(Lifting)、骑马(Riding Horse)、跑步(Running)、滑板(Skateboarding)、平衡木(Swing-Bench)、双杠(Swing-Side)和行走(Walking), 其示例如图 4所示.

    图 4  UCF Sports数据集示例图[50]
    Fig. 4  Sample images of UCF Sports Dataset[50]

    该数据集的视频具有较高分辨率, 是各种现实场景的自然行为, 因此其在动作类型、相机运动、视角、光照和背景等方面有较大差异, 具有一定的挑战性, 并有助于研究不受约束环境的行为识别.目前, Tong等[44]提出3D-TCCHOGAC和3D-HOOFGAC两个构建动态描述符的方法, 并利用这两个动态描述符与静态描述符融合形成一种行为识别新框架, 达到96 %的识别率.而Harbi等[43]有别于传统的基于时空兴趣点技术, 通过先进的人体检测和分割方法(HBRT/VOC)提取时空人体区域信息, 利用局部约束线性编码(LLC)达到96.2 %的识别率.

    UCF YouTube[30]数据集目前被称为UCF11, 是由中佛罗里达大学(University of Central Florida, UCF)计算机视觉研究中心发布的, 包含1 600个视频.该数据集共有11种行为类别:篮球投篮(b_shooting)、骑自行车(cycling)、跳水(diving)、高尔夫挥杆(g_swinging)、骑马(r_riding)、足球颠球(s_juggling)、荡秋千(swinging)、打网球(t_swinging)、跳蹦床(t_jumping)、排球扣球(v_spiking)、与狗一起散步(g_walking), 其示例如图 5所示.

    图 5  UCF YouTube数据集示例图[30]
    Fig. 5  Sample images of UCF YouTube Dataset[30]

    该数据集的视频格式是MPEG格式, 对于每个类别的视频被分成25组, 每组至少4个行为视频.同一组的视频具有一些共同的特征, 如演员相同、背景相似、视角相似等.因此, 虽然该数据集也具有相机运动、视角、背景复杂度、光照条件等变化, 但由于类内相似度较高, 目前其识别准确率较高. Peng等[51]通过在表征层将传统的Fisher向量与堆叠Fisher向量(SFV)合并, 达到93.77 %的识别率. Liu等[52]提出一个深度学习框架CNRF, 采用时空CNN从原始输入帧学习不变特征, 同时采用结合条件随机场(CRF)的CNN捕获输出之间的相互依赖关系, 通过联合学习它们的参数, 达到94.4 %的识别率. Sun等[53]利用词袋量化将残差向量压缩成低维残差直方图, 并与多个迭代高阶残差向量生成的高阶残差直方图连接形成分层词袋模型(HBoW), 然后采用内部归一化处理, 达到94.50 %的识别率.

    Olympic Sports[31]数据集来自于YouTube, 包含运动员练习的783个视频.该数据集包含16种运动类别:跳高(high-jump)、跳远(long-jump)、三级跳远(triple-jump)、撑杆跳(pole-vault)、单手上篮(basketball lay-up)、打保龄球(bowling)、网球发球(tennis-serve)、10米跳台(platform)、铁饼(discus)、链球(hammer)、标枪(javelin)、铅球(shot put)、3米跳板(springboard)、举重抓举(snatch)、举重挺举(clean-jerk)和跳马(vault), 其示例如图 6所示.该数据集在亚马逊土耳其机器人的帮助下注释其类标签, 包含复杂运动、严重遮挡、相机运动等因素影响.目前, Sekma等[54]基于人体检测的iDT描述符提出一种多层Fisher向量编码的方法, 达到96.5 %的识别率.而Li等[55]通过深度卷积神经网络(DCNN)获得短时动态特征; 利用线性动态系统(LDS)得到中间范围动态特征; 借助局部特征聚合描述符(VLAD)获得长期的不均匀动态特征, 并在考虑上述不同级别视频动态特征的基础上提出VLAD$^3$表征方法, 同时结合iDT描述符进一步提高性能, 获得96.6 %的识别率.

    图 6  Olympic Sports数据集示例图
    Fig. 6  Sample images of Olympic Sports Dataset

    HMDB51[32]数据集主要来源于电影, 只有一小部分来自公共数据库, 如Prelinger存档、YouTube和Google视频.该数据集包含6 849个视频, 分为51种行为类别, 每种行为包含至少101个视频.该数据集的行为类别可以归纳为5种类型: 1)普通面部动作:微笑、大笑、咀嚼、说话; 2)操纵对象的面部动作:抽烟、吃、喝; 3)普通身体运动:侧手翻、拍手、攀登、爬楼梯、俯冲、落地、反手空翻、倒立、跳、引体向上、俯卧撑、跑、坐下、仰卧起坐、翻筋斗、站起来、转身、走、挥手; 4)与对象交互的身体运动:梳头、抓球、拔剑、运球、打高尔夫、打东西、踢足球、捡东西、倒东西、推东西、骑自行车、骑马、投篮、射箭、射枪、打球棒、练剑、扔东西; 5)与人交互的身体运动:击剑、拥抱、踢人、亲吻、拳击、握手、斗剑, 其部分示例如图 7所示.因为该数据集来源不同, 并伴有遮挡、相机移动、复杂背景、光照条件变化等诸多因素影响, 导致其识别准确率较低, 极具有挑战性.最初, 该数据集的识别率为23.18 %[32]. 2016年, Feichtenhofer等[56]利用TCNN融合时间和空间特征达到69.2 %的识别率. Wang等[57]则利用三个TCNN构建时间分割网络(TSN)达到69.4 %的识别率, 略高于前者.此外, Wang等[58]研究了行为和场景之间的关系, 通过深度卷积神经网络Places205-VGGNet[59]模型获得场景特征, 同时利用静态场景编码和动态场景编码作为场景特征的补充, 再与运动特征结合, 将识别率提高到73.6 %.

    图 7  HDMB51数据集示例图
    Fig. 7  Sample images of HDMB51 dataset

    UCF50[33]数据集来自YouTube的现实视频, 是UCF11[30]的扩展.该数据集的行为类别由11种扩展到50种, 包含6 676个视频(现在实际有6 681个).该数据集增加的39种行为类别为:棒球投掷、卧推、台球击球、蛙泳、挺举、击鼓、击剑、弹吉他、跳高、赛马、呼啦圈、掷标枪、杂耍球、跳绳、开合跳、皮划艇、弓步、阅兵、调糊、双截棍、弹钢琴、扔披萨、撑竿跳、鞍马、引体向上、拳击、俯卧撑、室内攀岩、爬绳、赛艇、萨尔萨舞旋转、滑板、滑雪、摩托艇、打手鼓、太极、掷铁饼、弹小提琴和溜溜球, 其示例如图 8所示.每种行为类别也包含25组, 每组包含4 $\sim$ 23个视频, 具有一些共同的特征.因此, 该数据集识别率较高.截至目前, Lan等[60]为解决高斯金字塔不能在粗尺度产生新特征的问题, 提出一种新的特征增强技术MIFS. MIFS使用一系列差分滤波器提取堆叠特征, 通过多次时间跳跃参数化, 实现频率空间的平移不变性, 同时以粗尺度重新获取的信息来补偿使用差分算子丢失的信息, 提高基于差分滤波器特征的可学习性, 达到94.4 %的识别率. Ijjina等[61]利用遗传算法和深度卷积神经网络, 采用5折交叉验证达到99.98 %的识别率.

    图 8  UCF50数据集示例图[33]
    Fig. 8  Sample images of UCF50 dataset[33]

    UCF101[34]数据集又是UCF50[33]的扩展, 包含101种动作类别, 共计13 320个视频片段.该数据集的行为类别可以分成5类: 1)人与对象的交互; 2)身体运动; 3)人之间的交互; 4)乐器演奏; 5)体育运动, 其部分示例如图 9所示.该数据集的每种行为类别包含25组, 每组包含4 $\sim$ 7个视频片段.该数据集由用户上传, 来自于无约束的现实环境, 平均剪辑长度为7.21秒, 包含相机运动、杂乱背景、不同光照条件、遮挡、低质量等不确定因素, 因此该数据集非常具有挑战性, 也引起了众多研究者的关注. 2012年最初的识别率为43.9 %[34]. 2016年, Feichtenhofer等[56]利用TCNN将识别率提升到93.5 %.同年, Lev等[62]基于FV, 利用递归神经网络(RNN)生成概率模型, 同时利用反向传播算法(BP)计算偏导数, 达到94.08 %的识别率.而Wang等[57]则利用TSN进一步将识别率提升到94.2 %, 给研究者提供了更好的研究思路.

    图 9  UCF101数据集示例图
    Fig. 9  Sample images of UCF101 dataset

    THUMOS挑战开始于2013年, 基于UCF101[34]数据集, 其目的是对含有大量类别的真实原始视频的大规模行为识别探索新的方法. THUMOS'13[63]的基准数据集在UCF101数据集的基础上增加了24类的注释框, 其中14个类来自UCF101, 10个类来自UCF11. THUMOS'14[64]的基准数据集在THUMOS'13的基础上增加了2 500个背景视频、1 010个验证视频和1 574个测试视频. THUMOS'15[65]的基准数据集是THUMOS'14数据集的扩展, 增加到2 980个背景视频、2 104个验证视频和5 613个测试视频.而且THUMOS增加的视频是未经修剪的原始视频, 其中还包括验证集和测试集中每种行为的负背景视频, 使行为识别任务更加困难.在2015年的THUMOS挑战赛中, 参赛组大都采用深度学习技术, 利用VGG-Net或CNN模型进行研究和改进, 其中悉尼科技大学和美国卡内基梅隆大学的联合参赛组取得74.6 %[66]的最好识别准确率.而后Li等[55]提出融合不同级别视频动态特征的VLAD$^3$表征方法, 同时利用iDT描述符获得80.8 %的识别率.

    Sports-1M[35]数据集是Google公布的一个大型视频数据集, 来自于公开的YouTube视频.该数据集包含487种体育运动项目, 共计1 133 158个视频.该数据集中每种行为类别包含1 000 $\sim$ 3 000个视频, 其中有大约5 %的视频带有多个标注.该数据集包含的体育运动项目可以分为6大类:水上运动、团队运动、冬季运动、球类运动、对抗运动、与动物运动.而且各类别在叶级层次差异很小, 如包含6个不同类型的保龄球和23个不同类型台球等.自数据集创建以来, 约有7 %的视频已经被用户删除.由于该数据集来自公开视频, 所以相机运动不受限制, 导致光流参数在视频间变化较大, 给视频的识别带来一定的困难.目前, Mahasseni等[67]基于深度卷积神经网络(DCNN)和两层长短时记忆(LSTM)的多层体系结构, 同时利用3D骨架序列补充训练数据特征来改进大规模行为识别的效率.在正则化约束参数g1下, Hit@1的识别率为73.4 %, Hit@5的识别率为91.3 %; 而在正则化约束参数g3下, Hit@1的识别率为75.9 %, Hit@5的识别率为91.7 %.

    真实场景数据集的行为类别、数据规模、场景复杂度不断增大, 给研究者提出了新挑战.而随着近年来深度学习在机器视觉领域的研究与应用, 研究者基于深度学习技术, 利用不同的模型, 如卷积神经网络(CNN)、深度卷积神经网络(DCNN)、递归神经网络(RNN)、双流卷积神经网络(TCNN)等, 同时结合不同的方法使相关数据集的识别率有了较大地提升.

    真实场景数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 2所示.

    表 2  真实场景数据集的最新研究成果概览表
    Table 2  Summary of state-of-the-art research results on real scene datasets
    数据集名称最新识别率年份研究方法评价方案
    62 %[37]2012Asymmetric motions (BoW)Tr: 219 vedios; Te: 211vedios
    Hollywood59.9 %[36]2015DFW (BoW)Tr: 219 vedios; Te: 211vedios
    56.51 %[76]2016STG-MILTr: 219 vedios; Te: 211vedios
    78.6 %[41]2017EPT + DT + VideoDarwin (TCNN)Tr: 823 videos; Te: 884 videos
    Hollywood 278.5 %[40]2017HC-MTL + L/S RegTr: 823 videos; Te: 884 videos
    76.7 %[38]2016HRP + iDT (VGG-16)Tr: 823 videos; Te: 884 videos
    96.2 %[43]2015Local region tracking (HBRT/VOC)all classes
    UCF Sports96 %[44]20173D-TCCHOGAC + 3D-HOOFGACLOOCV
    95.50 %[47]20143D cuboids + mid-level feature (RF)LOOCV
    94.50 %[53]2016HboWLOOCV
    UCF YouTube94.4 %[52]2016CNRF (CNN)LOVOCV
    93.77 %[51]2014FV + SFVLOGOCV
    96.60 %[55]2016VLAD$^3$ + iDT (CNN)each class video: Tr: 40; Te: 10
    Olympic Sports96.5 %[54]2015iDT + HD (multi-layer FV)not mentioned
    93.6 %[77]2017Bag-of-SequenceletsTr: 649 videos; Te: 134 videos
    73.6 %[58]2016scene + motion (DCNN)three train/test splits
    HMDB5169.40 %[57]2016TSN (TCNN)three train/test splits
    69.2 %[56]2016spatiotemporal fusion (TCNN)three train/test splits
    99.98 %[61]2016GA (CNN)5-fold cross-validatin
    UCF5094.4 %[60]2015MIFSLOGOCV
    94.1 %[78]2013weighted SVM5-fold LOGOCV
    94.20 %[57]2016TSN (TCNN)three train/test splits
    UCF10194.08 %[62]2016RNN-FV (C3D + VGG-CCA) + iDTthree train/test splits
    93.5 %[56]2016spatiotemporal fusion (TCNN)three train/test splits
    80.8 %[55]2016VLAD$^3$ + iDT (CNN)5-fold cross-validation
    76.8 %[55]2016VLAD$^3$ (CNN)5-fold cross-validation
    THUMOS'1574.6 %[66]2015VLAD + LCD (VGG-16)5-fold cross-validation
    70.0 %[79]2015Stream Fusion + Linear SVM (VGG-19)Tr: UCF101 dataset; Te: val15
    65.5 %[80]2015iDT + LCD + VLAD (VGG-16)Tr: UCF101 dataset; Vs: val15
    Te: UCF101 dataset + val15
    75.9 %[67]2016RLSTM-g3 (GoogLeNet)not mentioned
    Sports-1M73.4 %[67]2016RLSTM-g1 (GoogLeNet)not mentioned
    (Hit$@$1)73.10 %[81]2015LSTM on Raw Frames LSTM on Optical Flow
    (GoogLeNet)
    1.1 million videos
    *LOVOCV: leave-one-video-out cross validation; LOGOCV: leave-one-group-out cross validation; Vs: validation set
    下载: 导出CSV 
    | 显示表格

    视频行为分析最大的困难之一是由视角变化引起的特征不确定性.多视角数据集为视角变化情况下研究行为的旋转不变性提供了基准数据集.常见的多视角数据集有: IXMAS[68]、MuHAVi[69]、PETS[70-71]等.

    INRIA Xmas Motion Acquisition Sequence (IXMAS)[68]数据集是由法国国家信息与自动化研究所(Institute for Research in Computer Science and Automation, INRIA)发布的, 是多视角和三维研究的重要校验基石.该数据集是从5个视角拍摄的, 室内的4个方向和顶部的1个方向.目前, 该数据集更新至总共由12个受试者完成13种不同的日常行为, 共计180个视频.该数据集的13种日常行为:看手表、抱胳膊、抓头、坐下、起来、转身、走、挥手、拳击、踢、指、捡和扔, 其同一动作5个视角的示例及其剪影如图 10所示.其中扔的动作又可以细分为两类:过头扔和从下方扔.

    图 10  IXMAS数据集同一动作的5个视角及其剪影示例图
    Fig. 10  Sample images and the corresponding silhouettes for the same action of IXMAS dataset (5 cameras)

    该数据集的视频中受试者顺序执行13种日常行为动作, 并重复执行3次.而最早公开的数据集[68]仅包含10个受试者执行的11种日常行为, 比目前公开的数据集少了2个受试者和两种行为(指和扔).另外, 该数据集还提供人体轮廓和体积元等信息.该数据集非常具有挑战性, 虽然摄像机是固定的, 环境的光照条件和背景基本不变, 但是受试者可以自由选择自己的位置和姿态, 故存在较大的外观变化、内部类变化和遮挡问题.针对该数据集的特点, 研究者分别从单视角和多视角两个方面进行研究.对常见单视角的5种行为(看手表、抱胳膊、抓头、坐下和起来), Ashraf等[72]利用对极几何单应性的一致性, 将身体姿态看作11个身体点研究视角无关的行为识别, 其识别率为91.6 %.而对单视角的11种行为, Ji等[73]通过连接相邻视点空间之间的子行为模型建立多视角转换隐马尔科夫模型(HMM), 达到92.7 %的识别率.对5个视角的11种行为, Gao等[74]通过有监督迁移字典对学习, 利用Cuboid特征获得95.3 %的识别率; 利用STIP特征获得95.1 %的识别率.而Wu等[75]利用基于多视角最大间距的支持向量机(MMM-SVM), 达到95.54 %的识别率.

    多视角MuHAVi[69]数据集最早由英国工程和物理科学研究委员会(EPSRC)项目支持, 而目前则由智力科学技术研究委员会(CONICYT)常规项目支持.该数据集由7个受试者执行, 包含8个视角(其位置如图 11所示), 共计952个视频. 图 11的中间区域是行为执行区域, 在现场地板用白色胶带标记.

    图 11  8个摄像机配置的顶视图[69]
    Fig. 11  The top view of the configuration of 8 cameras[69]

    该数据集包含17种行为类别:来回走、跑步停止、拳击、踢、强迫倒、拉重物、捡起扔物体、步行摔倒、看车、膝盖爬行、挥胳膊、画涂鸦、跳过栅栏、醉走、爬梯子、打碎物体、跳过间隙, 其8个视角的示例如图 12所示.针对4个视角, Moghaddam等[82]利用基于轮廓的扇形极值点, 采用HMM进行分类, 达到92.1 %的识别率; 而Wu等[83]提出视角无关的LKSSVM学习算法, 达到97.48 %的识别率. Alcantara等[84]针对所有视角, 利用累积运动形状(CMS)和多层描述符, 采用多级K近邻法(K-NN)进行分类, 达到91.6 %的识别率.

    图 12  MuHAVi数据集的8个视角示例图[69]
    Fig. 12  Sample images of MuHAVi dataset (8 cameras)[69]

    多视角MuHAVi-MAS[69]数据集是MuHAVi[69]的子集, 并对轮廓数据进行了手动标注.该数据集由2个受试者执行, 仅包含侧面和45°两个视角(位置如图 11中所示的V3和V4), 共计136个视频.该数据集的行为划分更加精细, 一共含有14种行为(MuHAVi-14):向左倒、向右倒、自卫踢、自卫拳击、右踢、右击、从左向右跑、从右向左跑、从左边站起来、从右边站起来、从左向后转、从右向后转、从左向右走和从右向左走, 其两个视角的部分行为剪影如图 13所示.由于该数据集中包含视角变化, 行为类别之间具有较大的混淆性, 如从左向右跑和从右向左跑都可以视为跑, 因此, 具有一定的挑战性. Chaaraoui等[85]利用低维径向概括特征(Radial summary feature)和特征子集选择(Feature subset selection)进行特征级优化, 达到98.5 %的识别率.而Cai等[86]利用姿势字典学习达到98.53 %的识别率.

    图 13  MuHAVi-Mas数据集的2个视角剪影示例图[69]
    Fig. 13  Sample silhouette images of MuHAVi-MAS dataset (2 cameras)[69]

    另外, MuHAVi-14的14种原始行为也可以合并为8种(MuHAVi-8):倒(向左/右)、站起来(从左/右)、右踢、右击、自卫(踢/拳击)、跑(向左/右)、走(向左/右)和向后转(从左/右).该数据集由于合并混淆性行为而降低了识别难度, Chaaraoui等[85]、Chaaraoui等[87]和Alcantara等[84, 88]都实现了100 %的识别率.

    PETS (International Workshop on Performance Evaluation of Tracking and Surveillance), 其全称为跟踪与监控性能评估会议.该会议自2000年在法国召开第一届以来, 截至2016年, 已举行了16届.它的数据集是从现实生活中获取的, 主要来源于直接从视频监控系统拍摄的视频. PETS研讨会的目标是通过提供基准数据集来促进计算机视觉中检测和跟踪技术的发展.

    PETS 2009[70]的基准数据集采自在英国雷丁大学的Whiteknights校区, 涉及大约40个受试者, 有8个摄像机位于不同角度进行拍摄, 其位置和方向的平面图如图 14所示, 而实景拍摄示例如图 15所示.该数据集记录了不同的人群活动序列, 分为三个数据集:数据集S1涉及人群人数和密度估计; 数据集S2用于人群中个体的跟踪; 数据集S3涉及人群流分析和事件检测.

    图 14  8个摄像机位置和方向的平面图[70]
    Fig. 14  Plan view showing the location and direction of the 8 cameras[70]
    图 15  PETS 2009基准数据集示例图[70]
    Fig. 15  Sample images of PETS 2009 benchmark dataset[70]

    PETS 2014[71]的基准数据集由欧盟项目ARENA赞助, 称为"ARENA数据集".该数据集采用安装在车辆4个角落上的4个非重叠的视觉摄像机, 覆盖面积约100米$\times$ 30米, 如图 16所示.

    图 16  卡车车载摄像头位置及覆盖范围[71]
    Fig. 16  The on-board camera configuration and coverage[71]

    该数据集共包含22个视频, 其分辨率为1 280 $\times$ 960, 其目的是检测和理解在停放的车辆周围的人类行为.该数据集涉及视频理解的三个层次内容的挑战: 1)低级视频分析, 即目标检测和跟踪; 2)中级视频分析, 即简单事件检测, 涉及个体行为识别; 3)高级视频分析, 即复杂事件检测, 涉及群体行为和交互行为识别.该数据集主要侧重于区分正常、异常和威胁行为.对威胁行为分为三个等级:异常行为、潜在犯罪行为和犯罪行为, 其示例如图 17所示. ARENA数据集由于其复杂性, 在PETS 2015[89]和PETS 2016[90]中继续作为基准数据集之一使用.

    图 17  停放车辆周围的三种不同行为[91]
    Fig. 17  Three different kinds of behavior recorded around a parked vehicle[91]

    多视角数据集具有同一位置不同视角的信息, 有利于研究者进行视角无关的行为识别研究.目前, 对多视角数据集, 研究者大都通过提取不同的特征(如STIP、Cuboid、MoSIFT、Hog3D、CMS等), 采用不同的方法(如字典学习、迁移学习、多任务学习等)进行研究.

    多视角数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 3所示.

    表 3  多视角数据集的最新研究成果概览表
    Table 3  Summary of state-of-the-art research results on multi-view datasets
    数据集名称最新识别率年份研究方法评价方案备注
    IXMAS91.6 %[72]2015epipolar geometrynot mentioned5种行为
    (单视角)92.7 %[73]2016multi-view transition HMMLOSOCV11种行为
    IXMAS95.54 %[75]2014MMM-SVMTr: one camera's data11种行为; 5个视角
    (多视角)95.3 %[74]2016Cuboid + supervised dictionary learningLOAOCV; CV11种行为; 5个视角
    95.1 %[74]2016STIP + supervised dictionary learningLOAOCV; CV11种行为; 5个视角
    95.54 %[75]2014MMM-SVMTr: one camera's data11种行为; 4个视角
    Ts: LOSOCV
    94.7 %[40]2017HC-MTL + L/S RegLOSOCV11种行为; 4个视角
    93.7 %[92]2017eLR ConvNet(TCNN)LOSOCV12种行为; 5个视角
    85.8 %[46]2016SDEG + $\Re$ transformLOOCV13种行为; 5个视角
    MuHAVi97.48 %[83]2012Visual + Correlation (LKSSVM)LOOCV4个视角
    92.1 %[82]2014sectorial extreme points (HMM)LOSOCV4个视角
    91.6 %[84]2016CMS + multilayer descriptor (Multiclass K-NN)LOOCV8个视角
    MuHAVi-1498.53 %[86]2014Pose dictionary learning + maxpoolingLOOCV
    98.5 %[85]2013radial summary feature + Feature Subsetleave-one-sequence-out
    Selection
    95.6 %[84]2016CMS + multilayer descriptor(Multiclass K-NN)LOOCV
    94.12 %[88]2014CMS (K-NN)multi-training
    MuHAVi-8100 %[84]2016CMS + multilayer descriptor (Multiclass K-NN)LOOCV
    100 %[88]2014CMS (K-NN)multi-training
    100 %[87]2014radial silhouette-based feature (multiview learing)leave-one-sequence-out
    100 %[85]2013radial summary feature + Feature Subsetleave-one-sequence-out
    SelectionLOSOCV
    *CV: cross-view
    下载: 导出CSV 
    | 显示表格

    为了更好地研究人体运动过程中的运动规律, 采用特殊技术捕获动作数据, 为人体行为识别提供有利信息, 比如利用运动传感器、惯性传感器、红外摄像头、Kinect相机等捕获运动信息、深度信息、人体骨架信息等.常见的数据集有: WARD[93]、CMU Motion Capture[94]、MSR Action 3D[95]、MSR Daily Activity 3D[96]、UCF Kinect[97]等.

    WARD (Wearable Action Recognition Database)[93]人体日常行为数据库来自美国加州大学伯克利分校部分支持的项目.该数据库将无线运动传感器(如图 18 (a)所示)放置于人体腰部、左右手腕和左右脚踝5个部位上(如图 18 (b)所示), 构成一个身体传感器系统.其中, 每个传感器单元包括一个三轴加速度计和一个双轴陀螺仪, 数据采样频率为20 Hz.该数据集的早期规模较小, 利用8个无线运动传感器, 仅包含3个受试者12种行为类别的626个行为样本[98].目前该数据库包括年龄在19岁到75岁之间的20个受试者(13名男性和7名女性)在自然状态下执行的13种行为, 共计1 300个行为样本(现在实际有1 298个).该数据库的13种行为类别为:站、坐、躺、向前走、逆时针走、顺时针走、向左转、向右转、上楼、下楼、慢跑、跳和推轮椅, 每种行为重复执行5次.

    图 18  WARD数据库示例图[93]
    Fig. 18  Sample images of WARD database[93]

    该数据库除提供相对稳定的公开定量比较平台外, 还有望引导未来分布式模式识别领域的创新算法的发展.目前, Guo等[99]首先对每个传感器节点的特征利用广义判别分析(GDA)进行降维, 然后采用多级关联向量机(RVM)获得个体分类, 最后利用传感器节点的异构和互补信息在决策层进行融合, 达到98.78 %的识别率.而Guo等[100]提出一种新的特征提取方法鲁棒线性判别分析(RLDA), 通过主成分分析(PCA)降维后重新估计类内散射矩阵的特征值而获得新的投影矩阵, 达到99.02 %的识别率.

    CMU Motion Capture (Mocap)[94]数据集是由美国卡内基梅隆大学的图形实验室发布的.该数据集采用8个红外摄像头, 提供带有41个标记关节点的信息, 可以精确估计人体骨架结构信息.该数据集的运动捕获数据包括6个类别和23个亚类的2 605个实验.每个实验包含一个或多个行为类别, 提供低分辨率的RGB视频和3种格式的关节点数据: tvd、c3d和amc. 6个大类分别为:人类交互、与环境交互、人体移动、体育活动和运动、情况和情景、测试运动, 其部分示例如图 19所示.

    图 19  CMU Mocap数据集示例图
    Fig. 19  Sample images of CMU Mocap dataset dataset

    虽然CMU Mocap数据集随机采样执行动作, 其类内、类间的差异巨大, 但是由于提供的参数数据能够构建完整的3D模型, 吸引众多研究者的关注.目前, 研究者从该数据集中选取不同类别进行研究.对5种常见行为(走、跳、跑、爬和高尔夫挥杆), Jia等[101]提出用于描述3D非共面点的投影不变量, 即特征数(CN).对运动轨迹, 利用时间序列的人体单个关节点计算视角无关的时间特征数(TCN), 可用有限的关节点表征动作; 而在单帧的空间域, 计算5个关节点的空间特征数(SCN), 其与时间特征具有互补性.利用近邻分类器(1-NN), 采用时间特征数达到94.8 %的识别率, 采用空间特征数达到接近100 %的识别率. Aghbari等[102]提出一种贪心算法DisCoSet, 通过递增寻找一个最小的局部特征对比集, 不需要离散化就可以最大限度地区分一个类, 在选取的12种行为上达到98.6 %的识别率.而Kadu等[103]提出基于树型矢量量化(TSVQ)的多分辨率字符串表示方案将人体姿态的时间序列转换为码字序列, 并利用码字匹配考虑姿态的时间变化, 采用基于姿态直方图的支持向量机(SVM)进行分类, 在选取的30种行为上达到99.6 %的识别率.

    利用Microsoft Kinect相机(如图 20所示)采集的深度数据可获得较为精准的人体关节点骨架序列.微软剑桥研究院(Microsoft Research Cambridge, MSR)先后发布了MSR Action 3D[95]和MSR Daily Activity 3D[96], 美国中佛罗里达大学发布了UCF Kinect[97].近几年, 陆续出现了综合利用Kinect和其他信息构建的多模态数据集, 如N-UCLA Multiview Action3D[104]、UTD-MHAD[105]等.这些数据集都是基于Kinect v1 (如图 20 (a)所示)构建的.而随着Kinect v2 (如图 20 (b)所示)的发布, 新加坡南洋理工大学的Shahroudy等[106]利用其特点构建了包含4种模态的大型数据集NTU RGB+D.

    图 20  Microsoft Kinect相机示例图
    Fig. 20  Sample images of Microsoft Kinect camera

    MSR Action 3D[95]数据集提供20个关节点的三维坐标数据、深度图像与RGB图像, 包含20种行为类别, 每种行为由10个受试者重复执行2 $\sim$ 3次, 总共567个样本.该数据集的20种行为类别为:高挥手、水平挥手、锤、手抓、打拳、高抛、画叉、画勾、画圆、拍手、双手挥、侧边拳击、弯曲、向前踢、侧踢、慢跑、网球挥拍、网球发球、高尔夫挥杆、捡起扔(对应标记为a01 $\sim$ a20), 其中网球发球的深度序列图如图 21所示.

    图 21  MSR Action 3D数据集的深度序列图[95]
    Fig. 21  The sequences of depth maps of MSR Action 3D dataset[95]

    MSR Action 3D数据集的视频序列为无背景的纯人体运动, 但由于相似的动作以及关节位置噪声, 仍然非常具有挑战性.为了减少测试的计算复杂度, 依据行为的复杂程度将数据集划分为3个子集: AS$_1$、AS$_2$和AS$_3$ (如表 4所示).其中每个子集包含8种行为类别, 子集AS$_1$和AS$_2$中包含的动作复杂度相对较低, 但每个子集内的动作相似度较高; 而子集AS$_3$中的动作复杂度最高.

    表 4  MSR Action 3D数据集的子集
    Table 4  The subsets of MSR Action 3D dataset
    数据子集包含行为类别
    AS$_{1}$a02、a03、a05、a06、a10、a13、a18、a20
    AS$_{2}$a01、a04、a07、a08、a09、a11、a14、a12
    AS$_{3}$a06、a14、a15、a16、a17、a18、a19、a20
    下载: 导出CSV 
    | 显示表格

    该数据集被研究者广泛研究, 已成为3D行为识别的典型基准数据集.研究者大都采用划分3个子集和交叉受试者的方式进行验证.在划分3个子集的情况下, Luo等[107]提出基于组稀疏和几何约束的字典学习(DL-GSGC)算法, 利用时间金字塔匹配(TPM), 在利用1/3样本和2/3样本进行训练时均达到98.9 %的识别率.而Chen等[108]采用来自三个投影视图的深度运动图(DMM)捕捉运动线索, 同时使用局部二值模式(LBP)获得紧凑特征表征, 利用特征级和决策级两种融合方式, 在利用2/3样本进行训练时达到100 %的识别率.在交叉受试者的情况下, Chen等[109]提出一个有效利用3D深度数据进行识别的框架TriViews, 通过对每个投影视图的5个不同特征(STIP、DT-Shape、DT-MBH、ST-Shape和ST-MBH)选取最佳三个特征基于概率融合方法(PFA)进行融合, 达到98.2 %的识别率.而澳大利亚卧龙岗大学高级多媒体研究实验室的Wang等[110]提出利用分层深度运动图(HDMM)和3通道深度卷积神经网络(3ConvNets)的框架对深度图序列进行识别, 达到100 %的识别率.

    MSR Daily Activity 3D[96]是由Kinect设备捕获的日常活动的数据集.该数据集由10个受试者执行, 包含16种类别的320个样本.该数据集的16种日常行为类别为:喝、吃、读书、打手机、写字、用笔记本电脑、用吸尘器、欢呼、静坐、扔纸、玩游戏、躺沙发、走、弹吉他、站起来、坐下, 其示例如图 22所示.其中, 每种行为由受试者以站姿或坐姿分别执行2次, 因此严格说来, 该数据集的行为类别分为17种, 因为静坐在执行时分别执行了两类行为:静坐和站.该数据集在具有背景物体的真实环境拍摄, 并且受试者距离相机的位置不固定; 大部分样本涉及到人与物体的交互行为; 有些行为包含身体的细节运动; 捕获的3D关节点坐标受噪声污染严重.因此, 该数据集比MSR Action3D[95]数据集更具挑战性.截至目前, Zhang等[111]通过深度梯度信息和骨架关节点距离来提取粗Depth-Skeleton (DS)特征, 并利用稀疏编码和最大池化进行细化, 采用随机决策森林(RDF)进行分类达到97.5 %的识别率; 而Shahroudy等[112]考虑RGB信息和深度信息的互补性, 提出一种基于共享特性特征分解网络的深度自动编码器, 将输入的多模态信号分离成一个分层结构, 利用结构化稀疏学习机(SSLM)同样获得97.5 %的识别率.

    图 22  MSR Daily Activity 3D数据集示例图
    Fig. 22  Sample images of MSR Daily Activity 3D dataset

    UCF Kinect[97]数据集使用微软Kinect传感器和OpenNI平台估计骨架, 包含16个受试者(13个男性和3个女性), 年龄介于20岁到35岁之间, 共计1 280个行为样本.该数据集的16种行为类别为:平衡、向上爬、爬梯子、躲避、单脚跳、跳跃、飞跃、跑、踢、打拳、向左扭、向右扭、向前走、后退、向左速移和向右速移, 其中每种行为由每个受试者重复执行5次.而且在每帧中, 包含15个关节点的三维坐标及方向数据, 部分骨架示例如图 23所示.

    图 23  UCF Kinect数据集的骨架示例图[97]
    Fig. 23  Sample skeleton images of UCF Kinect dataset[97]

    该数据集在收集每个行为数据时, 要求受试者以一个放松的姿势站立, 双手自然垂于身体两侧, 因此, 可以更真实地估计各种行为的等待时间.该数据集具有不同的视点, 且相同行为具有类内差异. Kerola等[113]利用深度图序列, 基于骨架和关键点分别利用光谱图小波变换(SGWT)和金字塔池化计算相应的光谱图序列(SGS)描述符, 再通过SVM训练并使用晚融合策略达到98.8 %的识别率.而Beh等[114]为在单位超球面空间对手势轨迹建模, 将MvMM概率密度函数并入HMM, 同时利用$L_2$正则化达到98.9 %的识别率.

    N-UCLA Multiview Action3D[104]数据集由美国西北大学和加州大学洛杉矶分校联合构建.该数据集将深度、骨架和多视角数据融合在一起, 旨在捕获人类从多个摄像机角度执行的日常行为.该数据集由3个Kinect相机从三个视角同时捕获, 包含10个受试者执行10种日常行为的1 493个行为样本(现在实际有1 475个). 10种日常行为是:用一只手捡(Pick up with one hand)、用两只手捡(Pick up with two hands)、丢垃圾(Drop trash)、走动(Walk around)、坐下(Sit down)、站起来(Stand up)、穿衣(Donning)、脱衣(Doffing)、投掷(Throw)和搬运(Carry), 其示例如图 24所示.

    图 24  N-UCLA Multiview Action3D数据集示例图
    Fig. 24  Sample images of N-UCLA Multiview Action3D dataset

    该数据集的若干行为包括与对象的交互, 如丢垃圾和搬运; 每个动作都是从不同的视角捕获的, 其视角分布如图 25所示; 有些行为非常相似, 如用一只手捡和用两只手捡; 有些动作很容易误判, 如将丢垃圾误认为是走动.因此, 该数据集非常具有挑战性. Kerola等[113]利用骨架和关键点构建的SGS取得90.8 %的识别率.而Liu等[115]针对时空骨架序列的有效表征问题提出一种增强骨架可视化方法, 通过基于序列的视角无关变换将骨架序列可视化为一系列彩色图像, 并对彩色图像利用视觉和运动增强方法进行局部增强, 然后利用CNN模型在决策级融合, 达到92.61 %的识别率.

    图 25  Multiview Action3D的视角分布[104]
    Fig. 25  The view distribution of Multiview Action3D dataset[104]

    UTD-MHAD[105]数据集是由德克萨斯大学达拉斯分校的机构审查委员会(IRB)发布的多模态人体行为识别数据集.该数据集由Kinect相机和可穿戴惯性传感器(如图 26 (a)所示)同时来捕获4种模式的数据: RGB视频、深度视频、骨架关节点位置和惯性传感器信号, 其左臂向右滑行为的多模态数据示例如图 27所示.这4种模式的数据被记录在3个通道, 其中深度视频和20个骨架关节点位置信息被同时捕获在一个通道.该数据集包含27种行为, 由8名受试者(4名男性和4名女性)重复执行4次, 共计861个样本(去掉了3个损坏样本).

    图 26  可穿戴惯性传感器及其位置示例图[105]
    Fig. 26  Sample images of the wearable inertial sensor and its placements[105]
    图 27  左臂向右滑行为的多模态数据示例图
    Fig. 27  Sample images of the multimodality data corresponding to the action left arm swipe to the right

    该数据集的27种行为可以分为4大类: 1)体育运动:篮球投篮、保龄球、正面拳击、棒球挥杆、网球正手挥拍、网球发球; 2)手势:左臂向左滑、左臂向右滑、画X、顺时针画圆、逆时针画圆、画三角形; 3)日常活动:挥手、两手前拍、扔、交叉双臂、双手推、敲门、抓物、捡起扔、慢跑、走、站起来、坐下; 4)训练练习:双臂二头肌弯曲、左脚向前弓步、伸臂蹲.在采集数据集时, 可穿戴惯性传感器位于右手腕(21种行为)或右大腿(6种行为), 如图 26 (b)(c)所示(实际测试时位于左手腕或左大腿).由于受试者的差异, 并且行为以自然方式在不同的速度下执行, 因此该数据集具有较大的类内变化, 非常具有挑战性.目前, Li等[116]通过关节距离图(JDM)将3D骨架序列转化为4个二维彩色图像, 同时采用4个CNN分别学习判别特征, 通过晚融合获得88.1 %的识别率.而Bulbul等[117]从整个视频序列生成三个DMM, 然后利用DMM获得三个判别特征:基于轮廓的方向梯度直方图(CT-HOG)、局部二值模式(LBP)和边缘方向直方图(EOH), 最后采用决策级融合达到88.4 %的识别率.

    NTU RGB+D[106]数据集是由新加坡南洋理工大学的博云搜索实验室(Rapid-Rich Object Search, ROSE)于2016年发布的最新的多视角深度信息数据集.利用Kinect v2的高分辨率和新的主动式红外检测, 构建了包含4种模态的大型数据集: RGB视频、深度视频、骨架关节点位置和红外视频.该数据集由年龄介于10岁到35岁之间的40个受试者执行60种行为, 共计56 880个行为样本, 4种模态数据共计1.3 TB.该数据集也是多视角数据集, 由3个Kinect v2相机从三个角度的17种不同高度和距离同时捕获, 共计80个视角.该数据集的行为类别分成三类: 1) 40种日常行为; 2) 9种与健康相关行为; 3) 11种交互行为, 其红外视频的部分示例如图 28所示.该数据集利用Kinect v2获得具有25个骨架关节点的信息, 其分布示意图如图 29所示.

    图 28  NTU RGB+D数据集的红外示例图
    Fig. 28  Sample infrared images of NTU RGB+D dataset
    图 29  25个骨架点示意图[106]
    Fig. 29  Configuration of 25 body joints[106]

    NTU RGB+D数据集不仅包含复杂的行为类型和多模态的数据信息, 而且数据量非常大, 具有很大挑战性.该数据集在2016年的CVPR会议上一经提出, 立即引起研究者的关注.针对该数据集的特点, 研究者大都采用Shahroudy等[106]提出的两种测试验证方式(交叉受试者验证和交叉视角验证).交叉受试者验证的训练集包含20个受试者共计40 320个样本; 测试集包含20个受试者共计16 560个样本.而交叉视角验证的训练集包含相机2和3的视频, 共计37 920个样本; 测试集包含相机1的视频, 共计18 960个样本. Wang等[118]提出了一种简单有效的表征3D骨架序列时空信息的方法, 通过关节轨迹图(JTM)将3D骨架序列转化为三个二维彩色图像, 同时采用三个CNN分别学习判别特征, 并通过多分数层融合(MSF)提高识别准确度.该方法在交叉受试者的方式下, 达到76.32 %的识别率; 而在交叉视角的方式下, 达到81.08 %的识别率. Li等[116]提出的利用关节距离图(JDM)方法在交叉受试者的方式下, 达到76.2 %的识别率; 而在交叉视角的方式下, 达到82.3 %的识别率.由此可以看出, 关节轨迹图(JTM)和关节距离图(JDM)各有优势, 二者的关系有待进一步探索.

    特殊数据集, 尤其是RGB-D数据集, 由于其提供的多模态信息的互补性而受到研究者的广泛关注.研究者利用深度、骨架等信息, 通过深度图序列、3D骨架序列等提取不同判别特征来提高识别率. Li等[116]和Wang等[118]将3D骨架序列进行转换后, 利用CNN学习判别特征的新思路值得借鉴.而Zhang等[14]提出在RGB-D数据集中采用交叉数据集验证方式增强数据集鲁棒性和实用性的建议有待进一步研究.此外, 随着红外视频数据集的发展, 红外信息具有的避免光照、阴影、遮挡等因素影响的特性也将受到研究者的关注.

    近年来, 随着对老人、孩子等特殊群体安全及监护的需求, 相继出现了包含跌倒行为在内的日常行为数据集, 如UR Fall Detection Dataset (URFD)[119]、TST Fall Detection v1[120]、TST Fall Detection v2[121]等, 也给人体行为识别的研究提出了新要求.

    特殊数据集中各数据集的最新识别率、研究方法、评价方案等信息如表 5所示.

    表 5  特殊数据集的最新研究成果概览表
    Table 5  Summary of state-of-the-art research results on special datasets
    数据集名称最新识别率年份研究方法评价方案备注
    WARD99.02 %[100]2015PCA+RLDA (SVM)CS: Tr: 15; Te: 5
    98.78 %[99]2012GDA+RVM+WLOGP3-fold cross-validation
    97.5 %[122]2017FDA (SVM)20-fold cross-validation10种行为
    近100 %[101]2016SCN (1-NN)CS5种行为
    200个样本
    CMU Mocap98.27 %[123]2010HGPLVM3-fold cross-validation5种行为
    98.13 %[124]20143D joint position features+Actionletnot mentioned5种行为
    Ensemble
    98.6 %[102]2015DisCoSet (SVM)All12种行为
    164个样本
    99.6 %[103]2014TSVQ (Pose-Histogram SVM)5-fold cross-validation30种行为
    278个样本
    MSR Action 3D100 %[108]2015DMM-LBP-FF/DMM-LBP-DFTr: 2/3; Te: 1/3
    (AS$_1$、AS$_2$和AS$_3$)98.9 %[107]2013DL-GSGCTr: 2/3; Te: 1/3
    98.9 %[107]2013DL-GSGCTr: 1/3; Te: 2/3
    98.7 %[108]2015DMM-LBP-FFTr: 1/3; Te: 2/3
    96.7 %[107]2013DL-GSGCCS
    96.1 %[125]20163D skeleton+two-level hierarchicalCS
    framework
    96.0 %[111]2017Coarse DS+Sparse coding (RDF)CS
    MSR Action 3D100 %[110]2015HDMM+3ConvNetsTr:奇数; Te:偶数
    (cross-subject)98.2 %[109]2015TriViews+ PFATr:奇数; Te:偶数
    98.2 %[126]2015Decision-Level Fusion (SUM Rule)Tr: 2/3/5/7/9;
    Te: 1/4/6/8/10
    96.7 %[107]2013DL-GSGC+TPMTr:奇数; Te:偶数
    MSR Daily Activity 3D97.5 %[111]2017Coarse DS+Sparse coding (RDF)not mentioned
    97.5 %[112]2016DSSCA+SSLMCS
    95.0 %[107]2013DL-GSGC+TPMCS
    UCF Kinect98.9 %[114]2014MvMF-HMM+$L_2$-normalization4-fold cross-validation
    98.8 %[113]2017SGS(p$_{\rm mean}$/p$_{\max}$, skeleton-view-dep.)4-fold cross-validation
    98.7 %[127]2013motion-based grouping+adaptive2-fold cross-validation
    N-UCLA92.61 %[115]2017Synthesized+Pre-trained (CNN)CV
    Multiview Action 3D90.8 %[113]2017SGS(p$_{\max}$, skel.-view-inv.+keypoint)CV
    89.57 %[115]2017Synthesized Samples (CNN)CV
    81.6 %[104]2014MST-AOGCS; LOOCV
    79.3 %[104]2014MST-AOGcross-environment
    UTD-MHAD88.4 %[117]2015DMMs+CT-HOG+LBP+EOHCS
    88.1 %[116]2017JDM+MSF (CNN)CS
    87.9 %[118]2016JTM+MSF (CNN)CS
    NTU RGB+D76.32 %[118]2016JTM+MSF (CNN)CS
    76.2 %[116]2017JDM+MSF (CNN)CS
    62.93 %[106]20162layer P-LSTMCS
    82.3 %[116]2017JDM+MSF (CNN)CV
    81.08 %[118]2016JTM+MSF (CNN)CV
    70.27 %[106]20162 layer P-LSTMCV
    下载: 导出CSV 
    | 显示表格

    本文对上述介绍的4类人体行为数据库/集, 从公开年份、行为类别、行为人数、视频总数、每类视频数、分辨率等方面进行了的详细比较, 其信息如表 6表 7所示.从表中可以看出, 特殊数据集的行为类别和规模相对于真实场景数据库来说较少.这与特殊数据库需要利用专门的设备来捕获有直接的关系.另外, 根据这4类数据集的场景、内容、视角、应用领域等信息, 对各数据集按不同特征进行分类对比, 具体内容如表 8所示.

    表 6  通用、真实场景及多视角数据集信息表
    Table 6  The information of general datasets, real scene datasets and multi-view datasets
    类型 数据集名称 年份 行为类别 行为人数 视频数/类 视频总数/样本数 场景 视角 分辨率(最高) fps
    通用 KTH[19] 2004 6 25 99 $\sim$ 100 599/2 391 4 1 160$\times$120 25
    Weizmann[2] 2005 10 9 9 $\sim$ 10 93 1 1 180$\times$144 25
    真实场景 Hollywood[27] 2008 8 N/A 30 $\sim$ 129 475 N/A N/A 544$\times$240 25
    UCF Sports[28] 2008 10 N/A 6 $\sim$ 22 150 N/A N/A 720$\times$480 9
    UT-Tower[128] 2009 9 6 12 108 2 1 360$\times$240 10
    Hollywood 2[29] (Actions) 2009 12 N/A 61 $\sim$ 278 2 517 N/A N/A 720$\times$528 25
    ADL[129] 2009 10 5 15 150 1 1 1 280$\times$720 30
    UCF YouTube[30] 2009 11 N/A 116 $\sim$ 198 1 600 N/A N/A 320$\times$240 30
    Olympic Sports[31] 2010 16 N/A 21 $\sim$ 67 783 N/A N/A - -
    UT-Interaction[130] 2010 6 N/A 20 120 2 1 720$\times$480 30
    HMDB51[32] 2011 51 N/A 102 $\sim$ 548 6 766 N/A N/A 424$\times$240 30
    CCV[131] 2011 20 N/A 224 $\sim$ 806 9 317 N/A N/A - -
    UCF50[33] 2012 50 N/A 100 $\sim$ 197 6 681 N/A N/A 320$\times$240 25
    UCF101[34] 2012 101 N/A 100 $\sim$ 167 13 320 N/A N/A 320$\times$240 25
    MPII Cooking[132] 2012 65 12 - 44/5 609 1 1 1 624$\times$1 224 29.4
    MPII Composites[133] 2012 60 22 - 212 1 1 1 624$\times$1 224 29.4
    Sports-1M[35] 2014 487 N/A 1 000 $\sim$ 3 000 1 133 158 N/A N/A 1 280$\times$720 30
    Hollywood Extended[134] 2014 16 N/A 2 $\sim$ 11 937 N/A N/A 720$\times$528 25
    MPII Cooking 2[135] 2015 67 30 - 273/14 105 1 1 1 624$\times$1 224 29.4
    ActivityNet[136] 2015 203 N/A 137(a) 27 801 N/A N/A 1 280$\times$720 30
    多视角 IXMAS[68] 2006 13 12 180 180/2 340 1 5 390$\times$291 23
    i3DPost[137] 2009 12 8 64 768 1 8 1 920$\times$1 080 25
    MuHAVi[69] 2010 17 7 56 952 1 8 720$\times$576 25
    MuHAVi-MAS[69] 2010 14 2 4 $\sim$ 16 136 1 2 720$\times$576 25
    *a: average; N/A: not applicable
    下载: 导出CSV 
    | 显示表格
    表 7  特殊数据集信息表
    Table 7  The information of special human activity recognition datasets
    数据集名称 年份 行为类别 行为人数 视频数/类 视频总数/样本数 场景 视角 分辨率 fps 数据格式 骨架关节点
    CMU Mocap[94] 2007 23个亚类 N/A 1 $\sim$ 96 2 605 N/A N/A 320 $\times$ 240 30 MS 41
    WARD[93] 2009 13 20 64 $\sim$ 66 1 298 1 1 - - M N/A
    CMU-MMAC[138] 2009 5大类 45 234 $\sim$ 252 1 218 1 6 1 024$\times$768 30 RDMA N/A
    640$\times$480 60
    MSR Action 3D[95] 2010 20 10 20 $\sim$ 30 567 1 1 640$\times$480 (R)
    320$\times$240 (D)
    15 DS 20
    RGBD-HuDaAct[139] 2011 12 30 - 1 189 1 1 640$\times$480 (RD) 30 RD N/A
    UT Kinect[140] 2012 10 10 - 200 1 1 640$\times$480 (R)
    320$\times$240 (D)
    30 RDS 20
    ACT4$^2$[141] 2012 14 24 - 6 844 1 4 640 $\times$ 480 30 RD N/A
    MSR Daily Activity 3D[96] 2012 16 10 20 320 1 1 640$\times$480 30 RDS 20
    UCF Kinect[97] 2013 16 16 80 1 280 1 1 - - S 15
    Berkeley MHAD[142] 2013 11 12 54 $\sim$ 55 659 1 4 640$\times$480 30 RDMAIe N/A
    3D Action Pairs[143] 2013 12 10 30 360 1 1 640$\times$480 30 RDS 20
    Multiview RGB-D event[144] 2013 8 8 477 (a) 3 815 1 3 640$\times$480 30 RDS 20
    Online RGBD Action[145] 2014 7 24 48 336 1 1 - - RDS 20
    URFD[119] 2014 5 5 6 $\sim$ 60 100 4 2 640$\times$240 30 RD N/A
    N-UCLA[104] 2014 10 10 140 $\sim$ 173 1 475 1 3 640$\times$480 12 RDS 20
    TST Fall detection v1[120] 2014 2 4 10 20 1 1 320$\times$240 (D) 30 D N/A
    UTD-MHAD[105] 2015 27 8 31 $\sim$ 32 861 1 1 640$\times$480 30 RDSIe 25
    TST Fall detection v2[121] 2016 8 11 33 264 1 1 512$\times$424 (D) 25 DSIe 25
    NTU RGB+D[106] 2016 60 40 948 56 880 1 80 1 920$\times$720 (R)
    512$\times$424 (D)
    512$\times$424 (If)
    30 RDSIf 25
    *R: RGB; D: Depht; S: Skeleton; M: Motion; A: Audio; If: Infrared; Ie: Inertrial
    下载: 导出CSV 
    | 显示表格
    表 8  人体行为数据集分类信息表
    Table 8  Human activity dataset classification according to different features
    分类特征 子类 数据集
    场景 室内 ADL、MPII Cooking、MPII Composites、MPII Cooking 2、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU Mocap、WARD、CMU-MMAC、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、URFD、N- UCLA Multiview Action 3D、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D
    室外 Weizmann、UT-Tower、UT-Interaction、PETS
    内容 室内/室外 KTH、Hollywood、UCF Sports、Hollywood 2、UCF YouTube、Olympic Sports、HMDB51、CCV、UCF50、UCF101、Sports-1M、Hollywood Extended、ActivityNet、THUMOS
    日常活动 KTH、Weizmann、ADL、HMDB51、CCV、ActivityNet、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU Mocap、WARD、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、RGBD- HuDaAct、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、URFD、N-UCLA Multiview Action 3D、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D
    体育运动 UCF Sports、UCF YouTube、Olympic Sports、UCF50、UCF101、Sports-1M、THUMOS
    厨房活动 MPII Cooking、MPII Composites、MPII Cooking 2、CMU-MMAC
    电影 Hollywood、Hollywood 2、Hollywood Extended
    监控 UT-Tower、UT-Interaction、PETS
    视角 单视角 KTH、Weizmann、ADL、MPII Cooking、MPII Composites、MPII Cooking 2、MSR Action 3D、UT Kinect、MSR Daily Activity 3D、RGBD-HuDaAct、UCF Kinect、3D Action Pairs、Online RGBD Action、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2
    多视角 IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、ACT4$^2$、MHAD、Multiview RGB-D event、URFD、N-UCLA Multiview Action 3D、NTU RGB+D、PETS
    俯瞰 UT-Tower、UT-Interaction、PETS
    其他 Hollywood、UCF Sports、Hollywood 2、UCF YouTube、Olympic Sports、HMDB51、CCV、UCF50、UCF101、Sports-1M、Hollywood Extended、ActivityNet、CMU Mocap、WARD、CMU-MMAC、THUMOS
    相机 静止 KTH、Weizmann、UT-Tower、ADL、UT-Interaction、MPII Cooking、MPII Composites、MPII Cooking 2、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU-MMAC、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、URFD、N-UCLA Multiview Action 3D、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D、PETS
    移动 Hollywood、UCF Sports、Hollywood 2、UCF YouTube、Olympic Sports、HMDB51、CCV、UCF50、UCF101、Sports-1M、Hollywood Extended、ActivityNet、CMU Mocap、THUMOS
    应用 行为识别 KTH、Weizmann、Hollywood、UCF Sports、UT-Tower、Hollywood 2、ADL、UCF YouTube、Olympic Sports、UT-Interaction、HMDB51、CCV、UCF50、UCF101、MPII Cooking、MPII Composites、Sports-1M、Hollywood Extended、ActivityNet、MPII Cooking 2、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU Mocap、WARD、CMU-MMAC、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、N-UCLA Multiview Action 3D、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D、PETS、THUMOS
    领域 检测/跟踪 KTH、Weizmann、UCF Sports、Olympic Sports、UT-Interaction、ADL、UCF YouTube、ACT4$^2$、URFD、TST Fall detection dataset v1、TST Fall detection dataset v2、PETS、UCF50、UCF101、MPII Cooking、MPII Composites、MPII Cooking 2
    其他 KTH、Weizmann、UCF YouTube、UT-Tower、UCF50、ActivityNet、MPII Cooking、MPII Composites、MPII Cooking 2、Multiview RGB-D event
    下载: 导出CSV 
    | 显示表格

    由于篇幅所限, 本文中仅介绍了相对应用较多的公开数据集.还有一些数据集信息参见表 6~8.

    总体而言, 早期的公开数据集相机固定、行为类别较少、背景较简单.而近几年发布的人体行为识别公开数据集有如下几个趋势:

    1) 行为类别和数量越来越多.随着科技的发展和设备的进步, 发布的公开数据集的行为类别从最初KTH的6种行为类别发展到Sports-1M的487种行为类别.而视频的数量从100个左右发展到1M.近期, Google又公布了一个大型视频数据集YouTube-8M[146].该数据集是目前最大的视频数据集, 包含800万个YouTube视频共计4 800个类别, 并带有视频标注.而其中与人相关的视频只是其中的一小部分, 大约有8 000个.虽然如此, 但可以肯定, 人体行为识别公开数据集的规模会越来越大, 行为类别的数量会越来越多.

    2) 行为越来越复杂.公开数据集的人体行为从走、跑、跳等简单的行为发展到涉及人与人交互、人与物交互、异常行为、群体行为等复杂行为.对异常行为、交互行为、群体行为等复杂行为的识别, 逐渐成为研究者关注的热点, 并将为以后公共场所的安全防范提供有力的保障.

    3) 场景越来越复杂.数据集的视频从简单场景到复杂场景, 并伴有遮挡、光照等噪声影响, 给人体行为识别的研究带来进一步的挑战.因此, 如何降低噪声对识别效果的影响是人体行为识别未来的研究方向之一.

    4) 多视角化.较早的公开数据集相机基本固定, 几乎没有视角变化.近几年的数据集出现了相机运动和视角变化.而相机在不同视角下, 人、物和场景的大小、方向和形状都会发生变化, 这给行为识别的研究提出了新要求.在行为识别中, 多视角的研究具有一定的优势, 通过视角变化对人体行为进行二维或三维建模, 利用相同点在模型不同位置的匹配和分析实现不同视角下人体行为特征的表征.因此, 视角无关的行为识别研究也是人体行为识别未来的研究方向之一.

    5) 多模态化.随着各式新型传感器和设备的发展, 相继出现了包含RGB视频、深度信息、骨架信息、红外信息等多模态信息的数据集.不同模态数据之间存在较强相关性, 利用人体行为语义信息和互补性信息, 从多模态的低层特征学习到高层语义特征来进行人体行为识别, 这也将成为未来的研究方向.

    总之, 人体行为识别公开数据集越来越接近于不受控的自然状态下的情形, 给研究者在保持算法鲁棒性的同时, 提高行为识别准确率带来更大的难度.而随着深度学习在目标检测、分类等领域的应用, 其强大的数据表达能力, 必将为提高行为识别的性能开辟一个新的研究方向.


  • 本文责任编委 桑农
  • 图  1  KTH数据集示例图[19]

    Fig.  1  Sample images of KTH dataset[19]

    图  2  Sample images of KTH dataset[19]

    Fig.  2  Sample images and silhouettes of Weizmann dataset[24]

    图  3  Hollywood 2数据集示例图[48]

    Fig.  3  Sample images of Hollywood 2 Dataset[48]

    图  4  UCF Sports数据集示例图[50]

    Fig.  4  Sample images of UCF Sports Dataset[50]

    图  5  UCF YouTube数据集示例图[30]

    Fig.  5  Sample images of UCF YouTube Dataset[30]

    图  6  Olympic Sports数据集示例图

    Fig.  6  Sample images of Olympic Sports Dataset

    图  7  HDMB51数据集示例图

    Fig.  7  Sample images of HDMB51 dataset

    图  8  UCF50数据集示例图[33]

    Fig.  8  Sample images of UCF50 dataset[33]

    图  9  UCF101数据集示例图

    Fig.  9  Sample images of UCF101 dataset

    图  10  IXMAS数据集同一动作的5个视角及其剪影示例图

    Fig.  10  Sample images and the corresponding silhouettes for the same action of IXMAS dataset (5 cameras)

    图  11  8个摄像机配置的顶视图[69]

    Fig.  11  The top view of the configuration of 8 cameras[69]

    图  12  MuHAVi数据集的8个视角示例图[69]

    Fig.  12  Sample images of MuHAVi dataset (8 cameras)[69]

    图  13  MuHAVi-Mas数据集的2个视角剪影示例图[69]

    Fig.  13  Sample silhouette images of MuHAVi-MAS dataset (2 cameras)[69]

    图  14  8个摄像机位置和方向的平面图[70]

    Fig.  14  Plan view showing the location and direction of the 8 cameras[70]

    图  15  PETS 2009基准数据集示例图[70]

    Fig.  15  Sample images of PETS 2009 benchmark dataset[70]

    图  16  卡车车载摄像头位置及覆盖范围[71]

    Fig.  16  The on-board camera configuration and coverage[71]

    图  17  停放车辆周围的三种不同行为[91]

    Fig.  17  Three different kinds of behavior recorded around a parked vehicle[91]

    图  18  WARD数据库示例图[93]

    Fig.  18  Sample images of WARD database[93]

    图  19  CMU Mocap数据集示例图

    Fig.  19  Sample images of CMU Mocap dataset dataset

    图  20  Microsoft Kinect相机示例图

    Fig.  20  Sample images of Microsoft Kinect camera

    图  21  MSR Action 3D数据集的深度序列图[95]

    Fig.  21  The sequences of depth maps of MSR Action 3D dataset[95]

    图  22  MSR Daily Activity 3D数据集示例图

    Fig.  22  Sample images of MSR Daily Activity 3D dataset

    图  23  UCF Kinect数据集的骨架示例图[97]

    Fig.  23  Sample skeleton images of UCF Kinect dataset[97]

    图  24  N-UCLA Multiview Action3D数据集示例图

    Fig.  24  Sample images of N-UCLA Multiview Action3D dataset

    图  25  Multiview Action3D的视角分布[104]

    Fig.  25  The view distribution of Multiview Action3D dataset[104]

    图  26  可穿戴惯性传感器及其位置示例图[105]

    Fig.  26  Sample images of the wearable inertial sensor and its placements[105]

    图  27  左臂向右滑行为的多模态数据示例图

    Fig.  27  Sample images of the multimodality data corresponding to the action left arm swipe to the right

    图  28  NTU RGB+D数据集的红外示例图

    Fig.  28  Sample infrared images of NTU RGB+D dataset

    图  29  25个骨架点示意图[106]

    Fig.  29  Configuration of 25 body joints[106]

    表  1  通用数据集的最新研究成果概览表

    Table  1  Summary of state-of-the-art research results on general datasets

    数据集名称最新识别率年份研究方法评价方案
    98.83 %[23]2016MLDFCS: Tr: 16; Te: 9
    KTH98.67 %[22]2016Semantic context feature-tree (MKL)CS: Tr: 16; Te: 9
    98.5 %[43]2015Local region tracking (HBRT/VOC)CS: Tr: 16; Te: 9
    100 %[44]20173D-TCCHOGAC+3D-HOOFGACLOOCV
    100 %[45]2016$\Re$ transform + LLE (SVM)LOOCV
    Weizmann100 %[46]2016SDEG + $\Re$ transformLOOCV
    100 %[47]20143D cuboids + mid-level feature (RF)LOSOCV
    100 %[25]2008Metric learningLOSOCV
    100 %[26]2008Mid-level motion featuresLOOCV
    *Tr: training set; Te: test set; CS: cross-subject; LOOCV: leave-one-out cross validation; LOSOCV: leave-one-subject-out cross validation
    下载: 导出CSV

    表  2  真实场景数据集的最新研究成果概览表

    Table  2  Summary of state-of-the-art research results on real scene datasets

    数据集名称最新识别率年份研究方法评价方案
    62 %[37]2012Asymmetric motions (BoW)Tr: 219 vedios; Te: 211vedios
    Hollywood59.9 %[36]2015DFW (BoW)Tr: 219 vedios; Te: 211vedios
    56.51 %[76]2016STG-MILTr: 219 vedios; Te: 211vedios
    78.6 %[41]2017EPT + DT + VideoDarwin (TCNN)Tr: 823 videos; Te: 884 videos
    Hollywood 278.5 %[40]2017HC-MTL + L/S RegTr: 823 videos; Te: 884 videos
    76.7 %[38]2016HRP + iDT (VGG-16)Tr: 823 videos; Te: 884 videos
    96.2 %[43]2015Local region tracking (HBRT/VOC)all classes
    UCF Sports96 %[44]20173D-TCCHOGAC + 3D-HOOFGACLOOCV
    95.50 %[47]20143D cuboids + mid-level feature (RF)LOOCV
    94.50 %[53]2016HboWLOOCV
    UCF YouTube94.4 %[52]2016CNRF (CNN)LOVOCV
    93.77 %[51]2014FV + SFVLOGOCV
    96.60 %[55]2016VLAD$^3$ + iDT (CNN)each class video: Tr: 40; Te: 10
    Olympic Sports96.5 %[54]2015iDT + HD (multi-layer FV)not mentioned
    93.6 %[77]2017Bag-of-SequenceletsTr: 649 videos; Te: 134 videos
    73.6 %[58]2016scene + motion (DCNN)three train/test splits
    HMDB5169.40 %[57]2016TSN (TCNN)three train/test splits
    69.2 %[56]2016spatiotemporal fusion (TCNN)three train/test splits
    99.98 %[61]2016GA (CNN)5-fold cross-validatin
    UCF5094.4 %[60]2015MIFSLOGOCV
    94.1 %[78]2013weighted SVM5-fold LOGOCV
    94.20 %[57]2016TSN (TCNN)three train/test splits
    UCF10194.08 %[62]2016RNN-FV (C3D + VGG-CCA) + iDTthree train/test splits
    93.5 %[56]2016spatiotemporal fusion (TCNN)three train/test splits
    80.8 %[55]2016VLAD$^3$ + iDT (CNN)5-fold cross-validation
    76.8 %[55]2016VLAD$^3$ (CNN)5-fold cross-validation
    THUMOS'1574.6 %[66]2015VLAD + LCD (VGG-16)5-fold cross-validation
    70.0 %[79]2015Stream Fusion + Linear SVM (VGG-19)Tr: UCF101 dataset; Te: val15
    65.5 %[80]2015iDT + LCD + VLAD (VGG-16)Tr: UCF101 dataset; Vs: val15
    Te: UCF101 dataset + val15
    75.9 %[67]2016RLSTM-g3 (GoogLeNet)not mentioned
    Sports-1M73.4 %[67]2016RLSTM-g1 (GoogLeNet)not mentioned
    (Hit$@$1)73.10 %[81]2015LSTM on Raw Frames LSTM on Optical Flow
    (GoogLeNet)
    1.1 million videos
    *LOVOCV: leave-one-video-out cross validation; LOGOCV: leave-one-group-out cross validation; Vs: validation set
    下载: 导出CSV

    表  3  多视角数据集的最新研究成果概览表

    Table  3  Summary of state-of-the-art research results on multi-view datasets

    数据集名称最新识别率年份研究方法评价方案备注
    IXMAS91.6 %[72]2015epipolar geometrynot mentioned5种行为
    (单视角)92.7 %[73]2016multi-view transition HMMLOSOCV11种行为
    IXMAS95.54 %[75]2014MMM-SVMTr: one camera's data11种行为; 5个视角
    (多视角)95.3 %[74]2016Cuboid + supervised dictionary learningLOAOCV; CV11种行为; 5个视角
    95.1 %[74]2016STIP + supervised dictionary learningLOAOCV; CV11种行为; 5个视角
    95.54 %[75]2014MMM-SVMTr: one camera's data11种行为; 4个视角
    Ts: LOSOCV
    94.7 %[40]2017HC-MTL + L/S RegLOSOCV11种行为; 4个视角
    93.7 %[92]2017eLR ConvNet(TCNN)LOSOCV12种行为; 5个视角
    85.8 %[46]2016SDEG + $\Re$ transformLOOCV13种行为; 5个视角
    MuHAVi97.48 %[83]2012Visual + Correlation (LKSSVM)LOOCV4个视角
    92.1 %[82]2014sectorial extreme points (HMM)LOSOCV4个视角
    91.6 %[84]2016CMS + multilayer descriptor (Multiclass K-NN)LOOCV8个视角
    MuHAVi-1498.53 %[86]2014Pose dictionary learning + maxpoolingLOOCV
    98.5 %[85]2013radial summary feature + Feature Subsetleave-one-sequence-out
    Selection
    95.6 %[84]2016CMS + multilayer descriptor(Multiclass K-NN)LOOCV
    94.12 %[88]2014CMS (K-NN)multi-training
    MuHAVi-8100 %[84]2016CMS + multilayer descriptor (Multiclass K-NN)LOOCV
    100 %[88]2014CMS (K-NN)multi-training
    100 %[87]2014radial silhouette-based feature (multiview learing)leave-one-sequence-out
    100 %[85]2013radial summary feature + Feature Subsetleave-one-sequence-out
    SelectionLOSOCV
    *CV: cross-view
    下载: 导出CSV

    表  4  MSR Action 3D数据集的子集

    Table  4  The subsets of MSR Action 3D dataset

    数据子集包含行为类别
    AS$_{1}$a02、a03、a05、a06、a10、a13、a18、a20
    AS$_{2}$a01、a04、a07、a08、a09、a11、a14、a12
    AS$_{3}$a06、a14、a15、a16、a17、a18、a19、a20
    下载: 导出CSV

    表  5  特殊数据集的最新研究成果概览表

    Table  5  Summary of state-of-the-art research results on special datasets

    数据集名称最新识别率年份研究方法评价方案备注
    WARD99.02 %[100]2015PCA+RLDA (SVM)CS: Tr: 15; Te: 5
    98.78 %[99]2012GDA+RVM+WLOGP3-fold cross-validation
    97.5 %[122]2017FDA (SVM)20-fold cross-validation10种行为
    近100 %[101]2016SCN (1-NN)CS5种行为
    200个样本
    CMU Mocap98.27 %[123]2010HGPLVM3-fold cross-validation5种行为
    98.13 %[124]20143D joint position features+Actionletnot mentioned5种行为
    Ensemble
    98.6 %[102]2015DisCoSet (SVM)All12种行为
    164个样本
    99.6 %[103]2014TSVQ (Pose-Histogram SVM)5-fold cross-validation30种行为
    278个样本
    MSR Action 3D100 %[108]2015DMM-LBP-FF/DMM-LBP-DFTr: 2/3; Te: 1/3
    (AS$_1$、AS$_2$和AS$_3$)98.9 %[107]2013DL-GSGCTr: 2/3; Te: 1/3
    98.9 %[107]2013DL-GSGCTr: 1/3; Te: 2/3
    98.7 %[108]2015DMM-LBP-FFTr: 1/3; Te: 2/3
    96.7 %[107]2013DL-GSGCCS
    96.1 %[125]20163D skeleton+two-level hierarchicalCS
    framework
    96.0 %[111]2017Coarse DS+Sparse coding (RDF)CS
    MSR Action 3D100 %[110]2015HDMM+3ConvNetsTr:奇数; Te:偶数
    (cross-subject)98.2 %[109]2015TriViews+ PFATr:奇数; Te:偶数
    98.2 %[126]2015Decision-Level Fusion (SUM Rule)Tr: 2/3/5/7/9;
    Te: 1/4/6/8/10
    96.7 %[107]2013DL-GSGC+TPMTr:奇数; Te:偶数
    MSR Daily Activity 3D97.5 %[111]2017Coarse DS+Sparse coding (RDF)not mentioned
    97.5 %[112]2016DSSCA+SSLMCS
    95.0 %[107]2013DL-GSGC+TPMCS
    UCF Kinect98.9 %[114]2014MvMF-HMM+$L_2$-normalization4-fold cross-validation
    98.8 %[113]2017SGS(p$_{\rm mean}$/p$_{\max}$, skeleton-view-dep.)4-fold cross-validation
    98.7 %[127]2013motion-based grouping+adaptive2-fold cross-validation
    N-UCLA92.61 %[115]2017Synthesized+Pre-trained (CNN)CV
    Multiview Action 3D90.8 %[113]2017SGS(p$_{\max}$, skel.-view-inv.+keypoint)CV
    89.57 %[115]2017Synthesized Samples (CNN)CV
    81.6 %[104]2014MST-AOGCS; LOOCV
    79.3 %[104]2014MST-AOGcross-environment
    UTD-MHAD88.4 %[117]2015DMMs+CT-HOG+LBP+EOHCS
    88.1 %[116]2017JDM+MSF (CNN)CS
    87.9 %[118]2016JTM+MSF (CNN)CS
    NTU RGB+D76.32 %[118]2016JTM+MSF (CNN)CS
    76.2 %[116]2017JDM+MSF (CNN)CS
    62.93 %[106]20162layer P-LSTMCS
    82.3 %[116]2017JDM+MSF (CNN)CV
    81.08 %[118]2016JTM+MSF (CNN)CV
    70.27 %[106]20162 layer P-LSTMCV
    下载: 导出CSV

    表  6  通用、真实场景及多视角数据集信息表

    Table  6  The information of general datasets, real scene datasets and multi-view datasets

    类型 数据集名称 年份 行为类别 行为人数 视频数/类 视频总数/样本数 场景 视角 分辨率(最高) fps
    通用 KTH[19] 2004 6 25 99 $\sim$ 100 599/2 391 4 1 160$\times$120 25
    Weizmann[2] 2005 10 9 9 $\sim$ 10 93 1 1 180$\times$144 25
    真实场景 Hollywood[27] 2008 8 N/A 30 $\sim$ 129 475 N/A N/A 544$\times$240 25
    UCF Sports[28] 2008 10 N/A 6 $\sim$ 22 150 N/A N/A 720$\times$480 9
    UT-Tower[128] 2009 9 6 12 108 2 1 360$\times$240 10
    Hollywood 2[29] (Actions) 2009 12 N/A 61 $\sim$ 278 2 517 N/A N/A 720$\times$528 25
    ADL[129] 2009 10 5 15 150 1 1 1 280$\times$720 30
    UCF YouTube[30] 2009 11 N/A 116 $\sim$ 198 1 600 N/A N/A 320$\times$240 30
    Olympic Sports[31] 2010 16 N/A 21 $\sim$ 67 783 N/A N/A - -
    UT-Interaction[130] 2010 6 N/A 20 120 2 1 720$\times$480 30
    HMDB51[32] 2011 51 N/A 102 $\sim$ 548 6 766 N/A N/A 424$\times$240 30
    CCV[131] 2011 20 N/A 224 $\sim$ 806 9 317 N/A N/A - -
    UCF50[33] 2012 50 N/A 100 $\sim$ 197 6 681 N/A N/A 320$\times$240 25
    UCF101[34] 2012 101 N/A 100 $\sim$ 167 13 320 N/A N/A 320$\times$240 25
    MPII Cooking[132] 2012 65 12 - 44/5 609 1 1 1 624$\times$1 224 29.4
    MPII Composites[133] 2012 60 22 - 212 1 1 1 624$\times$1 224 29.4
    Sports-1M[35] 2014 487 N/A 1 000 $\sim$ 3 000 1 133 158 N/A N/A 1 280$\times$720 30
    Hollywood Extended[134] 2014 16 N/A 2 $\sim$ 11 937 N/A N/A 720$\times$528 25
    MPII Cooking 2[135] 2015 67 30 - 273/14 105 1 1 1 624$\times$1 224 29.4
    ActivityNet[136] 2015 203 N/A 137(a) 27 801 N/A N/A 1 280$\times$720 30
    多视角 IXMAS[68] 2006 13 12 180 180/2 340 1 5 390$\times$291 23
    i3DPost[137] 2009 12 8 64 768 1 8 1 920$\times$1 080 25
    MuHAVi[69] 2010 17 7 56 952 1 8 720$\times$576 25
    MuHAVi-MAS[69] 2010 14 2 4 $\sim$ 16 136 1 2 720$\times$576 25
    *a: average; N/A: not applicable
    下载: 导出CSV

    表  7  特殊数据集信息表

    Table  7  The information of special human activity recognition datasets

    数据集名称 年份 行为类别 行为人数 视频数/类 视频总数/样本数 场景 视角 分辨率 fps 数据格式 骨架关节点
    CMU Mocap[94] 2007 23个亚类 N/A 1 $\sim$ 96 2 605 N/A N/A 320 $\times$ 240 30 MS 41
    WARD[93] 2009 13 20 64 $\sim$ 66 1 298 1 1 - - M N/A
    CMU-MMAC[138] 2009 5大类 45 234 $\sim$ 252 1 218 1 6 1 024$\times$768 30 RDMA N/A
    640$\times$480 60
    MSR Action 3D[95] 2010 20 10 20 $\sim$ 30 567 1 1 640$\times$480 (R)
    320$\times$240 (D)
    15 DS 20
    RGBD-HuDaAct[139] 2011 12 30 - 1 189 1 1 640$\times$480 (RD) 30 RD N/A
    UT Kinect[140] 2012 10 10 - 200 1 1 640$\times$480 (R)
    320$\times$240 (D)
    30 RDS 20
    ACT4$^2$[141] 2012 14 24 - 6 844 1 4 640 $\times$ 480 30 RD N/A
    MSR Daily Activity 3D[96] 2012 16 10 20 320 1 1 640$\times$480 30 RDS 20
    UCF Kinect[97] 2013 16 16 80 1 280 1 1 - - S 15
    Berkeley MHAD[142] 2013 11 12 54 $\sim$ 55 659 1 4 640$\times$480 30 RDMAIe N/A
    3D Action Pairs[143] 2013 12 10 30 360 1 1 640$\times$480 30 RDS 20
    Multiview RGB-D event[144] 2013 8 8 477 (a) 3 815 1 3 640$\times$480 30 RDS 20
    Online RGBD Action[145] 2014 7 24 48 336 1 1 - - RDS 20
    URFD[119] 2014 5 5 6 $\sim$ 60 100 4 2 640$\times$240 30 RD N/A
    N-UCLA[104] 2014 10 10 140 $\sim$ 173 1 475 1 3 640$\times$480 12 RDS 20
    TST Fall detection v1[120] 2014 2 4 10 20 1 1 320$\times$240 (D) 30 D N/A
    UTD-MHAD[105] 2015 27 8 31 $\sim$ 32 861 1 1 640$\times$480 30 RDSIe 25
    TST Fall detection v2[121] 2016 8 11 33 264 1 1 512$\times$424 (D) 25 DSIe 25
    NTU RGB+D[106] 2016 60 40 948 56 880 1 80 1 920$\times$720 (R)
    512$\times$424 (D)
    512$\times$424 (If)
    30 RDSIf 25
    *R: RGB; D: Depht; S: Skeleton; M: Motion; A: Audio; If: Infrared; Ie: Inertrial
    下载: 导出CSV

    表  8  人体行为数据集分类信息表

    Table  8  Human activity dataset classification according to different features

    分类特征 子类 数据集
    场景 室内 ADL、MPII Cooking、MPII Composites、MPII Cooking 2、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU Mocap、WARD、CMU-MMAC、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、URFD、N- UCLA Multiview Action 3D、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D
    室外 Weizmann、UT-Tower、UT-Interaction、PETS
    内容 室内/室外 KTH、Hollywood、UCF Sports、Hollywood 2、UCF YouTube、Olympic Sports、HMDB51、CCV、UCF50、UCF101、Sports-1M、Hollywood Extended、ActivityNet、THUMOS
    日常活动 KTH、Weizmann、ADL、HMDB51、CCV、ActivityNet、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU Mocap、WARD、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、RGBD- HuDaAct、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、URFD、N-UCLA Multiview Action 3D、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D
    体育运动 UCF Sports、UCF YouTube、Olympic Sports、UCF50、UCF101、Sports-1M、THUMOS
    厨房活动 MPII Cooking、MPII Composites、MPII Cooking 2、CMU-MMAC
    电影 Hollywood、Hollywood 2、Hollywood Extended
    监控 UT-Tower、UT-Interaction、PETS
    视角 单视角 KTH、Weizmann、ADL、MPII Cooking、MPII Composites、MPII Cooking 2、MSR Action 3D、UT Kinect、MSR Daily Activity 3D、RGBD-HuDaAct、UCF Kinect、3D Action Pairs、Online RGBD Action、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2
    多视角 IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、ACT4$^2$、MHAD、Multiview RGB-D event、URFD、N-UCLA Multiview Action 3D、NTU RGB+D、PETS
    俯瞰 UT-Tower、UT-Interaction、PETS
    其他 Hollywood、UCF Sports、Hollywood 2、UCF YouTube、Olympic Sports、HMDB51、CCV、UCF50、UCF101、Sports-1M、Hollywood Extended、ActivityNet、CMU Mocap、WARD、CMU-MMAC、THUMOS
    相机 静止 KTH、Weizmann、UT-Tower、ADL、UT-Interaction、MPII Cooking、MPII Composites、MPII Cooking 2、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU-MMAC、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、URFD、N-UCLA Multiview Action 3D、TST Fall detection dataset v1、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D、PETS
    移动 Hollywood、UCF Sports、Hollywood 2、UCF YouTube、Olympic Sports、HMDB51、CCV、UCF50、UCF101、Sports-1M、Hollywood Extended、ActivityNet、CMU Mocap、THUMOS
    应用 行为识别 KTH、Weizmann、Hollywood、UCF Sports、UT-Tower、Hollywood 2、ADL、UCF YouTube、Olympic Sports、UT-Interaction、HMDB51、CCV、UCF50、UCF101、MPII Cooking、MPII Composites、Sports-1M、Hollywood Extended、ActivityNet、MPII Cooking 2、IXMAS、i3DPost、MuHAVi、MuHAVi-MAS、CMU Mocap、WARD、CMU-MMAC、MSR Action 3D、RGBD-HuDaAct、UT Kinect、ACT4$^2$、MSR Daily Activity 3D、UCF Kinect、MHAD、3D Action Pairs、Multiview RGB-D event、Online RGBD Action、N-UCLA Multiview Action 3D、UTD-MHAD、TST Fall detection dataset v2、NTU RGB+D、PETS、THUMOS
    领域 检测/跟踪 KTH、Weizmann、UCF Sports、Olympic Sports、UT-Interaction、ADL、UCF YouTube、ACT4$^2$、URFD、TST Fall detection dataset v1、TST Fall detection dataset v2、PETS、UCF50、UCF101、MPII Cooking、MPII Composites、MPII Cooking 2
    其他 KTH、Weizmann、UCF YouTube、UT-Tower、UCF50、ActivityNet、MPII Cooking、MPII Composites、MPII Cooking 2、Multiview RGB-D event
    下载: 导出CSV
  • [1] Hu W M, Tan T N, Wang L, Maybank S. A survey on visual surveillance of object motion and behaviors. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2004, 34(3):334-352 doi: 10.1109/TSMCC.2004.829274
    [2] Kim I S, Choi H S, Yi K M, Choi J Y, Kong S G. Intelligent visual surveillance-a survey. International Journal of Control, Automation and Systems, 2010, 8(5):926-939 doi: 10.1007/s12555-010-0501-4
    [3] 黄凯奇, 陈晓棠, 康运锋, 谭铁牛.智能视频监控技术综述.计算机学报, 2015, 38(6):1093-1118 doi: 10.11897/SP.J.1016.2015.01093

    Huang Kai-Qi, Chen Xiao-Tang, Kang Yun-Feng, Tan Tie-Niu. Intelligent visual surveillance:a review. Chinese Journal of Computers, 2015, 38(6):1093-1118 doi: 10.11897/SP.J.1016.2015.01093
    [4] Dix A. Human-Computer Interaction. Berlin: Springer-Verlag, 2009. 1327-1331
    [5] Myers B A. A brief history of human-computer interaction technology. Interactions, 1998, 5(2):44-54 doi: 10.1145/274430.274436
    [6] Rautaray S S, Agrawal A. Vision based hand gesture recognition for human computer interaction:a survey. Artificial Intelligence Review, 2015, 43(1):1-54 doi: 10.1007/s10462-012-9356-9
    [7] Park S H, Won S H, Lee J B, Kim S W. Smart home-digitally engineered domestic life. Personal and Ubiquitous Computing, 2003, 7(3-4):189-196 doi: 10.1007/s00779-003-0228-9
    [8] Jeong K-A, Salvendy G, Proctor R W. Smart home design and operation preferences of Americans and Koreans. Ergonomics, 2010, 53(5):636-660 doi: 10.1080/00140130903581623
    [9] Komninos N, Philippou E, Pitsillides A. Survey in smart grid and smart home security:Issues, challenges and countermeasures. IEEE Communications Surveys & Tutorials, 2014, 16(4):1933-1954 http://cn.bing.com/academic/profile?id=ba89261b5387cd451572bd2fd6012175&encoded=0&v=paper_preview&mkt=zh-cn
    [10] Suma E A, Krum D M, Lange B, Koenig S, Rizzo A, Bolas M. Adapting user interfaces for gestural interaction with the flexible action and articulated skeleton toolkit. Computers & Graphics, 2013, 37(3):193-201
    [11] Zelnik-Manor L, Irani M. Event-based analysis of video. In: Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). Kauai, Hawaii, USA: IEEE, 2001, 2: Ⅱ-123-Ⅱ-130 doi: 10.1109/CVPR.2001.990935
    [12] Ahad M A R, Tan J, Kim H, Ishikawa S. Action dataset-a survey. In: Proceedings of the 2011 SICE Annual Conference (SICE). Tokyo, Japan: IEEE, 2011. 1650-1655 http://www.mendeley.com/catalog/action-dataset-survey/
    [13] Chaquet J M, Carmona E J, Fernández-Caballero A. A survey of video datasets for human action and activity recognition. Computer Vision and Image Understanding, 2013, 117(6):633-659 doi: 10.1016/j.cviu.2013.01.013
    [14] Zhang J, Li W Q, Ogunbona P O, Wang P C, Tang C. RGB-D-based action recognition datasets:a survey. Pattern Recognition, 2016, 60:86-105 doi: 10.1016/j.patcog.2016.05.019
    [15] Aggarwal J K, Ryoo M S. Human activity analysis:a review. ACM Computing Surveys, 2011, 43(3):Article No. 16 http://cn.bing.com/academic/profile?id=a25e9bf81e9f05da7e7a0358aaeb8ae3&encoded=0&v=paper_preview&mkt=zh-cn
    [16] Vishwakarma S, Agrawal A. A survey on activity recognition and behavior understanding in video surveillance. The Visual Computer, 2013, 29(10):983-1009 doi: 10.1007/s00371-012-0752-6
    [17] Chen C, Jafari R, Kehtarnavaz N. A survey of depth and inertial sensor fusion for human action recognition. Multimedia Tools and Applications, 2017, 76(3):4405-4425 doi: 10.1007/s11042-015-3177-1
    [18] 单言虎, 张彰, 黄凯奇.人的视觉行为识别研究回顾、现状及展望.计算机研究与发展, 2016, 53(1):93-112 doi: 10.7544/issn1000-1239.2016.20150403

    Shan Yan-Hu, Zhang Zhang, Huang Kai-Qi. Visual human action recognition:history, status and prospects. Journal of Computer Research and Development, 2016, 53(1):93-112 doi: 10.7544/issn1000-1239.2016.20150403
    [19] Schuldt C, Laptev I, Caputo B. Recognizing human actions: a local SVM approach. In: Proceedings of the 17th International Conference on Pattern Recognition (ICPR). Cambridge, UK: IEEE, 2004, 3: 32-36 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=1334462
    [20] Blank M, Gorelick L, Shechtman E, Irani M, Basri R. Actions as space-time shapes. In: Proceedings of the 10th IEEE International Conference on Computer Vision (ICCV'05). Beijing, China: IEEE, 2005, 2: 1395-1402 http://europepmc.org/abstract/MED/17934233
    [21] Gorelick L, Blank M, Shechtman E, Irani M, Basri R. Actions as space-time shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(12):2247-2253 doi: 10.1109/TPAMI.2007.70711
    [22] Zhou T C, Li N J, Cheng X, Xu Q J, Zhou L, Wu Z Y. Learning semantic context feature-tree for action recognition via nearest neighbor fusion. Neurocomputing, 2016, 201:1-11 doi: 10.1016/j.neucom.2016.04.007
    [23] Xu W R, Miao Z J, Tian Y. A novel mid-level distinctive feature learning for action recognition via diffusion map. Neurocomputing, 2016, 218:185-196 doi: 10.1016/j.neucom.2016.08.057
    [24] Gorelick L, Blank M, Shechtman E, Irani M, Basri R. Actions as space-time shapes[Online], available: http://www.wisdom.weizmann.ac.il/~vision/SpaceTime-Actions.html, January 26, 2016.
    [25] Tran D, Sorokin A. Human activity recognition with metric learning. In: Proceedings of the 10th European Conference on Computer Vision (ECCV). Marseille, France: Springer, 2008. 548-561 http://www.springerlink.com/content/p2183333585g8845
    [26] Fathi A, Mori G. Action recognition by learning mid-level motion features. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4587735
    [27] Laptev I, Marszalek M, Schmid C, Rozenfeld B. Learning realistic human actions from movies. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4587756
    [28] Rodriguez M D, Ahmed J, Shah M. Action MACH a spatio-temporal maximum average correlation height filter for action recognition. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4587727
    [29] Marszalek M, Laptev I, Schmid C. Actions in context. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, FL, USA: IEEE, 2009. 2929-2936
    [30] Liu J G, Luo J B, Shah M. Recognizing realistic actions from videos "in the wild". In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, FL, USA: IEEE, 2009. 1996-2003 doi: 10.1109/CVPRW.2009.5206744
    [31] Niebles J C, Chen C W, Li F F. Modeling temporal structure of decomposable motion segments for activity classification. In: Proceedings of the 11th European Conference on Computer Vision (ECCV): Part Ⅱ. Heraklion, Crete, Greece: Springer, 2010. 392-405
    [32] Kuehne H, Jhuang H, Garrote E, Poggio T, Serre T. HMDB: a large video database for human motion recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain: IEEE, 2011. 2556-2563 doi: 10.1109/ICCV.2011.6126543
    [33] Reddy K K, Shah M. Recognizing 50 human action categories of web videos. Machine Vision and Applications, 2013, 24(5):971-981 doi: 10.1007/s00138-012-0450-4
    [34] Soomro K, Zamir A R, Shah M. UCF101: a dataset of 101 human actions classes from videos in the wild. arXiv: 1212. 0402, 2012. 1-7
    [35] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 1725-1732 http://ieeexplore.ieee.org/document/6909619/
    [36] Kulkarni K, Evangelidis G, Cech J, Horaud R. Continuous action recognition based on sequence alignment. International Journal of Computer Vision, 2015, 112(1):90-114 doi: 10.1007/s11263-014-0758-9
    [37] Shabani A H, Clausi D A, Zelek J S. Evaluation of local spatio-temporal salient feature detectors for human action recognition. In: Proceedings of the 2012 Ninth Conference on Computer and Robot Vision (CRV). Toronto, ON, Canada: IEEE, 2012. 468-475 http://dl.acm.org/citation.cfm?id=2354394
    [38] Fernando B, Anderson P, Hutter M, Gould S. Discriminative hierarchical rank pooling for activity recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1924-1932 doi: 10.1109/CVPR.2016.212
    [39] Wang H, Schmid C. Action recognition with improved trajectories. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia: IEEE, 2013. 3551-3558 doi: 10.1109/ICCV.2013.441
    [40] Liu A A, Su Y T, Nie W Z, Kankanhalli M. Hierarchical clustering multi-task learning for joint human action grouping and recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(1):102-114 doi: 10.1109/TPAMI.2016.2537337
    [41] Wang Y, Tran V, Hoai M. Evolution-preserving dense trajectory descriptors. arXiv: 1702. 04037, 2017.
    [42] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos. Advance in Neural Information Processing Systems. 2014, 1(4):568-576 https://www.researchgate.net/publication/262974436_Two-Stream_Convolutional_Networks_for_Action_Recognition_in_Videos
    [43] Al Harbi N, Gotoh Y. A unified spatio-temporal human body region tracking approach to action recognition. Neurocomputing, 2015, 161:56-64 doi: 10.1016/j.neucom.2014.11.072
    [44] Tong M, Wang H Y, Tian W J, Yang S L. Action recognition new framework with robust 3D-TCCHOGAC and 3D-HOOFGAC. Multimedia Tools and Applications, 2017, 76(2):3011-3030 doi: 10.1007/s11042-016-3279-4
    [45] Vishwakarma D K, Kapoor R, Dhiman A. Unified framework for human activity recognition:an approach using spatial edge distribution and R-transform. AEU-International Journal of Electronics and Communications, 2016, 70(3):341-353 doi: 10.1016/j.aeue.2015.12.016
    [46] Vishwakarma D K, Kapoor R, Dhiman A. A proposed unified framework for the recognition of human activity by exploiting the characteristics of action dynamics. Robotics and Autonomous Systems, 2016, 77:25-38 doi: 10.1016/j.robot.2015.11.013
    [47] Liu C W, Pei M T, Wu X X, Kong Y, Jia Y D. Learning a discriminative mid-level feature for action recognition. Science China Information Sciences, 2014, 57(5):1-13 http://cn.bing.com/academic/profile?id=cb77c2bcda90b6c26f8a2e19405b6342&encoded=0&v=paper_preview&mkt=zh-cn
    [48] Laptev I, Marszalek M, Schmid C, Rozenfeld B. Hollywood2: Human actions and scenes dataset[Online], available: http://www.di.ens.fr/~laptev/actions/hollywood2/, March 12, 2016.
    [49] Wang H, Kläser A, Schmid C, Liu C L. Dense trajectories and motion boundary descriptors for action recognition. International Journal of Computer Vision, 2013, 103(1):60-79 doi: 10.1007/s11263-012-0594-8
    [50] Soomro K, Zamir A R. Action recognition in realistic sports videos. Computer vision in sports. Cham, Switzerland: Springer, 2014. 181-208
    [51] Peng X J, Zou C Q, Qiao Y, Peng Q. Action recognition with stacked fisher vectors. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014. 581-595 doi: 10.1007/978-3-319-10602-1_38
    [52] Liu C H, Liu J, He Z C, Zhai Y J, Hu Q H, Huang Y L. Convolutional neural random fields for action recognition. Pattern Recognition, 2016, 59:213-224 doi: 10.1016/j.patcog.2016.03.019
    [53] Sun Q R, Liu H, Ma L Q, Zhang T W. A novel hierarchical bag-of-words model for compact action representation. Neurocomputing, 2016, 174(Part B):722-732 https://www.researchgate.net/publication/283989611_A_novel_hierarchical_Bag-of-Words_model_for_compact_action_representation
    [54] Sekma M, Mejdoub M, Amar C B. Human action recognition based on multi-layer fisher vector encoding method. Pattern Recognition Letters, 2015, 65(C):37-43 https://www.researchgate.net/publication/305284646_Structured_Fisher_vector_encoding_method_for_human_action_recognition
    [55] Li Y W, Li W X, Mahadevan V, Vasconcelos N. VLAD3: encoding dynamics of deep features for action recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1951-1960 doi: 10.1109/CVPR.2016.215
    [56] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1933-1941 http://arxiv.org/abs/1604.06573
    [57] Wang L M, Xiong Y J, Wang Z, Qiao Y, Lin D H, Tang X O, Van Gool L. Temporal segment networks: Towards good practices for deep action recognition. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, the Netherlands: Springer, 2016. 20-36 doi: 10.1007/978-3-319-46484-8_2
    [58] Wang H S, Wang W, Wang L. How scenes imply actions in realistic videos? In: Proceedings of the 2016 IEEE International Conference on Image Processing (ICIP). Phoenix, AZ, USA: IEEE, 2016. 1619-1623 http://ieeexplore.ieee.org/document/7532632/
    [59] Wang L M, Guo S, Huang W L, Qiao Y. Places205-VGGNet models for scene recognition. arXiv: 1508. 01667, 2015.
    [60] Lan Z Z, Lin M, Li X C, Hauptmann A G, Raj B. Beyond Gaussian pyramid: multi-skip feature stacking for action recognition. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 204-212 doi: 10.1109/CVPR.2015.7298616
    [61] Ijjina E P, Chalavadi K M. Human action recognition using genetic algorithms and convolutional neural networks. Pattern Recognition, 2016, 59:199-212 doi: 10.1016/j.patcog.2016.01.012
    [62] Lev G, Sadeh G, Klein B, Wolf L. RNN Fisher vectors for action recognition and image annotation. In: Proceedings of the 14th European Conference on Computer Vision (ECCV): Part Ⅷ . Amsterdam, the Netherlands: Springer, 2016. 833-850
    [63] Jiang Y G, Liu J G, Zamir A R, Laptev I, Piccardi M, Shah M, Sukthankar R. THUMOS challenge: Action recognition with a large number of classes[Online], available: http://crcv.ucf.edu/ICCV13-Action-Workshop/index.html, November 20, 2016.
    [64] Jiang Y G, Liu J G, Zamir A R, Toderici G, Laptev I, Shah M, Sukthankar R. THUMOS challenge: action recognition with a large number of classes[Online], available: http://crcv.ucf.edu/THUMOS14/home.html, November 20, 2016.
    [65] Gorban A, Idrees H, Jiang Y G, Zamir A R, Laptev I, Shah M, Sukthankar R. THUMOS challenge: action recognition with a large number of classes[Online], available: http://www.thumos.info/home.html, November 20, 2016.
    [66] Xu Z, Zhu L, Yang Y, Hauptmann A G. UTS-CMU at THUMOS 2015. In: Proceedings of the 2015 THUMOS Challenge. Boston, MA, USA: CVPR, 2015. 1-3
    [67] Mahasseni B, Todorovic S. Regularizing long short term memory with 3D human-skeleton sequences for action recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 3054-3062 doi: 10.1109/CVPR.2016.333
    [68] Weinland D, Ronfard R, Boyer E. Free viewpoint action recognition using motion history volumes. Computer Vision and Image Understanding, 2006, 104(2-3):249-257 doi: 10.1016/j.cviu.2006.07.013
    [69] Singh S, Velastin S A, Ragheb H. MuHAVi: a multicamera human action video dataset for the evaluation of action recognition methods. In: Proceedings of the 7th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Boston, MA, USA: IEEE, 2010. 48-55 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5597316
    [70] Ferryman J, Shahrokni A. PETS2009: dataset and challenge. In: Proceedings of the 22th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS-Winter). Snowbird, UT, USA: IEEE, 2009. 1-6 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5399556
    [71] Patino L, Ferryman J. PETS 2014: dataset and challenge. In: Proceedings of the 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Seoul, South Korea: IEEE, 2014. 355-360 doi: 10.1109/AVSS.2014.6918694
    [72] Ashraf N, Foroosh H. Motion retrieval using consistency of epipolar geometry. In: Proceedings of the 2015 IEEE International Conference on Image Processing (ICIP). Quebec City, QC, Canada: IEEE, 2015. 4219-4223 http://ieeexplore.ieee.org/document/7351601/
    [73] Ji X F, Ju Z J, Wang C, Wang C H. Multi-view transition HMMs based view-invariant human action recognition method. Multimedia Tools and Applications, 2016, 75(19):11847-11864 doi: 10.1007/s11042-015-2661-y
    [74] Gao Z, Nie W Z, Liu A N, Zhang H. Evaluation of local spatial-temporal features for cross-view action recognition. Neurocomputing, 2016, 173(Part 1):110-117 http://cn.bing.com/academic/profile?id=1da561fc4b0fcb38d7c20fb3f7e53e43&encoded=0&v=paper_preview&mkt=zh-cn
    [75] Wu D, Shao L. Multi-max-margin support vector machine for multi-source human action recognition. Neurocomputing, 2014, 127(3):98-103 http://cn.bing.com/academic/profile?id=1985a105fc3d9604d66066b167adf376&encoded=0&v=paper_preview&mkt=zh-cn
    [76] Yi Y, Lin M Q. Human action recognition with graph-based multiple-instance learning. Pattern Recognition, 2016, 53(C):148-162 http://cn.bing.com/academic/profile?id=d6d8420d7e0ac3354d4a04a9cb76c2dd&encoded=0&v=paper_preview&mkt=zh-cn
    [77] Jung H J, Hong K S. Modeling temporal structure of complex actions using bag-of-sequencelets. Pattern Recognition Letters, 2017, 85:21-28 doi: 10.1016/j.patrec.2016.11.012
    [78] Ballas N, Yang Y, Lan Z Z, Delezoide B, Preteux F, Hauptmann A. Space-time robust representation for action recognition. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia: IEEE, 2013. 2704-2711 doi: 10.1109/ICCV.2013.336
    [79] Qiu Z F, Li Q, Yao T, Mei T, Rui Y. MSR Asia MSM at THUMOS challenge 2015. In: Proceedings of the 2015 THUMOS Challenge. Boston, MA, USA: CVPR, 2015. 1-3 http://storage.googleapis.com/www.thumos.info/thumos15_notebooks/TH15_MSRAsia.pdf
    [80] Ning K, Wu F. ZJUDCD submission at THUMOS challenge 2015. In: Proceedings of the 2015 THUMOS Challenge. Boston, MA, USA: CVPR, 2015. 1-2
    [81] Ng J Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: deep networks for video classification. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 4694-4702 doi: 10.1109/CVPR.2015.7299101
    [82] Moghaddam Z, Piccardi M. Training initialization of Hidden Markov Models in human action recognition. IEEE Transactions on Automation Science and Engineering, 2014, 11(2):394-408 doi: 10.1109/TASE.2013.2262940
    [83] Wu X X, Jia Y D. View-invariant action recognition using latent kernelized structural SVM. In: Proceedings of the 12th European Conference on Computer Vision (ECCV). Florence, Italy: Springer, 2012. 411-424 http://dl.acm.org/citation.cfm?id=2403170
    [84] Alcantara M F, Moreira T P, Pedrini H. Real-time action recognition using a multilayer descriptor with variable size. Journal of Electronic Imaging, 2016, 25(1):Article No., 013020 https://www.researchgate.net/profile/Marlon_Alcantara3/publication/293042223_Real-time_action_recognition_using_a_multilayer_descriptor_with_variable_size/links/5760567508ae2b8d20eb5f9e.pdf?origin=publication_list
    [85] Chaaraoui A A, Flórez-Revuelta F. Human action recognition optimization based on evolutionary feature subset selection. In: Proceedings of the 15th Annual Conference on Genetic and Evolutionary Computation. Amsterdam, the Netherlands: ACM, 2013. 1229-1236 Human action recognition optimization based on evolutionary feature subset selection
    [86] Cai J X, Tang X, Feng G C. Learning pose dictionary for human action recognition. In: Proceedings of the 22nd International Conference on Pattern Recognition (ICPR). Stockholm, Sweden: IEEE, 2014. 381-386 http://dl.acm.org/citation.cfm?id=2704008
    [87] Chaaraoui A A, Flórez-Revuelta F. A low-dimensional radial silhouette-based feature for fast human action recognition fusing multiple views. International Scholarly Research Notices, 2014, 2014:Article No., 547069 https://www.hindawi.com/journals/isrn/2014/547069/tab1/
    [88] Alcantara M F, Moreira T P, Pedrini H. Real-time action recognition based on cumulative motion shapes. In: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy: IEEE, 2014. 2917-2921 http://ieeexplore.ieee.org/document/6854134/
    [89] Li L Z, Nawaz T, Ferryman J. PETS 2015: datasets and challenge. In: Proceedings of the 12th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Karlsruhe, Germany: IEEE, 2015. 1-6 doi: 10.1109/AVSS.2015.7301741
    [90] Patino L, Cane T, Vallee A, Ferryman J. PETS 2016: dataset and challenge. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Las Vegas, NV, USA: IEEE, 2016. 1240-1247 http://ieeexplore.ieee.org/document/7789647/
    [91] PETS 2014[Online], available: http://www.cvg.reading.ac.uk/PETS2014/, April 16, 2016
    [92] Chen J W, Wu J, Konrad J, Ishwar P. Semi-coupled two-stream fusion ConvNets for action recognition at extremely low resolutions. In: Proceedings of the 2017 IEEE Winter Conference on Applications of Computer Vision (WACV). Santa Rosa, California, USA: IEEE, 2017. 139-147 http://ieeexplore.ieee.org/document/7926606/
    [93] Yang A Y, Jafari R, Sastry S S, Bajcsy R. Distributed recognition of human actions using wearable motion sensor networks. Journal of Ambient Intelligence and Smart Environments, 2009, 1(2):103-115 http://dl.acm.org/citation.cfm?id=2350317
    [94] CMU graphics lab motion capture database[Online], available: http://mocap.cs.cmu.edu, September 27, 2016.
    [95] Li W Q, Zhang Z Y, Liu Z C. Action recognition based on a bag of 3D points. In: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). San Francisco, CA, USA: IEEE, 2010. 9-14 http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=5543273&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Ficp.jsp%3Farnumber%3D5543273
    [96] Wang J, Liu Z C, Wu Y, Yuan J S. Mining actionlet ensemble for action recognition with depth cameras. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2012. 1290-1297 http://dl.acm.org/citation.cfm?id=2354966
    [97] Ellis C, Masood S Z, Tappen M F, LaViola Jr J J, Sukthankar R. Exploring the trade-off between accuracy and observational latency in action recognition. International Journal of Computer Vision, 2013, 101(3):420-436 doi: 10.1007/s11263-012-0550-7
    [98] Yang A Y, Iyengar S, Kuryloski P, Jafari R. Distributed segmentation and classification of human actions using a wearable motion sensor network. In: Proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW'08). Anchorage, AK, USA: IEEE, 2008. 1-8 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=4563176
    [99] Guo Y C, He W H, Gao C. Human activity recognition by fusing multiple sensor nodes in the wearable sensor systems. Journal of Mechanics in Medicine and Biology, 2012, 12(5):Article No., 1250084 doi: 10.1142/S0219519412500844
    [100] Guo M, Wang Z L. A feature extraction method for human action recognition using body-worn inertial sensors. In: Proceedings of the 19th International Conference on Computer Supported Cooperative Work in Design (CSCWD). Calabria, Italy: IEEE, 2015. 576-581 http://ieeexplore.ieee.org/document/7231022/
    [101] Jia Q, Fan X, Luo Z X, Li H J, Huyan K, Li Z Z. Cross-view action matching using a novel projective invariant on non-coplanar space-time points. Multimedia Tools and Applications, 2016, 75(19):11661-11682 doi: 10.1007/s11042-015-2704-4
    [102] Al Aghbari Z, Junejo I N. DisCoSet:discovery of contrast sets to reduce dimensionality and improve classification. International Journal of Computational Intelligence Systems, 2015, 8(6):1178-1191 http://cn.bing.com/academic/profile?id=2cd8cc36bb9e5e545b47cfafa4362aa1&encoded=0&v=paper_preview&mkt=zh-cn
    [103] Kadu H, Kuo C C J. Automatic human Mocap data classification. IEEE Transactions on Multimedia, 2014, 16(8):2191-2202 doi: 10.1109/TMM.2014.2360793
    [104] Wang J, Nie X H, Xia Y, Wu Y, Zhu S C. Cross-view action modeling, learning, and recognition. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 2649-2656 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6909735
    [105] Chen C, Jafari R, Kehtarnavaz N. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In: Proceedings of the 2015 IEEE International Conference on Image Processing (ICIP). Quebec City, QC, Canada: IEEE, 2015. 168-172 http://ieeexplore.ieee.org/document/7350781
    [106] Shahroudy A, Liu J, Ng T T, Wang G. NTU RGB+D: a large scale dataset for 3D human activity analysis. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 1010-1019 http://arxiv.org/abs/1604.02808
    [107] Luo J J, Wang W, Qi H R. Group sparsity and geometry constrained dictionary learning for action recognition from depth maps. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia: IEEE, 2013. 1809-1816 doi: 10.1109/ICCV.2013.227
    [108] Chen C, Jafari R, Kehtarnavaz N. Action recognition from depth sequences using depth motion maps-based local binary patterns. In: Proceedings of the 2015 IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa, HI, USA: IEEE, 2015. 1092-1099 http://dl.acm.org/citation.cfm?id=2764065.2764211
    [109] Chen W B, Guo G D. Triviews:a general framework to use 3D depth data effectively for action recognition. Journal of Visual Communication and Image Representation, 2015, 26:182-191 doi: 10.1016/j.jvcir.2014.11.008
    [110] Wang P C, Li W Q, Gao Z M, Zhang J, Tang C, Ogunbona P. Deep convolutional neural networks for action recognition using depth map sequences. arXiv: 1501. 04686, 2015. 1-8
    [111] Zhang H L, Zhong P, He J L, Xia C X. Combining depth-skeleton feature with sparse coding for action recognition. Neurocomputing, 2017, 230:417-426 doi: 10.1016/j.neucom.2016.12.041
    [112] Shahroudy A, Ng T T, Gong Y H, Wang G. Deep multimodal feature analysis for action recognition in RGB+D videos. arXiv: 160307120, 2016.
    [113] Kerola T, Inoue N, Shinoda K. Cross-view human action recognition from depth maps using spectral graph sequences. Computer Vision and Image Understanding, 2017, 154:108-126 doi: 10.1016/j.cviu.2016.10.004
    [114] Beh J, Han D K, Durasiwami R, Ko H. Hidden Markov model on a unit hypersphere space for gesture trajectory recognition. Pattern Recognition Letters, 2014, 36:144-153 doi: 10.1016/j.patrec.2013.10.007
    [115] Liu M Y, Liu H, Chen C. Enhanced skeleton visualization for view invariant human action recognition. Pattern Recognition, 2017, 68:346-362 doi: 10.1016/j.patcog.2017.02.030
    [116] Li C K, Hou Y H, Wang P C, Li W Q. Joint distance maps based action recognition with convolutional neural networks. IEEE Signal Processing Letters, 2017, 24(5):624-628 doi: 10.1109/LSP.2017.2678539
    [117] Bulbul M F, Jiang Y S, Ma J W. DMMs-based multiple features fusion for human action recognition. International Journal of Multimedia Data Engineering & Management, 2015, 6(4):23-39 http://cn.bing.com/academic/profile?id=fd27f4caf7ad1b2f08f4f1ee6391f01b&encoded=0&v=paper_preview&mkt=zh-cn
    [118] Wang P C, Li W Q, Li C K, Hou Y H. Action recognition based on joint trajectory maps with convolutional neural networks. arXiv: 1612. 09401v1, 2016. 1-11
    [119] Kwolek B, Kepski M. Human fall detection on embedded platform using depth maps and wireless accelerometer. Computer Methods and Programs in Biomedicine, 2014, 117(3):489-501 doi: 10.1016/j.cmpb.2014.09.005
    [120] Gasparrini S, Cippitelli E, Spinsante S, Gambi E. A depth-based fall detection system using a kinect? sensor. Sensors, 2014, 14(2):2756-2775 doi: 10.3390/s140202756
    [121] Gasparrini S, Cippitelli E, Gambi E, Spinsante S, Wåhslén J, Orhan I, Lindh T. Proposal and experimental evaluation of fall detection solution based on wearable and depth data fusion. ICT innovations 2015. Cham, Switzerland: Springer, 2016. 99-108 doi: 10.1007/978-3-319-25733-4_11
    [122] 苏本跃, 蒋京, 汤庆丰, 盛敏.基于函数型数据分析方法的人体动态行为识别.自动化学报, 2017, 43(5):866-876 http://www.aas.net.cn/CN/abstract/abstract19064.shtml

    Su Ben-Yue, Jiang Jing, Tang Qing-Feng, Sheng Min. Human dynamic action recognition based on functional data analysis. Acta Automatica Sinica, 2017, 43(5):866-876 http://www.aas.net.cn/CN/abstract/abstract19064.shtml
    [123] Han L, Wu X X, Liang W, Hou G M, Jia Y D. Discriminative human action recognition in the learned hierarchical manifold space. Image and Vision Computing, 2010, 28(5):836-849 doi: 10.1016/j.imavis.2009.08.003
    [124] Wang J, Liu Z C, Wu Y, Yuan J S. Learning actionlet ensemble for 3D human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(5):914-927 doi: 10.1109/TPAMI.2013.198
    [125] Chen H Z, Wang G J, Xue J H, He L. A novel hierarchical framework for human action recognition. Pattern Recognition, 2016, 55:148-159 doi: 10.1016/j.patcog.2016.01.020
    [126] Zhu Y, Chen W B, Guo G D. Fusing multiple features for depth-based action recognition. ACM Transactions on Intelligent Systems and Technology, 2015, 6(2):Article No. 18 http://cn.bing.com/academic/profile?id=b8a609270431fed77692706f168340e8&encoded=0&v=paper_preview&mkt=zh-cn
    [127] Jiang X B, Zhong F, Peng Q S, Qin X Y. Robust action recognition based on a hierarchical model. In: Proceedings of the 2013 International Conference on Cyberworlds (CW). Yokohama, Japan: IEEE, 2013. 191-198
    [128] Chen C C, Aggarwal J K. Recognizing human action from a far field of view. In: Proceedings of the 2009 Workshop on Motion and Video Computing (WMVC'09). Snowbird, UT, USA: IEEE, 2009. 1-7 http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5399231
    [129] Messing R, Pal C, Kautz H. Activity recognition using the velocity histories of tracked keypoints. In: Proceedings of the 12th International Conference on Computer Vision (ICCV). Kyoto, Japan: IEEE, 2009. 104-111 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5459154
    [130] Ryoo M S, Aggarwal J K. UT-interaction dataset, ICPR contest on semantic description of human activities (SDHA)[Online], available: http://cvrc.ece.utexas.edu/SDHA2010/Human_Interaction.html, December 10, 2016.
    [131] Jiang Y G, Ye G N, Chang S F, Ellis D, Loui A C. Consumer video understanding: a benchmark database and an evaluation of human and machine performance. In: Proceedings of the 1st ACM International Conference on Multimedia Retrieval (ICMR'11). Trento, Italy: ACM, 2011. Article No., 29 http://dl.acm.org/citation.cfm?id=1992025
    [132] Rohrbach M, Amin S, Andriluka M, Schiele B. A database for fine grained activity detection of cooking activities. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2012. 1194-1201 http://dl.acm.org/citation.cfm?id=2354909
    [133] Rohrbach M, Regneri M, Andriluka M, Amin S, Pinkal M, Schiele B. Script data for attribute-based recognition of composite activities. In: Proceedings of the 12th European Conference on Computer Vision (ECCV). Florence, Italy: Springer, 2012. 144-157 http://dl.acm.org/citation.cfm?id=2402952
    [134] Bojanowski P, Lajugie R, Bach F, Laptev I, Ponce J, Schmid C, Sivic J. Weakly supervised action labeling in videos under ordering constraints. Computer Vision——ECCV 2014. Cham, Germany: IEEE, 2014, 8693: 628-643
    [135] Rohrbach M, Rohrbach A, Regneri M, Amin S, Andriluka M, Pinkal M, Schiele B. Recognizing fine-grained and composite activities using hand-centric features and script data. International Journal of Computer Vision, 2016, 119(3):346-373 doi: 10.1007/s11263-015-0851-8
    [136] Heilbron F C, Escorcia V, Ghanem B, Niebles J C. Activitynet: a large-scale video benchmark for human activity understanding. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 961-970 doi: 10.1109/CVPR.2015.7298698
    [137] Gkalelis N, Kim H, Hilton A, Nikolaidis N, Pitas I. The i3DPost multi-view and 3D human action/interaction database. In: Proceedings of the 2009 Conference for Visual Media Production (CVMP). London, UK: IEEE, 2009. 159-168 http://brain.oxfordjournals.org/lookup/external-ref?access_num=20674934&link_type=MED&atom=%2Fbrain%2F135%2F3%2F723.atom
    [138] De la Torre F, Hodgins J K, Montano J, Valcarcel S. Detailed human data acquisition of kitchen activities: the CMU-multimodal activity database (CMU-MMAC). In: Proceedings of the 2009 Workshop on Developing Shared Home Behavior Datasets to Advance HCI and Ubiquitous Computing Research, in Conjuction with CHI. Boston, MA, USA: ACM, 2009. 1-5 http://www.researchgate.net/publication/242754790_Detailed_Human_Data_Acquisition_of_Kitchen_Activities_the_CMU-Multimodal_Activity_Database_CMU-MMAC
    [139] Ni B B, Wang G, Moulin P. RGBD-HuDaAct: a color-depth video database for human daily activity recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops). Barcelona, Spain: IEEE, 2011. 1147-1153 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6130379
    [140] Xia L, Chen C C, Aggarwal J K. View invariant human action recognition using histograms of 3D joints. In: Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Providence, RI, USA: IEEE, 2012. 20-27 http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6239233
    [141] Cheng Z W, Qin L, Ye Y T, Huang Q Q, Tian Q. Human daily action analysis with multi-view and color-depth data. In: Proceedings of the Computer Vision, ECCV 2012-Workshops and Demonstrations. Florence, Italy: Springer, 2012. 52-61
    [142] Ofli F, Chaudhry R, Kurillo G, Vidal R, Bajcsy R. Berkeley MHAD: a comprehensive multimodal human action database. In: Proceedings of the 2013 IEEE Workshop on Applications of Computer Vision (WACV). Tampa, FL, USA: IEEE, 2013. 53-60 doi: 10.1109/WACV.2013.6474999
    [143] Oreifej O, Liu Z C. HON4D: histogram of oriented 4D normals for activity recognition from depth sequences. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA: IEEE, 2013. 716-723 http://dl.acm.org/citation.cfm?id=2516099
    [144] Wei P, Zhao Y B, Zheng N N, Zhu S C. Modeling 4D human-object interactions for joint event segmentation, recognition, and object localization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1165-1179 doi: 10.1109/TPAMI.2016.2574712
    [145] Yu G, Liu Z C, Yuan J S. Discriminative orderlet mining for real-time recognition of human-object interaction. In: Proceedings of the 12th Asian Conference on Computer Vision (ACCV). Singapore: Springer, 2014. 50-65
    [146] Abu-El-Haija S, Kothari N, Lee J, Natsev P, Toderici G, Varadarajan B, Vijayanarasimhan S. YouTube-8M: a large-scale video classification benchmark. arXiv: 1609. 08675, 2016. 1-10
  • 期刊类型引用(34)

    1. 周炫余,吴莲华,郑勤华,肖天星,王紫璇,张思敏. 联合语义提示和记忆增强的弱监督跳绳视频异常检测方法. 计算机工程. 2024(07): 87-95 . 百度学术
    2. 朱红蕾,卫鹏娟,徐志刚. 基于骨架的人体异常行为识别与检测研究进展. 控制与决策. 2024(08): 2484-2501 . 百度学术
    3. 郭建军,叶俊伟,孔壹右,陈杰鑫,何国煌,姚赵忠,叶淑卿,彭益满,刘双印,冯大春,刘同来,曹亮,谢彩健. 基于深度学习的人体行为识别研究进展. 仲恺农业工程学院学报. 2024(04): 55-64 . 百度学术
    4. 叶永雪,马鸿雁. 基于特征融合的机器人视觉跌倒检测研究. 计算机应用与软件. 2024(12): 69-76 . 百度学术
    5. 苏本跃,张利,何清旋,盛敏. 基于小波特征匹配的短时人体行为识别. 系统仿真学报. 2023(01): 158-168 . 百度学术
    6. 李建平,赖永倩. 基于注意力机制和残差网络的视频行为识别. 计算机技术与发展. 2023(04): 69-74 . 百度学术
    7. 熊新炎,张童. 基于Kinect的双流时空卷积人体行为识别技术. 哈尔滨商业大学学报(自然科学版). 2023(04): 403-407+430 . 百度学术
    8. 蒋伟进,孙永霞,朱昊冉,陈萍萍,张婉清,陈君鹏. 边云协同计算下基于ST-GCN的监控视频行为识别机制. 南京大学学报(自然科学). 2022(01): 163-174 . 百度学术
    9. 袁帆. 基于空间变换网络的人员行为识别方法. 武汉大学学报(工学版). 2022(07): 740-746 . 百度学术
    10. 赵俊男,佘青山,孟明,陈云. 基于多流空间注意力图卷积SRU网络的骨架动作识别. 电子学报. 2022(07): 1579-1585 . 百度学术
    11. 龚苏明,陈莹. 时空特征金字塔模块下的视频行为识别. 计算机科学与探索. 2022(09): 2061-2067 . 百度学术
    12. 杨天金,侯振杰,李兴,梁久祯,宦娟,郑纪翔. 多聚点子空间下的时空信息融合及其在行为识别中的应用. 自动化学报. 2022(11): 2823-2835 . 本站查看
    13. 张捷,刘涛,于云潇. 基于人工智能和信息融合的养老安全综合监测系统研究. 中国医疗器械杂志. 2022(06): 611-614 . 百度学术
    14. 朱文和. 基于高斯平滑的视频时序检测算法. 大众标准化. 2021(02): 253-254 . 百度学术
    15. 谢昭,周义,吴克伟,张顺然. 基于时空关注度LSTM的行为识别. 计算机学报. 2021(02): 261-274 . 百度学术
    16. 李航,于家祥,殷守林,孙可. 基于模糊逻辑的人体行为识别分析. 沈阳师范大学学报(自然科学版). 2021(01): 54-59 . 百度学术
    17. 杨光义,林欣,厉杰,吴啸宇. 非接触式婴幼儿身高测量系统设计. 实验技术与管理. 2021(04): 66-70+75 . 百度学术
    18. 周楠,陆卫忠,丁漪杰,吴宏杰,傅启明,张郁. 基于深度学习的人体行为识别方法研究综述. 工业控制计算机. 2021(08): 116-117+119 . 百度学术
    19. 王昊飞,李俊峰. 基于注意力机制的改进残差网络的人体行为识别方法. 软件工程. 2021(11): 51-54+46 . 百度学术
    20. 胡凯,郑翡,卢飞宇,黄昱锟. 基于深度学习的行为识别算法综述. 南京信息工程大学学报(自然科学版). 2021(06): 730-743 . 百度学术
    21. 谈笑. 基于Spark大数据平台的老年病风险预警模型. 微型电脑应用. 2020(02): 71-74 . 百度学术
    22. 邢蒙蒙,魏国辉,刘静,张俊忠,杨锋,曹慧. 多模态人体动作表示识别及其正骨康复训练应用综述. 生物医学工程学杂志. 2020(01): 174-178+184 . 百度学术
    23. 荆于勤. 人体行为识别特征提取方法研究. 科技经济导刊. 2020(04): 149-150 . 百度学术
    24. 王珺. 一种基于快速面部识别算法的学习状态统计分析系统. 电子设计工程. 2020(05): 36-39+46 . 百度学术
    25. 阮宏洋,陈志澜,程英升,杨凯. C-3D可变形卷积神经网络模型的肺结节检测. 激光与光电子学进展. 2020(04): 152-162 . 百度学术
    26. 荆于勤. 基于卷积神经网络的视频人体行为识别方法. 科技视界. 2020(04): 209-210 . 百度学术
    27. 周波,李俊峰. 结合目标检测的人体行为识别. 自动化学报. 2020(09): 1961-1970 . 本站查看
    28. 黄晴晴,周风余,刘美珍. 基于视频的人体动作识别算法综述. 计算机应用研究. 2020(11): 3213-3219 . 百度学术
    29. 康书宁,张良. 基于语义特征立方体切片的人体动作识别. 信号处理. 2020(11): 1897-1905 . 百度学术
    30. 陈煜平,邱卫根. 基于CNN/LSTM和稀疏下采样的人体行为识别. 计算机工程与设计. 2019(05): 1445-1450 . 百度学术
    31. 罗会兰,童康,孔繁胜. 基于深度学习的视频中人体动作识别进展综述. 电子学报. 2019(05): 1162-1173 . 百度学术
    32. 陈煜平,邱卫根. 基于视觉的人体行为识别算法研究综述. 计算机应用研究. 2019(07): 1927-1934 . 百度学术
    33. 徐寅鹏,臧严,李秋洁. 基于关节数据的人体动作识别. 电脑知识与技术. 2019(27): 200-203 . 百度学术
    34. 吴恺华,郑皓,谢飞. 高速公路服务区中的城市形象塑造策略研究. 公路. 2018(11): 199-203 . 百度学术

    其他类型引用(74)

  • 加载中
  • 图(29) / 表(8)
    计量
    • 文章访问数:  5658
    • HTML全文浏览量:  2668
    • PDF下载量:  1412
    • 被引次数: 108
    出版历程
    • 收稿日期:  2017-01-16
    • 录用日期:  2017-07-18
    • 刊出日期:  2018-06-20

    目录

    /

    返回文章
    返回