Human Action Recognition Combined With Object Detection
-
摘要: 人体行为识别领域的研究方法大多数是从原始视频帧中提取相关特征, 这些方法或多或少地引入了多余的背景信息, 从而给神经网络带来了较大的噪声. 为了解决背景信息干扰、视频帧存在的大量冗余信息、样本分类不均衡及个别类分类难的问题, 本文提出一种新的结合目标检测的人体行为识别的算法. 首先, 在人体行为识别的过程中增加目标检测机制, 使神经网络有侧重地学习人体的动作信息; 其次, 对视频进行分段随机采样, 建立跨越整个视频段的长时时域建模; 最后, 通过改进的神经网络损失函数再进行行为识别. 本文方法在常见的人体行为识别数据集UCF101和HMDB51上进行了大量的实验分析, 人体行为识别的准确率(仅RGB图像)分别可达96.0%和75.3%, 明显高于当今主流人体行为识别算法.Abstract: Most of the research methods in the field of human action recognition extract relevant features from the original video frames. These methods introduce more or less redundant background information, which brings more noise to the neural network. In order to solve the problem of background information interference, large amount of redundant information in video frames, unbalanced sample classification and difficult classification of individual classes, this paper proposes a new algorithm for human action recognition combined with object detection. Firstly, the object detection mechanism is added in the process of human action recognition, so that the neural network has a focus on learning the motion information of the human body. Secondly, the video is segmentally and randomly sampled to establish long-term time domain modeling across the entire video segment. Finally, action recognition is performed through an improved neural network loss function. In this work, a large number of experimental analyses are performed on the popular human action recognition datasets UCF101 and HDBM51. The accuracy of human action recognition (RGB images only) is 96.0% and 75.3%, respectively, which is significantly higher than the state-of-the-art human action recognition algorithms.
-
目前, 人体行为分析成为一个十分活跃的计算机视觉领域, 包括对剪辑与未剪辑的视频段进行动作识别、时序动作提名、检测等研究方向分支. 人体行为识别在物联网与大数据的环境下具有广阔的应用场景, 包括体育运动、智能交通、虚拟现实、人机交互等领域. 由于人体行为的高复杂性与场景的多变化性[1], 使得行为识别成为一项非常具有挑战性的课题.
得益于卷积神经网络(Convolutional neural network, CNN)在图像处理领域取得的巨大成就以及大数据的发展, 目前基于深度学习的人体行为识别的方法[2-5]已经优于基于经典的手工设计特征的方法[6-10], 且在三维空间的动作识别[11-14]领域也取得了显著成效.
然而, 基于深度学习的人体行为识别方法仍然存在一些难点[15]: 首先, Karpathy等[16]将单幅RGB图像作为深度学习模型的输入, 只考虑了视频的空间表观特征, 而忽视了视频与单幅静态图像的区别, 没有对视频的时域信息进行编码. 对此, Ji等[17]首次使用3D-CNN来获得运动信息; Donahue等[18]利用2D-CNN提取视频帧的表征信息, 紧接着连接一个长短期记忆(Long short-term memory, LSTM)循环神经网络或者GRU (Gated recurrent unit)等来学习帧与帧之间的运动信息[19]; 与Donahue等[18]的做法不同, Zolfaghari等[20]将2D-CNN之后的循环神经网络替换成了3D-CNN. Simonyan等[21]首次提出结合RGB图像与光流图像的双流卷积神经网络的方法, 利用视频相邻帧之间的信息差计算出光流作为网络的输入, 以期获得视频的时域信息. 后来的研究[22] 也表明: RGB与光流的方法相融合可以提高在测试集上的精度. 对于RGB
$ + $ 光流的做法, 计算光流耗时也占用了计算机的额外内存. 所以, Tran等[23]提出一种基于3D-CNN的新的网络结构, 以期在单一网络中同时对视频的空域和时域信息进行编码, 而3D-CNN相比于2D-CNN的计算量较大.其次, 不论是2D-CNN中堆叠的光流或是3D-CNN中堆叠的RGB图像, 都只对视频进行短期的时域信息编码, 尚未考虑视频的长时时域信息. 例如, 在一段视频中, 一个动作延续时间通常是几秒至几十秒甚至更长. 对此, Wang等[24]提出了时间段网络(Temporal segment network, TSN), 一个输入视频被分为
$ K $ 段(segment), 而一个片段(snippet)从它对应的段中随机采样得到. 不同片段的类别得分采用段共识函数(Segmental consensus function)进行融合来产生段共识(segmental consensus). 最后对所有模型的预测融合产生最终的预测结果.另外, 针对视频中相邻两帧差异很小的情况, Zolfaghari等[20]提出ECO (Efficient convolutional network for online video understanding)以避免过多计算视频帧中的冗余信息, 从而实现实时动作识别. He等[25]为了提升模型在数据集上的准确度, 提出结合RGB图像、光流、音频信息的多模态融合方法, 此方法精度稍高但却十分占用计算空间与资源.
为了让CNN更好地学习到视频中的动作信息, 受目标检测算法的启发, 本文将区域候选网络(Region proposal network, RPN)应用于算法中, 将视频中人所在区域精确地提取出来, 变换到原图像大小, 以此作为神经网络的输入. 考虑到图像经过目标检测算法后得出的目标区域必定大小不一, 对此, 在本文算法中, 对每一幅图片做对齐操作, 确保输入到网络的图片大小一致. 此外, 类似于TSN, 本文还对视频片段进行分段稀疏采样以使模型获得视频级的表达能力, 并将用于分类的交叉熵函数改进为Lin等[26]提出的焦点损失(Focal loss)函数, 以解决分类问题中类别判断难以及可能存在的样本不均衡问题.
1. 目标检测算法
综合目标检测算法的精度与速度, 本文采用Ren等[27]提出的Faster-RCNN方法作为目标检测的框架. 首先, 每张图片经由特定特征提取网络提取特征, 得到的特征图经由区域候选网络生成约2
$ k $ 个目标候选区域; 其次, 2$ k $ 个目标候选区域经过ROI 池化层获得感兴趣的区域(Region of interest, ROI), 感兴趣的区域经全连接层后产生两个分支, 经由Bounddingbox regression与Softmax输出分别得到目标所在原始图像区域的精准位置信息与其所属类别的概率; 最后, 对上述目标检测算法结果的两个信息进行调整, 得到对目标区域的裁剪图像与warped图像. Faster-RCNN目标检测算法的具体流程如下.1.1 特征提取
本文采用预训练的VGG-Net作为目标检测的特征提取网络提取视频帧的特征图, 其原理如图1所示. VGG-Net有13个卷积层, 卷积核大小为3×3,
$ padding $ 值为1, 卷积核水平与垂直移动步长为1, 特征图大小与原始图像大小($ W $ ×$ H $ )及卷积层参数关系为$$ {W = { \left\lfloor {\frac{{W-F+2P}}{{S}}+1} \right\rfloor }} $$ (1) $$ {H = { \left\lfloor {\frac{{H-F+2P}}{{S}}+1} \right\rfloor }} $$ (2) 每个卷积层后对应一个激活层, 激活层不改变图像大小, 所以原始图像经过卷积层和激活层后的特征图大小均不会改变. 4个最大池化层对激活层输出进行
$2\times2 $ 不重叠取最大值降采样, 所以输入的图像经过VGG-Net网络得到的特征图的长宽都为原始图像大小的1/16. 最后得到的特征图为512维, 即特征图参数为($ W /16) \times ( H /16)\times 512$ 维度.1.2 ROI生成
本文采用的区域候选网络(RPN)如图2所示. 在RPN中, 输入的特征图经过
$kernelsize = 3\times 3,$ $ padding = 1, stride = 1 $ 卷积层与激活层, 大小维度仍不变, 再分别经过两个1×1的卷积层, 用于整合特征图不同维度的信息与降维. 位于上方的1×1卷积层输出anchors将用于二分类, 判断区域是否存在目标; 而位于下方的卷积层输出anchors用于做边框回归, 初步修正边框位置. 1×1卷积后的特征图像素点映射到图片上的3种长宽比例和3种大小的区域, 以此生成anchors. 最后, 由可能带有目标信息的anchors与初步修正的边框信息经过ROI池化层(ROI pooling)生成ROI.1.3 边框回归与类别预测
生成的ROI经过两个全连接层加激活层, 再分别进入两个不同的全连接层进行分类和边框回归, 输出ROI属于某一类的概率与精确的边框位置信息, 边框回归与类别预测流程如图3所示.
1.4 图像变换
通过目标检测算法可以得到目标的Bounding box和对应的类别, 对非目标区域填充黑色得到cropped图像以及将目标区域扩充到原图大小得到warped图像. 而对未能找到图像中的人物信息或者所有目标anchor的总面积小于原图面积的1/8的图像, 取其原图作为训练样本. 采用此方法的原因是: 1)理论上较小区域包含较少的图像信息; 2)未检测到人物的图像可能会丢失主体部分信息. 考虑到人物目标在图像中大小不确定性与提取图像中的上下文必要背景信息, 本文将目标区域扩充至coco数据集中的80类, 形成以人物为主体的目标区域提取. 最后得到的结果如图4所示.
2. 视频分段随机采样与训练
2.1 视频分段与采样
为了获得视频的长时时域信息, 建立视频级表达的RGB网络, 如图5所示, 在训练时对视频帧进行分段随机采样. 采用视频分段随机采样的原因是: 1)堆叠的连续视频帧存在大量的冗余信息; 2)许多方法都是基于局部推理的, 丧失获取持续时间长达数秒甚至数分钟的动作之间的相关关系. 本文提出方法类似于TSN, 同样将视频帧分为
$ K $ 段, 但与TSN不同的是, TSN将一个片段(snippet)从它对应的段中随机采样得到. 不同片段的类别得分采用段共识函数(Segmental consensus function)进行融合来产生段共识(Segmental consensus), 然后对所有模式的预测融合产生最终的预测结果. 本文对每段采集$ N $ /$ K $ 帧图片, 将$ N $ 帧图片按时序顺序堆叠, 送入预训练的I3D网络中进行识别, 而并非每段视频对应一个模型, 然后进行模型融合.2.2 I3D网络结构
I3D的实现, 将Inception-v1从2D扩展到3D. 对于一个2D的模型, 将它的所有的filters和池化核增加一个时间维度, 例如将
$ N $ ×$ N $ 的filter变成$ N\times N \times N ,$ 由2D filters得到3D filters. 对$ N $ ×$ N $ 的filter重复复制N遍, 再除以$ N $ 进行归一化. 确定感受野在空间、时间和网络深度的尺寸. 2D网络与对应的3D网络在水平和竖直方向上的核大小和步长保持一致, 3D网络在时间维度上的核大小和步长自由决定, 如果时间维度的感受野尺寸比空间维度的大, 将会合并不同物体的边缘信息. 反之, 将捕捉不到动态场景, I3D网络结构如图6所示.2.3 损失函数
Inception框架中最后的损失函数为普通的交叉熵函数,
$ p $ 和$ y $ 分别为预测值与真实标签.$$ CE(p,y) = \left\{\!\! {\begin{array}{*{20}{l}} {- {\ln}(p),}&{\text{若}}{\;y = 1}\\ {- {\ln}(1 - p),}&{\text{否则}} \end{array}} \right. $$ (3) $$ {p\mathop{{}}\nolimits_{{t}}} = \left\{ \!\begin{array}{ll} p, &{\text{若}}\ y = 1 \\ 1-p, & {\text{否则}} \end{array} \right.$$ (4) 且重写
${CE}(p,y) = {CE} \left( p\mathop{{}}\nolimits_{{t}} \right) = -{\ln} \left( p\mathop{{}}\nolimits_{{t}} \right)$ 本文将其替换为Focal loss函数, 以处理样本分类难的问题, 转换后的损失函数为
$$ {FL \left( p\mathop{{}}\nolimits_{{t}} \left) = - \alpha \left( 1-p\mathop{{}}\nolimits_{{t}} \left) \mathop{{}}\nolimits^{{ \gamma }}{\ln} \left( p\mathop{{}}\nolimits_{{t}} \right) \right. \right. \right. \right. } $$ (5) Focal loss函数可由式(6)和式(7)结合而成, 式(6)在交叉熵的基础上增加了调制参数
$ \alpha $ ,$ \alpha $ 的取值为: 当$ y = 1 $ 时,$\alpha = a$ ; 当$ y = -1 $ 时,$ \alpha = 1-a $ . 当正样本比例比负样本少很多时, 取$ a = 0.5 \sim 1 $ 来增大正样本对总的损失函数的权重. 这样即可解决正负样本不均衡问题.$$ {CE \left( p\mathop{{}}\nolimits_{{t}} \left) = - \alpha {\ln} \left( p\mathop{{}}\nolimits_{{t}} \right) \right. \right. } $$ (6) 从表1的实验结果来看(本小节实验输入为: WI + RI, 加入了视频分段随机采样), Focal loss函数的参数
$ \alpha $ 对两个数据集的实验结果影响甚微. 但是,$ \alpha = 0.5 $ 与$ \alpha = 0.75 $ 分别在HMDB51与UCF101数据集上较其他值有些微提升. 图7显示了Focal loss参数$ \alpha $ 的敏感曲线. 式(7)引入调制参数$ \gamma $ , 当一个样本被分错的时候,$ p \mathop{{}}\nolimits_{{t}} $ 趋近于0时,$ \gamma $ 趋近于1, 与原不增加调制参数的损失相比, 损失基本不变; 当$ p \mathop{{}}\nolimits_{{t}} $ 趋近于1时, 此时样本分类正确且为易分类样本,$ \gamma $ 趋近于0, 意味着该类损失在总损失中权重很小.表 1 HMDB51与UCF101数据集在不同$ \alpha $ 值下的实验结果$(\gamma = 1)$ (%)Table 1 Experimental results of HMDB51 and UCF101 data sets at different$ \alpha $ values$(\gamma = 1)$ (%)HMDB51-FL-$\alpha$ Split1 Split2 Split3 Average UCF101-FL-$\alpha$ Split1 Split2 Split3 Average 0.10 60.6 56.5 58.7 58.6 0.1 76.8 77.4 78.4 77.5 0.25 76.6 73.6 74.9 75.0 0.25 95.4 96.3 95.4 95.7 0.50 76.8 73.8 75.2 75.3 0.5 95.5 96.3 95.9 95.9 0.75 76.7 73.9 75.1 75.2 0.75 95.7 96.4 95.6 95.9 0.90 76.7 73.8 75.1 75.2 0.9 95.5 96.2 95.7 95.8 1.00 76.7 73.8 75.1 75.2 1 95.6 96.3 95.8 95.9 $$ {CE \left( p\mathop{{}}\nolimits_{{t}} \left) = - \left( 1-p\mathop{{}}\nolimits_{{t}} \left) \mathop{{}}\nolimits^{{ \gamma }}{\rm{log}} \left( p\mathop{{}}\nolimits_{{t}} \right) \right. \right. \right. \right. } $$ (7) 由于HMDB51与UCF101数据集实验精度对Focal loss函数的
$ \alpha $ 参数不敏感, 故在本文中设置$ \gamma $ 由小到大进行实验. 表2显示了实验精度随$ \gamma $ 参数变化的规律. 图8显示了表2对应实验的直方图.表 2 在 Focal loss 的不同参数值条件下的实验精度对比(%)Table 2 Comparison of experimental precision under different parameter values of focal loss (%)HMDB51 Split 1 Split 2 Split 3 Average UCF101 Split 1 Split 2 Split 3 Average $\alpha$= 0.50, $\gamma$= 0.50 65.3 62.8 63.5 63.9 $\alpha$= 0.50, $\gamma$= 0.50 78.3 78.9 77.4 78.2 $\alpha$= 0.50, $\gamma$= 0.75 70.8 67.5 69.2 69.2 $\alpha$= 0.50, $\gamma$= 0.75 86.8 88.4 87.4 87.5 $\alpha$= 0.50, $\gamma$= 2.00 76.6 73.7 75.1 75.1 $\alpha$= 0.50, $\gamma$= 2.00 95.4 96.3 96 95.9 $\alpha$= 0.50, $\gamma$= 5.00 76.9 73.8 75.3 75.3 $\alpha$= 0.50, $\gamma$= 5.00 95.6 96.3 95.8 95.9 $\alpha$= 0.75, $\gamma$= 3.00 76.7 73.7 75.2 75.2 $\alpha$= 0.75, $\gamma$= 3.00 95.5 96.2 95.7 95.8 $\alpha$= 0.75, $\gamma$= 5.00 76.7 73.7 75.1 75.2 $\alpha$= 0.75, $\gamma$= 5.00 95.7 96.4 95.9 96 $\alpha$= 0.90, $\gamma$= 10.0 76.3 73.4 74.7 74.8 $\alpha$= 0.90, $\gamma$= 10.0 95 95.9 95.5 95.5 Focal loss函数中的两个参数
$ \alpha $ 和$ \gamma $ 相互协调进行控制.本文在HMDB51数据集上进行实验时采用的参数设置为$ \alpha = 0.5 $ ,$ \gamma = 5 $ ; 在UCF101数据集上进行实验时采用的参数设置为$ \alpha = 0.75 $ ,$\gamma = 5.$ 3. 实验与分析
3.1 实验数据集
本文在最常见的行为识别数据集上评估所提出的网络架构, 主要包括比较受欢迎的数据集UCF101和HMDB51, 以便将其性能与目前主流的方法进行比较.
UCF101数据集是从YouTube收集的具有101个动作类别的逼真动作视频的动作识别数据集, 此数据集是UCF50数据集的扩展. 凭借来自101个动作类别的13 320个视频, UCF101在动作方面提供了最大的多样性, 并且存在相机运动、物体外观和姿势、物体比例、视点、杂乱背景、照明条件等较大的变化, 它是迄今为止依然具有一定挑战性的数据集. 101个动作类别中的视频分为25组, 每组可包含
$4\sim 7 $ 个动作视频. 来自同一组的视频可能共享一些共同的功能, 例如类似的背景、类似的观点等. 动作类别可以分为5种类型: 1) 人−物体相互作用; 2) 仅身体动作; 3) 人−人相互作用; 4) 演奏乐器; 5) 运动.HMDB51数据集内容主要来自电影, 一小部分来自公共数据库, 如Prelinger存档、YouTube和Google视频. 该数据集包含6 849个剪辑, 分为51个动作类别, 每个动画类别至少包含101个剪辑. 操作类别可以分为5种类型: 1) 一般的面部动作微笑; 2) 对象操纵的面部动作; 3) 一般身体动作; 4) 与对象互动的身体动作; 5) 人体互动的身体动作.
3.2 实验条件
实验计算机配置为Intel Core i5-8500@3.0 GHz, NVIDA GeForce 1080 TI GPU, 操作系统为Windows 10. 实验中, 卷积神经网络基于Tensorflow平台设计实现. 网络训练采用小批量随机梯度下降法, 动量为0.9, 权值在每10个epoch衰减1次, 衰减率为0.1, HMDB51数据集的批大小为6, UCF101数据集的批大小为8. 采用在ImageNet + Kinetics行为库上预训练的Inception 3D网络, 初始学习率设为0.001.
3.3 实验结果与分析
表3显示了本文算法在行为识别数据集UCF101和HMDB51上使用不同输入图像、Warped图像与Cropped图像的识别结果. 分别对数据集划分的3个子数据集进行训练, 测试准确度, 最后对所有测试集结果取平均.
表 3 UCF101与HMDB51数据集实验结果(%)Table 3 Experimental results of UCF101 and HMDB51 (%)UCF101-Input Split 1 Split 2 Split 3 Average HMDB51-Input Split 1 Split 2 Split 3 Average CI 87.6 91.7 90.9 90.1 CI 71.3 67.1 68.8 69.7 WI 90.4 92.2 92.5 91.7 WI 74.1 70.2 70.6 71.6 RI 95.2 95.8 95.4 95.5 RI 75.9 73.1 75.0 74.7 CI+RI 91.7 92.7 92.9 92.4 CI+RI 73.3 71.8 72.0 72.4 WI+RI 95.7 96.4 96.0 96.0 WI+RI 76.8 73.9 75.3 75.3 实验结果表明, Warped图像比Cropped图像具有更高的可辩别性, 原因在于Cropped图像比Warped图像多了黑色区域. 而事实上每个类的图片因anchor大小及比例不固定的原因都存在这样的黑色区域. 因此, 相同分辨率的WI图像比CI图像具有更少的冗余信息和更多的有效信息. WI + RI图像相对原始图片而言, 在减少噪声的同时, 扩大了人体动作区域在图像中的所占比重, 使得训练结果有所提升.
图9显示了UCF101和HMDB51数据集的不同类别图像在第1个分组的测试集上的混淆矩阵图, UCF101数据集因预测准确率较高无法直观地从混淆矩阵中看出模型预测各类别时准确率的差异; 而HMDB51数据集可以明显地看出, 在第48类, 49类WI + RI的预测概率分别比后两者有显著提升.
图10显示了不同输入图像下的I3D网络一些类别的测试精度对比. 包含两个数据集上的WI + RI较CI + RI与CI预测概率提升最大的类别、最平稳的的类别以及下降最大的类别. HMDB51第48类throw位于提升最大类别之中, 与图7的混淆矩阵相符. 两个数据集上相对提升最大的类别是, eat, throw, fall_floor, kayaking, bowling, frisbeecatch. 这些行为相对右边的行为而言背景占据较大范围且与行为相关性强. 行为相对下降最多的是shoot_ball, laugh, shake_hands, lunges, shavingbeard, mixing. 这些行为相对人体占据图像小或动作幅度不大, 所以完全去除背景能够更有效提升该行为的识别率.
表4显示了本文提出的算法与现有其他算法在行为识别数据集UCF101和HMDB51上的对比结果. 在不对输入进行分段随机采样且不采用Focal loss函数的情况下, 实验结果显示利用目标检测算法能够有效地学习视频中人物的动作信息并加以辨别. 本文用WI + RI的图像输入形式在删减过多背景信息与保留必要的背景信息中取得平衡, 有效地提高了行为识别的准确率. 而消融实验则表明, Focal loss函数与视频分段随机采样策略进一步提高了本文算法的竞争力.
表 4 不同算法在UCF101和HMDB51数据集上识别准确率对比(%)Table 4 Comparison with the state-of-the-art on UCF101 and HMDB51 (%)算法 Pre-training UCF101 HMDB51 LTC[28] Sports-1M 82.4 48.7 C3D[23] Sports-1M 85.8 54.9 TSN[24] ImageNet 86.4 53.7 DTPP[29] ImageNet 89.7 61.1 C3D[5] Kinetics 89.8 62.1 T3D[30] Kinetics 91.7 61.1 ARTNet[31] Kinetics 94.3 70.9 TSN[24] ImageNet+Kinetics 91.1 − I3D[2] ImageNet+Kinetics 95.6 74.8 PM without TS & FL ImageNet+Kinetics 95.8 95.1 PM without FL ImageNet+Kinetics 95.9 75.1 PM without TS ImageNet+Kinetics 95.9 75.2 Proposed method (all) ImageNet+Kinetics 96.0 75.3 4. 结论
本文提出了一种结合目标检测的人体行为识别方法. 通过在人体行为识别算法中加入目标检测机制, 使神经网络能够有侧重地学习人体的动作信息, 而减弱部分不必要的背景噪声干扰, 同时对不合要求的图像进行替换, 达到平衡背景取舍的作用. 结合视频分段随机采样, 改进I3D网络的损失函数. 本文提出的算法在常用数据集上进行实验, 并与其他先进算法进行比较, 体现出了良好的性能, 实验结果验证了本文提出方法的有效性.
-
表 1 HMDB51与UCF101数据集在不同
$ \alpha $ 值下的实验结果$(\gamma = 1)$ (%)Table 1 Experimental results of HMDB51 and UCF101 data sets at different
$ \alpha $ values$(\gamma = 1)$ (%)HMDB51-FL- $\alpha$ Split1 Split2 Split3 Average UCF101-FL- $\alpha$ Split1 Split2 Split3 Average 0.10 60.6 56.5 58.7 58.6 0.1 76.8 77.4 78.4 77.5 0.25 76.6 73.6 74.9 75.0 0.25 95.4 96.3 95.4 95.7 0.50 76.8 73.8 75.2 75.3 0.5 95.5 96.3 95.9 95.9 0.75 76.7 73.9 75.1 75.2 0.75 95.7 96.4 95.6 95.9 0.90 76.7 73.8 75.1 75.2 0.9 95.5 96.2 95.7 95.8 1.00 76.7 73.8 75.1 75.2 1 95.6 96.3 95.8 95.9 表 2 在 Focal loss 的不同参数值条件下的实验精度对比(%)
Table 2 Comparison of experimental precision under different parameter values of focal loss (%)
HMDB51 Split 1 Split 2 Split 3 Average UCF101 Split 1 Split 2 Split 3 Average $\alpha$ = 0.50,$\gamma$ = 0.5065.3 62.8 63.5 63.9 $\alpha$ = 0.50,$\gamma$ = 0.5078.3 78.9 77.4 78.2 $\alpha$ = 0.50,$\gamma$ = 0.7570.8 67.5 69.2 69.2 $\alpha$ = 0.50,$\gamma$ = 0.7586.8 88.4 87.4 87.5 $\alpha$ = 0.50,$\gamma$ = 2.0076.6 73.7 75.1 75.1 $\alpha$ = 0.50,$\gamma$ = 2.0095.4 96.3 96 95.9 $\alpha$ = 0.50,$\gamma$ = 5.0076.9 73.8 75.3 75.3 $\alpha$ = 0.50,$\gamma$ = 5.0095.6 96.3 95.8 95.9 $\alpha$ = 0.75,$\gamma$ = 3.0076.7 73.7 75.2 75.2 $\alpha$ = 0.75,$\gamma$ = 3.0095.5 96.2 95.7 95.8 $\alpha$ = 0.75,$\gamma$ = 5.0076.7 73.7 75.1 75.2 $\alpha$ = 0.75,$\gamma$ = 5.0095.7 96.4 95.9 96 $\alpha$ = 0.90,$\gamma$ = 10.076.3 73.4 74.7 74.8 $\alpha$ = 0.90,$\gamma$ = 10.095 95.9 95.5 95.5 表 3 UCF101与HMDB51数据集实验结果(%)
Table 3 Experimental results of UCF101 and HMDB51 (%)
UCF101-Input Split 1 Split 2 Split 3 Average HMDB51-Input Split 1 Split 2 Split 3 Average CI 87.6 91.7 90.9 90.1 CI 71.3 67.1 68.8 69.7 WI 90.4 92.2 92.5 91.7 WI 74.1 70.2 70.6 71.6 RI 95.2 95.8 95.4 95.5 RI 75.9 73.1 75.0 74.7 CI+RI 91.7 92.7 92.9 92.4 CI+RI 73.3 71.8 72.0 72.4 WI+RI 95.7 96.4 96.0 96.0 WI+RI 76.8 73.9 75.3 75.3 表 4 不同算法在UCF101和HMDB51数据集上识别准确率对比(%)
Table 4 Comparison with the state-of-the-art on UCF101 and HMDB51 (%)
算法 Pre-training UCF101 HMDB51 LTC[28] Sports-1M 82.4 48.7 C3D[23] Sports-1M 85.8 54.9 TSN[24] ImageNet 86.4 53.7 DTPP[29] ImageNet 89.7 61.1 C3D[5] Kinetics 89.8 62.1 T3D[30] Kinetics 91.7 61.1 ARTNet[31] Kinetics 94.3 70.9 TSN[24] ImageNet+Kinetics 91.1 − I3D[2] ImageNet+Kinetics 95.6 74.8 PM without TS & FL ImageNet+Kinetics 95.8 95.1 PM without FL ImageNet+Kinetics 95.9 75.1 PM without TS ImageNet+Kinetics 95.9 75.2 Proposed method (all) ImageNet+Kinetics 96.0 75.3 -
[1] 朱红蕾, 朱昶胜, 徐志刚. 人体行为识别数据集研究进展. 自动化学报, 2018, 44(6): 978−1004Zhu Hong-Lei, Zhu Chang-Sheng, Xu Zhi-Gang. Research advances on human activity recognition datasets. Acta Automatica Sinica, 2018, 44(6): 978−1004 [2] Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017. 4724−4733 [3] Ng Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: Deep networks for video classification. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 4694−4702 [4] Hara K, Kataoka H, Satoh Y. Can spatiotemporal 3d CNNs retrace the history of 2d CNNs and imagenet? In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 6546−6555 [5] Tran D, Ray J, Shou Z, Chang S F, Paluri M. Convnet architecture search for spatiotemporal feature learning. arXiv: 1708.05038, 2017. [6] Wang H, Schmid C. Action recognition with improved trajectories. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia: IEEE, 2013. 3551−3558 [7] Dalal N. Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005. 886−893 [8] Chaudhry R. Ravichandran A. Hager G. Vidal R. Histograms of oriented optical flow and Binet-Cauchy kernels on nonlinear dynamical systems for the recognition of human actions. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA: IEEE, 2009. 1932−1939 [9] Knopp J, Prasad M, Willems G, Timofte R, VanGool L. Hough transformand 3D SURF for robust threedimensional classification. In: Proceedings of the 11th European Conference on Computer Vision (ECCV2010). Berlin Heidelberg, Germany: Springer. 2010. 589−602 [10] Sánchez J, Perronnin F, Mensink T, Verbeek J. Image classification with the fisher vector: Theory and practice. International Journal of Computer Vision, 2013, 105(3): 222−245 doi: 10.1007/s11263-013-0636-x [11] Yang Y H, Deng C, Gao S L, Liu W, Tao D P, Gao X B. Discriminative multi-instance multi-task learning for 3d action recognition. IEEE Transactions on Multimedia, 2017, 19(3): 519−529 doi: 10.1109/TMM.2016.2626959 [12] Yang Y H, Deng C, Tao D P, Zhang S T, Liu W, Gao X B. Latent max-margin multi-task learning with skelets for 3d action recognition. IEEE Transactions on Cybernetics, 2017, 47(2): 439−448 [13] Kim T S, Reiter A. Interpretable 3d human action analysis with temporal convolutional networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, HI, USA: IEEE, 2017. 1623−1631 [14] Yang Y, Liu R S, Deng C, Gao X B. Multi-task human action recognition via exploring super-category. Signal Process, 2016, 124: 36−44 doi: 10.1016/j.sigpro.2015.10.035 [15] 朱煜, 赵江坤, 王逸宁, 郑兵兵. 基于深度学习的人体行为识别算法综述. 自动化学报, 2016, 42(6): 848−857Zhu Yu, Zhao Jiang-Kun, Wang Yi-Ning, Zheng Bing-Bing. A review of human action recognition based on deep learning. Acta Automatica Sinica, 2016, 42(6): 848−857 [16] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 1725−1732 [17] Ji S W, Xu W, Yang M, Yu K. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221−231 doi: 10.1109/TPAMI.2012.59 [18] Donahue J, Hendricks L A, Rohrbach M, Venugopalan S, Guadarrama S, Saenko K. Long-term recurrent convolutional networks for visual recognition and description. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 39(4): 677−691 [19] Cho K, Van Merrienboer B, Bahdanau D, Bengio Y. On the properties of neural machine translation: Encoder-decoder approaches. arXiv: 1409.1259, 2014. [20] Zolfaghari M, Singh K, Brox T. ECO: Efficient convolutional network for online video understanding. arXiv: 1804.09066, 2018. [21] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos. Advance in Neural Information Processing Systems, 2014, 1(4): 568−576 [22] Sevilla-Lara L, Liao Y Y, Guney F, Jampani V, Geiger A, Black M J. On the integration of optical flow and action recognition. arXiv: 1712.08416, 2017. [23] Tran D, Bourdev L, Fergus R, Torresani L, Paluri M. Learning spatiotemporal features with 3d convolutional networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 4489−4497. [24] Wang L M, Xiong Y J, Wang Z, Qiao Y, Lin D H, Tang X O, Van Gool L. Temporal segment networks: Towards good practices for deep action recognition. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, the Netherlands: Springer, 2016. 20−36 [25] He D L, Li F, Zhao Q J, Long X, Fu Y, Wen S L. Exploiting spatial-temporal modelling and multi-modal fusion for human action recognition. arXiv: 1806.10319, 2018. [26] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focal loss for dense object detection. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2999−3007 [27] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137−1149 [28] Varol G, Laptev I, Schmid C. Long-term temporal convolutions for action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6): 1510−1517 [29] Zhu J G, Zou W, Zhu Z. End-to-end video-level representation learning for action recognition. In: Proceedings of the 24th International Conference on Pattern Recognition (ICPR). Beijing, China, 2018. 645−650 [30] Diba A, Fayyaz M, Sharma V, Karami A H, Arzani M M, Yousefzadeh R, et al. Temporal 3d convnets: New architecture and transfer learning for video classification. arXiv: 1711.08200, 2017. [31] Wang L M, Li W, Li W, Van Gool L. Appearance-and-relation networks for video classification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 1430−1439 期刊类型引用(18)
1. 刘文璇,钟忺,徐晓玉,周卓,江奎,王正,白翔. 空—地多视角行为识别的判别信息增量学习方法. 中国图象图形学报. 2025(01): 130-147 . 百度学术
2. 张颖,张冰冰,董微,安峰民,张建新,张强. 基于语言-视觉对比学习的多模态视频行为识别方法. 自动化学报. 2024(02): 417-430 . 本站查看
3. 谢宗原,马鸿雁,李晟延,贺伟,许杰传,温昊宇. 基于轻量化YOLOv5和双摄像头老人跌倒检测. 科学技术与工程. 2024(33): 14330-14338 . 百度学术
4. 卢杏坚,杨丹妮,焦泽昱. 基于改进YOLOv5的科技项目评审过程人员行为分析方法. 自动化与信息工程. 2024(06): 64-72 . 百度学术
5. 许玉格,钟铭,吴宗泽,任志刚,刘伟生. 基于深度学习的纹理布匹瑕疵检测方法. 自动化学报. 2023(04): 857-871 . 本站查看
6. 仲伟峰,徐哲,朱翔昱,马喜波. 基于改进慢快网络的猕猴多行为识别方法. 生物医学工程学杂志. 2023(02): 257-264 . 百度学术
7. 刘健,陈亮. 基于YOLOv4的学生行为识别研究. 沈阳理工大学学报. 2023(03): 16-21 . 百度学术
8. 卜东寒,李志宏,王安红,赵利军. 多尺度对称压缩伪影去除神经网络. 太原科技大学学报. 2023(04): 309-315 . 百度学术
9. 樊新川,陈春梅. 基于YOLO框架的轻量化高精度目标检测算法. 液晶与显示. 2023(07): 945-954 . 百度学术
10. 沈加炜,陆一鸣,陈晓艺,钱美玲,陆卫忠. 基于深度学习的人体行为检测方法研究综述. 计算机与现代化. 2023(09): 1-9 . 百度学术
11. 汤鹏杰,王瀚漓. 从视频到语言:视频标题生成与描述研究综述. 自动化学报. 2022(02): 375-397 . 本站查看
12. 窦刚,刘荣华,范诚. 基于卷积神经网络的考场不当行为识别. 中国考试. 2021(02): 56-62+94 . 百度学术
13. 王昊飞,李俊峰. 基于注意力机制的改进残差网络的人体行为识别方法. 软件工程. 2021(11): 51-54+46 . 百度学术
14. 程楠楠. 基于混合特征选择模型CatBoost-LightGBM的违约风险预测研究. 现代信息科技. 2021(14): 116-120 . 百度学术
15. 陈莹,龚苏明. 改进通道注意力机制下的人体行为识别网络. 电子与信息学报. 2021(12): 3538-3545 . 百度学术
16. 吴胜昔,咸博龙,冒鑫鑫,顾幸生. 基于姿态估计的护具佩戴检测与动作识别. 信息与控制. 2021(06): 722-730+739 . 百度学术
17. 王浩,王功臣,娄德章,刘永,张乐,付娟娟. 基于AI边缘深度算法视频分析装置的电力场景异常识别技术研究. 电力大数据. 2021(11): 1-8 . 百度学术
18. 王立刚,张志佳,李晋,范莹莹,刘立强. 基于卷积神经网络的LED灯类字体数字识别. 电子测量与仪器学报. 2020(11): 148-154 . 百度学术
其他类型引用(30)
-