A Micro-expression Recognition Method Based on Multi-level Information Fusion Network
-
摘要: 微表情是人类情感表达过程中细微且不自主的表情变化, 实现准确和高效的微表情识别, 对于心理疾病的早期诊断和治疗有重要意义. 现有的微表情识别方法大多未考虑面部产生微表情时各个关键部位间的联系, 难以在小样本图像空间上捕捉到微表情的细微变化, 导致识别率不高. 为此, 提出一种基于多层级信息融合网络的微表情识别方法. 该方法包括一个基于频率幅值的视频帧选取策略, 能从微表情视频中筛选出包含高强度表情信息的图像帧、一个基于自注意力机制和图卷积网络的多层级信息提取网络以及一个引入图像全局信息的融合网络, 能从不同层次捕获人脸微表情的细微变化, 来提高对特定类别的辨识度. 在公开数据集上的实验结果表明, 该方法能有效提高微表情识别的准确率, 与其他先进方法相比, 具有更好的性能.Abstract: Micro-expressions are subtle and involuntary changes during emotional expression. Accurate and efficient recognition of these is crucial for the early diagnosis and treatment of mental illnesses. Most of the existing methods often neglect the connections between key facial areas in micro-expressions, making it difficult to capture the subtle changes in small sample image spaces, resulting in low recognition rates. To address this, a micro-expression recognition method is proposed based on a multi-level information fusion network. This method includes a video frame selection strategy based on frequency amplitude, which can select frames with high-intensity expressions from micro-expression videos. Additionally, this method includes a multi-level information extraction network using self-attention mechanisms and graph convolutional networks, and a fusion network that incorporates global image information, which can capture the subtle changes of facial micro-expressions from different levels to improve the recognition of specific categories. Experiments on public datasets show that our method effectively improves the accuracy and outperforms other advanced methods.
-
面部表情是人类情感的一种细微体现, 广泛存在于社会交往中. 面部表情可分为宏表情和微表情, 宏表情持续时间长, 可通过外部刺激或自身意愿产生, 很容易被人眼观察和分辨[1−3]. 和宏表情不同, 微表情是一种短暂、微小的面部肌肉运动, 这些肌肉运动是由情感和认知过程中的情感表达引起的, 不受个体自主控制, 最能体现出一个人的真实情感. 尽管微表情难以被人眼直接察觉和分辨, 但是它包含了丰富的情感信息, 可以传达个体内心深处的情感状态, 在抑郁诊断、心理健康、测谎和面试招聘等领域具有重要的应用价值, 因此, 对微表情的研究也逐渐受到关注.
微表情的自动识别技术可分为传统的基于手工特征的识别方法和最新的基于深度学习的识别方法2类. 早期研究人员根据先验知识设计了一些能够描述面部纹理、边缘特性和面部运动等信息的手工特征, 来区分微表情. 这些手工特征主要依赖于图像的质量, 在处理低分辨率图像时, 效果不佳[4−6]. 近年, 随着计算机视觉、模式识别和深度学习等技术的不断发展, 越来越多研究者们开始探索利用这些技术来处理微表情的自动识别任务. 深度模型的强大学习能力, 使新型神经网络结构在提取微表情特征上的能力极大地超过了传统的基于手工特征的识别方法. 特别是图神经网络, 有研究证明, 通过人脸特征点构造图结构方式可以更好地提取面部运动信息[7−10], 在小样本的微表情识别上有巨大潜力. 通常图结构只包含节点级信息, 缺乏部位级信息, 忽视了面部产生微表情时各关键区域间的联动关系, 不能充分涵盖微表情传达的细粒度情感. 同时, 现有方法大都是基于初始帧和顶点帧进行[7−8, 11−13], 忽略了微表情在时域上发生变化的趋势对情感表达的作用, 限制了识别准确率的进一步提高.
针对上述问题, 本文从面部特征提取网络设计入手, 提出一种基于多层级信息融合网络的微表情识别方法, 通过对面部特征点的局部变化和整体联系进行深入提取, 提升小样本下微表情识别的准确率. 本文主要贡献有以下3点: 1)设计一个新颖的视频帧选取策略, 以筛选微表情视频中具有高强度表情信息的连续图像帧, 通过聚合多个变化的图像表情特征来描述面部肌肉随时间变化的运动特征; 2)引入多层级的网络结构, 来学习面部肌肉运动的局部特征和整体特征, 强化了对面部肌肉运动信息的提取, 从不同层次捕获了微表情的细微变化; 3)提出一个融入图像全局信息的融合网络, 使得微表情识别更加专注于情感表达的准确度, 降低了因个体不同身份特征带来的识别偏差.
本文结构如下: 第1节对微表情的研究现状进行介绍; 第2节描述本文提出的模型, 包括多层级信息提取网络的构造和融合网络的建立; 第3节介绍本文设计的视频帧选取策略; 第4节基于4个公开微表情数据集进行实验和分析, 验证本文提出的模型在微表情识别任务上的有效性; 第5节对本文工作进行总结和展望.
1. 研究现状
1.1 基于手工特征的微表情识别方法
基于手工特征的微表情识别方法主要有基于局部二值模式(Local binary pattern, LBP)[14−18]方法和基于光流[19−23]方法2种. LBP方法[14]通过描述局部纹理特征来识别微表情, 只考虑了空间域的局部纹理信息, 对时间域的运动信息不敏感. Zhao等[16]提出的三正交平面局部二值模式(Local binary patterns from three orthogonal planes, LBP-TOP), 将特征提取从静态图像扩展至动态视频, 改进了运动信息的描述; Wang等[17]针对LBP算法忽略了像素点与邻域像素点间的相对位置关系问题, 设计了六交点局部二值模式, 显著提升了计算效率; Huang等[18]提出的时空完整局部量化模式利用了诸如方向、幅度等更多用于区分微表情的信息, 进一步提升识别率. 总之, 微表情的面部肌肉运动细微不明显, 以几何变化为主, 侧重于提取纹理特征的LBP方法容易受到诸如种族、光照等因素的干扰, 影响识别效果[23−24].
与基于LBP的静态方法不同, 光流法是一种动态方法, 通过光流反映面部发生的运动信息, 关注的是微表情视频中, 图像帧像素强度随时间的变化[19]. Liong等[20]最早开发了一种结合光流和光学应变的微表情识别方法, 在CASME II和SMIC数据集上的实验, 验证了它的有效性; Liu等[21]提出一种基于主方向平均光流特征(Main directional mean optical flow, MDMO)方法, 通过在光流计算前划分面部区域并赋予不同权重, 有效消除了头部运动和光照影响, 提高了识别性能. 针对MDMO容易丢失特征空间底层流形结构问题, Liu等[22]提出Sparse MDMO, 有效提升了特征提取能力. 但光流法计算量大且自适应性较差, 在复杂场景下, 不能稳定地提取不同微表情间的差异.
1.2 基于深度学习的微表情识别方法
基于深度学习的微表情识别方法主要有基于卷积神经网络(Convolutional neural networks, CNN)方法[12, 25−30]和辅以传统手段的方法[8, 13, 23, 31−32]两种. Patel等[25]最早提出使用卷积神经网络识别微表情, 识别率超过了LBP-TOP; Peng等[27]提出一种双时间尺度卷积神经网络, 可适应不同帧率的微表情视频; Liong等[28]提出“less is more”观点, 网络模型仅使用微表情视频中的顶点帧和起始帧进行分类, 在简化了计算过程的同时, 保证了识别效果. 在此基础上, Quang等[29]进一步简化了模型的复杂性, 提出一个仅使用顶点帧的基于胶囊网络的微表情识别模型, 不仅降低了计算成本, 也提高了对小型数据集的泛化能力; Li等[12]为了克服与表情无关的身份信息干扰, 创新地设计了一个双分支结构网络, 其中主分支提取面部肌肉运动模式, 子分支生成面部位置信息, 引入的连续注意力块使网络专注于学习面部运动模式. 基于卷积神经网络的动态特征提取方法虽然取得了不错的效果, 但也伴随着显著的信息冗余问题, 这类方法在处理连续帧时, 会不可避免地重复提取大量相似特征, 极大地限制了模型性能[9].
为了进一步提升微表情识别的准确率, 研究人员开始考虑在神经网络的特征提取器中辅以光流和动作单元(Action units, AU)等表示面部肌肉运动的传统手段. Gan等[31]提出一个基于光流特征的顶点帧网络, 通过起始帧和顶点帧获得光流, 验证了将光流特征融入CNN中能有效提升模型性能; Lo等[32]开发一种面向AU的分类网络, 这个网络使用图卷积神经网络(Graph convolutional networks, GCN)确定AU节点间的依赖关系, 是首个利用GCN提取AU关系进行微表情分类的研究; Lei等[8]强调AU信息在面部表情识别中的重要性, 提出的双通道融合机制有效结合了AU信息和面部特征信息; Kumar等[23]基于人脸特征点来提取面部特征, 并结合特征点位置和光流信息提取时序特征. 在最新研究中, Zhai等[13]提出一个新的特征学习框架, 该框架包含了自适应位移生成模块和变压器融合模块, 基于AU裁剪的图像块作为输入. 这些方法同样有局限性, 预先提取的光流可帮助模型获得更具区分度的微表情特征, 但提取光流需要耗费大量计算时间, 限制了模型端到端的高效训练[10]. 而AU的标注具有主观性, 可能对微表情识别模型的稳定性造成不利影响, 特别是在可信度方面. 针对这些问题, 本文设计一种结构更加精细、可区分度更高的动态特征提取方法, 避免模型在小样本识别下, 对手工特征的微表情识别方法的过度依赖.
2. 基于多层级信息融合网络的识别模型
本节详细介绍本文提出的基于多层级信息融合网络的微表情识别模型, 整体框架如图1所示. 首先, 通过一个新颖的视频帧选取策略对输入的微表情视频进行筛选, 以获取包含高强度表情信息的视频帧, 在第3节详述; 然后, 在多层级信息提取网络中, 对选取的每个视频帧进行节点提取, 通过局部节点学习网络和整体部位学习网络, 学习面部肌肉运动的局部节点级和整体部位级表示; 最后, 通过融合网络, 将它们与图像全局信息融合, 实现最终的微表情分类.
2.1 节点提取与表示
如图2所示, 对于选取的每帧图像, 首先, 通过OpenCV的Dlib库[33]进行人脸定位和关键点检测, 得到裁剪后的图像(仅包含人脸面部区域)和68个特征点坐标; 然后, 以坐标点为中心, 提取大小为7$ \times $7像素的像素块, 这些像素块节点包含了面部肌肉运动的主要信息.
节点提取后, 首先按照所在位置分为7个部位, 这7个部位分别是眉毛、眼睛、鼻子、嘴和脸部轮廓(其中眉毛和眼睛分为左和右各2个), 同时按照节点编号对每个部位进行编号; 然后, 根据人类面部结构将它们连接, 如图3所示. 部位间的连接关系用邻接矩阵$ A $表示, $ A_{i j} = 0 $, 表示部位$ i $与部位$ j $间没有连接; $ A_{i j} = 1 $, 表示有连接. 构建的面部图用于第2.2.2节的整体部位学习.
节点以一维向量形式输入网络, 直接压缩会丢失节点内部像素间的空间信息, 为了解决这个问题, Lei等[8]将每个节点视为通道, 通过对每个通道应用独立卷积提取信息. 但现有的微表情数据集样本相对较小, 卷积核数量的大幅增加导致网络参数过多, 模型训练时容易出现过拟合问题. 为了更好地适应微表情识别这种小样本多分类任务, 本文根据所属部位, 将这68个节点视为7个部位通道, 通过7个卷积来整合每个通道的空间特征. 具体过程如图4所示, 属于同一部位的节点经过一个相同卷积核为$3 \times 3$卷积操作后, 展平为一维向量. 通过这种方式学习每个节点的特征表示, 既保留了每个节点的空间信息, 又降低了过拟合风险. 最终得到的节点特征向量将作为多层级信息提取网络的输入.
2.2 多层级信息提取网络
多层级信息提取网络包括基于自注意力机制[34]的局部节点学习网络和基于图卷积网络的整体部位学习网络2个部分. 在微表情识别中, 面部肌肉在不同特征点处的运动幅度不一样, 例如表示压抑的微表情, 其眉毛变化幅度是要大于嘴部的, 所以对不同部位特征点关注程度应不一样. 为此, 本文引入基于自注意力机制的局部节点学习网络, 该网络通过聚合一致的节点上下文, 使节点关注自身, 进而获取面部肌肉运动的局部节点级信息. 局部节点学习网络旨在节点级层面捕捉肌肉运动的变化, 然而对于微表情这种细微的肌肉变化, 每个节点不仅需要关注对应的局部变化, 还需要关注整体信息, 即不同部位间的相互作用, 以便在小样本的面部图像空间上提取不同表情类别间的微小差异, 得到区分度更高的特征. 因此, 本文提出一个整体部位学习网络, 通过引入GCN, 来提取面部肌肉运动的整体部位级信息.
2.2.1 基于自注意力机制的局部节点学习网络
局部节点学习网络结构如图5所示, 其中$ p_i $表示第$ i $个节点特征向量, $ i\in(1,\; 2,\; \cdots , \;68) $, 通过3个可学习的参数矩阵$ W_q $、$ W_k $和$ W_v \in {\bf{R}}^{25\times25} $来投影它的潜在特征, 分别得到它的查询向量、键向量和值向量:
$$ \begin{equation} Q_i = p_i \cdot W_q,\;\; K_i = p_i \cdot W_k,\;\; V_i = p_i \cdot W_v \end{equation} $$ (1) 将不同节点的查询向量和键向量的转置相乘, 得到节点间的相似度评分, 每个节点的值向量再通过相应的归一化分数重新加权. 最后, 使用残差连接得到面部肌肉运动的局部节点表示. 计算公式以矩阵的形式表述为:
$$ \begin{equation} P_1 = P+\text { Softmax }\left(\frac{Q K^\mathrm{T}}{\sqrt{d_k}}\right) V \end{equation} $$ (2) 式中, 矩阵$ P $、$ Q $、$ K $、$ V \in {\bf{R}}^{68 \times 25} $分别表示$ p_i $、$ Q_i $、$ K_i $、$ V_i $按行合并; $ d_k $表示矩阵$ K $的行维度.
2.2.2 基于图卷积网络的整体部位学习网络
整体部位学习网络结构如图6所示, 其中$ S_j $表示第$ j $个部位表示, $j \in(1,\;2,\; \cdots\;,\; 7)$, 由属于第$ j $个部位的节点特征向量按行合并得到; $ H_j $表示第$ j $个部位包含的节点个数. 部位表示$ S_j $经过$ H_j\times1 $的卷积操作后, 转化为部位向量, 然后将所有的部位向量按行合并, 得到总的部位矩阵$ X $. 部位矩阵$ X $和第2.1节得到的邻接矩阵$ A $依次经过3个GCN层和ReLU激活函数, GCN的逐层传播公式为:
$$ \begin{split} &H^{(l+1)} = \text{ReLU}\left(\widetilde{D}^{\frac{1}{2}}(A+I) \widetilde{D}^{-\frac{1}{2}} H^{(l)} w^{(l)}\right),\; \\ &\;\;\;\;\;\;\;\;\;\; l = 0,\;\; 1,\;\; 2 \end{split} $$ (3) 式中, $ \widetilde{D} $是$ A+I $的度矩阵, $ H^{(0)} = X,\; w^{(l)} \in {\bf{R}}^{25 \times 25} $是可学习的参数矩阵. 经过GCN层后, 部位特征将会根据它们间的关系进行更新, 经过3次更新后, 输出最终整体部位表示.
2.3 融合全局信息和面部肌肉运动信息
面部肌肉运动的局部节点和整体部位表示聚合在一起, 代表了面部肌肉运动的主要信息. 而与人物身份相关的纹理特征(如皱纹和肤色等)从另一个角度影响了识别效果[35]. 全局信息包含整个图像的上下文信息, 可提供更丰富的背景和环境信息, 有助于减少个体身份特征带来的干扰. 因此, 对于选取的每帧图像, 除学习面部肌肉信息外, 还要学习全局信息, 再通过融合网络将它们结合在一起, 以降低这些非表情特征对识别准确性的影响. 图7展示了图像全局信息的学习过程, 首先将输入图像缩放到25$ \times $25像素, 然后使用3个卷积核大小分别为3$ \times $3、5$ \times $5和7$ \times $7的标准卷积对图像特征进行细化, 以提取不同尺度的图像特征信息; 最后, 对每个分支的输出特征进行通道拼接, 再经过1个最大池化层和1个全连接层进行高阶非线性信息学习后, 输出图像的全局信息:
$$ G_1 = \sigma\left(W\left(\text { MaxPooling }\left(\begin{aligned} &\text{Conv}_1 G \oplus\\ &\text{Conv}_2 G \oplus\\ &\text{Conv}_3 G \end{aligned}\right)\right)^\mathrm{T}+b\right) $$ (4) 式中, $ \sigma $表示Sigmoid激活函数, $ {\text{Conv}}_1 $、$ {\text{Conv}}_2 $、$ {\text{Conv}}_3 $分别表示$ 3\times3 $、$ 5 \times 5 $和$ 7 \times 7 $的标准卷积运算, MaxPooling表示在列上进行的最大池化操作, $W \in {\bf{R}} ^{25 \times 25}$和$ b \in {{\bf{R}}}^{25 \times 1} $分别表示可学习的权重和偏置.
图像全局信息与面部肌肉信息的融合网络如图8所示, 将多层级信息提取网络输出的局部节点和整体部位表示与图像的全局表示进行点积, 得到输入图像的最终表示. 最后, 级联选取的每帧图像的输出结果, 经过一个全连接层和Softmax函数后, 实现微表情分类.
3. 视频帧选取策略
最新的视频帧选取方法大都基于初始帧和顶点帧进行[7−8, 11−13], 但微表情在时域上发生变化的趋势是微妙的, 初始帧和顶点帧并不能完全概括这种变化. 图9展示了在CASME II数据集[36]上的几个实例, 可以明显看出, 画面中的人脸在顶点帧处的动作幅度并不是最大的, 其中图9(a)中的人物顶点帧前眼睛完全闭合, 图9(b)中的人物顶点帧后眼角出现泪光. 这些实例说明, 顶点帧前/后仍存在微表情强烈变化的不可或缺图像.
为了获取这些包含高强度表情信息的视频帧, 用于描述面部肌肉随时间变化的运动特征, 本文设计一个新颖的视频帧选取策略. Li等[37]认为, 频率可以清楚地表达微表情序列中细微但快速的像素变化, 并提出一种通过频域中面部肌肉变化的频率振幅来定位顶点帧的方法. 受他们工作的启发, 本文的视频帧选取策略将基于频率振幅进行, 具体做法如图10所示. 首先, 每段微表情视频序列以初始帧和终点帧为边界, 将连续视频帧分为20个区间, 采用文献[37]方法计算每个区间的频率振幅; 然后, 通过以下方式得到$ 2N $个候选区间:
$$\begin{split} &A_{ pi} = A_{ { {\rm{onset}} }}+\frac{i}{N}\left(A_{ { {\rm{plex}} }}-A_{ { {\rm{onset}} }}\right) ,\; \;\\ &\;\;\;\;\;\;\;i = 0,\;1,\; \cdots\;,\; N-1 \end{split}$$ (5) $$ \begin{split} & A_{qi}=A_{\mathrm{plex}}-\frac{i}{N}\left(A_{\rm{plex}}-A_{\rm{offset}}\right),\; \; \\ & \; \; \; \; \; \; \; i=0,\; 1,\; \cdots\; ,\; N-1\end{split} $$ (6) 式中, $A_{ { {\rm{onset}} }}$、$A_{{ {\rm{plex}} }}$和$A_{ { {\rm{offset}} }}$分别表示初始帧、顶点帧和终点帧所在区间的频率振幅, $ A_{ p i} $和$ A_{ q i} $分别表示第$ pi_{ } $和$ qi_{ } $个视频区间的频率振幅, $ N $表示在顶点帧前后选取的区间数量.
然后, 从每个候选区间里选取1帧图像, 初始帧和顶点帧是包含高强度表情信息、有代表性的视频帧, 因此对候选区间的$ p_{ 0} $和$ q_{ 0} $ (即初始帧和终点帧所在区间), 仍选择初始帧和顶点帧. 对除了$ p_{ 0} $和$ q_{ 0} $以外的其他候选区间, 采用随机选择方式进行选取, 确保每个候选区间里的图像具有相同被选中机会, 以提高模型在不同面部表情变化上的泛化能力. 通过这个策略得到的$ 2 N $帧图像将作为网络的输入. 在消融实验中, 对这个模块的有效性和$ N $的大小进行了实验和分析.
4. 实验与分析
本文在SMIC[38]、CASME II[36]、SAMM[39]和MMEW[40] 4个主流公开数据集上进行实验. 本节首先介绍使用的数据集、评价指标和实验实施的细节; 然后, 通过消融实验, 验证每个模块的有效性; 最后, 通过与其他方法的对比实验和可视化演示, 验证本文模型的性能.
4.1 数据集
1) SMIC. 2013年发布, SMIC数据集包含3个数据子集, 每个子集使用不同类型的相机, 本文只使用它的HS子集. HS子集由高速相机拍摄, 与CASME II和SAMM数据集一致. 它包含来自不同国家和地区的16位受试者产生的164个微表情视频样本, 情感类型包括积极、消极和惊讶3种. 视频分辨率为1280$ \times $720像素, 每秒帧数为100.
2) CASME II. 2014年, 由中国科学院心理研究所发布, 包含26位受试者产生的255个微表情视频样本, 情感类型包括快乐、厌恶、恐惧、压抑、惊讶、悲伤和其他7种, 分布较为均衡. 视频分辨率为640$ \times $480像素, 每秒帧数为200.
3) SAMM. 2016年发布, 包含来自32个受试者产生的159个微表情视频样本, 情感类型包括快乐、厌恶、惊讶、恐惧、愤怒、悲伤、蔑视和其他8种. 视频分辨率为2040$ \times\; $1088像素, 每秒帧数为200.
4) MMEW. 2021年发布, 包含36位受试者产生的300个微表情视频样本和900个宏表情视频样本, 情感类型包括快乐、厌恶、愤怒、惊讶、恐惧、悲伤和其他7种. 视频分辨率为1920$ \times $1080像素, 每秒帧数为200.
由于MMEW数据集相对较新, 目前在这个数据集上的方法和实验较少, 因此, 本文主要在前3个数据集上进行实验对比. 为了与其他方法进行公平对比, 本文将这4个数据集分别按照3分类和5分类进行划分, 以确保实验在相同数据配置下进行. 其中3分类按照MEGC2019-CD[41]的基准进行, 包括积极、消极和惊讶3种情感类型, 5分类按照每个数据集的情感类型数量取前5个进行. 表1和表2展示了每个数据集的类别分布情况.
表 1 SMIC、CASME II和SAMM的3分类样本分布Table 1 Distribution of 3 categorical samples for SMIC, CASME II and SAMM数据集 SMIC CASME II SAMM 消极 70 88 92 积极 51 32 26 惊讶 43 25 15 总计 164 145 133 表 2 CASME II、SAMM和MMEW的5分类样本分布Table 2 Distribution of 5 categorical samples for CASME II、SAMM and MMEW数据集 CASME II SAMM MMEW 快乐 32 26 36 惊讶 25 15 89 厌恶 63 — 72 恐惧 — — 16 压抑 27 — — 愤怒 — 57 — 蔑视 — 12 — 其他 99 26 66 总计 246 136 279 4.2 评价指标
考虑到微表情数据集样本量较小且受试者差异较大, 本文采用LOSO (Leave-one-subject-out)交叉验证协议评估模型的性能. LOSO是一种交叉验证方法, 即若有$N $个受试者, 进行$N $次实验, 每次选择数据集中的1个受试者的全部样本进行测试, 其余受试者样本用于训练, 每次选择不重复, 最后, 通过计算实验结果的平均值, 来评估整体性能.
为了便于对比不同方法的性能, 使用准确率(Accuracy, Acc)、未加权平均召回率(Unweighted average recall, UAR)和未加权F1分数(Unwei-ghted F1-score, UF1)计算和评估实验结果. 其中Acc通过预测正确样本数除以样本总数得到; UF1通过在混淆矩阵计算出每个类别的真阳性(True positives, TP)、假阳性(False positives, FP)和假阴性(False negatives, FN), 然后对每个类别的计算结果取平均值得到; UAR通过计算每个类别的TP比例, 然后取平均值得到. Acc、UAR和UF1的计算公式为:
$$ \begin{equation} {\rm{Acc}} = \frac{1}{N} \sum\limits_{i = 1}^C {\rm{T P}}_i \end{equation} $$ (7) $$ \begin{equation} {\rm{UAR}} = \frac{1}{C} \sum\limits_{i = 1}^C \frac{{\rm{T P}}_i}{N_i} \end{equation} $$ (8) $$ \begin{equation} {\rm{UF1}} = \frac{1}{C} \sum\limits_{i = 1}^C \frac{2 {\rm{T P}}_i}{2 {\rm{T P}}_i+{\rm{F P}}_i+{\rm{F N}}_i} \end{equation} $$ (9) 式中, $ C $表示总类别数, $ N $表示总样本数, $ N_i $表示第$ i $类样本数.
4.3 实施细节
在视频帧选取环节, 每个数据集的视频序列除人物的面部表情外, 其他保持不变, 不影响频率振幅计算, 因此在计算频率振幅时, 仅将图像统一调整为320$ \times $240像素. 对没有标注顶点帧的数据集, 将振幅值最大区间的中间帧作为顶点帧[37]. 在节点提取环节, 使用Dlib库裁剪后的面部图像调整为160$ \times $160像素.
本文模型通过PyTorch实现, 采用Adam优化器, $ \beta_1 $和$ \beta_2 $为一阶矩估计和二阶矩估计的指数衰减率, 分别设置为0.800和0.999, 初始学习率设置为0.001, 每个批量大小为16. 为了缓解微表情数据集的样本不平衡问题, 本文将损失函数设为反向频率加权的交叉熵损失(Inverse frequency weig-hted cross entropy loss, ICE)函数:
$$ \begin{equation} {\rm{ICE}}(y,\; \hat{y}) = -\frac{1}{N} \sum\limits_{k =1}^N \frac{w}{N_k} y_k {\rm{ln}}\left(\hat{y}_k\right) \end{equation} $$ (10) 式中, $ N $表示训练样本总数; $ w $表示多样本平衡系数, 是可调节的超参数, 默认设置为1; $ N_k $表示第$ k $个样本所属类别的样本数; $ y_k $表示第$ k $个样本的真实概率分布; $ \hat{y}_k $表示第$ k $个样本的预测概率分布.
改进后的损失函数会根据不同类别样本比例自动调整损失比重, 使数据集中样本数量较少的类别在总损失中所占比例较大, 降低了数据集的不平衡性导致大类样本主导梯度更新方向的风险. 所有实验均在NVIDIA GeForce RTX 3090Ti GPU上进行.
4.4 消融实验
本节通过消融实验来验证每个模块的性能, 包括视频帧选取策略中帧数量的影响、节点表示模块中卷积核数的影响和各网络分支的有效性, 同时对ICE的性能也做了验证. 所有消融实验在SAMM (3分类)和MMEW (5分类)上进行, 这样做的原因是, SAMM的受试者来自不同国家和地区, 而MMEW的受试者都来自亚洲, 通过在不同类别和不同肤色种族数据集上的表现验证每个模块的有效性, 更具广泛说服力.
4.4.1 视频帧选取数量的影响
通过视频帧选取策略选取的$ 2N $帧图像为网络输入, 本节探讨$ N $的大小对模型性能的影响. 考虑到图神经网络收敛速度较慢, 同时也为了减少信息冗余, 控制总帧数不超过8. 本文用$ N = 0 $表示选取一帧顶点帧作为输入, 将它用于基线比较. 特别地, $ N = 1 $表示选取的视频帧为初始帧和顶点帧, 这也是大多数研究采取的做法. 每组实验重复4次, 通过取平均值计算实验结果. 结果如表3所示, 可以看出, 当$ N = 0 $时, 本文模型依然有不错的识别精度, 这也验证了文献[28]的观点. 当$ N = 2 $时, 模型在SAMM和MMEW数据集的所有指标上取得了最好效果, 相比于只使用初始帧和顶点帧的做法, 在准确率上分别提升了4.51% 和6.10%, 验证了本文选取策略有效, 也是必要的. 当$N $增加到3时, 性能有所下降, 说明数据集的分布和数量会影响实验结果. 因此, 本文设置$ N = 2 $, 即从每个视频样本中选取的帧数为4帧.
表 3 不同帧数的性能对比Table 3 Performance comparison for different numbers of frames$N$ SAMM (3分类) MMEW (5分类) 准确率(%) UF1 准确率(%) UF1 0 75.94 0.6462 68.45 0.5732 1 84.96 0.7842 75.26 0.6927 2 89.47 0.8356 81.36 0.7834 3 81.20 0.7381 78.85 0.7225 4.4.2 节点表示模块中卷积核数的比较
在节点表示模块中提取的节点块较小, 过大或过小的卷积核都不适合提取节点特征, 因此将卷积核的大小设置为$3 \times 3 $. 为了在减少过拟合的同时, 又不丢失节点空间信息, 本文使用7个卷积核学习节点表示. 本节对卷积核的个数进行对比实验, 表4展示了使用68个卷积核(对应68个独立通道)、7个卷积核(对应7个部位通道)和不使用卷积核的实验效果. 可以看出, 当不使用卷积核时, 相当于没有进行节点学习, 此时模型性能较差, 而使用7个部位通道的模型性能优于使用68个独立通道的模型性能, 这表明本文针对节点学习提出的改进方法是有效的, 因此本文将节点学习模块卷积核个数设置为7.
表 4 不同卷积核数量下的性能对比Table 4 Performance comparison with different numbers of convolutional kernels卷积核数 SAMM (3分类) MMEW (5分类) 准确率(%) UF1 准确率(%) UF1 0 83.46 0.7429 72.75 0.6341 7 89.47 0.8356 81.36 0.7834 68 87.22 0.8247 77.42 0.7323 4.4.3 各网络分支的有效性研究
为了验证模型中各网络分支的有效性, 本文设计了局部节点、局部节点加整体部位、局部节点加整体部位加图像全局3个实验进行对比, 第3个即为完整模型, 前2个为删除了部分结构的网络模型, 删除的结构用额外的卷积层代替. 如表5所示, 在局部节点学习网络基础上增加了整体部位学习网络后, 模型的整体性能得到了大幅度提升. 在SAMM (3分类)上的准确率和UF1分别提高了6.02% 和0.0769, 在MMEW (5分类)数据集上的准确率和UF1分别提高了7.53% 和0.0658. 在增加了图像全局学习网络后, 模型的整体性能得到了进一步提升, 可见每个模块对微表情的识别都有贡献, 特别是整体部位学习网络对微表情的识别有显著作用.
表 5 各网络分支模型的消融实验Table 5 Ablation studies of each network branch in our model学习网络 SAMM (3分类) MMEW (5分类) 准确率 (%) UF1 准确率 (%) UF1 局部节点 80.45 0.7252 73.12 0.6968 局部节点加整体部位 86.47 0.8021 80.65 0.7626 局部节点加整体部位加图像全局 89.47 0.8356 81.36 0.7834 4.4.4 ICE的性能验证
ICE基于不同类别微表情样本数量对损失进行加权, 为了验证ICE对模型性能的影响, 本文设计了ICE与交叉熵损失(Cross entropy loss, CE)函数的对比实验. 实验结果如表6所示, 可以看出, 相较于使用CE, 在多数情况下, 在使用ICE时, 模型的准确率和UF1都得到了提升. 同时也可以看出, 无论是在SAMM (3分类), 还是在MMEW (5分类)上, 平衡系数$ w $在不同取值下的准确率都很接近, 只是最佳取值略有不同. 在SAMM (3分类)上, 当$ w = 0.3 $时, 模型可取得最好性能, 而在MMEW (5分类)上需要$ w=1.0 $. 当$ w $在这2个数据集上为最佳取值时, 模型的准确率分别提升了$ 3.76 \% $和$ 1.43 \% $. 实验结果表明, 使用ICE可改善微表情数据集的样本不平衡问题对模型识别性能的影响.
表 6 ICE的性能验证Table 6 Performance validation of ICE损失函数 w SAMM (3分类) MMEW (5分类) 准确率 (%) UF1 准确率 (%) UF1 CE — 85.71 0.7982 79.93 0.7463 ICE 0.1 87.96 0.8236 80.28 0.7732 ICE 0.3 89.47 0.8356 79.56 0.7635 ICE 0.5 88.72 0.8262 80.64 0.7582 ICE 1.0 87.22 0.8194 81.36 0.7834 ICE 2.0 86.47 0.8124 78.85 0.7281 ICE 5.0 89.47 0.8293 80.28 0.7546 ICE 10.0 87.96 0.8178 81.00 0.7782 4.5 与其他方法的对比实验
由消融实验得到模型在微表情数据集SAMM和MMEW上网络参数和各网络分支的最佳配置, 然后分别在SMIC、CASME II和SAMM的3分类任务和CASME II、SAMM的5分类任务上, 与基于手工特征的Bi-WOOF (Bi-weighted oriented optical flow)[28]; 基于图卷积网络的Graph-TCN (Graph-temporal convolutional network)[7]、AU-GCN (Facial graph representation learning and facial action unit fusion)[8]和GACNN (Graph attention convolutional network)[23]; 基于卷积神经网络的OFF-ANet (Optical flow features from apex frame network)[31]、DIN (Dual-inception net-work)[42]、STST-Net (Shallow triple stream three-dimensional convolutional neural network)[43]、EMR (Expression magnification and reduction)[44]、DSSN (Dual-stream shallow networks)[45]、SMA-STN (Segmented movement-attending spatiotemporal network)[46]、MERSiamC3D (Siamese 3D convolutional neural network)[47]、AMAN (Attention-based magnification-adaptive networks)[48]和ME-PLAN (Deep prototypical learning with local attention network)[11]进行对比实验.
4.5.1 3分类任务性能比较
在CASME II和SAMM数据集上的3分类任务实验结果如表7所示. 可以看到基于图神经网络的GACNN方法在这两个数据集上的表现优于其他方法, 而本文提出的方法取得了比它更好的性能, 在CASME II数据集上的准确率和UF1分别提高了1.37% 和0.0154, 在SAMM数据集上的准确率和UF1分别提高了0.75% 和0.0168.
表 7 CASME II和SAMM数据集上的3分类任务性能比较Table 7 Comparison of the performance of the3-categorization task on the CASME II and SAMM datasets方法 CASME II SAMM 准确率(%) UF1 准确率(%) UF1 Bi-WOOF 58.80 0.6100 58.30 0.3970 OFF-ANet 88.28 0.8697 68.18 0.5423 STST-Net 86.86 0.8382 68.10 0.6588 Graph-TCN 71.20 0.3550 70.20 0.4330 GACNN 89.66 0.8695 88.72 0.8188 本文方法 91.03 0.8849 89.47 0.8356 SMIC (3分类)数据集上的实验大都安排在MEGC2019[41]提出的CDE协议下进行. 为了更全面地验证本文方法的有效性, 遵循CDE协议进行实验. MEGC2019-CDE协议使用UF1和UAR来评估实验结果, 数据集包括SMIC、CASME II、SAMM的3分类数据, 以及由它们组合而成的复合数据集MEGC2019-CDE. 实验结果如表8所示, 本文方法仅在CASME II数据集的UAR上稍微落后于其他方法, 总体性能超过了其他所有方法, 特别是在数据分布极不均衡的SAMM数据集上, 性能显著优于其他方法, UF1和UAR分别比总体表现排名第2的AU-GCN高出了0.0605和0.0304. 本文方法在复合数据集MEGC2019-CDE上同样取得了最好表现, 验证了本文方法具有良好的稳定性, 在不同数据集上都能保持较高性能表现. 图11直观地展示了本文方法与EMR、AU-GCN方法的对比结果, 可以看出, 本文方法具有较好识别效果.
表 8 MEGC2019-CDE协议下的性能比较Table 8 Performance comparison under the MEGC2019-CDE protocol方法 SMIC CASME II SAMM MEGC2019-CDE UF1 UAR UF1 UAR UF1 UAR UF1 UAR Bi-WOOF 0.5727 0.5829 0.7805 0.8027 0.5211 0.5139 0.6296 0.6227 OFF-ANet 0.6817 0.6695 0.8764 0.8681 0.5409 0.5392 0.7196 0.7096 DIN 0.6645 0.6726 0.8621 0.8560 0.5868 0.5663 0.7322 0.7278 STST-Net 0.6801 0.7013 0.8382 0.8686 0.6588 0.6810 0.7353 0.7605 EMR 0.7461 0.7530 0.8293 0.8209 0.7754 0.7152 0.7885 0.7824 AU-GCN 0.7192 0.7215 0.8798 0.8710 0.7751 0.7890 0.7914 0.7933 ME-PLAN 0.7127 0.7256 0.8632 0.8778 0.7164 0.7418 0.7715 0.7864 本文方法 0.7583 0.7741 0.8849 0.8532 0.8356 0.8194 0.8124 0.8231 4.5.2 5分类任务性能比较
在数据集CASME II和SAMM上的5分类任务实验结果如表9所示, 本文方法在CASME II数据集上取得了最高性能. 相较于SMA-STN, 准确率提高了1.08%; 相较于MERSiamC3D, UF1提高了0.0128. 与其他基于图卷积网络方法(如Graph-TCN、AU-GCN、GACNN)相比, UF1有大幅提升, 说明本文方法能克服图卷积网络的不稳定性, 整体表现更加稳健. 在SAMM数据集上的实验结果显示, 本文方法相较于其他方法表现出色, 准确率达到了80%以上. 但与表现最好的GACNN相比, 仍存在一定的差距, 主要原因是GACNN在数据的早期处理阶段, 额外使用了欧拉运动放大算法增加样本, 在样本量极其匮乏时, 能取得更好结果. 这种放大极不稳定, 需要反复调整放大系数, 只能在特定任务上取得很好效果[7]. 这也是为什么它在SAMM的5分类任务上效果显著, 在识别难度更低的CASME II上, 表现并不突出. 这是由于SAMM数据集包含13个不同民族且样本总量仅为CASME II的一半. 相比之下, 本文方法在总体上显示出更高的稳定性和广泛的适用性.
表 9 CASME II和SAMM数据集的5分类任务性能比较Table 9 Comparison of performance on the5-categorization task for the CASME II and SAMM datasets方法 CASME II SAMM 准确率(%) UF1 准确率(%) UF1 DSSN 71.19 0.7297 57.35 0.4644 Graph-TCN 73.98 0.7246 75.00 0.6985 SMA-STN 82.59 0.7946 77.20 0.7033 MERSiamC3D 81.89 0.8300 68.75 0.6400 AU-GCN 74.27 0.7047 74.26 0.7045 GACNN 81.30 0.7090 88.24 0.8279 AMAN $75.40$ 0.7100 68.85 0.6700 本文方法 83.67 0.8428 81.62 0.7523 4.6 可视化演示
为了验证本文提出的面部节点多层级信息提取网络对面部肌肉运动信息的提取效果, 本文对CA-SME II数据集上的一些样本进行了可视化操作, 依次将样本的局部节点级表示和整体部位级表示映射回原图像, 来对比它们的效果.
可视化结果如图12所示, 每个样本标签为情感类别和动作单元. 以图12(c)为例, 它的情感类别是惊讶, L2表示右边眉毛提起, 12表示嘴角上翘. 可以发现, 局部节点学习网络仅关注人脸图像中的嘴角, 加入整体部位学习网络后, 不仅能关注到右眉毛的变化, 还能注意到下巴的变化. 同样地, 图12(a)的情感类别是其他, 4表示眉毛下垂, 加入整体部位学习网络后, 关注到了局部节点学习网络没有关注到的细微眉毛变化.
这些结果验证了局部节点学习网络可以帮助网络将注意力聚焦在面部发生变化的区域, 但它对细微变化不够敏感, 而增加整体部位学习网络能进一步增强感知能力, 通过并行融合面部局部节点特征和整体部位特征, 使网络能注意到更加微小的变化, 提高模型对微表情的辨识性, 获得更好的识别性能.
5. 结束语
微表情是一种面部肌肉的动态变化, 为了对这些微妙变化进行更精准的识别, 本文提出一种基于多层级信息融合网络的微表情识别方法. 该方法构造了一个多层级信息融合网络, 来学习面部肌肉运动的局部节点特征和整体部位特征, 强化对面部肌肉运动信息的提取, 避免了对光流、动作单元等人工手段的依赖. 同时, 为了筛选微表情视频中具有高强度表情信息的图像帧, 还设计了一个基于频率幅值的视频帧选取策略. 在主流数据集上的实验验证了该方法的有效性, 其能更好地捕捉到微表情中的细微变化.
尽管本文提出的方法在微表情识别方面取得了良好效果, 但仍存在一定的局限性. 它在很大程度上依赖于特征点检测结果, 这种依赖可能在特征点难以准确检测情况下, 影响整体性能. 未来研究可考虑探索一种自适应特征点检测法, 如通过增强学习或反馈机制, 来实时调整特征点的检测效果, 进一步提高模型在复杂或不规则面部表情中的鲁棒性. 此外, 考虑到微表情与心理状态密切相关, 还可以尝试结合心理学理论和其他生物信号数据(如心率或脑电波), 以实现更加全面和准确的情绪识别.
-
表 1 SMIC、CASME II和SAMM的3分类样本分布
Table 1 Distribution of 3 categorical samples for SMIC, CASME II and SAMM
数据集 SMIC CASME II SAMM 消极 70 88 92 积极 51 32 26 惊讶 43 25 15 总计 164 145 133 表 2 CASME II、SAMM和MMEW的5分类样本分布
Table 2 Distribution of 5 categorical samples for CASME II、SAMM and MMEW
数据集 CASME II SAMM MMEW 快乐 32 26 36 惊讶 25 15 89 厌恶 63 — 72 恐惧 — — 16 压抑 27 — — 愤怒 — 57 — 蔑视 — 12 — 其他 99 26 66 总计 246 136 279 表 3 不同帧数的性能对比
Table 3 Performance comparison for different numbers of frames
$N$ SAMM (3分类) MMEW (5分类) 准确率(%) UF1 准确率(%) UF1 0 75.94 0.6462 68.45 0.5732 1 84.96 0.7842 75.26 0.6927 2 89.47 0.8356 81.36 0.7834 3 81.20 0.7381 78.85 0.7225 表 4 不同卷积核数量下的性能对比
Table 4 Performance comparison with different numbers of convolutional kernels
卷积核数 SAMM (3分类) MMEW (5分类) 准确率(%) UF1 准确率(%) UF1 0 83.46 0.7429 72.75 0.6341 7 89.47 0.8356 81.36 0.7834 68 87.22 0.8247 77.42 0.7323 表 5 各网络分支模型的消融实验
Table 5 Ablation studies of each network branch in our model
学习网络 SAMM (3分类) MMEW (5分类) 准确率 (%) UF1 准确率 (%) UF1 局部节点 80.45 0.7252 73.12 0.6968 局部节点加整体部位 86.47 0.8021 80.65 0.7626 局部节点加整体部位加图像全局 89.47 0.8356 81.36 0.7834 表 6 ICE的性能验证
Table 6 Performance validation of ICE
损失函数 w SAMM (3分类) MMEW (5分类) 准确率 (%) UF1 准确率 (%) UF1 CE — 85.71 0.7982 79.93 0.7463 ICE 0.1 87.96 0.8236 80.28 0.7732 ICE 0.3 89.47 0.8356 79.56 0.7635 ICE 0.5 88.72 0.8262 80.64 0.7582 ICE 1.0 87.22 0.8194 81.36 0.7834 ICE 2.0 86.47 0.8124 78.85 0.7281 ICE 5.0 89.47 0.8293 80.28 0.7546 ICE 10.0 87.96 0.8178 81.00 0.7782 表 7 CASME II和SAMM数据集上的3分类任务性能比较
Table 7 Comparison of the performance of the3-categorization task on the CASME II and SAMM datasets
方法 CASME II SAMM 准确率(%) UF1 准确率(%) UF1 Bi-WOOF 58.80 0.6100 58.30 0.3970 OFF-ANet 88.28 0.8697 68.18 0.5423 STST-Net 86.86 0.8382 68.10 0.6588 Graph-TCN 71.20 0.3550 70.20 0.4330 GACNN 89.66 0.8695 88.72 0.8188 本文方法 91.03 0.8849 89.47 0.8356 表 8 MEGC2019-CDE协议下的性能比较
Table 8 Performance comparison under the MEGC2019-CDE protocol
方法 SMIC CASME II SAMM MEGC2019-CDE UF1 UAR UF1 UAR UF1 UAR UF1 UAR Bi-WOOF 0.5727 0.5829 0.7805 0.8027 0.5211 0.5139 0.6296 0.6227 OFF-ANet 0.6817 0.6695 0.8764 0.8681 0.5409 0.5392 0.7196 0.7096 DIN 0.6645 0.6726 0.8621 0.8560 0.5868 0.5663 0.7322 0.7278 STST-Net 0.6801 0.7013 0.8382 0.8686 0.6588 0.6810 0.7353 0.7605 EMR 0.7461 0.7530 0.8293 0.8209 0.7754 0.7152 0.7885 0.7824 AU-GCN 0.7192 0.7215 0.8798 0.8710 0.7751 0.7890 0.7914 0.7933 ME-PLAN 0.7127 0.7256 0.8632 0.8778 0.7164 0.7418 0.7715 0.7864 本文方法 0.7583 0.7741 0.8849 0.8532 0.8356 0.8194 0.8124 0.8231 表 9 CASME II和SAMM数据集的5分类任务性能比较
Table 9 Comparison of performance on the5-categorization task for the CASME II and SAMM datasets
方法 CASME II SAMM 准确率(%) UF1 准确率(%) UF1 DSSN 71.19 0.7297 57.35 0.4644 Graph-TCN 73.98 0.7246 75.00 0.6985 SMA-STN 82.59 0.7946 77.20 0.7033 MERSiamC3D 81.89 0.8300 68.75 0.6400 AU-GCN 74.27 0.7047 74.26 0.7045 GACNN 81.30 0.7090 88.24 0.8279 AMAN $75.40$ 0.7100 68.85 0.6700 本文方法 83.67 0.8428 81.62 0.7523 -
[1] Sun L A, Lian Z, Liu B, Tao J H. MAE-DFER: Efficient masked autoencoder for self-supervised dynamic facial expression recognition. In: Proceedings of the 31st ACM International Conference on Multimedia. Ottawa, Canada: ACM, 2023. 6110− 6121 [2] Roy S, Etemad A. Active learning with contrastive pre-training for facial expression recognition. In: Proceedings of the 11th International Conference on Affective Computing and Intelligent Interaction. Massachusetts, USA: IEEE, 2023. 1−8 [3] Huang J J, Li Y N, Feng J S, Wu X L, Sun X S, Ji R R. Clover: Towards a unified video-language alignment and fusion model. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Vancouver, Canada: IEEE, 2023. 14856−14866 [4] Jian M W, Lam K M. Multi-view face hallucination using SVD and a mapping model. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(11): 1761−1722 doi: 10.1109/TCSVT.2015.2400772 [5] Liu Q H, Wu J F, Jiang Y, Bai X, Yuille A L, Bai S. InstMove: Instance motion for object-centric video segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Vancouver, Canada: IEEE, 2023. 6344−6354 [6] 张颖, 张冰冰, 董微, 安峰民, 张建新, 张强. 基于语言−视觉对比学习的多模态视频行为识别方法. 自动化学报, 2024, 50(2): 417−430Zhang Ying, Zhang Bing-Bing, Dong Wei, An Feng-Min, Zhang Jian-Xin, Zhang Qiang. Multi-modal video action recognition method based on language-visual contrastive learning. Acta Automatica Sinica, 2024, 50(2): 417−430 [7] Lei L, Li J F, Chen T, Li S G. A novel Graph-TCN with a graph structured representation for micro-expression recognition. In: Proceedings of the 28th ACM International Conference on Multimedia. Washington, USA: ACM, 2020. 2237−2245 [8] Lei L, Chen T, Li S G. Micro-expression recognition based on facial graph representation learning and facial action unit fusion. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Virtual Event: IEEE, 2021. 1571−1580 [9] 徐峰, 张军平. 人脸微表情识别综述. 自动化学报, 2017, 43(3): 333−348Xu Feng, Zhang Jun-Ping. Facial micro-expression recognition: A survey. Acta Automatica Sinica, 2017, 43(3): 333−348 [10] Li Y T, Wei J S, Liu Y. Deep learning for micr-expression recognition: A survey. IEEE Transactions on Affective Computer, 2022, 13(4): 2028−2046 doi: 10.1109/TAFFC.2022.3205170 [11] Zhao S R, Tang H Y, Liu S F. ME-PLAN: A deep prototypical learning with local attention network for dynamic micro-expression recognition. Neural Networks, 2022, 153: 427−443 doi: 10.1016/j.neunet.2022.06.024 [12] Li H T, Sui M Z, Zhu Z Q, Zhao F. MMNet: Muscle motion-guided network for micro-expression recognition. In: Proceedings of the 31th International Joint Conference on Artificial Intelligence. Vienna, Austria: 2022. 1074−1080 [13] Zhai Z J, Zhao J H, Long C J. Feature representation learning with adaptive displacement generation and transformer fusion for micro-expression recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Vancouver, Canada: IEEE, 2023. 22086−22095 [14] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971−987 doi: 10.1109/TPAMI.2002.1017623 [15] 宋克臣, 颜云辉, 陈文辉, 张旭. 局部二值模式方法研究与展望. 自动化学报, 2013, 39(6): 730−744 doi: 10.1016/S1874-1029(13)60051-8Song Ke-Chen, Yan Yun-Hui, Chen Wen-Hui, Zhang Xu. Research and perspective on local binary pattern. Acta Automatica Sinica, 2013, 39(6): 730−744 doi: 10.1016/S1874-1029(13)60051-8 [16] Zhao G, Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915−928 doi: 10.1109/TPAMI.2007.1110 [17] Wang Y, See J, Phan R C, Oh Y H. LBP with six intersection points: Reducing redundant information in LBP-TOP for micro-expression recognition. In: Proceedings of the 12th Asian Conference on Computer Vision. Singapore: AFCV, 2014. 525−537 [18] Huang X H, Zhao G Y, Hong X P, Zheng W M. Spontaneous facial micro-expression analysis using Spatio-temporal Completed Local Quantized Patterns. Neurocomputing, 2016, 175: 564−578 doi: 10.1016/j.neucom.2015.10.096 [19] 陈震, 张道文, 张聪炫, 汪洋. 基于深度匹配的由稀疏到稠密大位移运动光流估计. 自动化学报, 2022, 48(9): 2316−2326Chen Zhen, Zhang Dao-Wen, Zhang Cong-Xuan, Wang Yang. Sparse-to-dense large displacement motion optical flow estimation based on deep matching. Acta Automatica Sinica, 2022, 48(9): 2316−2326 [20] Liong S T, See J, Phan R C W, Oh Y H, Ngo A C L, Wong K S, et al. Spontaneous subtle expression detection and recognition based on facial strain. Signal Processing: Image Communication, 2016, 47: 170−182 doi: 10.1016/j.image.2016.06.004 [21] Liu Y J, Zhang J K, Yan W J, Wang S J, Zhao G Y, Fu X L. A main directional mean optical flow feature for spontaneous micro-expression recognition. IEEE Transactions on Affective Computing, 2016, 7(4): 299−310 doi: 10.1109/TAFFC.2015.2485205 [22] Liu Y J, Bi J L, Lai Y K. Sparse MDMO: Learning a discriminative feature for micro-expression recognition. IEEE Transactions on Affective Computing, 2021, 12(1): 254−261 [23] Kumar A J R, Bhanu B. Micro-expression classification based on landmark relations with graph attention convolutional network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Virtual Event: IEEE, 2021. 1511−1520 [24] Jian M W, Cui C R, Nie X S, Zhang H X, Nie L Q, Yin Y L. Multi-view face hallucination using SVD and a mapping model. Information Sciences, 2019, 488: 181−189 doi: 10.1016/j.ins.2019.03.026 [25] Patel D, Hong X P, Zhao G Y. Selective deep features for micro-expression recognition. In: Proceedings of the 23rd International Conference on Pattern Recognition. Cancun, Mexico: IEEE, 2017. 2258−2263 [26] Kim D H, Baddar W J, Ro Y M. Micro-expression recognition with expression-state constrained spatio-temporal feature representations. In: Proceedings of the 24th ACM International Conference on Multimedia. Amsterdam, Netherlands: ACM, 2016. 382−386 [27] Peng M, Wang C Y, Chen T, Liu G Y, Fu X L. Dual temporal scale convolutional neural network for micro-expression recognition. Frontiers in Psychology, 2017, 8: 1−12 [28] Liong S T, See J, Wong K S, Phan R C W. Less is more: Micro-expression recognition from video using apex frame. Signal Processing: Image Communication, 2018, 62: 82−92 doi: 10.1016/j.image.2017.11.006 [29] Quang N V, Chun J, Tokuyama T. CapsuleNet for micro-expression recognition. In: Proceedings of the 14th IEEE International Conference on Automatic Face & Gesture Recognition. Lille, France: IEEE, 2019. 1−7 [30] Song B L, Li K, Zong Y, Zhu J, Zheng W M, Shi J G, et al. Recognizing spontaneous micro-expression using a three-stream convolutional neural network. IEEE Access, 2019, 7: 184537−184551 doi: 10.1109/ACCESS.2019.2960629 [31] Gan Y S, Liong S T, Yau W C, Huang Y C, Tan L K. OFF-ApexNet on micro-expression recognition system. Signal Processing: Image Communication, 2019, 74: 129−139 doi: 10.1016/j.image.2019.02.005 [32] Lo L, Xie H X, Shuai H H, Cheng W H. MER-GCN: Micro-expression recognition based on relation modeling with graph convolutional networks. In: Proceedings of the IEEE Conference on Multimedia Information Processing and Retrieval. Orlando, USA: IEEE, 2020. 79−84 [33] King D E. Dlib-ML: A machine learning toolkit. Journal of Machine Learning Research, 2009, 10: 1755−1758 [34] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates, 2017. 5999−6009 [35] Wang R, Jian M W, Yu H, Wang L, Yang B. Face hallucination using multisource references and cross-scale dual residual fusion mechanism. International Journal of Intelligent Systems, 2022, 37(11): 9982−10000 doi: 10.1002/int.23024 [36] Yan W J, Li X B, Wang S J, Zhao G Y, Liu Y J, Chen Y H, et al. CASME II: An improved spontaneous micro-expression database and the baseline evaluation. Plos One, 2014, 9(1): 1−8 [37] Li Y T, Huang X H, Zhao G Y. Joint local and global information learning with single apex frame detection for micro-expression recognition. IEEE Transactions on Image Process, 2021, 30: 249−263 doi: 10.1109/TIP.2020.3035042 [38] Li X B, Pfister T, Huang X H, Zhao G Y, Pietikainen M. A spontaneous micro-expression database: Inducement, collection and baseline. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China: IEEE, 2013. 1−6 [39] Davison A K, Lansley C, Costen N, Tan K, Yap M H. SAMM: A spontaneous micro-facial movement dataset. IEEE Transactions on Affective Computing, 2016, 9(1): 116−129 [40] Ben X Y, Ren Y, Zhang J P, Wang S J, Kpalma K, Meng W X, et al. Video-based facial micro-expression analysis: A survey of datasets, features and algorithms. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(9): 5826−5846 [41] See J, Yap M H, Li J T, Hong X P, Wang S J. MEGC 2019——The second facial micro-expressions grand challenge. In: Proceedings of the 14th IEEE International Conference on Automatic Face & Gesture Recognition. Lille, France: IEEE, 2019. 1−5 [42] Zhou L, Mao Q, Xue L Y. Dual-inception network for cross-database micro-expression recognition. In: Proceedings of the 14th IEEE International Conference on Automatic Face & Gesture Recognition. Lille, France: IEEE, 2019. 1−5 [43] Liong S T, Gan Y S, See J, Khor H Q, Huang Y C. Shallow triple stream three-dimensional CNN (STSTNet) for micro-expression recognition. In: Proceedings of the 14th IEEE International Conference on Automatic Face & Gesture Recognition. Lille, France: IEEE, 2019. 1−5 [44] Liu Y C, Du H M, Zheng L, Gedeon T. A neural micro-expression recognizer. In: Proceedings of the 14th IEEE International Conference on Automatic Face & Gesture Recognition. Lille, France: IEEE, 2019. 1−4 [45] Khor H Q, See J, Liong S T, Phan R C W, Lin W Y. Dual-stream shallow networks for facial micro-expression recognition. In: Proceedings of the 26th IEEE International Conference on Image Processing. Taipei, China: IEEE, 2019. 36−40 [46] Liu J T, Zheng W M, Zong Y. SMA-STN: Segmented movement-attending spatio-temporal network for micro-expression recognition [Online], available: https://arxiv.org/abs/2010.09342, October 19, 2020 [47] Zhao S R, Tao H Q, Zhang Y S, Xu T, Zhang K, Hao Z K, et al. A two-stage 3D CNN based learning method for spontaneous micro-expression recognition. Neurocomputing, 2021, 448: 276−289 doi: 10.1016/j.neucom.2021.03.058 [48] Wei M T, Zheng W M, Zong Y, Jiang X X, Lu C, Liu J T. A novel micro-expression recognition approach using attention-based magnification-adaptive networks. In: Proceedings of the 47th IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022. 2420−2424 期刊类型引用(1)
1. 李艳秋,李胜赵,孙光灵,颜普. 轻量型Swin Transformer与多尺度特征融合相结合的人脸表情识别方法. 光电工程. 2025(01): 26-40 . 百度学术
其他类型引用(0)
-