2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

人脸微表情识别综述

徐峰 张军平

徐峰, 张军平. 人脸微表情识别综述. 自动化学报, 2017, 43(3): 333-348. doi: 10.16383/j.aas.2017.c160398
引用本文: 徐峰, 张军平. 人脸微表情识别综述. 自动化学报, 2017, 43(3): 333-348. doi: 10.16383/j.aas.2017.c160398
XU Feng, ZHANG Jun-Ping. Facial Microexpression Recognition: A Survey. ACTA AUTOMATICA SINICA, 2017, 43(3): 333-348. doi: 10.16383/j.aas.2017.c160398
Citation: XU Feng, ZHANG Jun-Ping. Facial Microexpression Recognition: A Survey. ACTA AUTOMATICA SINICA, 2017, 43(3): 333-348. doi: 10.16383/j.aas.2017.c160398

人脸微表情识别综述

doi: 10.16383/j.aas.2017.c160398
基金项目: 

浦江人才计划 16PJD009

国家自然科学基金 61273299

国家自然科学基金 61673118

详细信息
    作者简介:

    徐峰复旦大学计算机科学技术学院硕士研究生.主要研究方向为计算机视觉, 人脸表情识别.E-mail:fengxu@fudan.edu.cn

    通讯作者:

    张军平复旦大学计算机科学技术学院教授.主要研究方向为机器学习, 智能交通, 生物认证与图像识别.本文通信作者.E-mail:jpzhang@fudan.edu.cn

Facial Microexpression Recognition: A Survey

Funds: 

Shanghai Pujiang Program 16PJD009

National Natural Science Foundation of China 61273299

National Natural Science Foundation of China 61673118

More Information
    Author Bio:

    Master student at the School of Computer Science, Fudan University. His research interest covers computer vision and facial expression recognition

    Corresponding author: ZHANG Jun-PingProfessor at the School of Computer Science, Fudan University. His research interest covers machine learning, intelligent transportation systems, biometric authentication, and image processing. Corresponding author of this paper
  • 摘要: 人脸表情是人际交往的重要渠道,识别人脸表情可促进对人心理状态和情感的理解.不同于常规的人脸表情,微表情是一种特殊的面部微小动作,可以作为判断人主观情绪的重要依据,在公共安防和心理治疗领域有广泛的应用价值.由于微表情具有动作幅度小、持续时间短的特点,对微表情的人工识别需要专业的培训,且识别正确率较低.近年来不少研究人员开始利用计算机视觉技术自动识别微表情,极大地提高了微表情的应用可行性.本文综述人脸微表情识别的定义和研究现状,总结微表情识别中的一些关键技术,探讨潜在的问题和可能的研究方向.
  • 表情是人类情绪的直观反应, 表情识别一直是计算机视觉的重要研究课题之一.在过去几十年中, 研究人员已经在各类表情识别问题中取得了重要的成果[1-6].

    近年来, 针对自发式的表情 (Spontaneous expression) 的识别逐渐成为新的研究热点[7-8].与普通表情不同, 自发式的表情无法伪造和抑制, 可以反映人的真实情绪.

    微表情 (Microexpression) 是一种自发式的表情, 在人试图掩盖内在情绪时产生, 既无法伪造也无法抑制[9].与表情研究相比, 微表情发现的历史较短. 1966年Haggard等第一次提出了微表情的概念[10], 此后Ekman等报道了关于微表情的案例[11].在一段心理医生与抑郁症病人的对话中[11], 经常微笑的病人偶尔有几帧非常痛苦的表情.研究人员将这种人在经历强烈情绪时产生的快速、无意识的自发式面部动作称为微表情.

    微表情在情绪识别任务上的可靠度很高, 对表情情感识别任务有潜在的利用价值, 如婚姻关系预测[12]、交流谈判[13]、教学评估[14-15]等.除了用于情感分析, 研究人员观察到了有意说谎时产生的微表情[16], 经过微表情识别训练, 普通人识别说谎的能力得到提高[17].

    微表情的持续时间非常短, 研究表明微表情仅持续1/25 s $\sim$ 1/3 s [18], 且动作幅度非常小, 不会同时在上半脸和下半脸出现[16, 18], 因此正确观测并且识别有着相当的难度.

    尽管已有了专业的培训工具[19], 但依靠人力识别的准确率并不高, 已知的文献报道中只有47 % [20].另外, 依靠人力识别受限于专业培训和时间成本, 难以进行大规模推广.因此, 近年来依赖计算机实现人脸微表情自动识别的需求越来越高.

    利用计算机识别微表情具有独特的优势. 1) 无论多迅速的运动, 只要客观上被摄像机捕捉, 计算机就能获取相应的信息并进行处理, 因此研究人员引入高速摄像机用于微表情的捕捉. 2) 只要能训练出高效、稳定的模型, 计算机就能够以低廉的成本处理大规模的微表情识别任务, 这显然超过专业人员人工识别微表情的效率.

    然而面部产生微表情的同时也存在无关的变化, 正确分离无用信息, 提取微表情相关的重要信息, 是用计算机有效识别微表情的关键所在.

    目前的研究可以分为两类研究方向, 一种是通过构建计算机视觉特征, 寻找高效的表达形式描述微表情并进行模型学习; 另一种是针对微表情本身的特点, 寻找合适的学习算法进行模型的构建.

    这两种研究方式并不是互斥的, 一个现实的微表情识别系统往往需要两部分协同工作才能有效地完成识别任务.而一些机器学习的技术也被应用到求解特征表达的过程之中.目前这两类工作都在现有数据集上取得了一定效果.

    当前国内关于微表情方面的研究综述主要集中在心理学方面, 例如中国科学院的吴奇等的工作综述了微表情的潜在应用[21].关于微表情自动识别的综述仅有山东大学的贲晛烨等较早期的工作[22], 将微表情识别方法分为应变模式法和利用机器学习的方法, 前者计算面部皮肤的应变响应模式并确定阈值作为识别的依据, 后者使用特征提取与模式分类的框架进行识别.

    近年来涌现了大量针对微表情中不同细分问题的新研究, 已经超出了以往的分类范畴.与贲晛烨等的综述[22]相比, 本文侧重按微表情识别中的不同问题进行分类, 介绍近年来大量新的研究工作.本文组织结构如下:第1节给出微表情识别的具体问题定义; 第2节介绍微表情的数据集; 第3节从不同的问题定义出发介绍当前微表情识别的方法; 第4节和第5节讨论微表情识别潜在的问题及未来值得研究的方向.

    微表情识别是一个较为宽泛的问题, 实际包含了多个具体的目标.

    对于一段给定的面部图像序列, 首先要鉴别其中是否包含微表情.这包括两种场景, 一种是将微表情从无表情 (即肌肉不运动时静止的面部状态) 的序列中区分出来; 另一种是区别微表情和普通的表情.这两者都称为微表情的检测任务.

    与普通表情一样, 微表情蕴含了人类的情绪.鉴别微表情包含的情绪是最常见的任务.在一段已知是微表情的人脸序列中, 识别其中表达的情绪, 称为微表情的分类任务.

    通常所说的微表情识别包含了上述两类任务.其基于的应用场景假设是, 从一段人脸图像序列中检测微表情的片段, 再对检测出的微表情的情绪进行分类.

    除了上述两种任务, 微表情识别还有更加精细的划分.与普通表情相似, 微表情也可以分为两段, 并以三个时间点分割.起始点 (Onset) 是指微表情出现的瞬间; 顶点 (Apex) 是指微表情幅度最大的瞬间; 终止点 (Offset) 是指微表情消失的瞬间.阶段划分就是从一段人脸图像序列中检测微表情并对三个特殊的时间点进行标定.

    面部动作编码系统 (Facial action coding system, FACS) 是一种表情识别领域常用的编码标准, 包含一组预先定义的编码表, 每个编码称为一个动作单元 (Action unit, AU).每个动作单元表示一个特定的面部局部动作, 例如动作单元2表示眉毛外端上扬 (Outer brow raiser), 动作单元3表示眉毛下垂 (Brow lowerer) 等.微表情可以用FACS进行编码, 即对微表情进行动作单元识别.

    图 1展示了微表情识别的两类通用框架.在图 1 (a) 中, 算法只需要考虑已经分割好的面部图像序列, 检测其中属于微表情的序列, 并对微表情序列进一步分类或者识别其中的动作单元; 在图 1 (b) 中, 算法在长视频里检测寻找微表情并进行阶段划分, 标定起始点、顶点、终止点, 这也可以看作是检测问题的一种拓展.

    图 1  微表情识别中的具体任务
    Fig. 1  Specific tasks in microexpression recognition

    微表情数据采集困难, 且非专业人员很难鉴定微表情.因此微表情数据集的采集和选择非常重要.目前已知的微表情数据集有:芬兰Oulu大学的SMIC (Spontaneous microexpression corpus) [23]和SMIC 2 [24]、中国科学院的CASME (Chinese Academy of Sciences microexpression) [25]和CASME Ⅱ [26]、美国南佛罗里达大学的USF-HD [27]和日本筑波大学的Polikovsky dataset [28].其中SMIC 2包含三个子集HS、VIS和NIR, 其区别是拍摄设备不同, 分别是高速摄像机、普通相机和近红外摄像机.

    由于微表情的特殊性, 一个数据集有3项值得注意的要素, 分别是帧率、诱导方式和标注方式.

    微表情的持续时间通常只有1/25 s $\sim$ 1/3 s, 而普通摄像机的帧率是25帧/秒, 因此有可能仅捕捉到非常少的几帧图像, 难以进一步处理.为此, 一些数据集引入高速摄像机拍摄微表情.例如SMIC使用100帧/秒的摄像机, CASME使用60帧/秒的摄像机, 捕捉更多的面部图像.现有文献中帧率最高的是Polikovsky等使用的数据集[28]和CASME Ⅱ [26], 两者都采用200帧/秒的高速摄像机.但帧率并不是越高越好, 过高的帧率会导致快门进光量减少, 降低图像质量.

    也有一些例外, 如SMIC 2/VIS、SMIC 2/NIR和USF-HD, 这些数据集是用来衡量算法在普通帧率下识别微表情的性能的.

    微表情有特定的发生场景, 是人在试图掩盖自己情绪时产生的微小面部动作.严格地说, 人主观模拟的微小表情不能称为微表情.因此诱导方法决定了微表情数据集的可靠程度.

    在SMIC中[23], 被试者被要求观看能够引起情绪波动的视频, 并尽力不流露出内在情绪; 而记录者则被要求在不观看视频的情况下猜测被试者的情绪.为了激励被试者尽力抑制表情, 如果被试者的情绪被记录者发现, 则被试者需要填一份冗长的问卷作为惩罚.这样的机制能够确保微表情的可靠性.

    CASME [25]采用了类似的机制确保数据集的可靠性.同样以观看视频诱发被试者的情绪, 如果被试者成功抑制了自己的情绪没有被记录者发现, 可以获得一份现金奖励.

    在另外一些数据集中, 没有类似的机制来保证数据的可靠性, 只是要求被试者观看微表情的视频图像资料, 并试图模仿微表情, 因此可能并不能称为严格意义上的微表情.

    根据问题定义的不同, 微表情数据集的标注方法各有不同.在多数数据集中, 微表情识别通常被拆分成两项子任务, 即检测与分类.给定一段图像序列, 检测旨在鉴定该序列是否包含微表情; 分类是在该序列是微表情的假定下, 对微表情进行进一步的情绪分类.

    在进一步的分析中, 与普通表情类似, 微表情可以用情绪和FACS [29]两种方法进行标记.微表情对应的情绪可以根据粒度的大小分为不同的类别, 例如积极情绪和消极情绪, 或愉快、惊讶、厌恶、恐惧和悲伤等.

    SMIC和SMIC 2都使用了情绪分类进行标注. CASME和CASME Ⅱ对每个表情既标注了情绪, 也标注了FACS编码.

    表 1总结了上述微表情数据集. 图 2展示了一些微表情的示例.

    图 2  微表数据集示例
    Fig. 2  Examples of microexpression datasets
    表 1  现有微表情数据集
    Table 1  Existing datasets of microexpressions
    数据集 帧率 #被试 #微表情 #非微表情 诱导方式 标注方法
    SMIC 100 6 76 76 自发 情绪
    SMIC2/HS 100 20 164 164 自发 情绪
    SMIC2/VIS 25 10 71 71 自发 情绪
    SMIC2/NIR 25 10 71 71 自发 情绪
    CASME 60 35 195 / 自发 情绪/FACS
    CASMEⅡ 200 35 247 / 自发 情绪/FACS
    USF-HD 29.7 / 100 181 模仿 微/非微表情
    Polikovsky 200 10 / / 模仿 FACS
    下载: 导出CSV 
    | 显示表格

    在过去几年中, 涌现了不少微表情识别的研究工作.大多数工作同时研究微表情的检测与分类两个问题, 也有一些工作针对特点问题, 例如特定情绪的微表情的检测、微表情不同阶段的划分等.本节根据不同的问题定义, 介绍现有的微表情识别方法.

    给定一段面部图像序列, 检测任务要求判断该序列是否包含微表情, 而分类任务则在假定包含微表情的情况下判定微表情的情绪种类.在机器学习的意义上, 这两个问题都属于分类问题.而实际上, 的确有一些方法用相同的框架处理微表情的检测和分类任务, 这些方法抽取相同的特征, 用相同的算法针对两个任务训练两个独立的模型, 分别用于微表情的检测和分类.

    3.1.1   基于LBP-TOP的识别方法

    Pfister等的工作[23]是最早的自动识别微表情的尝试之一.该方法极具代表性, 为之后的微表情识别工作提供了可靠的验证平台和对比标杆.

    该方法首先使用一个68点的主观形状模型 (Active shape model, ASM) [30]定位人脸的关键点.以得到的关键点为基础, 使用局部加权平均算法 (Local weighted mean, LWM) [31]计算每个序列第一帧中面部图像与模型面部图像的形变关系, 并将该形变作用于对应序列的每一帧图像.这在一定程度上消除了不同人脸、不同序列在无表情状态下的差异.

    由于输入图像序列的帧数量一般是不同的, 因此需要统一对齐到相同帧数上.这项工作中使用时域插值模型 (Temporal interpolation model, TIM) [32]进行该插帧任务.将每帧图像视作高维空间中的一个点, 而图像通常是高度冗余的数据, 因此存在一个对应的低维流形映射.这种插值算法把图像序列映射到低维流形上并进行插值, 再重新映射到原空间, 就得到了插值后的视频.

    对于上述得到的相同帧数的对齐后的人脸图像序列, 需要提取其进一步的特征.这项工作中使用了局部二值模式 (Local binary pattern, LBP) [33]的一种拓展方法.

    局部二值模式试图编码图像中局部像素的共生 (Co-occurrence) 模式.以最简单的局部二值模式为例, 考虑一个像素与周围8个相邻像素的大小关系, 周围像素值比中心像素值大或者相等的记1, 周围比中心小的记0, 连接后得到一个二进制数用于表征局部像素共生模式. 图 3展示了一个$3 \times 3$的图像块, 图 4展示了该图像块上的局部二值模式的计算.将相邻像素值减去中心像素值, 对得到的差值进一步处理, 将$\geq 0$的差值记1, $ < 0$的差值记0, 得到8位二进制数$(00111010)_2$.

    图 3  一个3×3的图像块及其对应的像素值
    Fig. 3  A 3×3 image patch and the corresponding pixel values
    图 4  局部二值模式计算过程
    Fig. 4  Calculation process of local binary pattern

    更一般地, LBP算子可以定制两个参数, 以一个像素为中心, 作半径为$R$的圆, 在圆周上均匀采$P$个点, 计算每个点所在位置的像素与中心像素的关系, 即得到一个$P$位二进制数.

    在微表情的识别中, 为了编码时空的共生模式, 该工作使用了LBP-TOP (Local binary pattern on three orthogonal plane) 算子[34], 对视频$XY$平面、$XT$平面、$YT$平面分别抽取LBP特征.具体地, 设定三个时空轴 ($X$, $Y$, $T$) 上的半径$R_X$, $R_Y$, $R_T$和三个时空平面上的采样数量$P_{XY}$, $P_{XT}$, $P_{YT}$, 在每个时空平面上作对应半径决定的椭圆, 并均匀采点, 计算该平面上的局部二值模式, 最后拼接得到最终的特征表达. 图 5展示了一个LBP-TOP特征抽取的例子, 其中, $R_X=R_Y=3$, $R_T=1$, $P_{XY}=$ $20$, $P_{XT}=P_{YT}=8$.阴影部分是参与计算的像素.

    图 5  LBP-TOP示例[34]
    Fig. 5  Illustration of LBP-TOP[34]

    最后, 在LBP-TOP特征的基础上使用支持向量机 (Support vector machine, SVM)、随机森林 (Random forest, RF) 和多核学习 (Multiple kernel learning, MKL) 等算法进行检测和分类.

    该工作的算法设计较简单, 利用了常规表情分析中的很多技术, 作为微表情识别的初期尝试, 获得了不错的效果.一个重要的优点在于预处理十分精细, 为适应微表情这一特征领域做了尝试, 也为后来的工作奠定了基础和比较的参考.这种方法各组成部分的代码都是公开的1.

    1http://www.cse.oulu.fi/CMV/Downloads/LBPMatlab

    3.1.2   基于STCLQP的识别方法

    完备局部量化模式 (Completed local quantized pattern, CLQP) [35]是LBP的一项改进工作.与LBP只编码局部像素的灰度值大小关系不同, 完备局部量化模式将中心像素与周围像素的局部共生模式分解成符号正负和幅值大小, 并加入中心像素的梯度信息, 分别用二进制数进行编码.在构建统计直方图的阶段, 为了降低特征的维度, 完备局部量化模式并不统计所有可能的二进制编码, 而是考虑最常出现的二进制模式, 引入了向量量化的技术, 可以指定量化过程中的中心数量 (编码本中词的数量), 得到指定维度的直方图作为特征. STCLQP (Spatial temporal completed local quantized pattern) [36]是CLQP在三维时空的扩展, 计算方式与LBP-TOP类似, 即在$XY$平面、$XT$平面和$YT$平面分别抽取CLQP特征, 并进行拼接, 作为STCLQP特征.

    将STCLQP用于微表情识别的优点在于考虑更多信息, 但这不可避免地引入了高维度, 使用向量量化的技术一定程度上可以缓解这一问题.

    3.1.3   基于LBP-SIP的识别方法

    与基于LBP-TOP改进的微表情识别工作不同, 六交点局部二值模式 (Local binary pattern with six intersection points, LBP-SIP) [37]从另一个角度拓展了LBP特征用于微表情识别.考虑LBP-TOP的一种特例, 即$R=1$, $P=4$, 此时LBP-TOP计算三个平面上各4个像素与中心像素的关系, 需要用12位的二进制数表示.针对于此, LBP-SIP将中心点同平面上的四个点用作空间纹理描述, 前后两帧的中心点用作时间纹理的描述.这样仅需要$4$ $+$ $2=6$位二进制数进行描述. 图 6展示了LBP-SIP的计算示例, 其中阴影部分是参与计算的像素.

    图 6  LBP-SIP示例
    Fig. 6  Illustration of LBP-SIP

    这项工作的主要改进就是降低了特征的维度, 提高了特征抽取的效率.据报道, 其处理速度是LBP-TOP的2.8倍[37].在留一人验证的实验设置下, LBP-SIP在5类CASME Ⅱ数据集和SMIC数据集上的最高分类准确率分别为66.40 %和64.02 %; 在CPU为Core i7、内存为8 GB的实验环境下, CASME Ⅱ中序列的LBP-TOP平均抽取时间是18.289 s, LBP-SIP抽取时间为15.888 s.前者的识别时间为0.584 s, 后者为0.208 s.

    3.1.4   基于Delaunay时域编码的识别方法

    Lu等[38]提出了基于Delaunay三角化的时域编码模型 (Delaunay-based temporal coding model, DTCM).利用主观表观模型 (Active appearance model, AAM) [39]对人脸图像序列进行标定.由于微表情自身的变动幅度很小, 仅用关键点不能很好地描述表情变化, 因此利用特征点将序列图像归一化, 得到特征点位置固定的人脸图像序列. Delaunay三角化[40]可以根据给定的特征点, 把人脸分割为一系列三角形区域.因为特征点已经过归一化, 因此每个三角区域的大小和形状是相同的, 具有相同的像素数量.通过对比相同区域随着时间的变化, 可以刻画微表情的动态过程.具体地, 对第$i$帧的第$j$个三角区域, 计算如下特征:

    $ {x_{i, j}} = \frac{{\sum\limits_{k = 1}^m {({T_{i, j, k}}-{T_{i-1, j, k}})} }}{m} $

    (1)

    若以${{ T_{i, j}}}$表示序列中第$i$帧的第$j$个三角区域的特征向量, $T_{i, j, k}$是该向量的第$k$个像素, $m$用于归一化计算. $x_{i, j}$计算每个相同三角区域在相邻帧中特征向量之差的累加值.显然, 正值的$x_{i, j}$表示连续帧相同区域灰度增强, 负值表示灰度减弱, 这可能是表情变化或整体照明的变化引起的.因此, 为了进一步编码该特征, 需要选定合理的阈值:

    $ \begin{array}{l} \tau _i^ + = \frac{a}{R}\sum\limits_{r = 1}^R {{\rm{mean}}} \{ x_{i, j, r}^ + \} \\ \tau _i^-= \frac{a}{R}\sum\limits_{r = 1}^R {{\rm{mean}}} \{ x_{i, j, r}^-\} \end{array} $

    (2)

    其中, $x_{i, j, r}^+$, $x_{i, j, r}^-$表示第$r$段序列的第$i$帧的第$j$个区域的特征值, 加号上标表示正值的特征, 减号上标表示负值的特征; $R$是序列数量, $a$是可调参数. $\tau_i^+$, $\tau_i^-$表示基于序列特征定义的阈值.对于第$i$帧的所有三角区域的特征, 特征大于$\tau_i^+$的区域用1表示, 特征小于$\tau_i^+$的区域用$-1$表示, 两者之间的用0表示.这种方式可以用很低的维数表示每帧的表情变化, 再利用支持向量机或者随机森林就可以很好地进行识别.

    这种方法引入了主观表观模型 (AAM) 和Delaunay三角化对人脸进行区域的划分, 只编码含有重要信息的区域, 理论上识别能力很强.但是在所有图像上使用AAM进行标注可能面临标注结果不稳定的问题, 从而破坏后续处理的有效性.

    3.1.5   基于时空梯度特征的识别方法

    Polikovsky等[28]使用一种梯度特征描述面部的时空局部动态. 1) 使用主观形状模型定位人脸关键点, 根据常用FACS编码把人脸分割为12个区域; 2) 对每个区域的图像进行一些预处理, 包括归一化和平滑处理.上述过程得到预处理完毕的12个时空块, 每个块对应一个面部局部区域.

    在一个微表情序列中, 可以在每个像素点计算三个方向$(X, Y, T)$上的梯度.计算12个区域的每一帧中所有像素的梯度并量化, 就能构建该区域中的梯度直方图, 并作为该微表情图像序列的特征.

    在获得该特征后, 假定每一帧微表情图像只包含一个动作单元 (Action unit, AU), 即FACS的具体编码, 则该动作单元就可以作为图像的标注.在所有图像的梯度直方图特征空间上使用$k$-均值算法进行聚类, 类别数量设置为所有图像中出现过的动作单元的数量.对每一个聚类簇, 将多数特征对应的动作单元作为类簇的真实标注.

    对一个新的需要测试的微表情图像序列, 依照上述方式提取每帧的梯度直方图特征, 用上述类簇判定每一帧的动作单元, 再使用加权投票的方式决定该微表情序列的动作单元和对应情绪.

    该工作的特征比较简单, 是平面梯度直方图的一种拓展.模型构建过程采用了较为复杂的过程, 可以看作一种用$k$--均值算法辅助构造的$k$近邻模型, 该算法一定程度上对标注的正确性比较鲁棒, 对少量的错误标注不敏感.同时也存在局限, 虽然微表情牵涉的面部肌肉数量较少, 但假设只有一个动作单元仍有可能不成立.此时模型的识别结果是次优的.

    3.1.6   基于Gabor特征的识别方法

    Wu等[41]通过Gabor特征描述每一帧的面部图像, 并用GentleSVM识别微表情.首先在视频的每一帧中抽取Gabor特征:

    $ {\Psi _{u, v}}(\boldsymbol{z}) = \frac{{{{\left\| {{k_{u,v}}} \right\|}^2}}}{{{\sigma ^2}}}{{\rm{e}}^{ - \frac{{{{\left\| {{k_{u,v}}} \right\|}^2}{{\left\| \boldsymbol{z} \right\|}^2}}}{{2{\sigma ^2}}}}}\left( {{{\rm{e}}^{i{k_{u, v}}\boldsymbol{z}}}-{{\rm{e}}^{-\frac{{{\sigma ^2}}}{2}}}} \right) $

    (3)

    其中, ${\boldsymbol{z}}$是一个二维向量, 表示点坐标, $k_{u, v}$和$\sigma$都是特征参数. $\Psi_{u, v}({\boldsymbol{z}})$表示抽取的Gabor特征.

    对于一段新的视频, 用上述训练得到的模型判定每一帧的情绪, 计算最长的连续具有相同情绪的帧序列.通过视频的帧率可以计算每一段情绪的持续时间, 根据微表情的定义, 持续时间在1/25 $\sim$ 1/5 s之间的是微表情片段, 长于1/5 s的是常规表情.丢弃常规表情后对微表情进行进一步的分类.

    这一方法的优点在于自动完成了图像序列的分割, 相比使用滑动窗口截取视频段再分类的方法降低了计算代价; 另外Gabor特征也具有较强的描述能力, 在很多人脸相关的问题中已经得到过验证.但是也存在一些问题, 首先模型需要训练基于图像的微表情模型, 而目前的微表情数据集是针对视频的, 如果使用常规表情数据集, 则模型正确性可能较差; 在帧分类阶段, 部分帧可能被分错, 从而导致一个普通表情被分为多段, 则较短的时间会致使模型错判为微表情.

    Zhang等[42]也采用Gabor作为微表情的特征, 采用CASME Ⅱ作为数据集, 建立以图像为样本的模型.另外使用PCA和LDA用作维数约简和判别分析.

    3.1.7   基于颜色空间变换的特征增强

    Wang等[43]探索了颜色空间对后续特征抽取的影响, 提出了张量独立颜色空间 (Tensor independent color space, TICS).在人脸面部的图像数据中, 用RGB编码的图像的三个通道分量是高度相关的, 也就是三通道之间的互信息量接近零.因此在这样的三通道图像中进一步抽取特征 (例如常用的LBP-TOP), 则很有可能得到几乎一致的特征表达, 并不能给识别带来提升.在另一项工作[44]中, 尝试了CIELab和CIELuv两种颜色空间, 这两种颜色空间在人肤色相关应用中有着较好的应用.实验证明颜色空间的转换带来了识别效果的提升.为了进一步利用这种效应, 他们试图通过算法寻找最优的颜色空间变换.首先将图像序列看作4阶张量$\mathcal{X}\in$ $\boldsymbol{R}^{I_1 \times I_2 \times I_3 \times I_4}$, 其中$I_1$, $I_2$是图像的尺度, $I_3$是图像序列的帧数, $I_4$是颜色通道的数量.则问题转换为寻找一个张量在第4阶上的投影$U_4^{\rm T}$, 使得变换$\mathcal{Y}_i$ $=$ $\mathcal{X}_i$ $\times_4$ $U_4^{\rm T}$后得到最优的颜色空间.这一问题可以通过独立成分分析完成.

    在此基础上, 比较了RGB空间上的LBP-TOP算子和优化后的颜色空间上的LBP-TOP算子, 证明颜色空间的优化给识别效果带来了提高.

    3.1.8   基于STLBP-IP的识别方法

    面部图像积分图 (Integral projection) 是计算机视觉中的一种常用技术, 通过对面部图像的像素进行横向和纵向的累加, 得到与宽度和高度相同维度的特征向量.可以进行面部器官的定位, 人眼状态的识别等.

    Huang等[45]拓展了积分图技术用于微表情的识别, 提出了时空局部二值模式积分图 (Spatiotemporal local binary pattern with integral projection, STLBP-IP).首先将一段图像序列中所有帧减去某一无表情的图像, 得到一段差异图像的序列.对每一帧图像进行横向和纵向的累加求和, 得到两个方向的积分向量${{ \boldsymbol{V}_t}}$和${{\boldsymbol{H}_t}}$, 其中$t$是帧序号.在一维的积分图上计算一维局部二值模式 (1DLBP) [46]

    $ {\rm{1DLB}}{{\rm{P}}_{t, W}} = \sum\limits_P \delta ({S_t}({z_p})-{S_t}({z_c})){2^p} $

    (4)

    其中, 参数$W$为线性掩模, 作用类似于平面LBP中的半径长度; $\delta$是狄拉克函数; $z_c$是掩模中心像素, $S_t (z_c)$是其对应的值; $z_p$是$z_c$的相邻像素.在每一帧的累加积分图上计算1DLBP, 得到特征$f_{XY}$, 这是对平面图像的描述.

    为了加入随时间变化的信息, 对每一帧的水平积分向量${{ \boldsymbol{H}_t}}$进行拼接, 得到$h \times T$的积分图图像, 其中$h$是图像高度, $T$是图像帧数.对该图像进行归一化后计算平面LBP特征, 得到特征$f_{YT}$.

    结合$f_{XY}$和$f_{YT}$可以共同描述微表情序列, 再使用支持向量机就完成了微表情的检测和分类任务.

    3.1.9   基于FDM的识别方法

    Xu等[47]以光流场为描述微表情运动模式的基础特征, 并进一步提取更精简表达的形式, 提出了面部动力谱特征 (Facial dynamics map, FDM).

    首先抽取两帧之间的稠密光流场.在稠密光流场$(U_t, V_t)$的基础上, 进一步去除面部平移造成的误差.具体地, 定义目标

    $ \begin{array}{l} \Delta {u_t} = \arg {\max _u}\Phi ({U_t} + u \times I)\\ \Delta {v_t} = \arg {\max _u}\Phi ({V_t} + v \times I) \end{array} $

    (5)

    其中, $U_t$和$V_t$分别是第$t$帧图像和第$t+1$帧图像的光流场的水平和竖直分量, ${I}$是所有元素为1的矩阵, $\Phi$统计矩阵中0元素的数量.即寻找水平和竖直方向上的修正量, 使得修正后的光流场中大多数元素为0, 这是基于微表情中面部绝大部分区域是静止的这样的假设.这样的预处理能力在像素级别上对面部进行精细化的对齐.

    由于面部肌肉尺度的限制, 在局部空间和时间中, 运动向量应当是趋同的.因此把抽取出的光流场进一步分割成小的时空立方体, 在每个立方体中使用一种迭代的算法抽取时空立方体的主方向.用$w_{i, j}$表示立方体$i$, $j$坐标的光流运动向量, 则主方向的目标

    $ {\xi ^*} = \arg \;\mathop {\max }\limits_{\left| \xi \right|{\text{ = }}1}\sum\limits_{i, j} {\langle \xi, {\boldsymbol{w}_{i, j}}\rangle } $

    (6)

    其中, ${{\boldsymbol{w}_{i, j}}}$取自$\tau$个候选方向向量$\{{{\boldsymbol{w}_{i, j}^t}}\}_{t=1}^\tau$, $\tau$是当前时空立方体的帧数. ${{\boldsymbol{w}_{i, j}^t}}$是上述修正后的光流场$(U_t, V_t)$的$(i, j)$坐标上的运动向量. $\tau$表示该时空立方体包含的帧数.上述目标选取了一个时空块中最主要的运动模式.但上述目标方程的解需要遍历所有可能性, 计算代价过大.因此采用了一种迭代的方式求解问题, 实验证明迭代收敛非常快.

    该方法基于光流场的计算, 能较好地反应微表情的运动模式, 且计算的面部动力谱特征容易可视化, 可以对微表情的深层理解起一定的辅助作用.作者提供了核心算法的代码2.其瓶颈在于稠密光流场的计算时间比较长, 不适合做实时、大规模的微表情识别.

    2http://www.iipl.fudan.edu.cn/%7Ezhangjp/sourcecode/fdm.py

    3.1.10   基于MDMO的识别方法

    Liu等[48]在视频序列中抽取主方向, 并进一步计算面部分块中的平均光流特征, 提出了主方向平均光流特征 (Main directional mean optical flow feature, MDMO).

    在进一步提取基于光流场的特征之前, 首先对面部图像帧进行操作.先利用DRMF模型[49]定位每一帧的人脸关键点, 然后对第2帧起的每一帧光流场进行修正, 寻找一个仿射变换矩阵, 使得每一帧的面部特征点在该矩阵变换下与第1帧的面部关键点差异最小化.

    在特征抽取中, 定义了一种基于关键点的人脸分块规则, 将面部分割为互不重叠的36个区域.同时, 逐帧抽取光流场, 然后在每一分块中提取主方向.与Xu等的工作[47]不同, 他们计算每个分区中最类似的光流场运动向量的平均值, 并作为该区域的运动特征.具体地, 他们在每个分块中计算HOOF (Histrogram of oriented optical flow) 特征[50], 将所有光流方向向量量化到8个区间, 然后作统计直方图.并基于此计算:

    $ \mathit{\boldsymbol{\bar u}}_i^k = \frac{1}{{|{B_{\max }}|}}\sum\limits_{\mathit{\boldsymbol{u}}_i^k(p) \in {B_{\max }}} {\mathit{\boldsymbol{u}}_i^k} (p) $

    (7)

    其中, $p$表示一确定坐标, ${{\boldsymbol{u}}^k_i}(p)$表示第$k$帧中第$i$个区域中坐标为$p$的点的方向向量, ${B_{\max}}$是光流统计直方图中数量最多的区间对应的方向向量集合, ${|B_{\max}|}$是其元素数量. ${\bar{\boldsymbol{u}}_i^k}$是数量最多的方向的向量的平均.由此, 可以对每个区域计算一个二维的方向向量, 并进行归一化的运算.最后, 把方向特征分解为幅度和方向都是36维的两部分, 获得最终的72维向量.

    得到的向量可以用支持向量机建模, 用于处理微表情的检测和识别任务.

    3.1.11   基于判别式张量子空间分析的识别方法

    Wang等[51]将微表情看作三维时空中的张量, 通过判别式的子空间学习方法 (Deterministic tensor subspace analysis) 学习最优的特征表达, 然后使用极限学习机 (Extreme learning machine, ELM) [52]进行模式分类.

    将微表情图像序列看作三阶张量${\mathcal{X}}$ $\in$ ${{\bf \boldsymbol{R}}}^{I_1\times I_2 \times I_3}$, 其中$I_1 \times I_2$是图像的尺度, $I_3$是帧数.由于微表情序列可能有不同的帧数或图像尺度, 因此需要先使用插值算法得到维度相同的张量.如果对这些张量进行投影, 得到

    $ {{\cal Y}_i} = {{\cal X}_i}{ \times _1}U_1^{\rm{T}}{ \times _2}U_2^{\rm{T}}{ \times _3}U_3^{\rm{T}} $

    (8)

    投影的目的是使得变换后的张量${\mathcal{Y}}_i$具有尽量大的类间距离和尽量小的类内距离, 具体地, 优化如下目标函数:

    $ {\max _{{U_1}, {U_2}, {U_3}}}\frac{{\sum\limits_{i, j}^C {\left\| {{{\overline {\cal Y} }_i}-{{\overline {\cal Y} }_j}} \right\|_F^2} {B_{ij}}}}{{\sum\limits_c^C {\sum\limits_{i, j}^{{N_c}} {\left\| {{\cal Y}_i^c-{\cal Y}_j^C} \right\|_F^2} } W_{ij}^C}} $

    (9)

    其中, 分子是所有${\mathcal{Y}}$ (变换后的样本) 的类间距离, 分母是各个类的类内距离. $C$是类别数量, $\bar {\mathcal{Y}}_i$表示第$i$个类的算术平均; $N_c$是第$c$个类的样本数量; $B_{ij}={\exp}(-\|\bar {\mathcal{X}}_i-\bar {\mathcal{X}}_j\|^2_F)$, $W_{ij}^c={\exp}(-\|{\mathcal{X}}_i^c-{\mathcal{X}}_j^c\|^2_F)$.

    上述优化问题可以转变成广义特征值问题, 并进行迭代求解.求得变换矩阵$U_1$, $U_2$, $U_3$, 对于新的测试样本, 使用求得的矩阵对其进行变换, 得到新的特征表达后使用极限学习机进行模式分类.

    3.1.12   基于稀疏张量典型相关性分析的识别方法

    Wang等[53]通过张量表示微表情序列及其LBP特征, 并在张量上进行典型相关性分析 (Sparse tensor canonical correlation analysis), 学习微表情序列本身与其LBP特征的关系.将两种变换后的表达作为最终特征, 并利用最近邻算法进行分类, 性能取得了进一步的提升.

    该方法融合了计算机视觉的特征和比较强的理论算法, 比单一的特征工程更着重于实际问题.

    3.1.13   基于MMPTR的识别方法

    Ben等[54]把微表情图像序列看作三阶张量, 并寻找最优投影矩阵.试图优化类间拉普拉斯散度 (Laplacian scatter) [54] $\phi_b^{(n)}$与类内拉普拉斯散度$\phi_w^{(n)}$之差.

    对于新的样本, 利用学习得到的投影矩阵对其进行变换, 得到新的张量表达形式, 然后用两种方式对其进行分类.

    在第一种分类方式中, 寻找与新样本欧氏距离最接近的已有标签样本, 并将已有标签样本的标签作为新样本的分类.即张量空间中的最近邻方法.

    在第二种分类方法中, 先将变换后的张量向量化, 再在已有标签样本中进行最近邻搜索.

    3.1.14   基于RPCA的识别方法

    Wang等[55]通过RPCA将微表情分解成静态面部图像和动态微表情过程.假设有一段微表情序列$V\in \boldsymbol{R}^{h\times w \times f}$, 其中$h$和$w$是图像的高和宽, $f$是视频的帧数.由于微表情的动作幅度很小, 可以分解为没有表情的部分和微表情变化的部分.用$D$ $\in$ ${\bf \boldsymbol{R}}^{hw\times f}$表达图像序列, 即$D$有$h \times w$行和$f$列.假设$D=A + E$, 目标优化

    $ \begin{array}{l} \mathop {\min }\limits_{A, E} {\rm{rank}}(A) + {\left\| E \right\|_0}\\ {\rm{s}}.{\rm{t}}.\quad D = A + E \end{array} $

    (10)

    即最小化$A$的秩与$E$的0范数之和; 这是非凸的优化问题, 可以转换为最小化$A$的$*$范数与$E$的1范数之和

    $ \begin{array}{l} \mathop {\min }\limits_{A, E} {\left\| A \right\|_*} + \lambda {\left\| E \right\|_1}\\ {\rm{s}}.{\rm{t}}.\quad D = A + E \end{array} $

    (11)

    通过拉格朗日法可以解该问题.上述过程中得到的$E$在这里可以表征微表情的动态.在此基础之上, 使用一种改进的算子局部时空方向特征 (Local spatiotemporal directional feature, LSDF) [55]提取微表情动态的特征, 并用支持向量机进行分类.

    针对微表情的分类任务提出的算法, 其中不少可能也可以应用到检测任务中, 但并没有经过实验的进一步验证.

    3.2.1   基于CBP-TOP的分类方法

    中心化二值模式 (Centralized binary pattern, CBP) [56]是一种针对局部二值模式的改进.它的计算方式与LBP类似, 以当前像素为中心点, 作半径为$R$的圆, 在圆周上取均匀分布的$P$个点, 得到对应位置上的$P$个像素.与LBP不同的是, 像素的取值是中心点与周围相邻点的平均值之差, 因此对应二进制编码长度大约是LBP的一半, 直方图维度更低.另外编码过程中增加了一个阈值作为参数, 如果该像素值之差的绝对值超过预设阈值则记作1, 否则记0, 得到$P/2+1$位的二进制数. 图 7展示了一个CBP计算的例子, 其中$R=1$, $P=8$, 其对应的图像块是图 3中的$3\times 3$像素矩阵, 其阈值参数为50, 得到的二进制数是$(01110)_2$.

    图 7  中心化二值模式计算过程
    Fig. 7  Calculation process of centralized binary pattern

    CBP相对于LBP的改进之处在于: 1) 可以获得更低维度的特征; 2) 考虑了中心点与周围像素的关系, 增加了一些信息量.

    Guo等[57]提出用CBP-TOP算子代替LBP-TOP, 实验取得了更好的效果. CBP-TOP是CBP特征在三维时空的拓展, 即在$XY$平面、$XT$平面、$YT$平面分别计算CBP特征, 然后拼接得到CBP-TOP特征.使用极限学习机对得到的特征进行模式分类, 处理微表情的分类问题.

    3.2.2   基于Riesz小波变换的识别方法

    Oh等[58]使用Riesz小波函数将图像帧进行小波变换:

    $ \begin{array}{l} {f_{{\rm{mono}}, k}}(x) = \\ \;\;\;\;\;\;\;\;({\psi _k}*f(x), {R_1}\{ {\psi _k}*f\} (x), {R_2}\{ {\psi _k}*f\} (x)) \end{array} $

    (12)

    其中, $f (x)$是输入图像, $R_1$, $R_2$是Riesz操作符, $\psi_k$是小波函数, $k$是小波尺度.

    上述过程可以表达为

    $ r = I + i{R_x} + j{R_y} $

    (13)

    其中, $I=\psi_k * f (x)$, $R_x=R_1\{\psi_k * f\}(x)$, $R_y=R_2\{\psi_k * f\}(x)$, $*$表示卷积操作.由此可以计算变换后图像的幅值$A_r$、方向$\phi_r$和相位$\theta_r$.

    $ \begin{array}{l} {A_r} = \sqrt {{I^2} + R_x^2 + R_y^2} \\ {\phi _r} = \arctan \frac{{\sqrt {R_x^2 + R_y^2} }}{I}\\ {\theta _r} = \arctan \frac{{{R_y}}}{{{R_x}}} \end{array} $

    (14)

    在上述三种中间特征的基础上, 分别构建三者的统计直方图, 就可以得到最终的特征.由于三者并不是来自同一数据分布, 因此使用了多核学习进行微表情的建模.

    3.2.3   基于运动模式放大的分类方法

    微表情识别的两大难点在于持续时间短和动作幅度小.前者已经通过高帧率摄像机得到一定的解决, 后者依靠精细的预处理和高分辨率的特征表达来解决. Li等[59]使用欧拉视频放大 (Eulerian video magnification, EVM) [60]技术将微小的动作幅度增强放大, 再通过一些常规的识别技术对放大后的微表情进行识别.

    欧拉视频放大技术是一种计算机图形学技术, 用于视频中微小变化的捕捉和放大.其原理如下:一段视频可以通过拉普拉斯变换得到其频域表示, 不同尺度的运动对应着不同频域的频率分量.因此通过对某些频率波段施加带通的放大滤波器就可以增强对应尺度的运动.

    具体地, 使用截断频率是[0.3, 4] Hz的无限脉冲响应 (Infinite impulse response, IIR) 滤波器对视频进行处理, 对微表情进行定向地放大.然后尝试了LBP-TOP、HOG-TOP、HIGO-TOP三种特征提取微表情的表示.需要注意的是, 这里处理的视频需要是微表情数据, 因此这种方法针对解决的是微表情分类的问题.

    Chavali等[61]也使用了这种动作放大技术.

    3.2.4   基于特定点跟踪的特定动作单元识别

    Yao等[62]试图解决特定AU的识别, 即动作单元12 (Lip corner puller) 和动作单元16 (Lip corner depressor) 的识别.这两种动作单元对应着愉悦和厌恶两种重要的情绪, 因此有一定的应用价值.他们的方法首先使用一套精细定义的规则定位人脸, 再基于人脸寻找嘴角的位置.用TLD (Tracking-learning-detection) 跟踪器[63]追踪嘴角的位置, 识别嘴角的运动模式, 就可以区分这两种动作单元.

    微表情的检测任务在逻辑上要比分类任务更优先, 只有通过检测任务筛选的片段才会进行进一步的分类.因此检测算法的质量直接关系到后续处理的有效性.在检测任务中, 可以再细分为两种.第一种是一个简单的二分类问题, 给定一段较短的面部图像序列, 算法只要判断该序列是否是一个微表情即可.这与之前介绍的方法类似; 第二种则更适用于实际应用, 给定一段长视频, 算法需要从中找出微表情开始和结束的时间点.微表情的阶段分割任务可以看作是后者的进一步工作, 但目前针对该问题的工作很少.

    3.3.1   基于几何形变建模的检测方法

    Xia等[64]通过对几何形变进行建模, 解决微表情检测的问题.对于一段人脸图像序列, 首先使用STASM (Active shape models with SIFT descriptor) [65]进行关键点的定位, 得到每帧的面部形状.为了消除头部移动造成的变化, 将每帧与第1帧进行Procuste变换[30], 即通过平移、缩放、旋转最小化与第1帧之间的误差, 完成这一处理后的差别就是面部形变造成的.

    对每一帧的特征点, 计算两部分特征, 即

    $ \begin{array}{l} \boldsymbol{v}_i^b = ({\boldsymbol{z}_i}-{\boldsymbol{z}_b})\\ \boldsymbol{v}_i^d = ({\boldsymbol{z}_i}-{\boldsymbol{z}_a}) \end{array} $

    (15)

    其中, ${{\boldsymbol{z}_i}}$是第$i$帧的面部形状向量, ${{\boldsymbol{z}_b}}$是基线面部形状向量, ${{\boldsymbol{z}_a}}$是时间区间为$[i-L/2, ~i+L/2]$的帧中的面部形状向量的算术平均.这三者的维度都是面部特征点数量的两倍, 对应每个特征点的二位平面坐标.这两部分特征分别表达了瞬时表情自身的绝对动态及其在一段序列中的相对动态.将两种特征融合得到

    $ {v_i} = \frac{{\beta v_i^b}}{{\sigma ({v^b})}} + \frac{{(1-\beta )v_i^d}}{{\sigma ({v^d})}} $

    (16)

    其中, $\sigma$表示在整段序列之中取方差, $\beta$和$1-\beta$分别是两部分的权重.该式计算的$v_i$表示两部分差异特征的加权平均.

    随后通过随机过程对每一帧是否含有微表情进行建模:

    $ {p_{t + 1}}(i) = \alpha \sum\limits_{j \in {\Omega _{{f_i}}}} {{p_t}} (j)\Phi (i, j) + (1-\alpha ){p_0}(i) $

    (17)

    其中, $\Phi (i, j)$是基于上述特征计算的转移概率, 由训练数据集估算得到; $\Omega_{f_i}$是第$i$帧的前后近邻; $p_t (i)$表示第$t$轮计算中第$i$帧含有微表情的概率, 迭代计算20次后根据概率取阈值判定是否含有微表情.

    3.3.2   基于特征差异的检测方法

    计算面部图像连续帧的计算机视觉特征, 考察短时间内的特征变化, 常规表情与微表情的变化应当是不同的. Moilanen等[66]基于这样的原则使用手工设计的特征和准则处理微表情的检测问题.

    把面部图像分割成$6\times 6=36$个图像块, 在每个图像块中计算LBP直方图特征.为了衡量一帧图像在一段图像序列中的突变程度, 计算与当前帧 (Current frame, CF) 各相差$k$帧的前后两帧 (分别为Tail frame (TF) 和Head frame (HF)) 的特征平均值, 通过CF的特征与该平均值的卡方距离衡量当前帧在视频中的变化程度

    $ \chi (\boldsymbol{P}, \boldsymbol{Q}) = \sum\limits_i {\frac{{{{({P_i}-{Q_i})}^2}}}{{{P_i} + {Q_i}}}} $

    (18)

    其中, ${\boldsymbol{P}}$和${\boldsymbol{Q}}$是两个待计算差异的直方图向量, $i$是直方图的区间序号.

    对于每一帧, 以差异值最大的三分之一的图像块的差异和作为该帧的进一步特征$F_t$ ($t$是帧序号), 并考虑前后帧之间的关系, 计算

    $ {C_t} = {F_t}-\frac{1}{2}({F_{t + k}} + {F_{t-k}}) $

    (19)

    即对差异序列$F_t$进行时间平滑.经过上述过程计算得到的特征$C_t$可以表征人脸图像序列的变化程度.在此基础上, 通过手工选择阈值$T=C_{{\rm mean}}+p$ $\times$ ${(C_{\max}-C_{{\rm mean}})}$就可以判定微表情的出现, 其中$p$是一个[0, 1]之间的百分数, ${C_{\max}}$和$C_{{\rm mean}}$分别表示$C_t$序列的最大值和平均值.

    这种方法比较巧妙, 实验证明具有效果, 但是设计思路较为复杂, 同时需要手工设定参数, 在实际应用中可能需要重新设定参数、阈值等.

    3.3.3   基于光流场积分的阶段分割方法

    Patel等[67]试图对一段微表情图像序列标定其起始点 (Onset)、顶点 (Apex) 和终止点 (Offset).首先用DRMF (Discriminative response map fitting) 模型[49]定位人脸的关键点, 再基于FACS的规则将关键点进行分组, 即相同面部器官上的关键点归为同一组, 例如左眉毛、右眉毛、嘴部等.再抽取逐帧之间的光流场, 则每个特征点都分配到对应的运动向量, 每一分组的平均运动可以由其中点的运动向量取算术平均获得.对每一分组, 计算其随着时间的运动幅值的累加值, 通过寻找累加值的顶点, 则可以得到其对应的动作单元的顶点.在顶点的基础上, 寻找起始点可以看作一个优化问题:在起止点之前的帧到顶点所在帧, 其运动幅值累加值在逐渐增长; 而起始点所在帧开始, 到顶点所在帧, 其运动幅值是逐渐减小的.通过这一准则, 可以寻找到合理的起始点位置.终止点位置的寻找基于这样的规则:顶点之后第一个与起始点的点积为负的帧即是终止点.

    3.3.4   基于特征差异的微表情顶点定位

    Yan等[68]利用特征差异定位微表情顶点, 具体使用了两种特征.

    在基于受限局部模型 (Constrained local model, CLM) [69]的方法中, 利用该模型定位人脸的66个关键点.从第2帧起计算每一帧的特征向量相对第1帧特征向量的累计偏差, 寻找该偏差的峰值, 则对应为微表情的顶点.

    在基于局部二值模式的方法中, 先利用CLM定位人脸关键点, 并划分出若干关键区域, 计算关键区域中的局部二值模式直方图作为每帧的特征向量.类似地, 计算每帧的特征向量与第1帧的相关性

    $ d = \frac{{\sum\limits_{i = 1}^{nBins} {{h_{1i}}} \times {h_{2i}}}}{{\sqrt {\sum\limits_{i = 1}^{nBins} {h_{1i}^2} \times \sum\limits_{i = 1}^{nBins} {h_{2i}^2} } }} $

    (20)

    其中, ${\boldsymbol{h}_{1}}$和${\boldsymbol{h}_{2}}$分别是两个不同的直方图向量, $i$是直方图区间序号, $nBins$是直方图长度, $d$是两个直方图向量的相关性, 其峰值对应微表情的顶点.

    这种方法标定的顶点与人识别结果对比, 取得了较好的效果.

    3.3.5   基于Strain Tensor的检测方法

    Shreve等[27, 70]通过计算运动强度来检测微表情.

    首先使用主观形状模型定位面部特征点并切割出小的矩形区域.然后, 计算每个区域中的光流场, 并以此为基础计算张力张量 (Strain tensor), 用于度量一块区域中的人脸部位相对于时间的变化强度.具体地, 首先计算两帧图像之间的光流场, 得到每个点的运动向量$[u, v]^{\rm T}$, 并计算该点的有限张力张量 (Finite strain tensor)

    $ \in = \left[{\begin{array}{*{20}{c}} {\frac{{\partial u}}{{\partial x}}}&{\frac{1}{2}(\frac{{\partial u}}{{\partial y}} + \frac{{\partial v}}{{\partial x}})}\\ {[3mm]\frac{1}{2}(\frac{{\partial v}}{{\partial x}} + \frac{{\partial u}}{{\partial y}})}&{\frac{{\partial v}}{{\partial y}}} \end{array}} \right] $

    (21)

    其中, ${\boldsymbol{u}}$, ${\boldsymbol{v}}$是每个点的运动向量. $ \frac{\partial {\boldsymbol{u}}}{\partial x}$, $\frac {\partial {\boldsymbol{u}}}{\partial y}$, $ \frac{\partial {\boldsymbol{v}}}{\partial x}$, $\frac{\partial {\boldsymbol{v}}}{\partial y}$分别表示水平和竖直方向上的运动向量对水平和竖直方向的偏导.上述矩阵的元素之和称为张力幅值, 用于表征该点的运动强度.因此, 可以通过一块区域中所有像素位置上的张力幅值来考察面部的局部动作.

    这种方法可以检查微表情是否存在, 也可以用来区分常规表情与微表情.然而这种方法没有使用机器学习技术, 需要通过人工选定阈值.在训练数据较大的情况下不适用, 而当训练数据较小时, 阈值选择的有效性又很难保障.

    Liong等[71]使用类似的方法, 加入时间平滑的技巧.即对每一帧的每个像素, 计算前后若干帧在该点的张力张量的平均值.将由此得到的特征用支持向量机建模, 进行微表情的检测和分类.

    为了给出现有方法的直观比较, 表 2选取了在公共数据集CASME和CASME Ⅱ上验证过的若干方法的结果作为对比.由于数据集的类别间分布并不均衡, 现有工作通常选择其中的几类进行验证; 不少工作选择``留一人验证"的方式, 即每次选出一名被试的样本作为测试集, 其余用作训练.也有部分工作选择了其他的验证方式. 表 2注明了每个结果使用的数据集类别数量, 以及相应的验证方式.其中LBP-TOP、STCLQP、LBP-SIP的结果取自文献[72]; DTSA的验证方式是在每个类别中随机选15个样本作为训练集, 其余作为测试集; MMPTR的验证方式是随机选15个样本作为训练集, 其余作为测试集; 其余方法使用留一人验证.

    表 2  现有微表情识别方法的识别准确率 (%) 对比
    Table 2  Recognition accuracy (%) of existing approaches on common datasets
    方法 CASME CASMEⅡ
    LBP-TOP[23] 37.43(4类) 46.46(5类)
    STCLQP[36] 57.31(4类) 58.39(5类)
    LBP-SIP[37] 36.84(4类) 46.56(5类)
    DTCM[38] 64.95(4类) N/A
    TICS[43-44] 61.86(4类) 62.30(4类)
    STLBP-IP[45] N/A 59.51(5类)
    FDM[47] 56.14(5类) 45.93(5类)
    MDMO[48] 64.07(4类) 57.16(4类)
    DTSA[51] 46.90(5类) N/A
    MMPTR[54] N/A 80.2(4类)
    RPCA+LSDF[55] N/A 65.45(4类)
    Riesz小波[58] N/A 46.15(4类)
    EVM[59] N/A 67.21(4类)
    下载: 导出CSV 
    | 显示表格

    Pfister等[23]是微表情识别最早的尝试者之一, 他们将传统的面部表情的识别方法应用到微表情识别中, 根据微表情本身的特性做了一定的适应.后期不少工作都致力于在特征的层面上改进微表情的识别性能[36-37, 57].这些工作都取得了不错的性能改进, 其共性在于从时空纹理的角度挖掘面部表情的变化, 具有很强的描述能力, 但是计算得到的特征的可解释性欠佳.

    近年来出现了不少从运动角度描述微表情的工作[47-48, 67], 在保证识别性能的前提下, 给出了良好的可解释性.然而, 基于稠密光流场的特征耗时较长, 对于微表情这样仅持续很短时间的面部运动显得代价过大, 几乎无法应用到实时检测中.

    除了上述从人工特征出发的工作, 我国的王甦菁、贲晛烨分别进行了不少从理论算法上优化微表情特征表达的工作[44, 51, 53-54].这些方法具有很强的理论性, 同时不只适用于微表情的特征表达, 也可用于普通面部运动甚至其他计算机视觉的识别分类问题.

    上述两大类方法并不冲突, 而是可以共同使用.例如文献[44]在TICS变换后的图像上提取LBP-TOP特征; 文献[54]也可用于在已有特征下进一步计算表达.

    此外, 早期工作的假设较为简单, 只在分割好的面部表情序列上进行检测和分类, 而微表情分割本身是一个困难的问题.近年来有不少工作研究在长视频中检测微表情并进行进一步分割[64, 66-67], 这对于微表情识别走向实用化是必不可少的.

    表 3比较了现有的微表情学习算法.

    表 3  现有微表情识别方法
    Table 3  Existing approaches for microexpression recognition
    方法 预处理方法 特征表达 学习算法 解决问题
    文献[23] ASM、LWM、TIM LBP-TOP SVM、RF、MKL 检测/分类
    文献[27, 70] ASM Strain tensor 阈值 检测
    文献[28] ASM、面部分块 时空梯度 近邻投票 检测/分类
    文献[36] ASM、TIM STCLQP SVM 检测/分类
    文献[37] N/A LBP-SIP SVM 检测/分类
    文献[38] AAM DTCM SVM、RF 检测/分类
    文献[41] ASM Gabor GentlSVM 检测/分类
    文献[42] N/A Gabor LDA、PCA、SVM 分类
    文献[43-44] ASM TICS+LBP-TOP SVM 检测/分类
    文献[45] N/A STLBP-IP SVM 检测/分类
    文献[47] 光流场修正 FDM SVM 检测/分类
    文献[48] DRMF、光流场对齐 MDMO SVM 检测/分类
    文献[51] N/A DTSA变换 ELM 检测/分类
    文献[53] ASM STCCA 最近邻 检测/分类
    文献[54] N/A MMPTR变换 最近邻 检测/分类
    文献[55] ASM、面部分块 RPCA+LSDF SVM 检测/分类
    文献[57] 面部检测、分割 CBP-TOP ELM 分类
    文献[58] N/A Riesz小波 MKL 分类
    文献[59] ASM、LWM、TIM EVM处理后提前特征 SVM 分类
    文献[62] N/A 特征点追踪 MKL 特定AU识别
    文献[64] STASM、Procuste分析 几何形变特征 随机过程计算概率 检测
    文献[66] 特征点定位 基于LBP的差异特征 阈值 检测
    文献[67] DRMF 光流场 基于规则 阶段分割
    文献[68] CLM CLM、LBP 基于规则 顶点定位
    文献[71] N/A 时间平滑的Optical Strain SVM 检测/分类
    下载: 导出CSV 
    | 显示表格

    近年来微表情识别领域涌现了大量新的研究工作, 这是对微表情的利用价值的肯定.可以预见, 未来会有更多的工作尝试进一步提高微表情的识别性能, 并逐渐将微表情识别应用到实际中.本文总结了现有技术的一些问题和未来可能的研究方向.

    利用现有数据集的一个好处是可以直接在预处理好的图像上尝试新的算法, 减轻了预处理流程的压力.然而预处理是微表情识别中非常重要的一项流程, 其重要程度应当超过普通的表情识别或其他面部信息识别, 其原因就是微表情的动作幅度很小, 且持续时间太短.现有的数据集的录制过程中, 被试位置相对稳定, 在经过进一步的对齐处理, 较容易得到高质量的图像.但在实际应用中是很难做到的, 因此针对微表情的精细化预处理值得研究.

    另外, 微表情预处理中应用到一些常见技术, 有比较多的候选项, 但是其中哪种最适合对微表情进行精细化的处理还少有研究.例如人脸关键点定位几乎在所有工作中都会涉及, 候选技术有ASM、AAM、DRMF等; 又如帧数对齐, 有些工作使用TIM技术, 但是Xu等[47]报道了线性插值对微表情有更好的适应性, 因为微表情帧率较高, 相邻帧之间时间间隔很短, 基于流形的插帧方式反而可能造成较线性插值更高的误差.

    确立一组对微表情有效的预处理流程, 可能在后续算法不变的情况下取得更好的效果.

    目前很多研究工作基于现有的数据集, 而数据集中的图像序列已经预先进行了分割, 因此提出的算法只需要完成检测和分类两种模式识别的任务.而实际任务中, 通常要分析长视频中对象的表情和微表情, 上述的技术模式很难处理这样的问题.最简单的弥补方式是引入滑动窗口, 对窗口内的子序列进行检测和分类.但这会极大地提升计算量, 且窗口的长度难以确定.因此, 在长视频中高效地检测微表情的出现是一项非常关键的技术, 这将构成之后进一步检测和分类的输入.这种任务和微表情序列的阶段划分有些类似, 而阶段划分需要寻找起始点、顶点和终止点.

    目前已经有一些工作尝试解决这种问题, 但也存在局限.例如Shreve等[27, 70]和Moilanen等[66]的工作都需要手工设定阈值作判断, 可能因个人差异等因素, 在真实场景中出现失效的问题. Wu等[41]对每一帧进行检测, 然后通过微表情的时间特性进行序列的区分, 在单帧识别率较低时会造成整体检测的失效.

    对于一段微表情图像序列进行分类, 识别其中的对应情绪, 是微表情最有可能的实际应用之一.由于一段微表情序列的实际时间非常短, 只有1/25 s $\sim$ 1/3 s, 对处理速度提出了很高的要求.在单机实时处理场景下, 如果不能以类似的时间对一段微表情图像序列进行分类, 就可能积累更多的待处理任务, 导致低效的系统.高效的方法总是受欢迎的, 有两种应用场景需要极端高效的处理算法: 1) 在嵌入式设备或者移动终端上, 只有非常高效的方法能胜任; 2) 将识别算法部署在服务器上, 并以服务的方式向不同的终端提供, 则高效的算法意味着更少的硬件投入.

    目前还较少有工作探讨这方面的性能, 而近期出现的一些关于光流场计算的方法虽然有着很好的识别率, 但是不可避免地在时间性能上有待提高.

    动作单元检测是常规表情识别中一项重要的子任务, 但在微表情中对动作单元进行检测面临着更大的难度.然而这并不是没有价值的.正确的识别动作单元可以作为情绪识别结果的强有力证据, 使情绪识别结果具有可解释性.另外, 心理学对微表情的各种性质仍在研究之中, 不少结论尚存在争议.动作单元级别的精细化识别, 结合可视化的标定技术, 可以作为心理学中微表情研究的重要依据, 具有跨学科辅助研究的意义.


  • 本文责任编委 赖剑煌
  • 图  1  微表情识别中的具体任务

    Fig.  1  Specific tasks in microexpression recognition

    图  2  微表数据集示例

    Fig.  2  Examples of microexpression datasets

    图  3  一个3×3的图像块及其对应的像素值

    Fig.  3  A 3×3 image patch and the corresponding pixel values

    图  4  局部二值模式计算过程

    Fig.  4  Calculation process of local binary pattern

    图  5  LBP-TOP示例[34]

    Fig.  5  Illustration of LBP-TOP[34]

    图  6  LBP-SIP示例

    Fig.  6  Illustration of LBP-SIP

    图  7  中心化二值模式计算过程

    Fig.  7  Calculation process of centralized binary pattern

    表  1  现有微表情数据集

    Table  1  Existing datasets of microexpressions

    数据集 帧率 #被试 #微表情 #非微表情 诱导方式 标注方法
    SMIC 100 6 76 76 自发 情绪
    SMIC2/HS 100 20 164 164 自发 情绪
    SMIC2/VIS 25 10 71 71 自发 情绪
    SMIC2/NIR 25 10 71 71 自发 情绪
    CASME 60 35 195 / 自发 情绪/FACS
    CASMEⅡ 200 35 247 / 自发 情绪/FACS
    USF-HD 29.7 / 100 181 模仿 微/非微表情
    Polikovsky 200 10 / / 模仿 FACS
    下载: 导出CSV

    表  2  现有微表情识别方法的识别准确率 (%) 对比

    Table  2  Recognition accuracy (%) of existing approaches on common datasets

    方法 CASME CASMEⅡ
    LBP-TOP[23] 37.43(4类) 46.46(5类)
    STCLQP[36] 57.31(4类) 58.39(5类)
    LBP-SIP[37] 36.84(4类) 46.56(5类)
    DTCM[38] 64.95(4类) N/A
    TICS[43-44] 61.86(4类) 62.30(4类)
    STLBP-IP[45] N/A 59.51(5类)
    FDM[47] 56.14(5类) 45.93(5类)
    MDMO[48] 64.07(4类) 57.16(4类)
    DTSA[51] 46.90(5类) N/A
    MMPTR[54] N/A 80.2(4类)
    RPCA+LSDF[55] N/A 65.45(4类)
    Riesz小波[58] N/A 46.15(4类)
    EVM[59] N/A 67.21(4类)
    下载: 导出CSV

    表  3  现有微表情识别方法

    Table  3  Existing approaches for microexpression recognition

    方法 预处理方法 特征表达 学习算法 解决问题
    文献[23] ASM、LWM、TIM LBP-TOP SVM、RF、MKL 检测/分类
    文献[27, 70] ASM Strain tensor 阈值 检测
    文献[28] ASM、面部分块 时空梯度 近邻投票 检测/分类
    文献[36] ASM、TIM STCLQP SVM 检测/分类
    文献[37] N/A LBP-SIP SVM 检测/分类
    文献[38] AAM DTCM SVM、RF 检测/分类
    文献[41] ASM Gabor GentlSVM 检测/分类
    文献[42] N/A Gabor LDA、PCA、SVM 分类
    文献[43-44] ASM TICS+LBP-TOP SVM 检测/分类
    文献[45] N/A STLBP-IP SVM 检测/分类
    文献[47] 光流场修正 FDM SVM 检测/分类
    文献[48] DRMF、光流场对齐 MDMO SVM 检测/分类
    文献[51] N/A DTSA变换 ELM 检测/分类
    文献[53] ASM STCCA 最近邻 检测/分类
    文献[54] N/A MMPTR变换 最近邻 检测/分类
    文献[55] ASM、面部分块 RPCA+LSDF SVM 检测/分类
    文献[57] 面部检测、分割 CBP-TOP ELM 分类
    文献[58] N/A Riesz小波 MKL 分类
    文献[59] ASM、LWM、TIM EVM处理后提前特征 SVM 分类
    文献[62] N/A 特征点追踪 MKL 特定AU识别
    文献[64] STASM、Procuste分析 几何形变特征 随机过程计算概率 检测
    文献[66] 特征点定位 基于LBP的差异特征 阈值 检测
    文献[67] DRMF 光流场 基于规则 阶段分割
    文献[68] CLM CLM、LBP 基于规则 顶点定位
    文献[71] N/A 时间平滑的Optical Strain SVM 检测/分类
    下载: 导出CSV
  • [1] Shan C F, Gong S G, McOwan P W. Facial expression recognition based on local binary patterns: a comprehensive study. Image and Vision Computing, 2009, 27(6): 803-816 doi: 10.1016/j.imavis.2008.08.005
    [2] Rahulamathavan Y, Phan R C W, Chambers J A, Parish D J. Facial expression recognition in the encrypted domain based on local fisher discriminant analysis. IEEE Transactions on Affective Computing, 2013, 4(1): 83-92 doi: 10.1109/T-AFFC.2012.33
    [3] Wang S F, Liu Z L, Wang Z Y, Wu G B, Shen P J, He S, Wang X F. Analyses of a multimodal spontaneous facial expression database. IEEE Transactions on Affective Computing, 2013, 4(1): 34-46 doi: 10.1109/T-AFFC.2012.32
    [4] 孙晓, 潘汀, 任福继.基于ROI-KNN卷积神经网络的面部表情识别.自动化学报, 2016, 42(6): 883-891 http://www.aas.net.cn/CN/abstract/abstract18879.shtml

    Sun Xiao, Pan Ting, Ren Fu-Ji. Facial expression recognition using ROI-KNN deep convolutional neural networks. Acta Automatica Sinica, 2016, 42(6): 883-891 http://www.aas.net.cn/CN/abstract/abstract18879.shtml
    [5] 刘帅师, 田彦涛, 王新竹.基于对称双线性模型的光照鲁棒性人脸表情识别.自动化学报, 2012, 38(12): 1933-1940 http://www.aas.net.cn/CN/abstract/abstract17855.shtml

    Liu Shuai-Shi, Tian Yan-Tao, Wang Xin-Zhu. Illumination-robust facial expression recognition based on symmetric bilinear model. Acta Automatica Sinica, 2012, 38(12): 1933-1940 http://www.aas.net.cn/CN/abstract/abstract17855.shtml
    [6] 刘帅师, 田彦涛, 万川.基于Gabor多方向特征融合与分块直方图的人脸表情识别方法.自动化学报, 2011, 37(12): 1455-1463 http://www.aas.net.cn/CN/abstract/abstract17643.shtml

    Liu Shuai-Shi, Tian Yan-Tao, Wan Chuan. Facial expression recognition method based on Gabor multi-orientation features fusion and block histogram. Acta Automatica Sinica, 2011, 37(12): 1455-1463 http://www.aas.net.cn/CN/abstract/abstract17643.shtml
    [7] Taheri S, Patel V M, Chellappa R. Component-based recognition of faces and facial expressions. IEEE Transactions on Affective Computing, 2013, 4(4): 360-371 doi: 10.1109/T-AFFC.2013.28
    [8] El Mostafa M K A, Levine M D. Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers. IEEE Transactions on Affective Computing, 2014, 5(2): 141-154 https://www.researchgate.net/publication/264387505_Fully_Automated_Recognition_of_Spontaneous_Facial_Expressions_in_Videos_Using_Random_Forest_Classifiers
    [9] Ekman P. Darwin, deception, and facial expression. Annals of the New York Academy of Sciences, 2003, 1000: 205-221 https://www.researchgate.net/publication/8882449_Darwin_Deception_and_Facial_Expression
    [10] Haggard E A, Isaacs K S. Micromomentary facial expressions as indicators of ego mechanisms in psychotherapy. Methods of Research in Psychotherapy. US: Springer, 1966. 154-165
    [11] Ekman P, Friesen W. Nonverbal Leakage and Clues to Deception. Technical Report, DTIC Document, 1969.
    [12] Gottman J M, Levenson R W. A two-factor model for predicting when a couple will divorce: exploratory analyses using 14-year longitudinal data. Family Process, 2002, 41(1): 83-96 doi: 10.1111/famp.2002.41.issue-1
    [13] Salter F, Grammer K, Rikowski A. Sex differences in negotiating with powerful males. Human Nature, 2005, 16(3): 306-321 doi: 10.1007/s12110-005-1013-4
    [14] Whitehill J, Serpell Z, Lin Y C, Foster A, Movellan J R. The faces of engagement: automatic recognition of student engagementfrom facial expressions. IEEE Transactions on Affective Computing, 2014, 5(1): 86-98 doi: 10.1109/TAFFC.2014.2316163
    [15] Pool L D, Qualter P. Improving emotional intelligence and emotional self-efficacy through a teaching intervention for university students. Learning and Individual Differences, 2012, 22(3): 306-312 doi: 10.1016/j.lindif.2012.01.010
    [16] Porter S, ten Brinke L. Reading between the lies: identifying concealed and falsified emotions in universal facial expressions. Psychological Science, 2008, 19(5): 508-514 doi: 10.1111/j.1467-9280.2008.02116.x
    [17] Warren G, Schertler E, Bull P. Detecting deception from emotional and unemotional cues. Journal of Nonverbal Behavior, 2009, 33(1): 59-69 doi: 10.1007/s10919-008-0057-7
    [18] Yan W J, Wu Q, Liang J, Chen Y H, Fu X L. How fast are the leaked facial expressions: the duration of micro-expressions. Journal of Nonverbal Behavior, 2013, 37(4): 217-230 https://www.researchgate.net/publication/245536570_How_Fast_Are_the_Leaked_Facial_Expressions_The_Duration_of_Micro-Expressions
    [19] Ekman P. MicroExpression Training Tool (METT). University of California, San Francisco, 2002.
    [20] Frank M G, Herbasz M, Sinuk K, Keller A, Nolan C. I see how you feel: training laypeople and professionals to recognize fleeting emotions. In: Proceedings of the 2009 Annual Meeting of the International Communication Association. New York, 2009. http://www.allacademic.com/meta/p15018_index.htm
    [21] 吴奇, 申寻兵, 傅小兰.微表情研究及其应用.心理科学进展, 2010, 18(9): 1359-1368 http://www.cnki.com.cn/Article/CJFDTOTAL-XLXD201009002.htm

    Wu Qi, Shen Xun-Bing, Fu Xiao-Lan. Micro-expression and its applications. Advances in Psychological Science, 2010, 18(9): 1359-1368 http://www.cnki.com.cn/Article/CJFDTOTAL-XLXD201009002.htm
    [22] 贲晛烨, 杨明强, 张鹏, 李娟.微表情自动识别综述.计算机辅助设计与图形学学报, 2014, 26(9): 1385-1395 http://www.cnki.com.cn/Article/CJFDTOTAL-JSJF201409001.htm

    Ben Xian-Ye, Yang Ming-Qiang, Zhang Peng, Li Juan. Survey on automatic micro expression recognition methods. Journal of Computer-Aided Design and Computer Graphics, 2014, 26(9): 1385-1395 http://www.cnki.com.cn/Article/CJFDTOTAL-JSJF201409001.htm
    [23] Pfister T, Li X B, Zhao G Y, Pietikäinen M. Recognising spontaneous facial micro-expressions. In: Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011. 1449-1456
    [24] Li X B, Pfister T, Huang X H, Zhao G Y, Pietikäinen M. A spontaneous micro-expression database: inducement, collection and baseline. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China: IEEE, 2013. 1-6
    [25] Yan W J, Wu Q, Liu Y J, Wang S J, Fu X L. CASME database: a dataset of spontaneous micro-expressions collected from neutralized faces. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China: IEEE, 2013. 1-7
    [26] Yan W J, Li X B, Wang S J, Zhao G Y, Liu Y J, Chen Y H, Fu X L. CASME Ⅱ: An improved spontaneous micro-expression database and the baseline evaluation. PLoS One, 2014, 9(1): e86041 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.685.5991
    [27] Shreve M, Godavarthy S, Goldgof D, Sarkar S. Macro-and micro-expression spotting in long videos using spatio-temporal strain. In: Proceedings of the 2011 IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Santa Barbara, CA, USA: IEEE, 2011. 51-56
    [28] Polikovsky S, Kameda Y, Ohta Y. Facial micro-expression detection in hi-speed video based on facial action coding system (FACS). IEICE Transactions on Information and Systems, 2013, E96-D(1): 81-92 doi: 10.1587/transinf.E96.D.81
    [29] Ekman P, Friesen W V. Facial Action Coding System. Palo Alto: Consulting Psychologists Press, 1977.
    [30] Cootes T F, Taylor C J, Cooper D H, Graham J. Active shape models-their training and application. Computer Vision and Image Understanding, 1995, 61(1): 38-59 doi: 10.1006/cviu.1995.1004
    [31] Goshtasby A. Image registration by local approximation methods. Image and Vision Computing, 1998, 6(4): 255-261
    [32] Zhou Z H, Zhao G Y, Pietikäinen M. Towards a practical lipreading system. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA: IEEE, 2011. 137-144
    [33] Ojala T, Pietikäinen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987 doi: 10.1109/TPAMI.2002.1017623
    [34] Zhao G Y, Pietikäinen M. Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915-928 doi: 10.1109/TPAMI.2007.1110
    [35] Huang X H, Zhao G Y, Hong X P, Pietikäinen M, Zheng W M. Texture description with completed local quantized patterns. Image Analysis. Berlin Heidelberg: Springer, 2013. 1-10
    [36] Huang X H, Zhao G Y, Hong X P, Zheng W M, Pietikäinen M. Spontaneous facial micro-expression analysis using spatiotemporal completed local quantized patterns. Neurocomputing, 2016, 175: 564-578 doi: 10.1016/j.neucom.2015.10.096
    [37] Wang Y D, See J, Phan P C W, Oh Y H. LBP with six intersection points: reducing redundant information in LBP-TOP for micro-expression recognition. In: Proceedings of the 12th Conference on Computer Vision, Singapore. Singapore: Springer, 2014. 21-23
    [38] Lu Z Y, Luo Z Q, Zheng H C, Chen J K, Li W H. A delaunay-based temporal coding model for micro-expression recognition. Computer Vision-ACCV Workshops. Switzerland: Springer International Publishing, 2014.
    [39] Cootes T F, Edwards G J, Taylor C J. Active appearance models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 681-685 doi: 10.1109/34.927467
    [40] Barber B C, Dobkin D P, Huhdanpaa H. The quickhull algorithm for convex hulls. ACM Transactions on Mathematical Software, 1996, 22(4): 469-483 doi: 10.1145/235815.235821
    [41] Wu W, Shen X B, Fu X L. The machine knows what you are hiding: an automatic micro-expression recognition system. In: Proceedings of the 4th International Conference on Affective Computing and Intelligent Interaction. Memphis, TN, USA: Springer-Verlag, 2011. 152-162
    [42] Zhang P, Ben X Y, Yan R, Wu C, Guo C. Micro-expression recognition system. Optik——International Journal for Light and Electron Optics, 2016, 127(3): 1395-1400 https://www.researchgate.net/publication/283746871_Micro-Expression_Recognition_System
    [43] Wang S J, Yan W J, Li X B, Zhao G Y, Fu X L. Micro-expression recognition using dynamic textures on tensor independent color space. In: Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014. 4678-4683
    [44] Wang S J, Yan W J, Li X B, Zhao G Y, Zhou C G, Fu X L, Yang M H, Tao J H. Micro-expression recognition using color spaces. IEEE Transactions on Image Processing, 2015, 24(12): 6034-6047 https://www.ncbi.nlm.nih.gov/pubmed/26540689
    [45] Huang X H, Wang S J, Zhao G Y, Piteikäinen M. Facial micro-expression recognition using spatiotemporal local binary pattern with integral projection. In: Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops. Santiago, Chile: IEEE, 2015. 1-9
    [46] Houam L, Hafiane A, Boukrouche A, Lespessailles E, Jennane R. One dimensional local binary pattern for bone texture characterization. Pattern Analysis and Applications, 2014, 17(1): 179-193 doi: 10.1007/s10044-012-0288-4
    [47] Xu F, Zhang J P, Wang J Z. Microexpression identification and categorization using a facial dynamics map. IEEE Transactions on Affective Computing, PP(99): 1-1, DOI: 10.1109/TAFFC.2016.2518162
    [48] Liu Y J, Zhang J K, Yan W J, Wang S J, Zhao G Y, Fu X L. A main directional mean optical flow feature for spontaneous micro-expression recognition. IEEE Transactions on Affective Computing, 2016, 7(4): 299-310 doi: 10.1109/TAFFC.2015.2485205
    [49] Asthana A, Zafeiriou S, Cheng S Y, Pantic M. Robust discriminative response map fitting with constrained local models. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 3444-3451
    [50] Chaudhry R, Ravichandran A, Hager G, Vidal R. Histograms of oriented optical flow and binet-cauchy kernels on nonlinear dynamical systems for the recognition of human actions. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, Florida: IEEE, 2009. 1932-1939
    [51] Wang S J, Chen H L, Yan W J, Chen Y H, Fu X L. Face recognition and micro-expression recognition based on discriminant tensor subspace analysis plus extreme learning machine. Neural Processing Letters, 2014, 39(1): 25-43 https://www.researchgate.net/publication/236120483_Face_Recognition_and_Micro-expression_Recognition_Based_on_Discriminant_Tensor_Subspace_Analysis_Plus_Extreme_Learning_Machine
    [52] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: theory and applications. Neurocomputing, 2006, 70(1-3): 489-501 doi: 10.1016/j.neucom.2005.12.126
    [53] Wang S J, Yan W J, Sun T K, Zhao G Y, Fu X L. Sparse tensor canonical correlation analysis for micro-expression recognition. Neurocomputing, 2016, 214: 218-232 doi: 10.1016/j.neucom.2016.05.083
    [54] Ben X Y, Zhang P, Yan R, Yang M Q, Ge G D. Gait recognition and micro-expression recognition based on maximum margin projection with tensor representation. Neural Computing and Applications, 2015, 127(3): 1-18 https://www.researchgate.net/publication/283903772_Gait_recognition_and_micro-expression_recognition_based_on_maximum_margin_projection_with_tensor_representation
    [55] Wang S J, Yan W J, Zhao G Y, Fu X L, Zhou C G. Micro-expression recognition using robust principal component analysis and local spatiotemporal directional features. Computer Vision——ECCV 2014 Workshops. Switzerland: Springer International Publishing, 2014.
    [56] Fu X F, Wei W. Centralized binary patterns embedded with image euclidean distance for facial expression recognition. In: Proceedings of the 4th International Conference on Natural Computation. Jinan, China: IEEE, 2008. 115-119
    [57] Guo Y C, Xue C H, Wang Y Z, Yu M. Micro-expression recognition based on CBP-TOP feature with ELM. Optik——International Journal for Light and Electron Optics, 2015, 126(23): 4446-4451 doi: 10.1016/j.ijleo.2015.08.167
    [58] Oh Y H, Le Ngo A C, See J, Liong S T, Phan R C W, Ling H C. Monogenic riesz wavelet representation for micro-expression recognition. In: Proceedings of the 2015 IEEE International Conference on Digital Signal Processing. Singapore: IEEE, 2015. 1237-1241
    [59] Li X B, Hong X P, Moilanen A, Huang X H, Pfister T, Zhao G Y, Pietikäinen M. Reading hidden emotions: spontaneous micro-expression spotting and recognition. arXiv Preprint arXiv: 1511.00423 [Online], available: https://arxiv.org/abs/1511.00423, February 20, 2017
    [60] Wu H Y, Rubinstein M, Shih E, Guttag J, Durand F, Freeman W T. Eulerian video magnification for revealing subtle changes in the world. ACM Transactions on Graphics, 2012, 31(4): 65 https://www.researchgate.net/publication/254461914_Eulerian_Video_Magnification_for_Revealing_Subtle_Changes_in_the_World
    [61] Chavali G K, Bhavaraju S K N V, Adusumilli T, Puripanda V. Micro-expression Extraction for Lie Detection Using Eulerian Video (Motion and Color) Magnication [Master dissertation], Blekinge Institute of Technology, Swedish, 2014.
    [62] Yao S Q, He N, Zhang H Q, Yoshie O. Micro-expression recognition by feature points tracking. In: Proceedings of the 10th International Conference on Communications. Bucharest, Romania: IEEE, 2014. 1-4
    [63] Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detec-tion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422 doi: 10.1109/TPAMI.2011.239
    [64] Xia Z Q, Feng X Y, Peng J Y, Peng X L, Zhao G Y. Spontaneous micro-expression spotting via geometric deformation modeling. Computer Vision and Image Understanding, 2016, 147: 87-94 doi: 10.1016/j.cviu.2015.12.006
    [65] Milborrow S, Nicolls F. Active shape models with SIFT descriptors and MARS. In: Proceedings of the 2014 International Conference on Computer Vision Theory and Applications. Lisbon, Portugal: IEEE, 2014. 380-387
    [66] Moilanen A, Zhao G Y, Pietikäinen M. Spotting rapid facial movements from videos using appearance-based feature difference analysis. In: Proceedings of the 2nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014. 1722-1727
    [67] Patel D, Zhao G Y, Pietikäinen M. Spatiotemporal integration of optical flow vectors for micro-expression detection. Advanced Concepts for Intelligent Vision Systems. Switzerland: Springer International Publishing, 2015. 369-380
    [68] Yan W J, Wang S J, Chen Y H, Zhao G Y, Fu X L. Quantifying micro-expressions with constraint local model and local binary pattern. Computer Vision——ECCV 2014 Workshops. Switzerland: Springer International Publishing, 2014.
    [69] Cristinacce D, Cootes T F. Feature detection and tracking with constrained local models. In: Proceedings of the 2006 BMVC. Edinburgh: BMVA, 2006. 929-938
    [70] Shreve M, Godavarthy S, Manohar V, Goldgof D, Sarkar S. Towards macro-and micro-expression spotting in video using strain patterns. In: Proceedings of the 2009 IEEE Workshop on Applications of Computer Vision. Snowbird, UT, USA: IEEE, 2009. 1-6
    [71] Liong S T, Phan R C W, See J, Oh Y H, Wong K. Optical strain based recognition of subtle emotions. In: Proceedings of the 2014 International Symposium on Intelligent Signal Processing and Communication Systems. Kuching, Sarawak, Malaysia: IEEE, 2014. 180-184
    [72] House C, Meyer R. Preprocessing and descriptor features for facial micro-expression recognition [Online], available: https://web.stanford.edu/class/ee368/Project_Spring_1415/Reports/House_Meyer.pdf, February 20, 2017
  • 期刊类型引用(47)

    1. 赵明华,董爽爽,胡静,都双丽,石程,李鹏,石争浩. 注意力引导的三流卷积神经网络用于微表情识别. 中国图象图形学报. 2024(01): 111-122 . 百度学术
    2. 陈妍,吴乐晨,王聪. 基于多层级信息融合网络的微表情识别方法. 自动化学报. 2024(07): 1445-1457 . 本站查看
    3. 马崟桓,黄树成,李明星. 基于滑动窗口和时空特征的微表情检测算法. 计算机与数字工程. 2024(06): 1617-1621+1801 . 百度学术
    4. 曾益,汪国强,蒋东辰. 基于多尺度ShuffleNet的微表情识别方法. 黑龙江大学自然科学学报. 2024(06): 718-730 . 百度学术
    5. 罗思诗,李茂军,陈满. 多尺度融合注意力机制的人脸表情识别网络. 计算机工程与应用. 2023(01): 199-206 . 百度学术
    6. 高红霞,郜伟. 融合关键点属性与注意力表征的人脸表情识别. 计算机工程与应用. 2023(03): 118-126 . 百度学术
    7. 何雨鸿,徐忠亮,马琳,李海峰. 基于自组织映射网络的微表情运动规律分析方法. 信号处理. 2023(01): 20-29 . 百度学术
    8. 魏金生,卢官明,彭伟,陈浩侠,黄晓华,闫静杰. 基于双支路核化群稀疏学习的微表情识别. 南京邮电大学学报(自然科学版). 2023(01): 70-79 . 百度学术
    9. 陈斌,朱晋宁. 双流增强融合网络微表情识别. 智能系统学报. 2023(02): 360-371 . 百度学术
    10. 薛志超,伊力哈木·亚尔买买提,闫天星. 基于MobileNetV3多尺度特征融合的人脸表情识别. 电子测量技术. 2023(08): 38-44 . 百度学术
    11. 刘洋,吴佩,万芷涵,石佳玉,朱立芳. 用户微表情信息表征研究综述. 知识管理论坛. 2023(03): 215-227 . 百度学术
    12. 李雯,李豪喆,陈琛,蔡伟雄. 面部微表情分析技术在法医精神病学领域的研究现状及应用展望. 法医学杂志. 2023(05): 493-500 . 百度学术
    13. 李昆仑,彭小华,熊婷. 基于支持向量机的动态人脸图像微表情识别. 计算机仿真. 2023(12): 331-336 . 百度学术
    14. 王欢欢,吕紫藤,李现昆. 基于表情识别技术的用户研究方法. 包装工程. 2022(02): 116-121 . 百度学术
    15. 王凯,何宏,殷静. 基于改进LeNet-5神经网络的微表情识别研究. 中国设备工程. 2022(04): 258-259 . 百度学术
    16. 唐家明,宛艳萍,孟竹,张芳,谷佳真. 基于ADCP-TOP的微表情识别方法. 计算机与数字工程. 2022(02): 339-343+361 . 百度学术
    17. 苏冠榕. 论比赛中的实际应用对播音专业学生的导向意义——以《中央广播电视总台2019主持人大赛》为例. 西部广播电视. 2022(01): 60-62 . 百度学术
    18. 付小龙,李志丹,程吉祥,刘家伟. 残差网络和损失函数集成的人脸表情识别. 控制工程. 2022(03): 522-529 . 百度学术
    19. 程学军,邢萧飞. 利用改进型VGG标签学习的表情识别方法. 计算机工程与设计. 2022(04): 1134-1144 . 百度学术
    20. 周伟航,肖正清,钱育蓉,马玉民,公维军,帕力旦·吐尔逊. 微表情自动分析方法研究综述. 计算机应用研究. 2022(07): 1921-1932 . 百度学术
    21. 邵志文,周勇,谭鑫,马利庄,刘兵,姚睿. 基于深度学习的表情动作单元识别综述. 电子学报. 2022(08): 2003-2017 . 百度学术
    22. 林怡,曾宪宪,陈神飞,肖晓溪,杨秀,杜怡婷. 基于多源生理反馈的城市景观照明对情绪影响的实验探索——以上海南京东路步行街东段为例. 照明工程学报. 2022(05): 129-143 . 百度学术
    23. 韦丽娟,梁建娟,刘洪,刘本永. 结合FDM与STLBP-IP特征的微表情识别. 软件导刊. 2021(04): 32-35 . 百度学术
    24. 廖云峰,段文双,罗佳佳,赵文洁,吴旭. 基于深度学习的人脸微表情识别. 智能计算机与应用. 2021(04): 62-64 . 百度学术
    25. 周锦荣,徐张伟,段梦芳,邹力伟. 基于卷积神经网络人脸情绪识别的RGB LED混合调光方法研究. 照明工程学报. 2021(04): 83-91 . 百度学术
    26. 潘仙张,陈坚,马仁利. 基于面部表情识别的课堂教学反馈系统. 计算机系统应用. 2021(10): 102-108 . 百度学术
    27. 郭迎春,王静洁,刘依,夏伟毅,张吉俊,李学博,王天瑞. 人脸表情合成算法综述. 数据采集与处理. 2021(05): 898-920 . 百度学术
    28. 陈昌川,王海宁,黄炼,黄涛,李连杰,黄向康,代少升. 一种基于局部表征的面部表情识别算法. 西安电子科技大学学报. 2021(05): 100-109 . 百度学术
    29. 段群,郭新明,黄素萍,谢飞. 基于深度视频分析的面瘫分级方法. 微型电脑应用. 2021(12): 23-25+32 . 百度学术
    30. 诗雨桐,袁德成. 基于深度学习的面部微表情识别. 沈阳化工大学学报. 2021(04): 380-384 . 百度学术
    31. 陆嘉慧,张树美,赵俊莉. 基于深度学习的面部表情识别研究. 计算机应用研究. 2020(04): 966-972 . 百度学术
    32. 张延良,卢冰,蒋涵笑,洪晓鹏,赵国英,张伟涛. 微表情类别与区域间关联度的分析方法研究. 计算机工程与应用. 2020(19): 146-151 . 百度学术
    33. 赖振意,陈人和,钱育蓉. 结合空洞卷积的CNN实时微表情识别算法. 计算机应用研究. 2020(12): 3777-3780+3835 . 百度学术
    34. 苏育挺,王蒙蒙,刘婧,费云鹏,何旭. 基于多运动特征融合的微表情识别算法. 激光与光电子学进展. 2020(14): 353-358 . 百度学术
    35. 涂亮,刘本永. 微表情识别中面部动力谱特征提取的PCA改进. 通信技术. 2019(02): 337-342 . 百度学术
    36. 罗元,余朝靖,张毅,刘浪. 基于改进的局部方向模式人脸表情识别算法. 重庆大学学报. 2019(03): 85-91 . 百度学术
    37. 夏嘉欣,陈曦,林金星,李伟鹏,吴奇. 基于带有噪声输入的稀疏高斯过程的人体姿态估计. 自动化学报. 2019(04): 693-705 . 本站查看
    38. 刘缘,庾永波. 在安检中加强“微表情”识别的思考——基于入藏公路安检的考察. 四川警察学院学报. 2019(01): 61-68 . 百度学术
    39. 张延良,卢冰. 基于信息增量特征选择的微表情识别方法. 计算机工程. 2019(05): 261-266 . 百度学术
    40. 姬秋敏,张灵,陈云华,麦应潮,向文,罗源. 基于视觉机制与协同显著性的自发式表情识别. 计算机工程与设计. 2019(06): 1741-1746 . 百度学术
    41. 刘汝涵,徐丹. 视频放大和深度学习在微表情识别任务上的应用. 计算机辅助设计与图形学学报. 2019(09): 1535-1541 . 百度学术
    42. 沈利迪. 融合深度学习和稀疏表示的人脸表情识别方法研究. 自动化技术与应用. 2019(10): 93-97 . 百度学术
    43. 卢俊锋. 微表情识别综述. 科技视界. 2019(32): 136+158 . 百度学术
    44. 王建霞,陈慧萍,李佳泽,张晓明. 基于多特征融合卷积神经网络的人脸表情识别. 河北科技大学学报. 2019(06): 540-547 . 百度学术
    45. 李霞,卢官明,闫静杰,张正言. 多模态维度情感预测综述. 自动化学报. 2018(12): 2142-2159 . 本站查看
    46. 薛耀锋,杨金朋,郭威,李卓玮. 面向在线学习的多模态情感计算研究. 中国电化教育. 2018(02): 46-50+83 . 百度学术
    47. 卢官明,杨成,杨文娟,闫静杰,李海波. 基于LBP-TOP特征的微表情识别. 南京邮电大学学报(自然科学版). 2017(06): 1-7 . 百度学术

    其他类型引用(94)

  • 加载中
  • 图(7) / 表(3)
    计量
    • 文章访问数:  11311
    • HTML全文浏览量:  2902
    • PDF下载量:  4895
    • 被引次数: 141
    出版历程
    • 收稿日期:  2016-05-15
    • 录用日期:  2016-07-28
    • 刊出日期:  2017-03-20

    目录

    /

    返回文章
    返回