2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于条件随机森林的非约束环境自然笑脸检测

罗珍珍 陈靓影 刘乐元 张坤

罗珍珍, 陈靓影, 刘乐元, 张坤. 基于条件随机森林的非约束环境自然笑脸检测. 自动化学报, 2018, 44(4): 696-706. doi: 10.16383/j.aas.2017.c160439
引用本文: 罗珍珍, 陈靓影, 刘乐元, 张坤. 基于条件随机森林的非约束环境自然笑脸检测. 自动化学报, 2018, 44(4): 696-706. doi: 10.16383/j.aas.2017.c160439
LUO Zhen-Zhen, CHEN Jing-Ying, LIU Le-Yuan, ZHANG Kun. Conditional Random Forests for Spontaneous Smile Detection in Unconstrained Environment. ACTA AUTOMATICA SINICA, 2018, 44(4): 696-706. doi: 10.16383/j.aas.2017.c160439
Citation: LUO Zhen-Zhen, CHEN Jing-Ying, LIU Le-Yuan, ZHANG Kun. Conditional Random Forests for Spontaneous Smile Detection in Unconstrained Environment. ACTA AUTOMATICA SINICA, 2018, 44(4): 696-706. doi: 10.16383/j.aas.2017.c160439

基于条件随机森林的非约束环境自然笑脸检测

doi: 10.16383/j.aas.2017.c160439
基金项目: 

中央高校基本科研业务费 CCNU14A05 019

国家自然科学基金 41671377

中央高校基本科研业务费 CCNU16A02020

教育部中移动基金 MCM2013 0601

教育部人文社会科学研究基金 14YJAZH005

国家社科基金 16BSH107

中央高校基本科研业务费 CCNU14A05020

详细信息
    作者简介:

    罗珍珍, 华中师范大学国家数字化学习工程技术研究中心博士研究生.主要研究方向为计算机视觉, 模式识别, 图像处理.E-mail:andrealoves@163.com

    陈靓影, 华中师范大学国家数字化学习工程技术研究中心教授.主要研究方向为计算机视觉, 模式识别, 多模态人机交互.E-mail:chenjy@mail.ccnu.edu.cn

    张坤, 华中师范大学国家数字化学习工程技术研究中心讲师.主要研究方向为计算机视觉, 模式识别, 多模态人机交互.E-mail:zhk@mail.ccnu.edu.cn

    通讯作者:

    刘乐元, 华中师范大学国家数字化学习工程技术研究中心讲师.主要研究方向为计算机视觉, 模式识别, 多模态人机交互.本文通信作者.E-mail:lyliu@mail.ccnu.edu.cn

Conditional Random Forests for Spontaneous Smile Detection in Unconstrained Environment

Funds: 

the Colleges Basic Research and Operation of Ministry of Education CCNU14A05 019

Supported by National Natural Science Foundation of China 41671377

the Colleges Basic Research and Operation of Ministry of Education CCNU16A02020

Research Funds from Ministry of Education and China Mobile MCM2013 0601

Research Funds from the Humanities and Social Sciences Foundation of the Ministry of Education 14YJAZH005

National Social Sciences Foundation 16BSH107

the Colleges Basic Research and Operation of Ministry of Education CCNU14A05020

More Information
    Author Bio:

    Ph. D. candidate at the National Engineering Research Center for E-Learning, Central China Normal University. Her research interest covers computer vision, pattern recognition, and image processing

    Professor at the National Engineering Research Center for E-Learning, Central China Normal University. Her research interest covers computer vision, pattern recognition, and multimodal human-computer interaction

    Lecturer at the National Engineering Research Center for E-Learning, Central China Normal University. His research interest covers image processing, pattern recognition, and intelligent human-computer interaction

    Corresponding author: LIU Le-Yuan Lecturer at the National Engineering Research Center for E-Learning, Central China Normal University. His research interest covers computer vision, pattern recognition, and multimodal human-computer interaction. Corresponding author of this paper
  • 摘要: 为减少非约束环境下头部姿态多样性对笑脸检测带来的不利影响,提出一种基于条件随机森林(Conditional random forests,CRF)的笑脸检测方法.首先,以头部姿态作为隐含条件划分数据空间,构建基于条件随机森林的笑脸分类器;其次,以K-Means聚类方法确定条件随机森林分类器的分类边界;最后,分别从嘴巴区域和眉眼区域采集图像子块训练两组条件随机森林构成层级式结构进行笑脸检测.本文的笑脸检测方法在GENKI-4K、LFW和自备课堂场景(CCNU-Classroom)数据集上分别取得了91.14%,90.73%和85.17%的正确率,优于现有基于支持向量机、AdaBoost和随机森林的笑脸检测方法.
  • 笑脸是人类最常见的面部表情之一, 反映了人的心理状态, 传递着丰富的情感和意向信息.笑脸检测在用户体验感知[1]、学生心理状态分析[2]、照片增强处理[3]、相机微笑快门[4]等领域有广泛的应用.近年来, 国内外的学者在笑脸检测方面开展了大量的研究工作[5-6].随着研究的深入和实际应用要求的提高, 笑脸检测的研究热点逐步从约束环境转移到非约束环境[7].非约束环境(Unconstrained environment)是指主体意识想法和行为不受规定约束的环境.在非约束环境下, 人的头部姿态、环境光照、背景以及图像分辨率等环境因素不受约束.由于这些不利环境因素的影响, 约束环境下的笑脸检测算法通常不能在非约束环境下保持良好的正确率.非约束环境下的笑脸检测在计算机视觉领域仍然是一项富有挑战性的工作[5-6].

    依据特征采样方式的不同, 可将现有笑脸检测算法粗略分为基于面部运动单元(Action units, AUs)的方法[7-13]和基于内容(non-AUs)的方法[4, 14-22].基于面部运动单元的方法从面部动作编码系统(Facial action coding system, FACS)[8]定义的44个面部运动单元中选取相关的AUs, 并以这些AUs为桥梁建立低层人脸特征与表情的关系模型进行笑脸检测.文献[7]和文献[9]分别利用动态贝叶斯网络(Dynamic Bayesian network, DBN)和隐马尔科夫模型(Hidden Markov model, HMM)建立AUs之间以及AUs与表情的概率模型, 从图像中同步推理头部运动和表情变化.这两种方法取得了良好的笑脸检测效果, 但模型较为复杂, 导致计算量庞大.为建立更为高效和简洁的笑脸检测系统, 文献[10]将人脸分为眉眼区域和嘴巴区域两部分, 采用Gabor小波提取区域特征, 并结合K近邻(K-Nearest neighbor, KNN)与贝叶斯网络(Bayesian network, BN)建立面部运动单元与表情间的概率关系模型.为避免精确检测AUs的困难, 文献[12]从特定AUs周围提取图像子块, 对每个子块提取Haar特征后采用错误率最小策略从中选出AUs组合特征, 在Boosting框架下利用组合特征构造表情分类器. Walecki等[13]提出一种基于潜式条件随机森林(Latent conditional random forests)的视频动态序列编码方法实现人脸运动单元AUs检测和表情识别.虽然AUs具备明确的面部表情划分和定义, 便于利用心理学的研究成果选用最有效的AUs来识别不同的表情, 但基于面部运动单元的方法对笑脸检测的准确率很大程度上取决于AUs的定位和运动特征的计算精度.此外, 对训练数据做AUs标注较为困难是基于面部运动单元方法的另一弱点.

    基于内容的方法通常不再分析面部运动单元, 而是在对人脸进行对齐(Face registration)后, 直接从人脸提取特征并通过机器学习方法建立图像到笑脸表情的映射. Shimada等[14]在提取局部强度直方图(Local intensity histogram, LIH)和中心对称局部二值模式(Center-symmetric local binary pattern, CS-LBP)两种特征后, 采用层级式支持向量机(Support vector machine, SVM)进行笑脸分类.该方法对高分辨率正脸图像具备良好的检测效果和效率, 但没有考虑头部姿态变化的情况. Whitehill等[4]从互联网上收集了头部水平偏向角为$-20^\circ$ $\sim$ $+20^\circ$的GENKI-4K数据集, 并在该数据集上系统地测试了Gabor、Haar、边缘方向直方图(Edge orientation histograms, EOH)、LBP等特征搭配SVM、GentleBoost等分类器对笑脸检测的效果.实验结果表明, 头部姿态变化对笑脸检测的效果有较大的影响. Shan等[15]使用像素对的灰度差值作为特征, 利用AdaBoost算法选择像素对并组合强分类器进行笑脸检测.当使用100对像素对时, 该方法在GENKI-4K数据集上可以达到88 %的正确率.文献[16]采用极端学习机(Extreme learning machine, ELM)[17], 使用灰度值、HOG、LBP、LPQ (Local phase quantization)特征时, 在GENKI-4K数据集上分别取得了79.3 %、88.2 %、85.2 %和85.2 %的正确率.最近, Gao等[18]通过混合HOG31、梯度自相似性(Self-similarity of gradients, SSG)[19]和灰度特征, 及组合AdaBoost和线性ELM两种分类器的方式, 将GENKI-4K数据集上的笑脸检测正确率提高到了96.1 %.就作者查阅的文献来看, 目前还只有少量研究者开展任意头部姿态下的笑脸检测工作.例如, 文献[20]使用随机森林在视频序列图像上进行任意头部姿态下的表情识别工作, 但该工作训练时使用的是非自然状态下采集的3D表情序列训练数据集(BU-3DFE)[23], 难以满足大量实际应用的需求. Dapogny等[22]提出一种基于PCRF (Pairwise conditional random forests)的动态序列人脸表情识别方法.但该方法只针对视频序列图像, 不适合单帧图像的表情识别.

    在任意头部姿态下进行笑脸检测主要面临两方面的困难: 1)当前缺少任意头部姿态下的自然笑脸数据集; 2)当头部姿态变化范围较大时人脸对齐较为困难, 巨大的类内差异会导致难以设计高正确率和高效率的分类器[4].为更好地在任意头部姿态、低分辨率图像上实现自然笑脸的检测, 本文对LFW数据集[24]做了头部姿态和笑脸的标注, 采集了自然课堂场景下的CCNU-Classroom数据集, 并给出一种基于条件随机森林的自然笑脸检测方法.本文的主要贡献: 1)以头部姿态作为隐含条件, 提出了基于条件随机森林的笑脸检测方法, 降低了非约束环境下头部姿态对笑脸检测带来的不利影响. 2)在使用随机森林建构笑脸分类器时, 给出了一种基于K-Means聚类的决策边界确定方法, 提高了笑脸分类器的准确率. 3)由分别从嘴巴区域和眉眼区域训练的条件随机森林组成层级式检测器, 提高了笑脸检测的准确率.

    随机森林[25]是一种采用决策/回归树作为基预测器的集成学习方法.由于能从训练数据中快速学习得到高精度、鲁棒的分类器, 随机森林已经成为计算机视觉领域的一个重要工具, 在头部姿态估计[26-27]和表情识别[20]等应用方向取得了良好的效果.随机森林直接从训练数据估计目标状态$ \theta $的概率分布$ p(\theta| P)$, 其中$P $为样本.

    与随机森林不同, 条件随机森林[27-28]从训练数据集中学习目标状态${\bf \theta}$关于隐含条件$\omega$的条件概率分布$p(\theta|\omega, P).$目标状态$\theta$的概率$ p(\theta| P)$可由$p(\theta|\omega, P)$积分得到.

    $ \begin{align} p(\theta| P) = \int{p\left( \theta|\omega, P\right) }{p\left( {\omega}|{P}\right)}{\rm d}\omega \end{align} $

    (1)

    若将隐含条件$\omega$的状态空间划分为若干不相交子集, 则式(1)可以写为

    $ \begin{align} p(\theta| P) =\sum\limits_{i=1}^N p\left( {\theta}|{\Omega_n}, P\right)\int_{\omega\in\Omega_n} {p\left( {\omega}|{ P}\right)}{\rm d}\omega \end{align} $

    (2)

    其中, $\{\Omega_n \}_{n=1}^N $是隐含条件变量$\omega$状态的一个划分.由式(2)可知, 为从训练样本估计目标状态$\theta$, 可在训练时将训练数据集$ S$按条件状态划分为不相交的若干数据子集, 然后分别从各数据子集抽取样本训练一组随机森林$\{{ T}(\Omega_n)\}_{n=1}^N $, 用于估计条件概率$p(\theta|\Omega_n, P)$; 而隐含条件的状态概率$p(\omega| P)$可以从整个数据集训练得到的随机森林来估计.

    若隐含条件$\omega$选取合理, 按其状态划分训练数据后, 数据子集${ S_{\Omega_n}}$的样本类内差异将比整个数据集$ {S} $的样本类内差异低.数据类内差异的降低使得分类器能更有效和更高效地描述训练数据.因此, 条件概率$p(\theta|\Omega_n, P)$比$ p(\theta| P)$能更容易、更准确地从训练数据中学习得到[27-28].文献[27]在面部特征点检测和文献[28]在人体姿态估计的结果表明, 在数据类内差异较大的情况下, 条件随机森林可大幅提高随机森林的鲁棒性和分类/回归精度.

    在非约束环境下, 头部姿态的多样性使得人脸在特征空间的类内差异过大, 导致建构具备高准确率的笑脸分类器较为困难.为此, 本文以头部姿态作为隐含条件来划分数据空间, 提出一种基于条件随机森林的笑脸检测方法, 如图 1所示.

    图 1  基于条件随机森林的笑脸检测示意图
    Fig. 1  Smile detection based on conditional random forests

    在训练阶段, 使用整个训练数据集训练生成用于估计头部姿态的随机森林, 记为$ {T}^H $.然后将训练数据集$S$按头部姿态划分为$N$个子集, 并使用各数据子集分别训练生成一组用于笑脸分类的条件随机森林$\{{T}^S(\Omega_n)\}_{n=1}^N $.本文在实现时, 按头部的水平偏向角度将训练数据划分为3个子集, 即$ \Omega_1=$ $\leq \omega \leq +30^\circ\}$, $\cup$ $\{\omega | +30^\circ < \omega \leq +60^\circ\} $及$ \Omega_3 =\{\omega |-90^\circ \leq\omega$ $ < $ $-60^\circ\} \cup \{\omega | +60^\circ < \omega \leq +90^\circ\} $.其中, $ \Omega_2$和利用了人脸的水平对称性, 将朝向为左的人脸图像作水平镜像后与朝向为右的人脸图像合并, 以扩充训练样本.为进一步提高笑脸检测的正确率, 分别从嘴巴区域和眉眼区域采样图像子块以同样的方式独立训练两组条件随机森林, 记为$\{{T}_M^S(\Omega_n)\}_{n=1}^3 $和$\{{T}_E^S(\Omega_n)\}_{n=1}^3$.

    在检测阶段, 首先利用头部姿态随机森林$ {T}^H $估计出头部姿态; 然后根据头部姿态估计结果分别从条件随机森林$\{{T}_M^S(\Omega_n)\}_{n=1}^3 $和$\{{T}_E^S(\Omega_n)\}_{n=1}^3$中随机选取相应数量的决策树动态建构随机森林$ {T}_M^C $和$ {T}_E^C $; 最后将检测图像输入$ {T}_M^C $和$ {T}_E^C $得到笑脸检测结果.

    条件随机森林$\{{T}_M^S(\Omega_n)\}_{n=1}^3$和$\{{T}_E^S(\Omega_n)\}_{n=1}^3$中的每棵决策树$ T_t^S(\Omega_n)$采用相同的方法独立训练得到.为构建每棵决策树$ T_t^S(\Omega_n)$, 从相应的数据子集$ S_{\Omega_n}$中随机选取图像构成训练数据集, 然后从每张训练图像的特定区域(眉眼区域或嘴巴区域)随机提取一系列图像子块\{${P_i=(\theta_i, I_i)}$\}, 其中$\theta_i\in$ 为类别标签(笑/非笑), ${I_i}=\{I_i^1, I_i^2, \cdots$, $I_i^F\}$为一系列从图像子块上提取的特征集合.本文在实现时采用了原始灰度值, Gabor和局部二值模式(LBP)等三种特征构成特征集合.

    2.1.1   二值测试

    决策树的生成是一个通过二值测试不断将树节点分裂成两个子节点的迭代过程.本文定义二值测试函数$\psi(P; R_1, R_2, f, \tau)$为

    $ \begin{align} & \psi( P;R_1, r_2, f, \tau)= \nonumber \\ & \qquad \frac{1}{|R_1|}\sum\limits_{j\in R_1}I^f(j)- \frac{1}{|R_2|}\sum\limits_{j\in R_2}I^f(j) > \tau \end{align} $

    (3)

    其中, $R_1$和$R_2$分别表示从图像子块$P$里随机选取的两个矩形区域, $|R_1|$和$|R_2|$表示矩形区域内像素的数量, $I^f$ $(f\in\{1, 2, \cdots, F\})$表示随机选取的特征通道, $\tau$为阈值.

    2.1.2   不确定性测度

    不确定性测度引导各节点从二值测试候选库中选择最优的二值测试, 以保证能不断将当前节点分裂为不确定性降低的两个子节点.在本文中, 不确定性测度定义为当前节点上图像子块的信息熵.

    $ \begin{align} & H( {P}| \Omega_n) = \nonumber \\ &\qquad -\sum\limits_{i=1}^2\frac{\sum\limits_{P_j\in {P}}p\left({\theta_i}|{\Omega_n}, P_j\right)}{|{P}|} \log_2\left(\frac{p\left({\theta_i}|{\Omega_n}, { P_j}\right)}{|{P}|}\right) \end{align} $

    (4)

    其中, ${P} = \{P_j\}$为当前节点上所有的图像子块的集合, 表示集的势, $p(\theta_i|\Omega_n, P_j)$为当前节点上头部姿态为$\omega\in\Omega_n $的图像子块属于$\theta_i$表情(笑/非笑)的概率.

    2.1.3   树的生成步骤

    条件随机森林中的每棵树独立训练生成, 步骤如下:

    步骤 1. 生成候选二值测试集.对于每个$ \varphi^k $, 其参数$R_1$, $R_2$, $f$, $\tau $均随机生成.

    步骤 2. 使用候选二值测试集中的每一个$ \varphi^k $, 将当前节点上的图像子块集${P }$分裂为两个子集和, 并计算分裂后的信息增益$(IG)$.

    $ \begin{align} {{P}_L}(\varphi^k) =\{P|\varphi^k( {P})<\tau\} \end{align} $

    (5)

    $ \begin{align} {{P}_R}(\varphi^k) =\{P|\varphi^k( {P})\geq \tau\} \end{align} $

    (6)

    $ \begin{align} & IG(\varphi^k) = H( {P}| \Omega_n)~-\notag\\ &\qquad\qquad \sum\limits_{S\in\{L, R\}}\frac{{ P}_S(\varphi^k)}{|{P}|}H\left({{ P}_S(\varphi^k)}|{\Omega_n}\right) \end{align} $

    (7)

    步骤 3. 选择使得信息增益最大的二值测试$ \varphi^*$ $=$ $\arg\max (IG(\varphi^k)) $将当前节点分裂为两个子节点.

    步骤 4. 当随机树生长到最大深度或当前节点的信息增益$(IG)$小于阈值时, 停止随机树的生长并生成叶子节点, 到达叶子节点$l$的图像子块集记为$l({P})$, 同时将$p(\theta|\Omega_n, l({P}))$存储于该叶子节点上.否则返回步骤2, 继续迭代分裂.

    Du等[29-30]采用新的类Haar特征和AdaBoost进行人脸姿态的分类. Liu等[26]采用Gabor, sobel和灰度强度等特征, 结合随机森林进行人脸姿态估计.本文采用与文献[26-7]类似的随机森林来估计头部姿态的水平偏向角$\omega$.在训练生成头部姿态随机森林$({T}^H)$模型时, 采用如下不确定性测度:

    $ \begin{align} H({P})= -\sum\limits_\omega p\left({\omega}| {P}\right) \log_2\left(p\left( {\omega} |{P}\right)\right) \end{align} $

    (8)

    头部姿态以高斯模型的方式存储于随机森林${T}^H $的每个叶子节点$l$上.

    $ \begin{align} p\left({\omega}|{l({P})}\right) = N(\omega;\overline{ \omega}_l, \sigma_l) \end{align} $

    (9)

    其中, $\overline{\omega}_l$和$\sigma_l$表示叶子节点$l$上图像子块代表的头部姿态均值和方差.

    在头部姿态$\omega\in\Omega_n$的条件下, 图像子块$P$属于表情$\theta$ (笑/非笑)的概率$p(\theta|\Omega_n, P)$由随机森林${T}^C_M(\Omega_n)$或${T}^C_E(\Omega_n)$中的所有树投票得到.

    $ \begin{align} p\left({\theta}|{\Omega_n}, P\right)=\frac{1}{T}\sum\limits_t p\left({\theta}|{\Omega_n}, l_t( P)\right) \end{align} $

    (10)

    其中, $T$为树的数量, $l_t$表示第$t$棵树上图像子块$ P $达到的叶子节点.

    在头部姿态未知的情况下, 图像子块$ P $属于表情$\theta$ (笑/非笑)的概率$p(\theta| P)$为

    $ \begin{align} & p\left({\theta}|{P}\right) =\nonumber \\ &\ \ \sum\limits_n p\left({\theta}|{\Omega_n}, P\right)\int_{\omega\in\Omega_n}p\left({\omega}|{P}\right){\rm d}w= \nonumber \\ &\ \ \sum\limits_n \left(\frac{1}{T}\sum\limits_t p\left({\theta}|{\Omega_n}, l_t( P)\right)\right)\int_{\omega\in\Omega_n}p\left({\omega}|{P}\right){\rm d}w \approx\nonumber \\ &\ \ \frac{1}{T} \sum\limits_n \sum\limits_{t=1}^{k_n} p\left({\theta}|{\Omega_n}, l_{t, \Omega_n}( P)\right) \end{align} $

    (11)

    其中, $\sum\limits_n k_n =T$, 且

    $ \begin{align} k_n \approx T \int_{\omega\in\Omega_n}p\left({\omega}|{ P}\right){\rm d}w \end{align} $

    (12)

    由式(11)和式(12)可知, 在笑脸分类时, 首先根据头部姿态估计的结果从条件随机森林${T}^S_E(\Omega_n)$和${T}^S_M(\Omega_n)$中分别随机选取$k_n$棵决策树动态构建随机森林${T}^C_E$和${T}^C_M$, 然后由${T}^C _E$和${T}^C _M$中各决策树投票得出测试图像子块$ P $的表情$\theta$ (笑/非笑)概率$ p(\theta| P) $.

    从图像$ I_i $中密集采样$M$个图像子块$ \{P_m\}_{m=1}^M$输入随机森林${T}_M^C $或${T}_E^C $估计得到各个图像子块$ P_m $属于笑脸表情的概率$ p(\theta=+1|P_m) $.最终判决图像$ I_i$属于笑脸表情的分类器为

    $ \begin{align} p_i = \frac{1}{M} \sum\limits_{m=1}^M p\left(\theta=+{1}|{P_m}\right)>\tau_p \end{align} $

    (13)

    其中, $\tau_p$为分类器的决策边界(即分类阈值).

    分类器(13)的决策边界$\tau_p$从训练样本得到.常用的方法是使训练时的分类错误率最小, 例如使用决策桩(Stump)[31]算法, 求出分类器的决策边界$\tau_p$.但由于只考虑了分类错误率, 没有考虑数据在决策空间的分布, 使得训练误差最小并不能保证测试时的效果达到最佳, 而且还可能带来过拟合的问题.文献[26, 28]采用的高斯投票法虽然考虑了数据在决策空间的分布, 但要求数据在决策空间服从高斯分布.因此, 本文提出一种基于K-Means聚类的决策边界法.

    将训练数据子集${S}_{\Omega_n}$中的所有图像$I_i$ $(I_i\in {S}_{\Omega_n})$通过条件随机森林${T}^S_E(\Omega_n)$或${T}^S_M(\Omega_n)$估计其属于笑脸的概率$ \{ p_1, p_2, p_3, \cdots\}$, 并将$ \{p_1, p_2, p_3$, $\cdots\}$作为输入数据进行K-Means聚类以求取分类器(13)的决策边界.算法步骤为:

    步骤 1. 初始化聚类中心: $c_0 =\min \{p_1, p_2, p_3$, $\cdots\}$, $c_1 = \max \{p_1, p_2, p_3, \cdots\}$.

    步骤 2. 计算各个数据$ p_i $到聚类中心$c_0$和$c_1$的距离, 并将各个数据归类到距离较近的聚类中心所在的类.归类后的两类数据集合分别记为${C}_0=$ $\{p_1^0, p_2^0, p_3^0, \cdots\}$和${C}_1=\{p_1^1, p_2^1, p_3^1, \cdots\}$.

    步骤 3. 计算各类均值作为新的聚类中心.

    步骤 4. 重复步骤2和步骤3, 直到聚类中心不再变化.

    步骤 5. 输出聚类结果${C}_0$和${C}_1$.

    由条件随机森林${T}^S_E(\Omega_n)$或${T}^S_M(\Omega_n)$的训练样本得到的决策边界由两类中离各自聚类中心最远的点共同决定, 即

    $ \begin{align} \tau_p (\Omega_n) =&\ \frac{1}{2}\left( \max \{p_1^0, p_2^0, p_3^0, \cdots\}~+\right.\notag\\ &\left. \min \{p_1^1, p_2^1, p_3^1, \cdots\}\right) \end{align} $

    (14)

    检测时, 分类器(13)的决策边界为

    $ \begin{align} \tau_p = \tau_p (\Omega_n)\int_{\omega\in\Omega_n}p\left({\omega}|{ P}\right){\rm d}w \end{align} $

    (15)

    本文分别从嘴巴和眉眼区域采集图像子块训练两组条件随机森林构建层级式结构进行笑脸检测, 流程如图 2所示.

    图 2  层级式笑脸检测流程图
    Fig. 2  The flowchart of the proposed smile detection method

    1) 测试图像通过文献[32]的方法检测人脸, 根据人脸几何位置关系提取嘴巴和眼睛区域.

    2) 从人脸区域密集采样图像子块输入头部估计随机森林${T}^H$估计头部姿态.

    3) 根据头部姿态估计的结果, 按第2.3节方法, 从条件随机森林$\{{T}_M^S (\Omega_n)\}_{n=1}^3 $中选取相应数量的决策树动态建构随机森林${T}_M^C$, 判决测试图像是否笑脸表情.若结果为笑脸, 即判定该测试图像为笑脸表情.

    4) 若${T}_M^C$判决为非笑脸, 则再次从$\{{T}_E^S (\Omega_n)\}_{n=1}^3$建构随机森林${T}_E^C$作进一步的判决.采用这种层级式的检测结构, 一方面可以提高笑脸检测的准确率, 另一方面由于图像子块从小部分人脸区域采集, 提高了算法的运算效率.此外, 采用层级式的检测结构, 在大部分情况下仅使用一个分类器就能对笑脸做出判断, 能够进一步减少计算量.

    为了评估本文方法的有效性, 分别在GENKI-4K数据集[4]、LFW数据集[24]和自备教室数据集(CCNU-Classroom)上进行了实验. GENKI-4K和LFW数据集均为从互联网收集的自然状态下拍摄的人脸图像, 包含不同种族、个体、性别、光照条件、分辨率和表情等因素. GENKI-4K数据集由4 000张图像组成, 其头部水平偏向角范围为$-20^\circ$ $\sim$+$20^\circ$. LFW数据集包含13 233张人脸图像, 其头部水平偏向角范围为$-90^\circ$ $\sim$ $ +90^\circ$. CCNU-Classroom数据集包含345张在自然课堂场景下采集的图像, 每张图像包含$ 8$ $\sim$ $12$个学生. CCNU-Classroom数据集同样包含不同头部姿态、光照变化和低分辨率等因素.实验前, 分别让5名专家对LFW和CCNU-Classroom数据集中的每个人脸做了头部姿态和笑($+1$)/非笑($-1$)的人工标注, 然后取占优的人工标注作为客观标注(Ground truth).

    在训练头部姿态估计随机森林${T}^H$时, 设置树的数量为60, 树的最大深度为15, 二值测试候选库的大小为2 000.随机森林${T}^H$的训练数据集为从LFW数据集中随机选取的2 000张图像.选取训练图像后, 抠取人脸区域并归一化为$125$像素$\times$ $125$像素, 然后从每个人脸区域上随机采样200个大小为$30$像素$\times$ $30$像素的图像子块用于训练.

    在训练笑脸分类条件随机森林$\{{T}_M^S(\Omega_n)\}_{n=1}^3$和时, 设置树的最大深度为15, 二值测试候选库的大小为1 500.从LFW数据集中随机选取5 518张正脸(水平偏向角为$-30^\circ$ $\sim$ $+30^\circ$)图像用于训练${T}_M^S(\Omega_1)$和, 1 883张微侧脸(水平偏向角为$-60^\circ$ $\sim$ $-30^\circ$及$+30^\circ$ $\sim$ $+60^\circ $)用于训练${T}_M^S(\Omega_2)$和${T}_E^S(\Omega_2)$, 4 507张侧脸图像(水平偏向角为$-90^\circ$ $\sim$ $-60^\circ$及$+60^\circ$ $\sim$ $+90^\circ $)用于训练$ {T}_M^S(\Omega_3)$和$ {T}_E^S(\Omega_3)$.为进行对比实验, 除$\{{T}_M^S(\Omega_n)\}_{n=1}^3 $和$\{{T}_E^S(\Omega_n)\}_{n=1}^3$外, 从整个人脸区域采样图像子块训练了一组条件随机森林, 记为$\{{T}_F^S(\Omega_n)\}_{n=1}^3$.训练时, 人脸区域归一化为125像素$\times$ $125$像素; 嘴巴区域归一化为120像素$\times$ $60$像素, 图像子块的大小为30像素$\times$ $15$像素, 且从每张图像上采样的图像子块个数为150;眉眼区域归一化为120像素$\times$ $40$像素, 图像子块的大小为30像素$\times$ $10$像素, 且从每张图像上采样的图像子块个数为100.实验发现, 在所有训练参数中, 树的数量对笑脸分类准确率的影响最大. 图 3为在各训练数据子集上树的数量与笑脸分类准确率关系曲线.随着树的数量的增加, 笑脸分类的准确率也随之上升, 最终趋于平稳.因此, 在后续实验中笑脸分类随机森林$\{{T}_M^S(\Omega_n)\}_{n=1}^3$和树的数量统一取为40.

    图 3  决策树的数量与笑脸分类准确率的关系
    Fig. 3  The accuracies for different numbers of trees in CRF

    测试集包括GENKI-4K数据集的4 000张图像、LFW数据集中未参与训练的2 000张图像和CCNU-Classroom数据集的345张图像(约3 500个人脸).本文方法在三个数据集上的部分实验结果如图 4所示.实验结果表明:

    图 4  本文方法的笑脸检测结果
    Fig. 4  The exemplar results of the proposed smile detection method

    1) 本文方法能有效处理非约束环境下包含头部姿态多样性、低分辨率和光照变化等多种挑战因素的自然笑脸检测问题.

    2) 本文方法具备良好的鲁棒性.在一个数据集上训练的算法应用于其他独立采集的数据集仍能保持良好的性能.

    3.2.1   不同笑脸检测算法的比较

    进行了两组对比实验: 1)在GENKI-4K数据集上进行, 对比在头部姿态变化范围较小情况下的笑脸检测效果; 2)在LFW和CCNU-Classroom数据集上进行, 对比在头部姿态变化范围较大情况下的笑脸检测效果.

    将本文方法与Shan[15]和An等[16]在GENKI-4K数据集上进行对比实验.文献[15]采用像素对灰度差值作为特征, 使用AdaBoost分类器.文献[16]分别采用了LBP和HOG特征, 使用线性判别式分析(Linear discriminant analysis, LDA)、SVM和ELM三种分类器.对比结果如表 1所示, 本文方法优于文献[15-16].在头部姿态变化范围较小的情况下, 本文方法在使用灰度、Gabor和LBP三种特征时取得了91.14 %的准确率, 在仅使用灰度或LBP特征时的准确率分别为88.36 %和86.99 %.

    表 1  本文方法与文献[15-16]在GENKI-4K数据集上的比较
    Table 1  The proposed approach compared with [15-16] on GENKI-4K dataset
    方法 特征 分类器 准确率(%)
    An等[16] LBP LDA 76.60
    An等[16] LBP SVM 84.20
    An等[16] HOG ELM 88.50
    Shan[15] LBP AdaBoost 86.43
    Shan[15] Gray AdaBoost 80.38
    Shan[15] Pixel Comparisons AdaBoost 89.70
    本文方法 LBP CRF 86.99
    本文方法 Gray CRF 88.36
    本文方法 LBP, Gray, Gabor CRF 91.14
    下载: 导出CSV 
    | 显示表格

    为了验证各种笑脸检测方法在头部姿态变化较大情况下的性能, 将本文方法、基于支持向量机(SVM)和基于随机森林(Random forest, RF)、基于AdaBoost的笑脸检测方法分别在LFW和CCNU-Classroom两个数据集上进行对比实验.实验过程中, 本文方法严格按照图 2流程进行. SVM采用libSVM[33], RF采用文献[27]的代码实现, AdaBoost采用文献[15]的方法实现.实验时, 将人脸区域归一化为125像素$\times$ $125$像素, 并将从人脸上抠取的眉眼区域或嘴巴区域分别归一化为120像素$\times$ $40$像素和120像素$\times$ $60$像素.为了比较的公平性, 四种方法均采用原始灰度值、Gabor和LBP三种特征, 其中CRF和RF及AdaBoost在每次分裂或每次训练弱分类器时随机从三种特征选择一种特征.在训练SVM时将从原图像上取得的灰度值、Gabor和LBP特征连接成一个长向量(29万维), 然后采用主成分分析法(Principal component analysis, PCA)将其压缩为5 000维(保留99.9 %的能量).四种方法均从嘴巴和眉眼区域采集图像块, 并训练两个分类器组成层级式结构进行笑脸检测.在LFW和CCNU-Classroom数据集上头部姿态估计统计结果见表 2, 四种笑脸检测算法的实验结果见表 3 (见本页下方).

    表 2  头部姿态估计在LFW和CCNU-Classroom数据集上的准确率(%)
    Table 2  Accuracies of head pose estimation on LFW and CCNU-Classroom datasets (%)
    头部姿态 LFW CCNU-Classroom
    正脸 87.88 86.41
    微侧 80.00 81.60
    侧脸 83.73 83.33
    混合 82.72 83.41
    下载: 导出CSV 
    | 显示表格
    表 3  不同笑脸检测算法在LFW和CCNU-Classroom数据集上的准确率(%)
    Table 3  Comparisons of accuracies of different smile detection algorithms on LFW and CCNU-Classroom datasets (%)
    LFW LFW CCNU-Classroom
    正脸 微侧 侧脸 混合 正脸 微侧 侧脸 混合
    本文 92.86 90.67 89.04 90.73 88.89 86.96 79.66 85.17
    SVM 85.63 77.00 81.85 83.25 77.56 74.51 68.53 73.52
    RF 78.00 77.14 85.99 81.74 78.89 79.85 59.17 72.38
    AdaBoost 75.00 72.35 68.54 71.96 70.00 65.56 61.24 66.27
    下载: 导出CSV 
    | 显示表格

    由于本文方法将整个数据集按头部姿态划分为3个数据子集, 降低了各个数据子集内样本的内类差异, 使得分类器能更有效和更高效地描述训练数据.本文方法在LFW和CCNU-Classroom数据集上分别取得了90.73 %和85.17 %的准确率, 优于基于SVM、AdaBoost和RF的方法.此外, 本文的笑脸检测方法的准确率略微高于头部姿态估计后的准确率, 说明虽然头部姿态估计的错误会在一定程度上影响笑脸的检测, 但由于进行头部姿态划分后在各姿态条件下笑脸检测性能的极大提升, 以及各姿态条件下的笑脸检测器对姿态估计错误的笑脸有一定的鲁棒性, 因此整体上提高了笑脸检测的性能.

    3.2.2   不同图像子块采样方式的比较

    为比较不同图像子块采样方式的差异, 在LFW数据集上采用四种子采样方式进行实验.

    1) 从整个人脸区域随机采样图像子块, 然后仅使用条件随机森林动态构建随机森林${T}_F^C $进行笑脸检测;

    2) 仅从嘴巴区域随机采样图像子块, 然后使用条件随机森林动态构建随机森林${T}_M^C $进行笑脸检测;

    3) 仅从眉眼区域随机采样图像子块, 然后使用条件随机森林动态构建随机森林${T}_E^C $进行笑脸检测;

    4) 从嘴巴和眉眼区域随机采样图像子块, 然后按图 2流程使用条件随机森林$\{{T}_M^S(\Omega_n) \}_{n=1}^3$和动态构建随机森林${T}_M^C $和${T}_E^C $组成层级式结构进行笑脸检测.

    为避免其他因素的影响, 实验过程中头部姿态直接采用客观标注, 决策边界统一采用本文提出的K-Means聚类法确定.采用四种图像子块采样方式对应的笑脸检测准确率见表 4, 从嘴巴和眉眼区域随机采样图像子块组成层级式分类器取得的效果最好.

    表 4  不同图像子块采样方式在LFW数据集上的笑脸检测准确率(%)
    Table 4  Accuracies of smile detection with different image sub-regions on LFW dataset (%)
    头部姿态 整个人脸 嘴巴区域 眉眼区域 嘴巴十眉眼
    正脸 78.00 91.08 67.74 95.09
    微侧 75.50 88.50 64.50 90.05
    侧脸 72.08 86.86 62.08 86.86
    混合 74.79 88.71 64.59 90.47
    下载: 导出CSV 
    | 显示表格
    3.2.3   不同嘴巴和眼睛区域定位方法的比较

    为比较不同嘴巴和眼睛区域的定位方法对笑脸检测的影响, 分别使用人脸几何位置关系粗略确定嘴巴、眉眼区域和文献[27]提出的人脸特征点定位方法来精确确定嘴巴区域和眉眼区域, 在LFW数据集上进行实验.为避免其他因素的干扰, 实验时头部姿态直接采用客观标注.采用两种嘴巴和眉眼区域的定位方法对应的笑脸检测准确率见表 5.精确定位嘴巴区域和眉眼区域可以进一步提升本文方法的笑脸检测准确率.但精确定位方法会带来更多的计算量.与使用粗略定位相比, 使用精确定位在LFW数据集上进行笑脸检测每幅图像的平均耗时增加19 ms.

    表 5  不同嘴巴和眉眼区域定位方法的笑脸检测准确率(%)
    Table 5  Accuracies of smile detection using different approaches to locate eyes and mouth regions (%)
    方法 正脸 微侧 侧脸 混合
    几何关系粗略定位 95.09 90.05 86.86 90.47
    人脸特征点精确定位 95.79 91.00 88.74 91.37
    下载: 导出CSV 
    | 显示表格
    3.2.4   不同决策边界确定方法的比较

    为比较不同决策边界方法的优劣, 分别使用本文提出的K-Means聚类、高斯投票[26-27]和决策桩[31]三种分类决策边界确定方法, 在LFW数据集和CCNU-Classroom数据集上进行实验.为避免其他因素的干扰, 实验时头部姿态直接采用客观标注, 图像子块从嘴巴区域和眉眼区域采集, 并按图 2流程进行笑脸检测.采用三种决策边界确定方法对应的笑脸检测准确率见表 6.本文提出的K-Means聚类法取得了最好的效果, 高斯投票法次之, 决策桩的效果最差.

    表 6  使用不同决策边界方法对应的笑脸检测准确率(%)
    Table 6  Accuracies of smile detection using different decision boundary methods (%)
    LFW CCNU-Classroom
    头部姿态 K-Means 高斯 决策桩 K-Means 高斯 决策桩
    正脸 95.09 90.78 52.91 88.89 87.78 75.56
    微测 90.50 88.50 80.00 86.96 85.04 71.43
    侧脸 86.86 85.23 74.22 79.66 77.94 61.90
    混合 90.81 88.17 69.04 85.17 83.59 69.63
    下载: 导出CSV 
    | 显示表格

    本文提出一种基于条件随机森林的自然笑脸检测方法.以头部姿态作为隐含条件划分数据空间, 构建了基于条件随机森林的笑脸检测模型, 降低了数据的内类差异, 因此有效抑制了非约束环境下头部姿态多样性对笑脸检测带来的不利影响.提出了一种基于K-Means的分类边界决策方法.相比随机森林算法常用的平均值法或多高斯法等投票方法, 基于K-Means的分类边界法考虑了数据在决策空间的分布, 因此具备更高的笑脸分类准确率.同时, 分别从嘴巴区域和眉眼区域采集图像子块训练两组条件随机森林构成层级式结构进行笑脸检测, 提高了准确率.实验结果表明, 本文方法对非约束环境下的自然笑脸检测具备较好的准确性和鲁棒性.在未来的工作中, 将尝试结合基于AUs的方法来自动选取对笑脸检测最有效的区域, 以进一步提高笑脸检测的准确率.


  • 本文责任编委 黄庆明
  • 图  1  基于条件随机森林的笑脸检测示意图

    Fig.  1  Smile detection based on conditional random forests

    图  2  层级式笑脸检测流程图

    Fig.  2  The flowchart of the proposed smile detection method

    图  3  决策树的数量与笑脸分类准确率的关系

    Fig.  3  The accuracies for different numbers of trees in CRF

    图  4  本文方法的笑脸检测结果

    Fig.  4  The exemplar results of the proposed smile detection method

    表  1  本文方法与文献[15-16]在GENKI-4K数据集上的比较

    Table  1  The proposed approach compared with [15-16] on GENKI-4K dataset

    方法 特征 分类器 准确率(%)
    An等[16] LBP LDA 76.60
    An等[16] LBP SVM 84.20
    An等[16] HOG ELM 88.50
    Shan[15] LBP AdaBoost 86.43
    Shan[15] Gray AdaBoost 80.38
    Shan[15] Pixel Comparisons AdaBoost 89.70
    本文方法 LBP CRF 86.99
    本文方法 Gray CRF 88.36
    本文方法 LBP, Gray, Gabor CRF 91.14
    下载: 导出CSV

    表  2  头部姿态估计在LFW和CCNU-Classroom数据集上的准确率(%)

    Table  2  Accuracies of head pose estimation on LFW and CCNU-Classroom datasets (%)

    头部姿态 LFW CCNU-Classroom
    正脸 87.88 86.41
    微侧 80.00 81.60
    侧脸 83.73 83.33
    混合 82.72 83.41
    下载: 导出CSV

    表  3  不同笑脸检测算法在LFW和CCNU-Classroom数据集上的准确率(%)

    Table  3  Comparisons of accuracies of different smile detection algorithms on LFW and CCNU-Classroom datasets (%)

    LFW LFW CCNU-Classroom
    正脸 微侧 侧脸 混合 正脸 微侧 侧脸 混合
    本文 92.86 90.67 89.04 90.73 88.89 86.96 79.66 85.17
    SVM 85.63 77.00 81.85 83.25 77.56 74.51 68.53 73.52
    RF 78.00 77.14 85.99 81.74 78.89 79.85 59.17 72.38
    AdaBoost 75.00 72.35 68.54 71.96 70.00 65.56 61.24 66.27
    下载: 导出CSV

    表  4  不同图像子块采样方式在LFW数据集上的笑脸检测准确率(%)

    Table  4  Accuracies of smile detection with different image sub-regions on LFW dataset (%)

    头部姿态 整个人脸 嘴巴区域 眉眼区域 嘴巴十眉眼
    正脸 78.00 91.08 67.74 95.09
    微侧 75.50 88.50 64.50 90.05
    侧脸 72.08 86.86 62.08 86.86
    混合 74.79 88.71 64.59 90.47
    下载: 导出CSV

    表  5  不同嘴巴和眉眼区域定位方法的笑脸检测准确率(%)

    Table  5  Accuracies of smile detection using different approaches to locate eyes and mouth regions (%)

    方法 正脸 微侧 侧脸 混合
    几何关系粗略定位 95.09 90.05 86.86 90.47
    人脸特征点精确定位 95.79 91.00 88.74 91.37
    下载: 导出CSV

    表  6  使用不同决策边界方法对应的笑脸检测准确率(%)

    Table  6  Accuracies of smile detection using different decision boundary methods (%)

    LFW CCNU-Classroom
    头部姿态 K-Means 高斯 决策桩 K-Means 高斯 决策桩
    正脸 95.09 90.78 52.91 88.89 87.78 75.56
    微测 90.50 88.50 80.00 86.96 85.04 71.43
    侧脸 86.86 85.23 74.22 79.66 77.94 61.90
    混合 90.81 88.17 69.04 85.17 83.59 69.63
    下载: 导出CSV
  • [1] Sénéchal T, Turcot J, el Kaliouby R. Smile or smirk? Automatic detection of spontaneous asymmetric smiles to understand viewer experience. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Shanghai, China: IEEE, 2013. 1-8
    [2] Chen J Y, Luo N, Liu Y Y, Liu L Y, Zhang K, Kolodziej J. A hybrid intelligence-aided approach to affect-sensitive e-learning. Computing, 2016, 98(1-2):215-233 doi: 10.1007/s00607-014-0430-9
    [3] Shah R, Kwatra V. All smiles: automatic photo enhancement by facial expression analysis. In: Proceedings of the 9th European Conference on Visual Media Production (CVMP). London, UK: ACM, 2012. 1-10
    [4] Whitehill J, Littlewort G, Fasel I, Bartlett M, Movellan J. Toward practical smile detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(11):2106-2111 doi: 10.1109/TPAMI.2009.42
    [5] Sariyanidi E, Gunes H, Cavallaro A. Automatic analysis of facial affect:a survey of registration, representation, and recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(6):1113-1133 doi: 10.1109/TPAMI.2014.2366127
    [6] 孙晓, 潘汀, 任福继.基于ROI-KNN卷积神经网络的面部表情识别.自动化学报, 2016, 42(6):883-891 http://www.aas.net.cn/CN/abstract/abstract18879.shtml

    Sun Xiao, Pan Ting, Ren Fu-Ji. Facial expression recognition using ROI-KNN deep convolutional neural networks. Acta Automatica Sinica, 2016, 42(6):883-891 http://www.aas.net.cn/CN/abstract/abstract18879.shtml
    [7] Tong Y, Chen J X, Ji Q. A unified probabilistic framework for spontaneous facial action modeling and understanding. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(2):258-273 doi: 10.1109/TPAMI.2008.293
    [8] Vick S J, Waller B M, Parr L A, Pasqualini M C S, Bard K. A cross-species comparison of facial morphology and movement in humans and chimpanzees using the facial action coding system (FACS). Journal of Nonverbal Behavior, 2007, 31(1):1-20 doi: 10.1007/s10919-006-0017-z
    [9] Valstar M, Pantic M. Fully automatic recognition of the temporal phases of facial actions. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2012, 42(1):28-43 doi: 10.1109/TSMCB.2011.2163710
    [10] 解仑, 卢亚楠, 姜波, 孙铁, 王志良.基于人脸运动单元及表情关系模型的自动表情识别.北京理工大学学报, 2016, 36(2):163-169 http://www.cnki.com.cn/Article/CJFDTotal-BJLG201602011.htm

    Xie Lun, Lu Ya-Nan, Jiang Bo, Sun Tie, Wang Zhi-Liang. Expression automatic recognition based on facial action units and expression relationship model. Transactions of Beijing Institute of Technology, 2016, 36(2):163-169 http://www.cnki.com.cn/Article/CJFDTotal-BJLG201602011.htm
    [11] 王磊, 邹北骥, 彭小宁.针对表情动作单元跟踪的隧道隐变量法.自动化学报, 2009, 35(2):198-201 http://www.aas.net.cn/CN/abstract/abstract18060.shtml

    Wang Lei, Zou Bei-Ji, Peng Xiao-Ning. Tunneled latent variables method for facial action unit tracking. Acta Automatica Sinica, 2009, 35(2):198-201 http://www.aas.net.cn/CN/abstract/abstract18060.shtml
    [12] Yang P, Liu Q S, Metaxas D N. Exploring facial expressions with compositional features. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 2638-2644
    [13] Walecki R, Rudovic O, Pavlovic V, Pantic M. Variable-state latent conditional random fields for facial expression recognition and action unit detection. In: Proceedings of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Ljubljana, Slovenia: IEEE, 2015. 1-8
    [14] Shimada K, Matsukawa T, Noguchi Y, Kurita T. Appearance-based smile intensity estimation by cascaded support vector machines. In: Proceedings of the 2010 Revised Selected Papers, Part I Asian Conference on Computer Vision (ACCV). Queenstown, New Zealand: Springer, 2010. 277-286
    [15] Shan C F. Smile detection by boosting pixel differences. IEEE Transactions on Image Processing, 2012, 21(1):431-436 doi: 10.1109/TIP.2011.2161587
    [16] An L, Yang S F, Bhanu B. Efficient smile detection by extreme learning machine. Neurocomputing, 2015, 149:354-363 doi: 10.1016/j.neucom.2014.04.072
    [17] Huang G B, Zhou H M, Ding X J, Zhang R. Extreme learning machine for regression and multiclass classification. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2012, 42(2):513-529 doi: 10.1109/TSMCB.2011.2168604
    [18] Gao Y, Liu H, Wu P P, Wang C. A new descriptor of gradients self-similarity for smile detection in unconstrained scenarios. Neurocomputing, 2016, 174:1077-1086 doi: 10.1016/j.neucom.2015.10.022
    [19] Liu H, Gao Y, Wu P. Smile detection in unconstrained scenarios using self-similarity of gradients features. In: Proceedings of the 2014 IEEE International Conference on Image Processing (ICIP). Paris, France: IEEE, 2014. 1455-1459
    [20] El Meguid M K A, Levine M D. Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers. IEEE Transactions on Affective Computing, 2014, 5(2):141-154 doi: 10.1109/TAFFC.2014.2317711
    [21] 刘帅师, 田彦涛, 万川.基于Gabor多方向特征融合与分块直方图的人脸表情识别方法.自动化学报, 2011, 37(12):1455-1463 http://www.aas.net.cn/CN/abstract/abstract17643.shtml

    Liu Shuai-Shi, Tian Yan-Tao, Wan Chuan. Facial expression recognition method based on gabor multi-orientation features fusion and block histogram. Acta Automatica Sinica, 2011, 37(12):1455-1463 http://www.aas.net.cn/CN/abstract/abstract17643.shtml
    [22] Dapogny A, Bailly K, Dubuisson S. Pairwise conditional random forests for facial expression recognition. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, USA: IEEE, 2015, 3783-3791
    [23] Yin L J, Wei X Z, Sun Y, Wang J, Rosato M J. A 3D facial expression database for facial behavior research. In: Proceedings of the 7th IEEE International Conference on Automatic Face and Gesture Recognition. Southampton, Britain: IEEE, 2006. 211-216
    [24] Huang G B, Mattar M, Berg T, Learned-Miller E. Labeled faces in the wild:a database for studying face recognition in unconstrained environments. Technical Report, University of Massachusetts, USA, 2007.
    [25] Breiman L. Random forests. Machine Learning, 2001, 45(1):5-32 doi: 10.1023/A:1010933404324
    [26] Liu Y Y, Chen J Y, Su Z M, Luo Z Z, Luo N, Liu L Y, Zhang K. Robust head pose estimation using Dirichlet-tree distribution enhanced random forests. Neurocomputing, 2015, 173:42-53 https://www.sciencedirect.com/science/article/pii/S0925231215010413
    [27] Sun M, Kohli P, Shotton J. Conditional regression forests for human pose estimation. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2012. 3394-3401
    [28] Dantone M, Gall J, Fanelli G, Van Gool L. Real-time facial feature detection using conditional regression forests. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA, 2012. 2578-2585
    [29] Du S Y, Zheng N N, You Q B, Wu Y, Yuan M J, Wu J J. Rotated Haar-Like features for face detection with in-plane rotation. In: Proceedings of the 12th International Conference, Virtual Systems and Multimedia (VSMM). Xi'an, China: Springer, 2006. 128-137
    [30] Du S Y, Liu J, Liu Y H, Zhang X T, Xue J R. Precise glasses detection algorithm for face with in-plane rotation. Multimedia Systems, 2017, 23(3):293-302 doi: 10.1007/s00530-015-0483-4
    [31] Wayne I, Langley P. Induction of one-level decision trees. In: Proceedings of the 9th International Workshop on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann, 1992. 233-240
    [32] Viola P, Jones M J. Robust real-time face detection. International Journal of Computer Vision, 2004, 57(2):137-154 doi: 10.1023/B:VISI.0000013087.49260.fb
    [33] Chang C C, Lin C J. Training v-support vector classifiers:theory and algorithms. Neural Computation, 2001, 13(9):2119-2147 doi: 10.1162/089976601750399335
  • 期刊类型引用(7)

    1. 郭海涛,汤健,丁海旭,乔俊飞. 基于混合数据增强的MSWI过程燃烧状态识别. 自动化学报. 2024(03): 560-575 . 本站查看
    2. 张永清,卢荣钊,乔少杰,韩楠,GUTIERREZLouis Alberto,周激流. 一种基于样本空间的类别不平衡数据采样方法. 自动化学报. 2022(10): 2549-2563 . 本站查看
    3. 张东晓,陈彦翔. 一种面向移动端的浅层CNN表情识别. 集美大学学报(自然科学版). 2021(02): 129-138 . 百度学术
    4. 刘尚旺,刘承伟,张爱丽. 基于深度可分卷积神经网络的实时人脸表情和性别分类. 计算机应用. 2020(04): 990-995 . 百度学术
    5. 何俊,刘跃,李倡洪,沈津铭,李帅,王京威. 基于改进的深度残差网络的表情识别研究. 计算机应用研究. 2020(05): 1578-1581 . 百度学术
    6. 瞿叶奇,高德欣,孙亚光. 基于机器学习的中央空调的优化控制策略. 青岛科技大学学报(自然科学版). 2019(01): 111-118 . 百度学术
    7. 陈靓影,罗珍珍,徐如意. 课堂教学环境下学生学习兴趣智能化分析. 电化教育研究. 2018(08): 91-96 . 百度学术

    其他类型引用(9)

  • 加载中
  • 图(4) / 表(6)
    计量
    • 文章访问数:  2192
    • HTML全文浏览量:  220
    • PDF下载量:  815
    • 被引次数: 16
    出版历程
    • 收稿日期:  2016-06-13
    • 录用日期:  2016-12-10
    • 刊出日期:  2018-04-20

    目录

    /

    返回文章
    返回