李霞 卢官明 闫静杰 张正言

李霞, 卢官明, 闫静杰, 张正言. 多模态维度情感预测综述. 自动化学报, 2018, 44(12): 2142-2159. doi: 10.16383/j.aas.2018.c170644
引用本文: 李霞, 卢官明, 闫静杰, 张正言. 多模态维度情感预测综述. 自动化学报, 2018, 44(12): 2142-2159. doi: 10.16383/j.aas.2018.c170644
LI Xia, LU Guan-Ming, YAN Jing-Jie, ZHANG Zheng-Yan. A Survey of Dimensional Emotion Prediction by Multimodal Cues. ACTA AUTOMATICA SINICA, 2018, 44(12): 2142-2159. doi: 10.16383/j.aas.2018.c170644
Citation: LI Xia, LU Guan-Ming, YAN Jing-Jie, ZHANG Zheng-Yan. A Survey of Dimensional Emotion Prediction by Multimodal Cues. ACTA AUTOMATICA SINICA, 2018, 44(12): 2142-2159. doi: 10.16383/j.aas.2018.c170644


江苏省研究生创新项目 KYLX150827

江苏省自然科学基金 BK20150855

国家自然科学基金 61501249

江苏省重点研发计划项目 BE2016775

江苏省研究生创新项目 KYLX160660

国家自然科学基金 61071167


    李霞  南京邮电大学通信与信息工程学院博士研究生.2002年获得曲阜师范大学数学与应用数学系学士学位, 2005年获得南京大学应用数学系硕士学位.主要研究方向为情感计算, 模式识别, 机器学习和计算机视觉.E-mail:lx19800102@163.com

    闫静杰  南京邮电大学通信与信息工程学院讲师.2006年和2009年获得中国矿业与技术大学电子科学与技术学士学位和信号与信息处理硕士学位.2014年获得东南大学信息与通信工程博士学位.主要研究方向为模式识别, 情感计算, 计算机视觉和机器学习.E-mail:yanjingjie1212@163.com

    张正言  南京邮电大学通信与信息工程学院博士研究生.2004年和2007年获得江苏科技大学电子信息工程学士学位和信号与信息处理硕士学位.主要研究方向为模式识别, 机器学习和计算机视觉.E-mail:zhangzhengyan@just.edu.cn


    卢官明  南京邮电大学通信与信息工程学院教授.1985年和1988年获得南京邮电大学无线电工程学士学位和通信与电子系统硕士学位, 1999年获得上海交通大学通信与信息系统博士学位.主要研究方向为图像处理, 情感计算, 机器学习.本文通信作者.E-mail:lugm@njupt.edu.cn

A Survey of Dimensional Emotion Prediction by Multimodal Cues


    Author Bio:

     Ph. D. candidate at the College of Telecommunications and Information Engineering, Nanjing University of Posts and Telecommunications. She received her bachelor degree in mathematics and applied mathematics from Qufu Normal University in 2002 and master degree in applied mathematics from Nanjing University in 2005, respectively. Her research interest covers affective computing, pattern recognition, machine learning, and computer vision

     Lecturer at the College of Telecommunications and Information Engineering, Nanjing University of Posts and Telecommunications. He received his bachelor degree in electronic science and technology in 2006 and master degree in signal and information processing in 2009 from China University of Mining and Technology, and Ph. D. degree in signal and information processing from Southeast University in 2014. His research interest covers pattern recognition, affective computing, computer vision, and machine learning

     Ph. D. candidate at the College of Telecommunications and Information Engineering, Nanjing University of Posts and Telecommunications. He received his bachelor degree in electronic information engineering and master degree in signal and information processing from Jiangsu University of Science and Technology in 2004 and 2007, respectively. His research interest covers pattern recognition, machine learning, and computer vision

    Corresponding author: LU Guan-Ming  Professor at the College of Communication and Information Engineering, Nanjing University of Posts and Telecommunications. He received his bachelor degree in radio engineering and master degree in communication and electronic systems from Nanjing University of Posts and Telecommunications in 1985 and 1988, respectively, and Ph. D. degree in communication and information systems from Shanghai Jiao Tong University in 1999. His research interest covers image processing, affective computing, and machine learning. Corresponding author of this paper
  • 摘要: 维度情感模型通过几个取值连续的维度(如唤醒维、效价维、支配维等)将情感刻画为一个多维信号.与传统的离散情感模型相比,具有表示情感的范围广、能描述情感的演变过程等优点,近年来受到越来越多情感识别研究者的关注.多模态维度情感预测是一项复杂的工程,预测性能受所使用的模态、每个模态的特征提取、信息融合技术、标注人员的标注误差等多方面影响.为了提高多模态维度情感预测的性能,研究者在各个方面都做出了不懈努力.本文综述了维度情感的概念、标注,维度情感预测的性能评价指标以及多模态维度情感预测的研究现状,对比和分析了各种因素对多模态维度情感预测性能的影响,并总结出多模态维度情感预测面临的挑战及发展趋势.
    1)  本文责任编委 黄庆明
  • 图  1  愉悦-唤醒模型

    Fig.  1  Pleasure-arousal model

    图  2  SAM系统

    Fig.  2  SAM system

    图  3  FEELtrace标注示例

    Fig.  3  Example of FEELtrace annotation

    图  4  ANNEMO标注示例

    Fig.  4  Example of ANNEMO annotation

    图  5  具有不同MSE和CC的效价维的预测与真值的对比图

    Fig.  5  Comparison of the prediction and truth values of valence dimension with different MSEs and CCs

    图  6  CC相同的条件下唤醒维的预测与真值的对比图

    Fig.  6  Comparison of the prediction and truth values of arousal dimension with the same CC

    图  7  单层卷积神经网络的三个阶段

    Fig.  7  The tree phases of the single layer convolutional neural network

    图  8  自编码器的结构

    Fig.  8  Structure of autoencoder

    图  9  RNN的网络结构

    Fig.  9  Network structure of RNN

    图  10  OA融合框架

    Fig.  10  OA fusion framework

    表  1  常用维度情感数据库总结

    Table  1  Summary of the frequently used dimensional emotion

    数据库 场景 参与者数 模态 情感维度 标注者数 工具/方法 标签范围与类型
    SEMAINE Solid SAL 24 Vi + Au A, V, E, D, I 2~8人 FEELtrace [-1, 1]的连续值
    RECOLA 远程视频会议 46 Vi + Au + Ph A, V 6人 ANNEMO [-1, 1]的连续值
    IEMOCAP 双人对话表演 10 Vi + Au A, V, D 至少2人 SAM系统 1~5的整数值
    CreativeIT 双人对话表演 16 Vi + Au A, V, D 3~4人 FEELtrace [-1, 1]的连续值
    DEAP 观看音乐视频 32 Vi + Ph A, V, D 1人 SAM系统 [1, 9]的连续值
    VAM 电视脱口秀 47 Vi + Au A, V, D 6~34人 SAM系统 [-1, 1]的5点等间隔值
    注: Vi —视觉模态, Au —听觉模态, Ph —生理信号, A —唤醒维, V —效价维, E —期望维, D —支配维, I —强度维
    表  2  维度情感预测文献总结

    Table  2  Literature review of the dimensional emotion

    模态 特征 特征选择和降维 维度情感预测模型 信息融合方法
    回归模型 分类模型
    [49] (2008) Au 声学特征 CFS LSTM-RNN CRF -
    [16] (2009) Au 声学特征 - - HMM -
    [28] (2010) Vi 头部运动 几何特征 - SVR - -
    [50] (2010) Vi 步态 几何特征 PCA, KPCA, LDA, GDA - NN -
    [18] (2010) Au 声音 声学特征 CFS - LSTM-RNN FE
    语言 语言特征
    [51] (2010) Au 声音 声学特征 - LSTM-RNN - FE
    语言 语言特征
    [52] (2010) Vi 几何特征 PCA, CFS - BLSTM FE
    Au 声学特征
    [48] (2011) Vi LBP特征 PCA, SPCA SVR - FE + DE
    Au 声学特征
    [53] (2011) Vi 几何特征 - GMM - MO
    Au 声学特征
    [32] (2011) Vi 头部姿势、面部运动单元 CFS SVR - FE-基于串的方法
    Au 笑声、叹息声、关键词
    [45] (2011) Au 声音 声学特征 CFS SVR - FE
    语言 BoCNG特征
    [21] (2011) Vi 面部 几何特征 - BLSTM - OA
    Au 声学特征
    [54] (2012) Vi 几何特征 - - EWSC-HMM MO
    Au 声学特征
    [55] (2012) Vi 面部 面部表情 -
    身体 几何特征 - 多模态推断系统 MO
    Au 语言与关键词信息
    [56] (2012) Vi 多尺度动态视频特征 新的基于相关的特征选择 核回归 - OA-局部线性回归
    Au 声学特征
    [57] (2012) Vi 面部 几何特征 - OA-RVM - OA-RVM
    Au 声学特征
    [31] (2013) Vi 基于光流的低级特征
    Au 声音 声学特征 CFS BLSTM - FE
    语言 BoW特征
    [58] (2013) Vi 局部时空特征 - SVR - DE-加权和
    Au 声学特征
    [59] (2013) Vi 几何特征 CSR CSR - CSR
    Au 声学特征
    [60] (2015) Vi EOH, LBP, LBQ - PLS - DE-线性回归
    Au 声学特征
    [23] (2015) Vi LBP-TOP, LGBP-TOP, PHOG-TOP, HOG, 时空几何特征 - 随机森林 - DE-平均
    Au 声学特征
    Ph 生理特征
    [61] (2015) Vi LGBP-TOP, 时空几何特征 - SVM, RVM - OA
    Au 声学特征
    Ph 时间和频域特征
    [62] (2015) Vi LGBP-TOP, LPQ-TOP, 时空几何特征 - DBLSTM - DE-DBLSTM
    Au 声学特征
    Ph 时间和频域特征
    [63] (2015) Vi LGBP-TOP, 时空几何特征 PCA LSTM - FE, DE-线性回归
    Au 声学特征
    Ph 时间和频域特征
    [64] (2016) Au 声学特征 - DBLSTM - DE-ELM
    [65] (2016) Au 加强后的声学特征 - SVR - -
    [66] (2016) Vi LBP特征 CFS DNN-SKF - FE
    Au 声学特征
    词汇 词汇特征
    [67] (2016) Vi CNN特征 - LSTM - DE-Kalman滤波
    Au 声学特征
    Ph 时间和频域特征
    [68] (2016) Au CNN特征 - LSTM - -
    [69] (2016) Vi LGBP-TOP, 几何特征, CNN特征 PCA LSTM - DE-LSTM
    Au 声学特征
    Ph 时间和频域特征
    [20] (2017) Ph 通过SAE进行抽象的传统特征 - Bayesian模型 - FE-分层的特征融合网络
    注: 若文中使用多种方法进行对比分析, 这里只列出性能最好的一种方法. Vi — 视觉模态, Au — 听觉模态, Ph — 生理信号, FE — 特征层 融合, DE — 决定层融合 (决定层融合使用的具体方法), MO — 模型层融合, OA — 输出相关融合
    表  3  连续维度情感预测对比总结

    Table  3  Comparison and summary of continuous dimensional emotion prediction

    文献 数据库 模态 情感维度 特征 回归模型 融合方法 延时弥补
    CC CCC
    AVEC 2012 Vi A, V, E, D Vi LBP SVR - N N 0.09 -
    Vi+Au Au 声学特征 FE N N 0.11 -
    [58] AVEC 2012 Vi A, V, E, D Vi 局部时空特征 SVR - N N 0.41 -
    Vi+Au Au 声学特征 DE-加权和 N N 0.42 -
    AVEC 2014 Vi A, V, D Vi LGBP-TOP SVR - N N 0.20 -
    Vi+Au Au 声学特征 DE-加权和 N N 0.36 -
    AVEC 2015 Vi A, V Vi LGBP-TOP+时空几何特征 SVR - N N 0.29 0.20
    Vi+Au+Ph Au 声学特征 DE-线性回归 N N 0.42 0.41
    Ph 时间和频域特性
    AVEC 2016 Vi A, V Vi LGBP-TOP+时空几何特征 SVR - N N - 0.40
    Vi+Au+Ph Au 声学特征 DE-线性回归 Y N - 0.66
    Ph 时间和频域特性
    [55] AVEC 2012 Vi+Au A, V, E, D Vi 面部表情+身体语言 多模态模糊推断系统 MO N N 0.43 -
    Au 语句和关键词信息
    [56] AVEC 2012 Vi+Au A, V, E, D Vi 多尺度动态视频特征 核回归 OA-局部线性回归 Y Y 0.46 -
    Au 声学特征
    [61] AVEC 2015 Vi+Au+Ph A, V Vi LGBP-TOP+时空几何特征 SVM, RVM OA-Regression Y Y - 0.66
    Au 声学特征
    Ph 时间和频域特性
    [62] AVEC 2015 Vi+Au+Ph A, V Vi LGBP-TOP+LPQ-TOP+时空几何特征 DBLSTM DE-DBLSTM Y N 0.68 0.68
    Au 声学特征
    Ph 时间和频域特性
    注: Vi —视觉模态, Au —听觉模态, Ph —生理信号, A —唤醒维, V —效价维, E —期望维, D —支配维, FE —特征层融合, DE —决定层融合(决定层融合使用的具体方法), MO —模型层融合, OA —输出相关融合
    表  4  维度情感分类对比总结

    Table  4  Comparison and summary of dimensional emotion

    文献 数据库 模态 情感维度 特征 识别模型 信息融合方法 最好平均性能(%)
    WA UA
    [83] (基准) AVEC 2011 音频 A, V, E, D 声学特征 SVM - 45.05 51.95
    [31] AVEC 2011 音频 A, V, E, D 声学特征 LSTM - 65.2 58.5
    [54] SEMAINE 音频+视频 A, V 视频 几何特征 EWSC-HMM 模型层融合 - 78.1
    音频 声学特征
    [80] SEMAINE 音频+视频 A, V 视频 几何特征 2H-SC-HMM 模型层融合 - 87.5
    音频 声学特征
    注: A —唤醒维, V —效价维, E —期望维, D —支配维, UA —未加权准确性, WA —加权准确性
