Video-EEG Based Collaborative Emotion Recognition Using LSTM and Information-Attention
-
摘要: 基于视频-脑电信号交互协同的情感识别是人机交互重要而具有挑战性的研究问题.本文提出了基于长短记忆神经网络(Long-short term memory, LSTM)和注意机制(Attention mechanism)的视频-脑电信号交互协同的情感识别模型.模型的输入是实验参与人员观看情感诱导视频时采集到的人脸视频与脑电信号, 输出是实验参与人员的情感识别结果.该模型在每一个时间点上同时提取基于卷积神经网络(Convolution neural network, CNN)的人脸视频特征与对应的脑电信号特征, 通过LSTM进行融合并预测下一个时间点上的关键情感信号帧, 直至最后一个时间点上计算出情感识别结果.在这一过程中, 该模型通过空域频带注意机制计算脑电信号${\alpha}$波, ${\beta}$波与${\theta}$波的重要度, 从而更加有效地利用脑电信号的空域关键信息; 通过时域注意机制, 预测下一时间点上的关键信号帧, 从而更加有效地利用情感数据的时域关键信息.本文在MAHNOB-HCI和DEAP两个典型数据集上测试了所提出的方法和模型, 取得了良好的识别效果.实验结果表明本文的工作为视频-脑电信号交互协同的情感识别问题提供了一种有效的解决方法.Abstract: Video-EEG based collaborative emotion recognition is an important yet challenging problem in research of human-computer interaction. In this paper, we propose a novel model for video-EEG based collaborative emotion recognition by virtue of long-short term memory neural network (LSTM) and attention mechanism. The inputs of this model are the facial videos and EEG signals collected from a participant who is watching video clips for emotional inducement. The output is the participant's emotion states. At each time step, the model employs convolution neural network (CNN) to extract features from video frames and corresponding EEG slices. Then it employs LSTM to iteratively fuse the multi-modal features and predict the next key-emotion frame until it yields the emotion state at the last time step. Within the process, the model computes the importance of different frequency-band EEG signals, i.e. ${\alpha}$ wave, ${\beta}$ wave, and ${\theta}$ wave, through spatial band attention, in order to effectively use the key information of EEG signals. With the temporal attention, it predicts the next key emotion frame in order to take advantage of the temporal key information of emotional data. Experiments on MAHNOB-HCI dataset and DEAP dataset show encouraging results and demonstrate the strength of our model. The results show that the proposed method presents a different perspective for effective collaborative emotion recognition.
-
Key words:
- Emotion recognition /
- long-short term memory neural network (LSTM) /
- temporal-spatial attention /
- multi-modal fusion
-
智能制造已成为公认的提升制造业整体竞争力的国家战略. 以德国工业4.0为代表的智能制造的技术基础是信息物理融合系统(CPS). CPS是美国基金会在2008年提出的, CPS是指将计算资源与物理资源紧密融合与协同, 使得系统的适应性、自治力、效率、功能、可靠性、安全性和可用性远超过今天的系统[1].
近年来, 人工智能的发展为智能制造提供了新的技术基础. 美国国家技术委员会的《国家人工智能研究与发展战略计划》 (2016.10)提出, AI改进制造过程调度, 增强制造过程的柔性, 改进产品质量、降低成本[2]. 2018年5月, 美国白宫举行“美国工业人工智能峰会”, 发表声明: 重点发展具有高影响、面向特定领域的AI, 应用于美国工业来增强美国劳动力素质, 提高他们的工作效率, 更好地服务客户[3]. 美国科学基金会关于“美国工业人工智能”发表声明: 人工智能可能使美国工业的各个环节产生变革, 为先进制造创造新的希望[4]. 美国2020和2021财务预算优先支持的研发领域指出: 支持智能和数字化制造, 特别是结合工业物联网、机器学习和AI的制造系统[5-6]. 德国继“工业4.0”平台之后, 2017年9月启动开发和应用“学习系统”计划, 使未来的工作和生产更加灵活和节省资源. 德国联邦政府人工智能战略提出, 促进AI的开发与应用面向经济, 经济是下一步AI研究的推动力[7]. 中国工程院制造强国战略研究(三期)的“新一代人工智能引领下的智能制造研究报告”提出: 新一代智能制造作为我国智能制造的第二阶段(2025-2035)的战略目标是使我国智能制造技术和应用水平走在世界前列[8].
虽然Science文章[9]指出, AI系统开发者普遍认识到, 机器学习将对工业产生广泛影响, 但是, “人工智能发展到深度学习没有考虑如何应用于制造过程”, “多尺度、多源信息获取、预报模型和资源计划决策与控制过程集成是智能制造中的挑战难题”[10]. 为了使工业人工智能在智能制造中发挥不可取代的作用, 加快我国制造业向数字化、网络化、智能化发展进程, 本文以制造与生产全流程智能化为应用场景, 提出了工业人工智能的涵义、研究方向和研究思路与方法.
1. 工业自动化与信息技术在工业革命中的作用
工业自动化与信息技术在工业革命中的作用如图1所示. 在第一次工业革命时, 出现了以蒸汽机为动力的机械生产设备. 例如, 1784年, 出现了机器织布机. 蒸汽代替了人的体力, 实现了生产动力的变革. 为了使织布机和其他机器保持恒定转速, 1788年, 吉姆斯·瓦特成功地改造了离心调速器. 离心调速器是一个比例控制器, 反馈控制实现了蒸汽机调速的自动化, 但是比例控制会产生稳态误差, 后来的调速器加入了积分作用[11-12]. 从此, 调速器成了蒸汽机不可分割的一部分. 蒸汽机与调速器的广泛应用推动了第一次工业革命. 工业革命往往伴随着动力的变革和使能技术的变革. 在第二次工业革命时, 电力代替了蒸汽成为工业生产的动力. PID 控制与逻辑控制应用于电力工业, 实现了传送带的自动化. 使传送带于1870年开始在辛辛那提屠宰场使用, 推动了基于劳动分工和以电为动力的大规模生产, 形成了第二次工业革命. 工业过程往往是由多个回路组成的复杂被控对象, 难以用精确数学模型描述. 大规模工业生产的需求、计算机和通讯技术的发展并与工业自动化技术相结合, 催生了一种专门的计算机控制系统—逻辑程序控制器(PLC). 1969年, 美国Modicon公司推出了084 PLC[13]. 该PLC控制系统可以将多个回路的传感器和执行机构通过设备网与控制系统连接起来, 可以方便地进行多个回路的控制、设备的顺序控制和监控. 1975年, Honeywell和Yokogawa公司研制了可以应用于大型工业过程的分布式控制系统(DCS)[14]. 以组态软件为基础的控制软件、过程监控软件的广泛应用使得生产线的自动化程度更高, 推动了第三次工业革命.
工业过程的运行优化需求使得实时优化(RTO)和模型预测控制(MPC)技术形成的工业过程运行优化软件广泛应用于可以建立数学模型的石化工业过程. 针对具体的难以建立数学模型的工业过程, 高技术公司开发的基于工艺模型的开环设定控制软件和基于数据驱动的智能运行优化控制技术的运行优化控制软件越来越多地应用于难以建立数学模型的冶金工业过程, 取得了显著的效果[15-16].
大规模的工业生产迫切需要生产企业的管理高效化. PLC和DCS与管理计算机、实时数据库和关系数据库相结合的计算机管控系统开始应用于工业生产中. 自动化技术与信息技术开始应用于企业管理. 20世纪60年代初, 计算机财务系统问世, 从此人工的管理方式开始逐渐被计算机管理系统代替. 20世纪60年代末70年代初, 财务系统扩充了物料计划功能, 发展成为物料需求计划系统(Material requirements planning, MRP). 20世纪70年代末80年代初, MRP系统中增加了车间报表管理系统、采购系统等, 于是发展成为MRPⅡ. 但是MRPⅡ不能配置资源, 因此配置资源计划系统(Distribution resource planning, DRP)出现了, 单一功能的制造过程管理系统(如质量管理系统)也相继出现. 到20世纪80年代末90年代初, MRPⅡ逐渐演变为企业资源计划(Enterprise resource planning, ERP), DRP演变为供应链管理(Supply chain management, SCM), 而车间层应用的专业化制造管理系统演变成集成的制造执行系统(Manufacturing execution system, MES)[17-18]. ERP和MES广泛应用于生产企业, 显著提高了企业的竞争力[19]. 三次工业革命实现了操作工作自动化、企业管理与决策的信息化.
随着5G为代表的移动互联网、边缘计算与云计算的发展, 催生了工业互联网. 工业互联网为获得工业大数据创造了条件. 大数据驱动的人工智能技术的发展以及科学研究模式与方法的变化, 如CPS和汇聚研究[20]的出现, 促进了制造业向数字化、网络化和智能化发展. 第四次工业革命将实现制造业知识工作的自动化与智能化.
2. 制造与生产全流程智能化
2.1 制造与生产全流程决策、控制与运行管理现状分析
制造与生产全流程的决策、控制与运行管理的现状如图2所示. 由企业管理者通过ERP系统获得的企业资源信息, 凭经验和知识决策企业的包括产品质量、产量、能耗、物耗、成本在内的综合生产指标的目标值范围; 生产管理者通过MES系统获得的生产信息, 凭经验和知识决策制造与生产全流程的生产指标的目标值范围; 运行管理与工艺工程师通过管控系统获得的生产工况信息和感觉、视觉、听觉、触觉获得的生产信息, 凭经验和知识决策反映制造装备或工业过程产品加工的质量、效率、消耗的运行指标目标值范围; 操作者根据运行指标目标值范围和生产实际情况凭经验和知识决策控制系统指令; 控制系统控制制造与生产全流程的加工装备(过程), 使被控装备(过程)的输出跟踪控制指令, 从而将加工产品的质量、效率、消耗的运行指标和制造与生产全流程的生产指标控制在目标值范围内.
因此, 制造与生产全流程的决策、控制与运行管理是图3所示的人参与的信息物理系统. 操作者与知识工作者根据信息系统获得的生产信息和通过感觉、视觉、听觉、触觉获得的多源异构生产信息, 利用大脑的学习认知和分析决策能力, 依靠经验和知识决策企业综合生产指标、制造与生产全流程的生产指标、运行指标和控制系统指令. 由于人难以及时准确地感知动态变化的运行工况, 难以及时准确地处理异构信息, 人的决策行为制约发展[21]. 因此, 难以实现制造与生产全流程的全局优化.
2.2 制造与生产全流程智能化
制造与生产全流程智能化的涵义是以企业高效化与绿色化为目标, 以实现制造与生产全流程的管理与决策智能优化与加工装备(过程)智能自主控制为特征的制造模式. 如图4所示, 将操作者的知识工作实现自动化, 将控制系统和加工装备(过程)变革为智能自主控制系统; 将企业管理者和生产管理者的知识工作智能化; 将ERP和MES变革为人机合作的管理与决策智能化系统; 将企业资源计划系统、制造执行系统、装备(过程)控制系统组成企业三层结构变革为如图5所示的由人机合作的管理与决策智能化系统和智能自主控制系统组成的两层结构. 制造与生产全流程的决策、控制与运行管理将变革为如图6所示的CPS系统. 由图6可以看出, 制造与生产全流程的智能化将图3中的操作者与知识工作者的知识工作实现自动化和智能化. 因此, CPS系统中的知识工作者是规划者、管理者和决策者[22].
人机合作的管理与决策智能化系统实时感知市场信息、生产条件和制造流程生产状况; 以企业高效化和绿色化为目标, 实现企业综合生产指标、制造与生产全流程生产指标、运行指标、生产指令与控制指令集成优化决策; 计划与调度一体化决策, 远程与移动可视化监控决策过程动态性能, 自学习与自优化决策; 人与智能优化决策系统合作, 使决策者在动态变化环境下精准优化决策[23-24]. 智能自主控制系统使装备(过程)运行的决策与控制模式发生颠覆性改变: 决策模式由开环决策、事后校正转变为闭环反馈决策、实时预测自优化校正; 控制模式由开环设定、反馈控制转变为自适应闭环优化、自主协同控制. 智能自主控制系统感知生产条件的变化, 相互协同, 以管理与决策智能化系统的优化决策为目标, 实现制造与生产全流程全局优化.
3. 工业人工智能
制造与生产全流程智能化对以数学模型或因果关系数据驱动的建模、控制和优化的自动化科学与技术提出了挑战. 大数据驱动的人工智能技术为实现制造与生产全流程智能化提供了新的方法和技术. 为此, 本文简述人工智能技术的涵义、发展简史与发展方向.
3.1 人工智能的涵义、发展简史与发展方向
人工智能没有一个统一的明确定义, 但是可以分为强人工智能和弱人工智能. 强人工智能指具有与人一样的智慧和全面的智能. 一些人认为强人工智能无法真正实现. 当前的人工智能是弱人工智能或窄人工智能. 它可以下棋或者开车, 但是不能两者兼备, 缺乏通用性[25]. 强人工智能有两个特点: 1)针对人类能完成的任务; 2)具有与人一样的智慧、具有与人类一样的感知、认识、学习和推理的全面智能. 弱人工智能有两个特点: 1) 针对一个特定任务; 2) 要求比人做的好. 美国总统行政办公室《人工智能、自动化及经济报告》 (2016.12)指出, AI 是单一技术, 而是应用于特定任务的技术集合[26]; 斯坦福大学人工智能百年研究《人工智能和2030的生活》(2016.9)指出, 广义定义: 人工智能是一种致力于使机器智能化的活动, 而智能是指系统在其所处环境中具有预见和合适功能的品质; 学术研究角度的定义: 人工智能最初作为计算机科学中的一个分支, 研究人工合成智能的智能特性[27]. 德国人工智能战略概述(2018.7)指出, 作为一门科学学科, 人工智能指的是一个研发训练计算机(或机器)来执行以前只有人类才有能力的智能行为的方法的研究领域[28]. 无论是作为国家战略的人工智能定义还是学术定义, AI的研究和应用多年来始终秉持一个核心目标, 即, 使人的智能行为实现自动化或复制[29].
“人工智能”一词在1956年John McCarth组织的达特茅斯暑期研究项目的讨论会上提出, 探究机器可以在哪些方面模仿人的智能. 但是, 具有人工智能特征的技术想法早已存在: 18世纪, 托马斯·贝叶斯(Thomas Bayes)—推理事件的概率提供计算框架; 19世纪, 乔治·布尔(George Boole)提出逻辑推理可以像求解方程组那样被系统地执行; 20 世纪之交, 第一台电子计算机与感知和自主行动的第一代机器人的问世掀起了第一次人工智能的高潮. 阿兰·图灵(Alan Turning) 1950年发表“计算机和智能”设想, 提出建造计算机模拟人类智能的可能性, 怎样测试人工智能、机器怎样自主学习. 日本等国开始研发具有模拟人类智能的计算机. 随后几十年, 人工智能的研究几经起伏, 研究出现难题远超预期, 因此, 人工智能的研究处于低潮.
在20世纪90年代后期, 人们的研究开始转向弱人工智能, 即关注人工智能在特定领域的应用研究, 人工智能的研究进入加速阶段. 其中, 最重要的两个领域分别是图像识别和医疗诊断. 在1997年, IBM开发的计算机“深蓝”战胜了国际象棋世界冠军Gamy Kasparov. 苹果Siri、IBM回答计算机Waston回答游戏节目获胜. 在本世纪, 美国国防高级研究计划局成功举办了无人驾驶汽车大赛.
2010年以后, 三大因素促使人工智能发展浪潮. 第一个因素来自政府、电子商务、商业、社交媒体、科学和政府提供可用的大数据; 第二个因素是强大的计算能力使大数据的应用成为可能; 第三个因素是高科技产业, 特别是互联网公司, 增加在人工智能领域的投资, 将机器学习应用到公司所有产品中, 如搜索、广告、油管或是谷歌应用商店等取得了明显的效果. 特别是, 深度学习技术快速发展. 深度学习应用于图像识别领域, 使图像的识别结果的错误率从模式识别技术的最好结果—错误率26 % (2011年)降低到3.5 % (2015年), 低于人类识别图像的最好结果—错误率5 %; 基于深度学习的博弈游戏技术阿尔法狗打败人类围棋冠军表明, 在博弈游戏领域, 人工智能技术超过人[2, 27].
目前, 大数据驱动的人工智能技术通过训练大数据、学习过程和学习函数获得准确度很高的结果, 但无法解释结果为什么准确. 人工智能技术的发展方向为可解释的AI (XAI), 通过训练大数据、新的学习过程和可解释的模型获得可解释的准确结果[30]. 基于统计的、无模型的机器学习方法存在严重的理论局限, 难以用于推理和回溯, 难以作为强人工智能的基础[31]. 实现类人智能和强人工智能需要在机器学习系统中加入“实际模型的导引”[32]. 人工智能技术领域的另一个发展方向是建立智能系统[27]. 美国国际战略研究所 《美国机器智能国家战略报告》 (2018.3)指出, 很难估计计算机控制系统在不久的将来可以实现哪些功能. 机器智能系统在企业、政府、和全球居民的日常生活中占据越来越重要的角色[33].
3.2 自动化与人工智能的相互关系
虽然深度学习和游戏博弈技术适用于完备的信息空间, 但是人工智能技术的发展方向—可解释人工智能和智能系统为研究制造业知识工作自动化与智能化提供了新的方法和技术. 将人工智能技术、工业自动化技术、工业互联网与制造业的领域知识工作相结合, 以研发补充和增强知识工作者能力的AI算法和AI系统为目标, 发展工业人工智能技术, 使实现制造业智能化成为可能.
虽然对自动化和人工智能的界定并不明确, 且随时间推移不断变化, 但自动化的研究和应用始终秉持一个核心目标—减少和减轻人的体力和脑力劳动, 提高工作效率、效益和效果. 人工智能的研究和应用秉持的核心目标—使人的智能行为实现自动化或复制. 自动化与人工智能的实现手段都是通过算法和系统, 它们的共同点是通过机器延伸和增加人类的感知、认知、决策、执行的功能, 增加人类认识世界和改造世界的能力, 完成人类无法完成的特定任务或比人类更有效地完成特定任务. 它们的不同点在于研究对象和研究方法不同. 自动化是针对通过机理分析、采用微分方程或代数方程可以建立数学模型的研究对象, 利用输入输出表示的因果关系小数据, 建立建模、控制与优化的理论和技术. 人工智能是针对机理不清、难以建立数学模型但对象的输入输出是处于完备信息空间的大数据的研究对象, 采用基于统计的、无模型的机器学习方法, 建立建模、控制与优化的理论和技术. 人工智能在短期内的核心经济成效是将以前无法实现自动化的任务实现自动化[34].
3.3 工业人工智能的涵义、研究方向和研究思路与方法
目前, 制造与生产全流程的决策、控制与运行管理中仍然依靠人凭经验和知识来完成的工作涉及到工业自动化和人工智能技术难以应用的复杂系统, 即机理不清, 难以建立数学模型, 输入与输出相关信息处于开放环境、不确定的变化中, 信息难以获取及感知, 决策目标多尺度多冲突. 当前, 学术界与产业界开始了工业人工智能的研究[22, 35-40]. 虽然对工业人工智能的界定并不明确且随时间的推移不断变化, 工业人工智能研究与应用的核心目标是: 针对产品与工艺设计、经营管理与决策、制造流程运行管理与控制等工业生产活动中目前只能依靠人的感知、认知、分析与决策能力和经验与知识来完成的影响经济效益的知识工作, 实现知识工作的自动化与智能化, 来显著提高社会经济效益. 工业人工智能的实质是将人工智能技术与具体的工业场景相结合, 实现设计模式创新、生产智能决策、资源优化配置等创新应用. 使工业系统具备自感知、自学习、自执行、自决策、自适应的能力, 以适应变幻不定的工业环境, 并完成多样化的工业任务, 最终达到提升企业洞察力, 提高生产效率或设备产品性能[41].
工业自动化与工业人工智能在工业生产活动中的发展目标对比分析如下: 针对制造与生产流程中的装备或工业过程, 工业自动化的研究目标是实现装备和工业过程的自动控制和控制系统设定值的优化, 研发控制技术及软件和运行优化技术及软件. 针对产品与工艺设计、生产管理与决策, 工业自动化的研究目标是实现设计、生产管理与决策的信息化, 研发设计软件、ERP、MES等工业软件. 针对仍然依靠人来控制和管理的装备与工业过程, 工业人工智能的研究目标是实现装备和工业过程控制与运行的集成优化, 研发补充和增加人能力的AI算法和AI系统、制造与生产全流程的运行管理与控制一体化软件. 针对依靠知识工作者来完成的产品与工艺设计、生产管理与决策, 工业人工智能的研究目标是实现知识工作自动化与智能化, 研制大数据驱动的运行工况的识别、预测与决策的AI算法和AI系统、人机合作的管理与决策智能化软件、产品与工艺设计过程中补充和增强知识工作者能力的AI系统.
结合制造业的发展现状和实现智能化的需求和工业人工智能的发展目标, 工业人工智能的研究方向为: 1) 复杂工业环境下运行工况的多尺度多源信息的智能感知与识别; 2) 复杂工业环境下基于5G的多源信息快速可靠的传输技术; 3) 系统辨识与深度学习相结合的复杂工业系统智能建模、数字孪生与可视化技术; 4) 关键工艺参数与生产指标的预测与追溯; 5) 复杂工业系统的智能自主控制技术; 6) 人机合作的智能优化决策; 7) 智能优化决策与控制一体化技术; 8) “端-边-云”协同实现工业人工智能算法的实现技术.
为了取得工业人工智能的研究成果, 需要我们借鉴人工智能取得重大进展的研究经验以及数据驱动的人工智能、移动互联网、边缘计算和云计算驱动的工业互联网时代改变科研的进行方式和研究思维方式, 例如信息物理融合系统CPS[1]、会聚研究[20]. 汇聚研究是一种新的研究范式和研究思维方式, 其特点是: 问题驱动—具有挑战性的科学研究难题或社会需求中的重大挑战难题; 跨学科合作研究—整合来自不同学科的知识、方法和专业知识, 形成新的框架来促进科学发现和创新. 学科方法和技术的结合是解决复杂问题的唯一或最佳方案, 团队科学正在成为一种更典型的研究模式[42]. 为此提出如下研究思路与方法:
1) 需求驱动, 找准问题, 即知识工作者通过感知、认知、决策、执行来完成的影响效益的知识工作, 选好应用场景; 2) 确定研究目标, 即以最优秀的知识工作者为参考目标, 达到与超越最优秀的知识工作者的工作效果; 3) 采用CPS思想, 研制面向特定应用领域的工业人工智能系统, 使系统的适应性、自主性、效率、功能、可靠性、安全性和感知与认知的准确性、决策与控制的精准优化远超今天的系统; 4) 基础研究、研发、实验与工业应用相结合. 5) 采用汇聚研究的思想, 将基于机理分析的模型与工业大数据紧密融合与协同, 模型驱动的自动化与数据驱动的人工智能技术紧密融合与协同, 移动互联网、边缘计算、云计算等与计算机管控系统紧密融合与协同, 工业互联网的研究与面向各种制造流程的AI算法和AI系统研究紧密融合与协同, 汇聚各学科研究力量, 长期持续开展学科交叉和跨学科合作研究.
4. 结论
通过对工业自动化和信息技术在工业革命中的作用以及制造与生产全流程智能化的分析, 可以看到三次工业革命实现了操作工作自动化、企业管理与决策信息化. 第四次工业革命将实现知识工作的自动化与智能化. 为此, 需要将人工智能技术、工业自动化技术、工业互联网与制造业的领域知识工作紧密融合与协同, 以实现制造业智能化为目标, 研发补充和增强知识工作者能力的AI算法和AI系统, 发展工业人工智能技术. 本文通过对工业自动化和工业人工智能的相互关系的对比分析, 提出了工业人工智能的涵义、研究方向和研究思路与方法.
为了使我国在工业人工智能和工业互联网的研究与应用走在世界前列, 需要一大批具有跨学科研究能力的创新型工程科技人才. 这就需要重新审视和考虑现行的专业人才培养模式、研究经费资助机制、评价机制、产学研合作机制等, 并进行必要的改革.
-
图 5 人脑电信号可视化示意图(从上到下:人脸视频帧; 对应的脑电信号可视化图; ${\alpha}$波可视化图; ${\beta}$波可视化图; ${\theta}$波可视化图.从左到右:情感信号第31帧; 第78帧; 第90帧; 第98帧; 第118帧)
Fig. 5 The visualization of EEG signals (From top to down: video frames; the visualization of corresponding EEG signals; the visualization of ${\alpha}$ wave; the visualization of ${\beta}$ wave; the visualization of ${\theta}$ wave. From left to right: the 31st frame; the 78th frame; the 90th frame; the 98th frame; the 118th frame in the emotion data)
图 7 本文模型在MANNOB-HCI数据集上的可视化识别结果(从上到下分别为三组情感数据中的人脸视频.从左到右分别为情感数据; Groundtruth与本文模型的识别结果)
Fig. 7 The visualization of results of the proposed model on MAHNOB-HCI dataset (From up to down: three groups of emotion data. From left to right: emotion data; the groundtruth and results of the proposed model)
表 1 激活度和效价值的三分类
Table 1 Valence and arousal class with range
激活度 效价值 Low 1~4.5 1~4.5 Medium 4.5~5.5 4.5~5.5 High 5.5~9 5.5~9 表 2 不同方法在MAHNOB-HCI数据集与DEAP数据集上的识别效果
Table 2 The recognition result of different methods on MAHNOB-HCI dataset and DEAP dataset
激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ Baseline[15](MAHNOB-HCI) 67.7 0.620 ${\bf{76.1}}$ ${\bf{0.740}}$ Koelstra et al.[10] (MAHNOB-HCI) 72.5 0.709 73.0 0.718 Huang et al.[11] (MAHNOB-HCI) 63.2 66.3 VGG-16+本文模型(MAHNOB-HCI) ${\bf{73.1}}$ ${\bf{0.723}}$ 74.5 0.730 VGG-16+本文模型(DEAP) ${\bf{85.8}}$ ${\bf{84.3}}$ 表 3 本文提出的情感识别模型的识别准确率和F1-${score}$(MAHNOB-HCI数据集)
Table 3 The classification rate and F1-${score}$ of ablation studies on MAHNOB-HCI dataset
激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ w/o band and temp 66.4 0.650 68.9 0.678 w/o band 70.9 0.690 73.0 0.711 w/o temporal 69.7 0.680 70.4 0.695 vis-EEG-LSTM ${\bf{73.1}}$ ${\bf{0.723}}$ ${\bf{74.5}}$ ${\bf{0.730}}$ 表 4 本文提出的情感识别模型的识别准确率和F1-${score}$ (DEAP数据集)
Table 4 The classification rate and F1-${score}$ of ablation studies on DEAP dataset
激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ w/o band and temp 79.1 0.774 78.5 0.770 w/o band 83.1 0.816 82.5 0.809 w/o temporal 78.1 0.754 81.4 0.805 vis-EEG-LSTM ${\bf{85.8}}$ ${\bf{0.837}}$ ${\bf{84.3}}$ ${\bf{0.831}}$ 表 5 两种单模态情感识别与多模态情感识别的识别准确率和F1-${score}$ (MAHNOB-HCI数据集)
Table 5 The classification rate and F1-${score}$ of uni-modal and bi-modal emotion recognition on MAHNOB-HCI dataset
激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ 人脸视频 70.8 0.691 72.9 0.711 脑电信号 69.9 0.673 73.3 0.720 人脸视频+脑电信号 ${\bf{73.1}}$ ${\bf{0.723}}$ ${\bf{74.5}}$ ${\bf{0.730}}$ 表 6 两种单模态情感识别与多模态情感识别的识别准确率和F1-${score}$(DEAP数据集)
Table 6 The classification rate and F1-${score}$ of uni-modal and bi-modal emotion recognition on DEAP dataset
激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ 人脸视频 67.1 0.653 66.3 0.650 脑电信号 84.7 0.815 83.4 0.819 人脸视频+脑电信号 ${\bf{85.8}}$ ${\bf{0.837}}$ ${\bf{84.3}}$ ${\bf{0.831}}$ -
[1] Bynion T M, Feldner M T. Self-Assessment Manikin. Berlin: Springer International Publishing, 2017. 1-3 [2] Lin J C, Wu C H, Wei W L. Error weighted semi-coupled hidden Markov model for audio-visual emotion recognition. IEEE Transactions on Multimedia, 2012, 14(1): 142-156 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=267b730d55360c483c4723906b231f35 [3] Jiang D, Cui Y, Zhang X, Fan P, Ganzale I, Sahli H. Audio visual emotion recognition based on triple-stream dynamic bayesian network models. In: Proceedings of the 2011 International Conference on Affective Computing and Intelligent Interaction. Berlin, GER: Springer-Verlag, 2011. 609-618 [4] Xie Z, Guan L. Multimodal information fusion of audio emotion recognition based on kernel entropy component analysis. International Journal of Semantic Computing, 2013, 7(1): 25-42 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.1142_S1793351X13400023 [5] Khorrami P, Le Paine T, Brady K. How deep neural networks can improve emotion recognition on video data. In: Proceedings of the 2016 IEEE International Conference on Image Processing. New York, USA: IEEE, 2016. 619-623 [6] Liu J, Su, Y, Liu, Y. Multi-modal emotion recognition with temporal-band attention based on lstm-rnn. In: Proceedings of the 2017 Pacific Rim Conference on Multimedia. Berlin, GER: Springer, 2017. 194-204 [7] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. In: Proceedings of the 2012 Annual Conference on Neural Information Processing Systems. Massachusetts, USA: MIT Press, 2012. 1097-1105 [8] Sak H, Senior A, Beaufays F. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition. arXiv preprint arXiv: 1402.1128, 2014. [9] He L, Jiang D, Yang L, Pei E, Wu P, Sahli H. Multimodal affective dimension prediction using deep bidirectional long short-term memory recurrent neural networks. In: Proceedings of the 2015 International Workshop on Audio/visual Emotion Challenge. New York, USA: ACM, 2015. 73-80 [10] Koelstra S, Patras I. Fusion of facial expressions and EEG for implicit affective tagging. Image and Vision Computing, 2013, 31(2): 164-174 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=04f03f0fd646221b3872240005017d1c [11] Huang X, Kortelainen J, Zhao G, Li X, Moilanen A, Seppanen T, Pietikainen M. Multi-modal emotion analysis from facial expressions and electroencephalogram. Computer Vision and Image Understanding, 2016, 147: 114-124 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=c0dd5236bcdae70bcbb065ddb2279f4a [12] Zhalehpour S, Akhtar Z, Erdem C E. Multimodal emotion recognition with automatic peak frame selection. In: Proceedings of the 2014 IEEE International Symposium on Innovations in Intelligent Systems and Applications. New York, USA: IEEE, 2014. 116-121 [13] Xu K, Ba J L, Kiros R, Cho K, Courville A, Salakhutdinov R, Zemel R S, Bengio Y. Show, attend and tell: Neural image caption generation with visual attention. In: Proceedings of the 2015 International Conference on Machine Learning. New York, USA: ACM, 2015. 2048-2057 [14] 刘畅, 刘勤让.使用增强学习训练多焦点聚焦模型.自动化学报, 2017, 43(9): 1563-1570 doi: 10.16383/j.aas.2017.c160643Liu Chang, Liu Qin-Rang. Using reinforce learning to train multi attention model. Acta Automatica Sinica, 2017, 43(9): 1563-1570 doi: 10.16383/j.aas.2017.c160643 [15] Soleymani M, Lichtenauer J, Pun T, Pantic M. A multi-modal affective database for affect recognition and implicit tagging. IEEE Transactions on Affective Computing, 2012, 3(1): 42-55 http://dl.acm.org/citation.cfm?id=2197062 [16] Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. In: Proceedings of the 2015 Advances in Neural Information Processing Systems. Massachusetts, USA: MIT Press, 2015. 91-99 [17] Mowla M R, Ng S C, Zilany M S A, Paramesran R. Artifacts-matched blind source separation and wavelet transform for multichannel EEG denoising. Biomedical Signal Processing and Control, 2015, 22(3): 111-118 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=facdf66f1c48f19f20fba5c0f305d929 [18] Bashivan P, Rish I, Yeasin M, Codella N. Learning representations from EEG with deep recurrent-convolutional neural networks. In: Proceedings of the 2016 International Conference on Learning Representation. San Juan, Puerto Rico: ICLR, 2016. [19] Anzai Y. Pattern Recognition and Machine Learning. Elsevier, 2012. [20] Lei T, Barzilay R, Jaakkola T. Rationalizing neural predictions. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. British Columbia, Canada: ACL, 2016. 107-117 [21] Yu A W, Lee H, Le Q V. Learning to skim text. arXiv preprint arXiv: 1704.06877, 2017. [22] Rubinstein R Y, Kroese D P. Simulation and the Monte Carlo Method. John Wiley & Sons, 2008. 167-168 http://dl.acm.org/citation.cfm?id=539488 [23] Koelstra S, Muhl C, Soleymani M, Lee S, Yazdani A, Ebrahimi T, Pun T, Nijholt A, Patras I. Deap: A database for emotion analysis using physiological signals. IEEE Transactions on Affective Computing, 2012, 3(1): 18-31 http://ieeexplore.ieee.org/document/5871728/ [24] Kingma D P, Ba J. Adam: A method for stochastic optimization. arXiv preprint arXiv: 1412.6980, 2014. [25] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409.1556, 2014. -