A Review of Single Image Super-resolution Based on Deep Learning
-
摘要: 图像超分辨率重构技术是一种以一幅或同一场景中的多幅低分辨率图像为输入, 结合图像的先验知识重构出一幅高分辨率图像的技术. 这一技术能够在不改变现有硬件设备的前提下, 有效提高图像分辨率. 深度学习近年来在图像领域发展迅猛, 它的引入为单幅图片超分辨率重构带来了新的发展前景. 本文主要对当前基于深度学习的单幅图片超分辨率重构方法的研究现状和发展趋势进行总结梳理: 首先根据不同的网络基础对十几种基于深度学习的单幅图片超分辨率重构的网络模型进行分类介绍, 分析这些模型在网络结构、输入信息、损失函数、放大因子以及评价指标等方面的差异; 然后给出它们的实验结果, 并对实验结果及存在的问题进行总结与分析; 最后给出基于深度学习的单幅图片超分辨率重构方法的未来发展方向和存在的挑战.Abstract: Super-resolution (SR) refers to an estimation of high resolution (HR) image from one or more low resolution (LR) observations of the same scene, usually employing digital image processing and machine learning techniques. This technique can effectively improve image resolution without upgrading hardware devices. In recent years, deep learning has developed rapidly in the image field, and it has brought promising prospects for single-image super-resolution (SISR). This paper summarizes the research status and development tendency of the current SISR methods based on deep learning. First, we introduce a series of networks characteristics for SISR, and analysis of these networks in the structure, input, loss function, scale factors and evaluation criterion are given. Then according to the experimental results, we discuss the existing problems and solutions. Finally, the future development and challenges of the SISR methods based on deep learning are presented.
-
情感识别是人机交互的重要研究问题之一, 其研究目的是建立可识别人类情感并做出正确反馈的机器人系统, 使人机交互过程更加友好, 自然与智能.本文采用二维情感表示理论[1], 将人类情感表示为"激活度(Arousal)-效价值(Valence)"二维空间中的坐标点(图 1).其中, 激活度用于表现人类情感激励程度的大小, 效价值用于表现人类对情感状态评价的好坏.如人类高兴时, 情感的激活度与效价值的数值均较高.二维情感表示模型可更加充分地表达和量化人类情感状态, 是多数情感识别模型使用的情感表示方法.图 1表示通过图片、视频等外部刺激可诱导出人类不同的情感状态, 进而通过多种传感器采集人类情感的多模态信号用于情感识别.
本文所针对的人脸视频是普通摄像头、深度相机等采集到的人类面部表情信号, 可帮助分析人类直观与外在的情感状态.脑电信号是脑活动产生的微弱生物电于头皮处收集放大的信号, 是大脑内亿万神经元活动在大脑皮层的综合反映, 可帮助分析人类深层与内在的情感状态.使用人脸视频和脑电信号两种模态的情感识别模型可综合人类外在与内在的情感信息, 从而给出更准确的识别结果.通过分析实验参与人员的人脸视频与脑电信号, 识别整段情感信号中实验参与人员的情感激活度和效价值.
传统多模态情感识别方法的基本思路是手动设计提取各模态的特征, 然后进行多模态信号的融合, 最后利用标记数据集训练模式分类器[2-4].然而, 这类方法在处理较大规模的人类情感数据时效率较低.近年流行的深度学习方法具有强大的特征表达能力(例如LSTM (Long-short term memory neural network)在处理时序信号时可达到良好的效果).目前多数基于脑电信号与人脸视频的情感识别方法将两个模态的信号视作时间序列, 对两个模态分别构建LSTM情感识别模型学习得到各个序列的识别结果, 最终将识别结果进行决策层融合[5-6].这些方法在识别效果上优于传统方法.
然而, 该研究内容中仍有两个关键问题亟待解决.一是如何以交互协同的方式融合人类情感的异构多模态信号, 进而给出更加准确的情感识别结果.二是如何从包含大量冗余信息的多模态信号中迅速定位情感关键信息, 从而提升模型的效率和准确率.以一段2分钟的人脸视频为例, 它记录了一位实验参与人员在观看喜剧影像时的表情信息.此视频中, 实验参与人员只有约10秒开怀大笑的表情, 其余视频帧对情感识别是冗余的.
针对以上两个问题, 本文提出了视频-脑电信号交互协同的LSTM情感识别模型, 同时引入了空域频带注意机制和时域注意机制.其结构如图 2所示, 该模型包括特征提取与交互协同两个相互耦合关联的阶段, 以"选择性聚焦"的方式分析人类情感的各模态时间序列, 进而给出情感识别结果.在特征提取阶段, 首先将原始脑电信号可视化为${\alpha}$波, ${\beta}$波与${\theta}$波的图像序列以保留脑电信号的时域-空域信息, 从而令两个模态更高效地交互协同工作; 然后提取基于卷积神经网络(Convolution neural network, CNN)[7]的人脸视频帧与对应的可视化脑电图像的特征.在交互协同阶段, 首先使用LSTM[8]融合两个模态的特征并对该特征序列进行学习; 接下来预测下一时间点上"聚焦"的关键信号帧的时间信息, 将预测反馈至特征提取阶段; 重复上述过程直至序列结束, 最终计算出整段信号的情感识别结果.这一过程中, 通过空域频带注意机制, 模型对脑电信号的${\alpha}$波, ${\beta}$波与${\theta}$波可视化图像进行重要度计算, 从而有效利用脑电信号空域关键信息; 通过时域注意机制, 预测下一时间点的关键信号帧时间信息, 高效利用情感数据的时域关键信息.
基于上述思想, 本文的章节安排如下:第1节综述情感识别的国内外研究现状; 第2节阐述了基于长短记忆与信息注意的视频-脑电信号交互协同情感识别模型; 第3节描述了模型的训练过程; 第4节给出了模型的计算实验评价结果; 第5节对本文工作进行总结.
1. 相关工作
深度神经网络(Deep neural network, DNN)具有强大的挖掘数据深层、潜在表达特征的能力, 近年来被广泛应用于多模态情感识别领域[5-6, 9]. He等[9]首先手动设计提取人脸视频、音频信号与心电信号的特征, 然后提出了基于双向长短记忆神经网络(Bi-directional LSTM, BLSTM)的情感识别模型, 其中第一层三组BLSTM分别用于识别三个模态的信号所表达的情感状态, 第二层一组BLSTM用于将三个模态上的识别结果进行决策级融合, 进而给出情感状态的最终识别结果. Koelstra等[10]和Huang等[11]对脑电信号和人脸视频分别提取情感特征、构建情感识别模型并基于决策级融合取得良好的情感识别效果.其中, 提取有效的脑电信号情感特征是问题研究的关键, Koelstra等和Huang等使用的是脑电信号空域-频域特征.神经科学研究表明, 脑电的${\delta}$波(1~4 Hz)、${\theta}$波(4~8 Hz)、${\alpha}$波(8~13 Hz)、${\beta}$波(13~30 Hz)和${\gamma}$波(36~44 Hz)等5个频段与人类情感状态密切相关.因此, 在提取脑电频域特征时, 多数学者将原始脑电信号映射在5个频段, 再从其中提取各头皮电极相关的频域特性, 进而组合为特征向量.以上方法需直接分析包含大量冗余信息的各模态情感信号.为了剔除冗余信息, Zhalehpour等[12]首先利用Maximum dissimilarity-based模型从人脸视频中提取关键信号帧, 然后设计情感识别模型分别分析人脸视频中的关键帧和音频信号, 最后进行决策级融合计算出情感识别的结果.但这种方法依旧需要分析整段人脸视频, 会降低模型效率.
以上提到的方法在多模态情感识别任务中均可取得良好的识别效果.本文在情感识别当前进展的基础上进行了两点改进:一是将多模态信号以交互协同的方式进行融合; 二是设计可有效且迅速定位关键信息的情感识别模型.
2. 视频-脑电信号交互协同的情感识别模型
本文将情感识别视作一个以"选择性聚焦"方式分析人类情感各模态的时间序列信号的过程.该过程受启发于人类视觉系统的注意机制[13].人类观察场景时, 并非一次性理解整个场景, 而是动态地"聚焦"视觉空间中的多个局部获取信息, 再将获取的信息综合以理解当前的场景.同理, 所提的情感识别模型接收到人类情感的各模态信号时, 对每一时间点的信号进行学习并预测出下一时间点将要"聚焦"的关键信号帧, 反复进行分析与预测, 直到获取充足的信息进而给出情感识别结果.
其框架如图 2所示, 本文提出的脑电信号与人脸视频交互协同的LSTM情感识别模型主要包括特征提取与交互协同两个阶段.在特征提取阶段, 首先选取需要"聚焦"的关键信号帧进行数据预处理, 然后提取出表达与泛化能力较强的特征; 在交互协同阶段, 首先将两个模态的特征融合并进行学习.特别之处在于, 本文还会通过空域频带注意机制对脑电信号中${\alpha}$波、${\beta}$波与${\theta}$波的可视化图像进行重要度计算; 通过时域注意机制进行强化学习(Reinforcement learning, RL)[14], 计算下一时间点需要"聚焦"的关键信号帧时间信息并反馈至特征提取阶段.最终, 利用情感分类器输出情感识别结果.在该模型下, 输入信号和模型行动之间构成一个闭环-一个有选择地反复"聚焦"人类情感多模态的信号, 进行情感识别的过程.
在上述基本模型的基础上, 以下章节将展开说明人脸视频-脑电信号交互协同情感识别方法的实现过程.
2.1 基于CNN的特征提取过程
本文输入信号为实验参与人员观看情感诱导视频时采集到的人脸视频与脑电信号.其中, 人脸视频是普通摄像机采集到的实验参与人员的面部活动信号, 属于视觉信号.脑电信号(EEG)是指按照时间顺序, 在头皮表层记录下的由大脑神经元自发性、节律性运动而产生的电位[15], 属于生理信号.脑电信号的采集方式是让实验参与人员在观看情感诱导视频时佩戴电极脑电帽, 从而得到人类大脑皮层上32个不同位置的脑电信号.两个异构的信号难以直接融合, 为此本文提出提取表达能力与泛化能力较强的特征, 同时令两模态的特征有效地交互协同.针对人脸视频, 基于CNN提取面部表情特征; 与传统特征提取方法相比, CNN具有更强大的挖掘数据深层潜在的分布式表达特征的能力.针对脑电信号, 本文首先将脑电信号转化为三组频带的图像序列, 这种可视化处理保留脑电信号的时域-空域特征的同时将两个模态的信号统一为图像.然后基于CNN与空域频带注意机制提取脑电图像的特征.
如图 3所示, 人脸视频的特征提取过程为:首先, 利用Faster-RCNN模型[16]检测出视频帧中人脸区域; 然后, 利用CNN对人脸区域提取特征; 最后, 利用全连接层处理特征输出最终特征向量${\pmb x_{v, n}}$.图 4显示的是VGG-16三个卷积层输出的特征图.
如图 3所示, 脑电信号的特征提取则较为复杂:首先, 原始的脑电信号通过小波软阈值算法去除伪迹[17], 从而得到相对纯净的信号; 然后, 借鉴[18]中数据处理方法将脑电信号划分为每段持续时长为$T$的片段($1/T$对应于人脸视频的帧率); 接下来, 在${t^{th}}$段数据内提取${\alpha}$波、${\beta}$波与${\theta}$波三个脑电波频带的频谱能量信息并可视化至相应的电极帽32个电极上得到三个频带的脑电图像(图 5), 可以看出随着人类情感激活度的上升${\beta}$波在前额出会明显增强; 最后, 利用CNN对三个频带的脑电图像分别提取层特征${\pmb e}_{\alpha, n}$, ${\pmb e}_{\beta, n}$和${\pmb e}_{\theta, n}$进行融合, 如式(1)与式(2)所示.
图 5 人脑电信号可视化示意图(从上到下:人脸视频帧; 对应的脑电信号可视化图; ${\alpha}$波可视化图; ${\beta}$波可视化图; ${\theta}$波可视化图.从左到右:情感信号第31帧; 第78帧; 第90帧; 第98帧; 第118帧)Fig. 5 The visualization of EEG signals (From top to down: video frames; the visualization of corresponding EEG signals; the visualization of ${\alpha}$ wave; the visualization of ${\beta}$ wave; the visualization of ${\theta}$ wave. From left to right: the 31st frame; the 78th frame; the 90th frame; the 98th frame; the 118th frame in the emotion data)计算中利用空域频带注意机制计算三组特征的重要度${\pmb e'_{n}}$, 最后利用全连接层(Fully-connected layer)处理${\pmb e'_{n}}$输出特征向量${\pmb x}_{e, n}$.
$$ \begin{equation} {\pmb e'}_{n}= {\pmb e}_{\alpha, n}{\theta_{en, 1}} +{\pmb e}_{\beta, n}{\theta_{en, 2}}+{\pmb e}_{\theta, n}{\theta_{en, 3}} \end{equation} $$ (1) 式中, ${\theta_{en, 1}}$, ${\theta_{en, 2}}$, ${\theta_{en, 3}}$分别表示分配给${\pmb e_{\alpha, n}}$, ${\pmb e_{\beta, n}}$, ${\pmb e_{\theta, n}}$的重要度:
$$ \begin{equation} {\theta_{en, i}}=\frac{{\rm exp}({{\pmb W}_{h, i}} {{\pmb h}_{n-1}}+{b_{n, i}})} { \sum\limits_{j=1}^3 {\rm exp}({\pmb W}_{h, j} {\pmb h}_{n-1}+b_{n, j})}, \quad \ i=1, 2, 3 \end{equation} $$ (2) 式中, ${\pmb W_{h, i}}$表示待学习的权重矩阵, ${b_{n, i}}$表示偏差. ${\pmb h_{n-1}}$表示多层LSTM上一个时间点$n-1$的隐状态.
2.2 基于LSTM与注意机制的交互协同过程
交互协同过程如图 6所示, 本文使用一个两层LSTM[8] (其中, 第一层包括两个共享参数的LSTM)对两个模态的特征序列进行融合与学习. LSTM擅长处理时间序列, 同时可避免传统循环神经网络的长距离依赖问题.本文还引入时域注意机制以强化学习的方式学习预测下一时间点需要"聚焦"的信号帧, 最后基于Softmax分类器[19]完成情感识别功能.
本文以硬注意机制(Hard attention)[20-21]为理论基础, 提出了时间注意机制.该机制工作流程主要分为4个部分:观察(Glimpse)部分、核心(Core)部分、行为(Action)部分和奖励(Reward)部分.给定一段长度为$T$的人脸视频和脑电信号, 将行为序列最大长度预设值为${N_{\rm max}}$, 则在时间点$n$:
1) 观察(Glimpse)部分:该部分首先接收聚焦位置${f_n}$以及该位置两个模态的特征向量${\pmb x_{v, n}}$、${\pmb x_{e, n}}$, 第一层LSTM将两个模态的特征与上一时间点的状态处理为两组隐状态, 并拼接成一个特征向量, 从而实现多模态信号融合.
2) 核心(Core)部分:该部分由第二层LSTM层组成.将观察(Glimpse)部分输出的情感特征及上一时间点的LSTM隐藏层状态${\pmb h}_{n-1}$作为输入, 并输出新的隐藏层状态${\pmb h}_n$.该部分包含对历史聚焦的情感信息的整合.
3) 行为(Action)部分:该部分用来预测下一时间点上的关键信号帧时间位置${f_{n+1}}$, 最终在最后一个时间点使用Softmax分类器输出情感识别结果${{\pmb p}=(p_1, \cdots, p_C)^{\rm T}}$. ${p_k=p(C_k|{\pmb h_N})}$, ${k=1, \cdots, C}$表示情感状态属于${C_k}$类的概率.其中, 预测过程的终止条件为:下一时间点上的关键信号帧时间位置为给定情感信号的最后一帧, 即${f_{n+1}=T}$; 或行为序列长度达到最大设定值, 即${N=N_{\rm max}}$.
4) 奖励(Reward)部分:在每一次采样分析后, 都反馈一个奖励信息.在时间注意机制的作用下, 情感识别模型工作过程是一个强化学习的过程.文中模型无法一次性完整地观察到环境的, 即每次采样所得是两个模态情感信号的局部信息.在该条件下, 模型应自主学习策略${{\pmb \pi}({\pmb a_n} |{\pmb s_{1:n}}; {\pmb \theta})}$.其中, ${\pmb \alpha_n}$表示在时间点$n$情感识别模型在该策略下的行为, 即计算下一时刻需要"聚焦"的信号帧的时间信息${f_{n+1}}$. ${\pmb s}_{1:n}$表示历史状态(包括当前时间点), 即时间注意机制部分的输入和输出时间序列.所以, 参数为$\pmb \theta$的策略$\pmb \pi$ (即${\pmb \pi_\theta}$)就是根据当前输入和历史观察分析结果, 计算出下一时间步"聚焦"的关键信号帧的策略.我们的目标是希望能找到某一策略, 从而得到最大化的奖励信息时间累积和.奖励的累积和具有延时性, 即${R_N=\begin{matrix} \sum_{n=1}^N r_n \end{matrix}}$, 其中$R_N$是指在$N$个时间点内进行一次情感识别后得到的总奖励, $r_n$则是一次识别中每个聚焦分析行为得到的奖励, 在本文中与整个行为序列结束后的奖励一致.
3. 情感识别模型训练
3.1 损失函数
本文使用标准反向传播(Backpropagation through time, BPTT)[8]训练$\pmb p$.该模型目标是最小化损失函数, 该损失函数由交叉熵函数和正则项组成.正则项是为了防止三个频带的脑电信号的重要度差距过大.
$$ \begin{align} L=\, &-\sum\limits_{k=1}^C {(y_k{\rm log} {p_k}+(1-y_k){\rm log} {(1-p_k)})}+ \nonumber\\ &\mu \sum\limits_{j=1}^3 {\left({\frac {1}{3}}-{\frac {\begin{matrix} \sum\limits_{n=1}^N {\theta_{en, j}} \end{matrix} }{N}}\right)^2} \end{align} $$ (3) 式中, ${{\pmb y}=(y_1, \cdots, y_C)^{\rm T}}$, ${k=1, \cdots, C}$表示Ground truth, 是一个One-hot编码向量. $p_k$表示给定信号的情感状态属于第$k$类的概率. $\mu$为平衡系数, 本文设置为0.02.
在空域频带注意机制的作用下, 情感识别模型会随着时间点的增长而忽略某些频带, 但是这些频带的信息对情感识别结果同样起着一定作用.因此本文设计了如式(3)所示的正则项, 目的是限制模型对三个频带的脑电波特征分配尽可能均衡的重要度量.
3.2 奖励函数
由于${f_{n+1}}$具有不可微的性质, 因此本文使用基于策略梯度(Policy gradient)[14]的强化学习进行训练.给定序列空间${\pmb A}$, ${p_{\theta}({\pmb \tau})}$表示${\pmb A}$上参数为${\pmb \theta}$的分布, 其中${{\pmb \tau} \in {\pmb A}}$是一组状态行为序列.强化学习的目标函数为:
$$ \begin{equation} {J({\pmb \theta})}=\sum\limits_{{\pmb \tau} \in {\pmb A}}^{} {p_{\theta}({\pmb \tau})r({\pmb \tau})} \end{equation} $$ (4) 式中, ${r({\pmb \tau})}$表示每种可能发生的序列带来的奖励; ${J({\pmb \theta})}$表示可能发生的序列分布下的期望奖励.本文希望学习网络参数$\pmb \theta$, 以最大化${f_{n+1}}$序列的期望奖励.
该目标函数的梯度表示为:
$$ \begin{equation} {\nabla J({\pmb \theta})}=\sum\limits_{{\pmb \tau} \in {\pmb A}}^{} {p_{\theta}({\pmb \tau}) \nabla \log {p_{\theta}({\pmb \tau})}r({\pmb \tau})} \end{equation} $$ (5) 一般情况下模型无关的强化学习任务(Model-free reinforcement learning)中, 策略梯度通过采样进行估计.本文使用蒙特卡罗策略梯度方法[14], 该方法基本思想是持续探索, 即令模型探索环境, 根据当前策略生成一个从起始状态到终止状态的状态-动作序列.
利用蒙特卡罗法采样[22]和近似估算, 即根据当前策略随机采样得到${M}$个序列:
$$ \begin{equation} {\nabla J({\pmb \theta})} \approx \frac {1}{M} \sum\limits_{m=1}^{M} \nabla \log {p_{\theta}({\pmb \tau})}r({\pmb \tau}) \end{equation} $$ (6) 假设第$m$条序列为${{{\pmb \tau}^m}=\left\{{{\pmb s_1^m}, {\pmb a_1^m}, \cdots, {\pmb s_N^m}, {\pmb a_N^m}}\right\}}$, 其似然概率为:
$$ \begin{equation} {p_\theta ({\pmb \tau^m})}=\prod\limits_{n=1}^N {P({\pmb s_{n+1}^m}|{\pmb s_n^m}, {\pmb a_n^m}){\pmb \pi_\theta}({\pmb a_n^m}|{\pmb s_n^m})} \end{equation} $$ (7) 式中, $P$表示状态转移概率; ${\pmb \pi_\theta}$表示行为策略, 本文在训练过程中使用的高斯策略.在时间点$n$, 第$m$个行为序列下, ${\pmb s_{n+1}^m}$表示该策略的下一时间点的状态; ${\pmb a_n^m}$表示该策略的当前行为(即$f_{n+1}$); ${\pmb s_n^m}$表示该策略的状态.
因此, 蒙特卡洛策略梯度表达式如下:
$$ \begin{equation} {\nabla J({\pmb \theta})}=\frac {1}{M} \sum\limits_{m=1}^{M} {\sum\limits_{n=1}^{N} {\nabla \log {\pmb \pi_\theta}({\pmb a_n^m}|{\pmb s_n^m})R^m}} \end{equation} $$ (8) 式中, $R^m$表示第$m$个序列下获得的奖励.
本文仅考虑整组行为序列完成后的奖励, 如式(9)所示:
$$ \begin{equation} R'=\begin{cases} \lambda_{tp}, &\mbox {若正检} \\ \lambda_{fp}, &\mbox {若误检} \end{cases} \end{equation} $$ (9) 式中, ${\lambda_{tp}\ (>0)}$, ${\lambda_{fp}\ ( < 0)}$分别表示每一时间点的正检和误检的奖励数值, 本文方法会重点惩罚误检项.
同时考虑到有效情感信息的稀疏性, 还加入如式(10)所示的稀疏性约束项${\lambda_{\rm sparse}N < 0}$, 从而令模型观察尽可能少的信号同时获得尽可能高的准确率.
$$ \begin{equation} R=\lambda_rR'+{\lambda_{\rm sparse}N} \end{equation} $$ (10) 式中, ${\lambda_r}$表示奖励因子, 数值大于零; ${\lambda_{\rm sparse}}$表示稀疏性因子, 数值小于零; $N$表示行为序列的长度.
策略迭代的基本思路为:
$$ \begin{equation} {\pmb \theta}={\pmb \theta}+{\pmb \varepsilon \nabla J({\pmb \theta})} \end{equation} $$ (11) 式中, ${\pmb \varepsilon}$表示步长因子, 即算法的学习率.
4. 实验结果与分析
4.1 实验数据与评价指标
为了验证本文方法的有效性, 本节在MAHNOB-HCI数据集[15]与DEAP数据集[23]上进行实验, 主要针对情感的激活度和效价值进行识别, 并采用识别准确率(Classification rate)和F1-${score}$作为识别效果的评价指标.
MAHNOB-HCI数据集是一个多模态情感识别及隐性标注(Implicit tagging)数据集, 包括采集自27位实验参与人员观看20段视频时的527组原始人脸视频、音频和脑电信号.在看完每段视频后, 实验参与人员使用(Self-assessment manikin, SAM)[1]标定情感的激活度, 效价值, 分为9个级别(分别为1~9).同时使用离散情感标签标定情感, 该数据集根据标签将实验人员情感的激活度和效价值各分为三类.
DEAP是一个多模态情感识别数据集, 包括采集自32位实验参与人员观看40段音乐视频时的人脸视频、外部生理信号和脑电信号.其中, 10位实验参与人员的数据中不包括人脸视频.在看完每段视频后, 实验参与人员使用(SAM)[1]标定情感的激活度, 效价值(数值为1~9).如表 1所示, 该数据集根据数值大小将情感的激活度和效价值分别分为3个级别.
表 1 激活度和效价值的三分类Table 1 Valence and arousal class with range激活度 效价值 Low 1~4.5 1~4.5 Medium 4.5~5.5 4.5~5.5 High 5.5~9 5.5~9 本文使用识别准确率和F1-${score}$两个指标对模型识别结果进行评价.识别准确率(Classification rate, CR)表示测试集中正确分类的样本数与测试集样本总量的百分比(式(12)). F1-${score}$是统计学中用来衡量多分类模型精确度的一种指标, 可看作是模型精确率(Precision)和召回率(Recall)的一种加权平均, 可兼顾模型的精确率和召回率(式(13)).
$$ \begin{equation} CR=\frac {N_{TP}} {N_{\rm data}} \end{equation} $$ (12) $$ \begin{equation} CR=\frac {2N_{TP}} {2N_{TP}+N_{FP}+N_{FN}} \end{equation} $$ (13) 式中, ${N_{\rm data}}$表示测试集中情感数据的样本总量; ${N_{TP}}$、${N_{FP}}$与${N_{FN}}$表示所有测试样本中的正检总量、误检总量与漏检总量.
4.2 实现细节
本文使用MAHNOB-HCI数据集进行模型训练, 使用MAHNOB-HCI的测试集与DEAP数据集进行模型测试.将MAHNOB-HCI数据集中27位实验参与人员的数据以5:1:1的比例分为训练集A, 验证集A'和测试集B.在数据预处理过程中, 将数据集的人脸视频降采样为8 fps.同时检测并裁减出视频中人脸图像, 重缩放图像尺寸为${227 \times\, 227}$.在训练过程中, 本文使用Adam方法[24]来更新参数.每次更新使用的样本集是通过经验回放机制从训练集A中抽取mini-batch = 12个样本得到.为了防止模型过拟合, 本文将dropout的数值设置为0.5.将最大时间步${N_{\rm max}}$的数值设置30.另外, 本文中使用的所有经过fine-tune的VGG-16网络[25]被固定参数, 仅用来提取特征.
为了有效地训练模型, 本文将两层LSTM分为3个模块分别进行训练:在训练第一层用来处理人脸视频特征的LSTM时, 先去掉该层用来处理脑电信号特征的LSTM, 并将第二层LSTM的神经元数目设置为1 024个.同理地, 在训练第一层用来处理脑电信号特征的LSTM时, 先去掉该层用来处理人脸视频特征的LSTM, 并将第二层LSTM的神经元数目设置为1 024个.在训练第二层LSTM时, 将已预训练的第一层LSTM进行参数固定.
4.3 多种情感识别方法结果对比
本文首先将提出的模型与其他经典模型的识别效果进行对比(表 2), 本文提出的模型对激活度与效价值的识别率和F1-${score}$相对其他方法均有明显提升.在MAHNOB-HCI数据集上与当前识别效果最好的方法相比, 情感激活度识别准确率和F1-${score}$分别提升了0.6 %和0.014, 情感效价值识别准确率和F1-${score}$分别提升了${1.5 \%}$和0.012.识别效果提升的原因在于其余方法均需直接分析包含大量冗余信息的多模态情感信号, 而本文提出的模型则引入了信息注意机制, 从而压缩了冗余信息并提升了准确率.同时从表 2可以看出, 对情感效价值的识别效果优于对情感激活度的识别效果.这是因为情感激活度用于表现情感激励程度的大小, 情感效价值用于表现人类对情感状态评价的好坏, 相比之下效价值更容易被直观地分析和理解.特别地, 在MAHNOB-HCI测试集B上基线方法对整段情感信号的脑电情感特征序列和眨眼特征序列进行融合并基于SVM分类器进行情感识别, 在效价值识别上取得了较好的效果, 这是因为眨眼特征对效价值识别做出了一定贡献, 但对激活度的识别却无明显效果.总体来说, 本文提出的模型具有更好的效果, 且仅需分析${10 \%}$的信号.
表 2 不同方法在MAHNOB-HCI数据集与DEAP数据集上的识别效果Table 2 The recognition result of different methods on MAHNOB-HCI dataset and DEAP dataset激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ Baseline[15](MAHNOB-HCI) 67.7 0.620 ${\bf{76.1}}$ ${\bf{0.740}}$ Koelstra et al.[10] (MAHNOB-HCI) 72.5 0.709 73.0 0.718 Huang et al.[11] (MAHNOB-HCI) 63.2 66.3 VGG-16+本文模型(MAHNOB-HCI) ${\bf{73.1}}$ ${\bf{0.723}}$ 74.5 0.730 VGG-16+本文模型(DEAP) ${\bf{85.8}}$ ${\bf{84.3}}$ 本文还将模型对MAHNOB-HCI数据集中三组数据样本的识别效果可视化至图 7, 可以看出对模型可准确识别出整段情感信号中实验参与人员的情感激活度和效价值.第一组数据样本和第三组数据样本分别为高激活度低效价值(情绪紧张)样本和低激活度低效价值(情绪悲伤)样本, 本文模型对两组数据的识别效果均较为准确; 第二组数据样本为中激活度高效价值(情绪高兴)样本, 本文模型对该数据样本的效价值识别效果准确而激活度识别有偏差, 原因是模型对情感"高兴"程度的认知可能与实际有偏差.
图 7 本文模型在MANNOB-HCI数据集上的可视化识别结果(从上到下分别为三组情感数据中的人脸视频.从左到右分别为情感数据; Groundtruth与本文模型的识别结果)Fig. 7 The visualization of results of the proposed model on MAHNOB-HCI dataset (From up to down: three groups of emotion data. From left to right: emotion data; the groundtruth and results of the proposed model)4.4 注意机制可视化
本文从MAHNOB-HCI测试集B中选定样本进行单组情感识别测试, 并将每一时间步上的情感关键信息可视化为图 8与图 9.其中, 在可视化时域注意机制时仅选取4个时间步显示.图中上侧条形从下到上分别代表每个时间上脑电信号$\alpha$, $\beta$, $\theta$三个频带的重要度.从图示可以直观看出, 本文提出的模型可迅速且精确地定位有效信息, 并在有效信息的区域更加频繁地分析数据以得到更准确的识别结果.此图中有一个有趣的现象, 当该名实验参与人员越来越紧张(情感激活度越来越高)时, 脑电$\beta$波会逐渐占据主导地位.这与生理学中脑电$\beta$波会在人类处于紧张、焦虑、恐慌等情感状态时占据主导地位的结论一致.随着脑电$\beta$波变强, 人类身体会越来越处于紧张的状态, 这种情况下人类身心能量快速消耗, 容易感受到压迫与疲倦.而图 9中, 当人类的情感状态保持稳定的低激活度状态时, $\alpha$波占据主导地位.生理学研究表明, 当人类脑电波主要频率处于$\alpha$波时, 人类处于意识清醒且身心放松的状态, 也是人类思考的最佳状态.
4.5 模型增量化研究
为了量化本文提出的情感识别模型中不同部分的效果, 本文在MAHNOB-HCI测试集B与DEAP数据集上设置了一组模型增量实验.经过测试得到如表 3与表 4的测试结果, 其中, w/o band and temp表示在本文提出的模型基础上, 去掉空域频带注意和时域注意机制; w/o band表示在本文提出的模型基础上, 去掉空域频带注意机制; w/o temporal表示在本文提出的模型基础上, 去掉时域注意机制; vis-EEG-LSTM表示本文提出的模型.表 3与表 4显示, 空域频带注意和时域注意机制的引入能提升激活度和效价值的识别率和F1-${score}$.这是因为空域频带注意机制的引入有效利用了脑电信号的空域-时域-频域信息, 并且结合了脑电信号在不同情感状态下具有不同主导作用的生理学现象; 时域注意机制的引入则解决了情感识别中存在的噪声干扰、计算冗余等问题.此外, 通过对比可看出时域注意机制的引入对识别效果的提升具有更大的作用, 这是因为包含大量冗余情感信息的人脸视频和脑电信号会大大降低情感识别的准确率, 而本文使用的时域注意机制可有效地辅助模型"聚焦"信号中的关键情感信息, 从而进行更准确可靠的情感识别.
表 3 本文提出的情感识别模型的识别准确率和F1-${score}$(MAHNOB-HCI数据集)Table 3 The classification rate and F1-${score}$ of ablation studies on MAHNOB-HCI dataset激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ w/o band and temp 66.4 0.650 68.9 0.678 w/o band 70.9 0.690 73.0 0.711 w/o temporal 69.7 0.680 70.4 0.695 vis-EEG-LSTM ${\bf{73.1}}$ ${\bf{0.723}}$ ${\bf{74.5}}$ ${\bf{0.730}}$ 表 4 本文提出的情感识别模型的识别准确率和F1-${score}$ (DEAP数据集)Table 4 The classification rate and F1-${score}$ of ablation studies on DEAP dataset激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ w/o band and temp 79.1 0.774 78.5 0.770 w/o band 83.1 0.816 82.5 0.809 w/o temporal 78.1 0.754 81.4 0.805 vis-EEG-LSTM ${\bf{85.8}}$ ${\bf{0.837}}$ ${\bf{84.3}}$ ${\bf{0.831}}$ 4.6 单模态与双模态情感识别对比
为了对比人脸视频和脑电信号在情感识别任务中发挥的作用, 本文在MAHNOB-HCI测试集B与DEAP数据集上使用本文提出的模型, 针对人脸视频和脑电信号两个模态分别进行情感识别实验.测试结果如表 5与表 6所示, 在MAHNOB-HCI数据集上使用人脸视频的识别效果要好于使用脑电信号的识别效果.其原因是MAHNOB-HCI数据集的人脸视频中实验参与人员面部表情变化明显, 更容易提取有效的表情信息.而脑电信号的变化则比较复杂, 相比面部表情较难区分.而在DEAP数据集上使用脑电信号的识别效果要好于使用人脸视频的识别效果.其原因是该数据集采集到的人脸视频中人类面部表情变化非常细微, 较难分析.同时实验结果均显示令两个模态交互协同可提升情感识别效果.这是因为在情感表达过程中人脸表情与脑电信号尽管是相互分离的两个模态, 但是本质上具有相关性.合理利用多模态的信号进行情感识别可综合各个模态的优势, 从而令识别结果更加准确可靠.
表 5 两种单模态情感识别与多模态情感识别的识别准确率和F1-${score}$ (MAHNOB-HCI数据集)Table 5 The classification rate and F1-${score}$ of uni-modal and bi-modal emotion recognition on MAHNOB-HCI dataset激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ 人脸视频 70.8 0.691 72.9 0.711 脑电信号 69.9 0.673 73.3 0.720 人脸视频+脑电信号 ${\bf{73.1}}$ ${\bf{0.723}}$ ${\bf{74.5}}$ ${\bf{0.730}}$ 表 6 两种单模态情感识别与多模态情感识别的识别准确率和F1-${score}$(DEAP数据集)Table 6 The classification rate and F1-${score}$ of uni-modal and bi-modal emotion recognition on DEAP dataset激活度 效价值 CR ($\%$) F1-${score}$ CR ($\%$) F1-${score}$ 人脸视频 67.1 0.653 66.3 0.650 脑电信号 84.7 0.815 83.4 0.819 人脸视频+脑电信号 ${\bf{85.8}}$ ${\bf{0.837}}$ ${\bf{84.3}}$ ${\bf{0.831}}$ 综上所述, 本文提出的基于长短记忆与信息注意的视频-脑电信号交互协同情感识别方法可综合人类内在与外在的情感信息, 更准确地给出识别结果.
5. 结论
本文提出了一种基于长短记忆与信息注意的视频-脑电信号交互协同情感识别方法.该方法具有两个模态信号综合作用、相互补充的优势, 可准确识别人类的情感状态.为了更有效地利用脑电信号的空域关键信息, 所提出方法将脑电信号转换为图像序列, 并利用空域频带注意机制对$\alpha$, $\beta$, $\theta$三个频带的脑电信号进行重要度计算.为了有效利用情感数据的时域关键信息, 引入时域注意机制自动定位情感数据中的关键信号帧.在两个数据集的实验结果表明, 所提出的情感识别模型能够实现更准确的识别效果.然而, 自然场景下得人类情感状态不同于特定数据集, 会随时间发生变化.在保证情感识别效果的前提下, 如何识别一段情感信号中的不同情感状态仍然是未来需要研究的重点问题.
-
表 1 三种网络模型对比
Table 1 Comparison of the above three models
网络模型 输入图像 网络层数 损失函数 评价指标 放大因子 SRCNN ILR 3 L2 范数 PSNR, SSIM, IFC 2, 3, 4 FSRCNN LR 8 + m L2 范数 PSNR, SSIM 2, 3, 4 ESPCN LR 4 L2 范数 PSNR, SSIM 2, 3, 4 表 2 基于残差网络的9种模型对比
Table 2 Comparison of the nine models based on ResNet
网络模型 输入图像 网络层数 损失函数 评价指标 放大因子 VDSR ILR 20 L2 范数 PSNR, SSIM 2, 3, 4 DRCN ILR 16 (Recursions) L2 范数 PSNR, SSIM 2, 3, 4 DRRN ILR 52 L2 范数 PSNR, SSIM,IFC 2, 3, 4 RED ILR 30 L2 范数 PSNR, SSIM 2, 3, 4 LapSRN LR 27 Charbonnier PSNR, SSIM, IFC 2, 4, 8 EDSR LR 32 (Blocks) L1 范数 PSNR, SSIM 2, 3, 4 CARN LR 32 L1 范数 PSNR, SSIM, 分类效果 2, 3, 4 MSRN LR 8 (Blocks) L1 范数 PSNR, SSIM, 分类效果 2, 3, 4, 8 RCAN LR 20 (Blocks) L1 范数 PSNR, SSIM, 分类效果 2, 3, 4, 8 表 3 基于生成对抗网络的3种模型对比
Table 3 Comparison of the three models based on GAN
网络模型 输入图像 网络层数 损失函数 评价指标 放大因子 SRGAN LR 16 (Blocks) VGG PSNR, SSIM, MOS 2, 3, 4 SRFeat LR 16 (Blocks) VGG PSNR, SSIM, 分类效果 2, 3, 4 双GAN LR 16 (Blocks) L2 范数 PSNR 2, 3, 4 表 4 3种网络模型对比
Table 4 Comparison of the three models
网络模型 递归单元 密集连接 特征融合 重构效果 SRResNet RB 无 无 细节明显 DenseNet DB 无 所有DB之后 − SRDenseNet DB DB之间 所有DB之后 较好 MemNet MB MB之间 无 较好 RDN RDB RDB内部 RDB内部和所有RDB之后 好 表 5 基于其他网络的5种模型对比
Table 5 Comparison of the five models based on other networks
网络模型 输入图像 网络层数 损失函数 评价指标 放大因子 SRDenseNet LR 8 (Blocks) L2 范数 PSNR, SSIM 4 MemNet ILR 80 L2 范数 PSNR, SSIM 2, 3, 4 RDN LR 20 (Blocks) L1 范数 PSNR, SSIM 2, 3, 4 IDN LR 4 (Blocks) L1 范数 PSNR, SSIM, IFC 2, 3, 4 DBPN LR 2/4/6 (Units) L2 范数 PSNR, SSIM 2, 4, 8 表 6 各个网络模型在Set5、Set14、BSD100、Urban100和Manga109测试集上×2倍数重构结果(单位: dB/-)
Table 6 Quantitative results of the SR models on Set5, Set14, BSD100, Urban100 and Manga109 with scale factor ×2 (Unit: dB/-)
放大尺度 网络模型 Set5 (PSNR/SSIM) Set14 (PSNR/SSIM) BSD100 (PSNR/SSIM) Urban100 (PSNR/SSIM) Manga109 (PSNR/SSIM) SRCNN[5] 33.66/0.9542 32.45/0.9067 31.36/0.8879 29.50/0.8946 35.60/0.9663 FSRCNN[26] 37.05/0.9560 32.66/0.9090 31.53/0.8920 29.88/0.9020 36.67/0.9694 ESPCN[31] 37.00/0.9559 32.75/0.9098 31.51/0.8939 29.87/0.9065 36.21/0.9694 VDSR[33] 37.53/0.9588 33.03/0.9124 31.90/0.8960 30.76/0.9140 37.22/0.9729 DRCN[34] 37.63/0.9588 33.04/0.9118 31.85/0.8942 30.75/0.9133 37.63/0.9723 DRRN[35] 37.74/0.9591 33.23/0.9136 32.05/0.8973 31.23/0.9188 37.60/0.9736 ×2 RED[36] 37.66/0.9599 32.94/0.9144 31.99/0.8974 − − LapSRN[37] 37.52/0.9590 33.08/0.9130 31.08/0.8950 30.41/0.9100 37.27/0.9855 EDSR[38] 38.11/0.9602 33.92/0.9195 32.32/0.9013 32.93/0.9351 39.10/0.9773 CARN-M[40] 37.53/0.9583 33.26/0.9141 31.92/0.8960 30.83/0.9233 − MSRN[32] 38.08/0.9605 33.74/0.9170 32.23/0.9013 32.22/0.9326 38.82/0.9868 RCAN[42] 38.33/0.9617 34.23/0.9225 32.46/0.9031 33.54/0.9399 39.61/0.9788 MemNet[47] 37.78/0.9597 33.28/0.9142 32.08/0.8978 31.31/0.9195 37.72/0.9740 RDN[48] 38.24/0.9614 34.01/0.9212 32.34/0.9017 32.89/0.9353 39.18/0.9780 IDN[49] 37.83/0.9600 33.30/0.9148 32.08/0.8985 31.27/0.9196 − DBPN[50] 38.09/0.9600 33.85/0.9190 32.27/0.9000 32.55/0.9324 38.89/0.9775 表 7 各个网络模型在Set5、Set14、BSD100、Urban100和Manga109测试集上×3倍数重构结果(单位: dB/-)
Table 7 Quantitative results of the SR models on Set5, Set14, BSD100, Urban100 and Manga109 with scale factor ×3 (Unit: dB/-)
放大尺度 网络模型 Set5 (PSNR/SSIM) Set14 (PSNR/SSIM) BSD100 (PSNR/SSIM) Urban100 (PSNR/SSIM) Manga109 (PSNR/SSIM) SRCNN[5] 32.75/0.9090 29.30/0.8215 28.41/0.7863 26.24/0.7989 30.48/0.9117 FSRCNN[26] 33.18/0.9140 29.37/0.8240 28.53/0.7910 26.43/0.8080 31.10/0.9210 ESPCN[31] 33.02/0.9135 29.49/0.8271 28.50/0.7937 26.41/0.8161 30.79/0.9181 VDSR[33] 33.68/0.9201 29.86/0.8312 28.83/0.7966 27.15/0.8315 32.01/0.9310 DRCN[34] 33.85/0.9215 29.89/0.8317 28.81/0.7954 27.16/0.8311 32.31/0.9328 DRRN[35] 34.03/0.9244 29.96/0.8349 28.95/0.8004 27.53/0.8378 32.42/0.9359 ×3 RED[36] 33.82/0.9230 29.61/0.8341 28.93/0.7994 − − EDSR[38] 34.65/0.9280 30.52/0.8462 29.25/0.8093 28.80/0.8653 34.17/0.9476 CARN-M[40] 33.99/0.9236 30.08/0.8367 28.91/0.8000 26.86/0.8263 − MSRN[32] 34.38/0.9262 30.34/0.8395 29.08/0.8041 28.08/0.5554 33.44/0.9427 RCAN[42] 34.85/0.9305 30.76/0.8494 29.39/0.8122 29.31/0.8736 34.76/0.9513 MemNet[47] 34.09/0.9248 30.00/0.8350 28.96/0.8001 27.56/0.8376 32.51/0.9369 RDN[48] 34.71/0.9296 30.57/0.8468 29.26/0.8093 28.80/0.8653 34.13/0.9484 IDN[49] 34.11/0.9253 29.99/0.8354 28.95/0.8031 27.42/0.8359 − 表 8 各个网络模型在Set5、Set14、BSD100、Urban100和Manga109测试集上×4倍数重构结果(单位: dB/-)
Table 8 Quantitative results of the SR models on Set5, Set14, BSD100, Urban100 and Manga109 with scale factor ×4 (Unit: dB/-)
放大尺度 网络模型 Set5 (PSNR/SSIM) Set14 (PSNR/SSIM) BSD100 (PSNR/SSIM) Urban100 (PSNR/SSIM) Manga109 (PSNR/SSIM) SRCNN[5] 30.48/0.8628 27.50/0.7513 26.90/0.7101 24.52/0.7221 27.58/0.8555 FSRCNN[26] 30.72/0.8660 27.61/0.7550 26.98/0.7150 24.62/0.7280 27.90/0.8610 ESPCN[31] 30.66/0.8646 27.71/0.7562 26.98/0.7124 24.60/0.7360 27.70/0.8560 VDSR[33] 31.35/0.8830 28.02/0.7680 27.29/0.7251 25.18/0.7540 28.83/0.8870 DRCN[34] 31.56/0.8810 28.15/0.7627 27.24/0.7150 25.15/0.7530 28.98/0.8816 DRRN[35] 31.68/0.8888 28.21/0.7721 27.38/0.7284 25.44/0.7638 29.19/0.8914 RED[36] 31.51/0.8869 27.86/0.7718 27.40/0.7290 − − LapSRN[37] 31.54/0.8850 28.19/0.7720 27.32/0.7270 25.27/0.7560 29.09/0.8900 ×4 EDSR[38] 32.46/0.8968 28.80/0.7876 27.71/0.7420 26.64/0.8033 31.02/0.9148 CARN-M[40] 31.92/0.8903 28.42/0.7762 27.44/0.7304 25.63/0.7688 − MSRN[32] 32.07/0.8903 28.60/0.7751 27.52/0.7273 26.04/0.7896 30.17/0.9034 RCAN[42] 32.73/0.9013 28.98/0.7910 27.85/0.7455 27.10/0.8142 31.65/0.9208 SRDenseNet[46] 32.02/0.8934 28.50/0.7782 27.53/0.7337 26.05/0.7819 − MemNet[47] 31.74/0.8893 29.26/0.7723 27.40/0.7281 25.50/0.7630 29.42/0.8942 RDN[48] 32.47/0.8990 28.81/0.7871 27.72/0.7419 26.61/0.8028 31.00/0.9151 IDN[49] 31.82/0.8930 28.25/0.7730 27.41/0.7297 25.41/0.7632 − DBPN[50] 32.47/0.8980 28.82/0.7860 27.72/0.7400 26.38/0.7946 30.91/0.9137 表 9 各个网络模型在Set5、Set14、BSD100、Urban100和Manga109测试集上×8倍数重构结果(单位: dB/-)
Table 9 Quantitative results of the SR models on Set5, Set14, BSD100, Urban100 and Manga109 with scale factor ×8 (Unit: dB/-)
放大尺度 网络模型 Set5 (PSNR/SSIM) Set14 (PSNR/SSIM) BSD100 (PSNR/SSIM) Urban100 (PSNR/SSIM) Manga109 (PSNR/SSIM) LapSRN[37] 26.14/0.7380 24.44/0.6230 24.54/0.5860 21.81/0.5810 23.39/0.7350 ×8 MSRN[32] 26.59/0.7254 24.88/0.5961 24.70/0.5410 22.37/0.5977 24.28/0.7517 RCAN[49] 27.47/0.7913 25.40/0.6553 25.05/0.6077 23.22/0.6524 25.58/0.8092 DBPN[50] 27.12/0.7840 25.13/0.6480 24.88/0.6010 22.73/0.6312 25.14/0.7987 表 10 各个网络模型的网络基础、模型框架、网络设计、实验平台及运行时间总结
Table 10 Summary of the SR models in network basics, frameworks, network design, platform and training/testing time
网络模型 网络基础 模型框架 结构设计特点 实验平台 训练/测试时间 SRCNN[5] CNN 预插值 经典 CNN 结构 CPU − FSRCNN[26] CNN 后插值 (解卷积) 压缩模块 i7 CPU 0.4 s (测试) ESPCN[31] CNN 后插值 (亚像素卷积) 亚像素卷积 K2 GPU 4.7 ms (测试) VDSR[33] ResNet 预插值 残差学习, 自适应梯度裁剪 Titan Z GPU 4 h (训练) DRCN[34] ResNet 预插值 递归结构, 跳跃连接 Titan X GPU 6 d (训练) DRRN[35] ResNet 预插值 递归结构, 残差学习 Titan X GPU$\times $2 4 d/0.25 s RED[36] ResNet 逐步插值 解卷积−反卷积, 跳跃连接 Titan X GPU 3.17 s (测试) LapSRN[37] ResNet 逐步插值 金字塔结构, 特征−图像双通道 Titan X GPU 0.02 s (测试) EDSR[38] ResNet 后插值 (亚像素卷积) 去 BN 层, Self-ensemble Titan X GPU 8 d (训练) CARN[40] ResNet 后插值 (亚像素卷积) 递归结构, 残差学习, 分组卷积 − − MSRN[32] ResNet 后插值 (亚像素卷积) 多尺度特征提取, 残差学习 Titan Xp GPU − RCAN[42] ResNet 后插值 (亚像素卷积) 递归结构, 残差学习, 通道注意机制 Titan Xp GPU − SRGAN[43] GAN 后插值 (亚像素卷积) 生成器预训练 Telsa M40 GPU − SRFeat[44] GAN 后插值 (亚像素卷积) 特征判别器, 图像判别器 Titan Xp GPU − 双GAN[45] GAN − 两个 GAN 网络构成图像降质与重构闭合回路 − − SRDenseNet[46] 其他 后插值 (解卷积) 密集连接, 跳跃连接 Titan X GPU 36.8 ms (测试) MemNet[47] 其他 预插值 记忆单元, 跳跃连接 Telsa P40 GPU 5 d/0.85 s RDN[48] 其他 后插值 (解卷积) 密集连接, 残差学习 Titan Xp GPU 1 d (训练) IDN[49] 其他 后插值 (解卷积) 蒸馏机制 Titan X GPU 1 d (训练) DBPN[50] 其他 迭代插值 上、下投影单元 Titan X GPU 4 d (训练) 表 11 常用图像质量评价指标的计算方法和优缺点总结
Table 11 Summary of evaluation metrics
评价指标 计算方法 优点 缺点 PSNR $10{\lg}\frac{MAX_{f} }{MSE}$ 能够衡量像素间损失, 是图像
最常用的客观评价指标之一.不能全面评价图像质量, 如PSNR值高
不代表图像的视觉质量高.SSIM $\frac{(2\mu_{x}\mu_{x_{0}}+C_{1})\times (2\sigma_{xx_{0}}+C_{2})}{(\mu_{x}^{2}+\mu_{x_{0}}^{2}+C_{1})\times (\sigma_{x}^{2}+\sigma_{x_{0}}^{2}+C_{2})}$ 能够衡量图片间的统计关系, 是图
像最常用的客观评价指标之一.不适用于整个图像评价, 只适用于图像
的局部结构相似度评价.MOS 由多位评价者对于重构结果进行评价, 分数
从 1 到 5 代表由坏到好.评价结果更符合人的视觉效果且随着评
价者数目增加, 评价结果更加可靠.耗时耗力, 成本较高, 评价者数量不多的
情况下易受评价者主观影响, 且评分不
连续易造成较大的误差. -
[1] 苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述. 自动化学报, 2013, 39(8): 1202−1213Su Heng, Zhou Jie, Zhang Zhi-Hao. Survey of super-resolution image reconstruction methods. Acta Automatica Sinica, 2013, 39(8): 1202−1213 [2] Harris J L. Diffraction and resolving power. Journal of the Optical Society of America, 1964, 54(7): 931−936 [3] Goodman J W. Introduction to Fourier Optics. New York: McGraw-Hill, 1968 [4] Tsai R Y, Huang T S. Multiframe image restoration and registration. In: Advances in Computer Vision and Image Processing. Greenwich, CT, England: JAI Press, 1984. 317−339 [5] Dong C, Loy C C, He K M, Tang X O. Learning a deep convolutional network for image super-resolution. In: Proceedings of ECCV 2014 European Conference on Computer Vision. Cham, Switzerland: Springer, 2014. 184−199 [6] 何阳, 黄玮, 王新华, 郝建坤. 稀疏阈值的超分辨率图像重建. 中国光学, 2016, 9(5): 532−539 doi: 10.3788/co.20160905.0532He Yang, Huang Wei, Wang Xin-Hua, Hao Jian-Kun. Super-resolution image reconstruction based on sparse threshold. Chinese Optics, 2016, 9(5): 532−539 doi: 10.3788/co.20160905.0532 [7] 李方彪. 红外成像系统超分辨率重建技术研究[博士学位论文], 中国科学院大学, 中国, 2018Li Fang-Biao. Research on Super-Resolution Reconstruction of Infrared Imaging System [Ph.D. dissertation], University of Chinese Academy of Sciences, China, 2018 [8] Irani M, Peleg S. Improving resolution by image registration. Graphical Models and Image Processing, 1991, 53(3): 231−239 [9] Kim K I, Kwon Y. Single-image super-resolution using sparse regression and natural image prior. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(6): 1127−1133 [10] Aly H A, Dubois E. Image up-sampling using total-variation regularization with a new observation model. IEEE Transactions on Image Processing, 2005, 14(10): 1647−1659 [11] Shan Q, Li Z R, Jia J Y, Tang C K. Fast image/video upsampling. ACM Transactions on Graphics, 2008, 27(5): 153 [12] Hayat K. Super-resolution via deep learning. arXiv: 1706.09077, 2017 [13] 孙旭, 李晓光, 李嘉锋, 卓力. 基于深度学习的图像超分辨率复原研究进展. 自动化学报, 2017, 43(5): 697−709Sun Xu, Li Xiao-Guang, Li Jia-Feng, Zhuo Li. Review on deep learning based image super-resolution restoration algorithms. Acta Automatica Sinica, 2017, 43(5): 697−709 [14] He H, Siu W C. Single image super-resolution using Gaussian process regression. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2011. 449−456 [15] Zhang K B, Gao X B, Tao D C, Li X L. Single image super-resolution with non-local means and steering kernel regression. IEEE Transactions on Image Processing, 2012, 21(11): 4544−4556 [16] Chan T M, Zhang J P, Pu J, Huang H. Neighbor embedding based super-resolution algorithm through edge detection and feature selection. Pattern Recognition Letters, 2009, 30(5): 494−502 [17] Yang J C, Wright J, Huang T S, Ma Y. Image super-resolution via sparse representation. IEEE Transactions on Image Processing, 2010, 19(11): 2861−2873 doi: 10.1109/TIP.2010.2050625 [18] Timofte R, Agustsson E, van Gool L, Yang M H, Zhang L, Lim B, et al. NTIRE 2017 challenge on single image super-resolution: Methods and results. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Hawaii, USA: IEEE, 2017. 1110−1121 [19] Yue L W, Shen H F, Li J, Yuan Q Q, Zhang H Y, Zhang L P. Image super-resolution: The techniques, applications, and future. Signal Processing, 2016, 128: 389−408 doi: 10.1016/j.sigpro.2016.05.002 [20] Yang C Y, Ma C, Yang M H. Single-image super-resolution: A benchmark. In: Proceedings of ECCV 2014 Conference on Computer Vision. Switzerland: Springer, 2014. 372−386 [21] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 770−778 [22] Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial networks. In: Advances in Neural Information Processing Systems. Montreal, Quebec, Canada: Curran Associates, Inc., 2014. 1110−1121 [23] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Advances in Neural Information Processing Systems. Lake Tahoe, Nevada, USA: Curran Associates, Inc., 2012. 1097−1105 [24] Huang G, Liu Z, van der Maaten L, Weinberger K Q. Densely connected convolutional networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 2261−2269 [25] Dong C, Loy C C, He K M, Tang X O. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(2): 295−307 [26] Dong C, Chen C L, Tang X O. Accelerating the super-resolution convolutional neural network. In: Proceedings of European Conference on Computer Vision. Amsterdam, Netherlands: Springer, 2016. 391−407 [27] Luo Y M, Zhou L G, Wang S, Wang Z Y. Video satellite imagery super resolution via convolutional neural networks. IEEE Geoscience & Remote Sensing Letters, 2017, 14(12): 2398−2402 [28] Ducournau A, Fablet R. Deep learning for ocean remote sensing: An application of convolutional neural networks for super-resolution on satellite-derived SST data. In: Proceedings of the 9th IAPR Workshop on Pattern Recognition in Remote Sensing. Cancun, Mexico: IEEE, 2016. 1−6 [29] Rasti P, Uiboupin T, Escalera S, Anbarjafari G. Convolutional neural network super resolution for face recognition in surveillance monitoring. In: Proceedings of the International Conference on Articulated Motion & Deformable Objects. Switzerland: Springer, 2016. 175−184 [30] Zhang H Z, Casaseca-de-la-Higuera P, Luo C B, Wang Q, Kitchin M, Parmley A, et al. Systematic infrared image quality improvement using deep learning based techniques. In: Proceedings of the SPIE 10008, Remote Sensing Technologies and Applications in Urban Environments. SPIE, 2016. [31] Shi W Z, Caballero J, Huszar F, Totz J, Aitken A P, Bishop R, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 1874−1883 [32] Li J C, Fang F M, Mei K F, Zhang G X. Multi-scale residual network for image super-resolution. In: Proceedings of 2018 ECCV European Conference on Computer Vision. Munich, Germany: Springer, 2018. 527−542 [33] Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 1646−1654 [34] Kim J, Lee J K, Lee K M. Deeply-recursive convolutional network for image super-resolution. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. 1637−1645 [35] Tai Y, Yang J, Liu X M. Image super-resolution via deep recursive residual network. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 2790−2798 [36] Mao X J, Shen C H, Yang Y B. Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections. In: Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY, United States: Curran Associates Inc., 2016. 2810−2818 [37] Lai W S, Huang J B, Ahuja N, Yang M H. Deep laplacian pyramid networks for fast and accurate super-resolution. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 5835−5843 [38] Lim B, Son S, Kim H, Nah S, Lee K M. Enhanced deep residual networks for single image super-resolution. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, HI, USA: IEEE, 2017. 1132−1140 [39] Howard A G, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications. arXiv:1704.04861, 2017 [40] Ahn N, Kang B, Sohn K A. Fast, accurate, and lightweight super-resolution with cascading residual network. In: Proceedings of 2018 ECCV European Conference on Computer Vision. Munich, Germany: Springer, 2018. 256−272 [41] Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, et al. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, NA, USA: IEEE, 2015. 1−9 [42] Zhang Y L, Li K P, Li K, Wang L C, Zhong B N, Fu Y. Image super-resolution using very deep residual channel attention networks. In: Proceedings of 2018 ECCV European Conference on Computer Vision. Munich, Germany: Springer, 2018. 294−310 [43] Ledig C, Theis L, Huszar F, Caballero J, Cunningham A, Acosta A, et al. Photo-realistic single image super-resolution using a generative adversarial network. In: Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017. 105−114 [44] Park S J, Son H, Cho S, Hong K S, Lee S. SRFeat: Single image super-resolution with feature discrimination. In: Proceedings of 2018 ECCV European Conference on Computer Vision. Munich, Germany: Springer, 2018. 455−471 [45] Bulat A, Yang J, Georgios T. To learn image super-resolution, use a GAN to learn how to do image degradation first. In: Proceedings of 2018 ECCV European Conference on Computer Vision. Munich, Germany: Springer, 2018. 187−202 [46] Tong T, Li G, Liu X J, Gao Q Q. Image super-resolution using dense skip connections. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 4809−4817 [47] Tai Y, Yang J, Liu X M, Xu C Y. MemNet: A persistent memory network for image restoration. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 4549−4557 [48] Zhang Y L, Tian Y P, Kong Y, Zhong B N, Fu Y. Residual dense network for image super-resolution. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 2472−2481 [49] Hui Z, Wang X M, Gao X B. Fast and accurate single image super-resolution via information distillation network. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 723−731 [50] Haris M, Shakhnarovich G, Ukita N. Deep back-projection networks for super-resolution. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1664−1673 [51] 潘宗序, 禹晶, 肖创柏, 孙卫东. 基于多尺度非局部约束的单幅图像超分辨率算法. 自动化学报, 2014, 40(10): 2233−2244Pan Zong-Xu, Yu Jing, Xiao Chuang-Bai, Sun Wei-Dong. Single-image super-resolution algorithm based on multi-scale nonlocal regularization. Acta Automatica Sinica, 2014, 40(10): 2233−2244 [52] Sajjadi M S M, Scholkopf B, Hirsch M. EnhanceNet: Single image super-resolution through automated texture synthesis. In: Proceedings of the 2016 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2016. 4501−4510 [53] Bei Y J, Damian A, Hu S J, Menon S, Ravi N, Rudin C. New techniques for preserving global structure and denoising with low information loss in single-image super-resolution. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, USA: IEEE, 2018. 987−994 [54] Wang Z H, Chen J, Hoi S C H. Deep learning for image super-resolution: A survey. arXiv:1902.06068, 2019 [55] Haut J M, Fernandez-Beltran R, Paoletti M E, Plaza J, Plaza A, Pla F. A new deep generative network for unsupervised remote sensing single-image super-resolution. IEEE Transactions on Geoscience and Remote sensing, 2018, 56(11): 6792−6810 doi: 10.1109/TGRS.2018.2843525 [56] Liu H, Fu Z L, Han J G, Shao L, Liu H S. Single satellite Imagery simultaneous super-resolution and colorization using multi-task deep neural networks. Journal of Visual Communication & Image Representation, 2018, 53: 20−30 [57] Chen Y, Tai Y, Liu X M, Shen C H, Yang J. FSRNet: End-to-end learning face super-resolution with facial priors. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: CVPR, 2018. 2492−2501 [58] Bulat A, Tzimiropoulos G. Super-FAN: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with GANs. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 109−117 [59] Yu X, Fernando B, Ghanem B, Poriklt F, Hartley R. Face super-resolution guided by facial component heatmaps. In: Proceedings of 2018 ECCV European Conference on Computer Vision. Munich, Germany: Springer, 2018. 219−235 期刊类型引用(11)
1. 唐晓天,刘潇. 基于时域可变形卷积的视频超分辨率重建. 信息化研究. 2024(02): 41-47 . 百度学术
2. 时维国,王佳依. 多分支残差注意力机制融合的图像超分辨率重建. 大连交通大学学报. 2023(03): 103-108+112 . 百度学术
3. 王梅,李云红,李丽敏,李嘉鹏,史含驰. 像素补偿的轻量级图像超分辨率重建. 西安工业大学学报. 2023(04): 383-392 . 百度学术
4. 刘花成,任文琦,王蕊,操晓春. 用于单幅模糊图像超分辨的Transformer融合网络. 中国图象图形学报. 2022(05): 1616-1631 . 百度学术
5. 王华东,孙挺. 变换域多尺度信息蒸馏网络的医学影像超分辨率重建. 生物医学工程学杂志. 2022(05): 887-896 . 百度学术
6. 杨建华. 单张图像超分辨率重建技术研究及在开放大学招生中的应用. 安徽广播电视大学学报. 2021(02): 86-92 . 百度学术
7. 孙超文,陈晓. 基于多尺度特征融合反投影网络的图像超分辨率重建. 自动化学报. 2021(07): 1689-1700 . 本站查看
8. 兰元帅,何晋. 基于树莓派4B的森林防火系统研究与设计. 农业与技术. 2021(16): 48-51 . 百度学术
9. 王延年,刘航宇,刘宏涛,刘妍妍. 基于小波深度残差网络的图像超分辨率重建. 国外电子测量技术. 2021(09): 160-164 . 百度学术
10. 韩巧玲,周希博,宋润泽,赵玥. 基于序列信息的土壤CT图像超分辨率重建. 农业工程学报. 2021(17): 90-96 . 百度学术
11. 沈洋. 基于深度学习的河湖“四乱”问题卫星遥感图像目标检测算法. 信息与电脑(理论版). 2021(23): 84-86 . 百度学术
其他类型引用(28)
-