-
摘要: 有效的特征提取方法能提高脑机接口(Brain-computer interface,BCI)系统对脑电(Electroencephalogram,EEG)信号的识别率.因脑电信号都是多通道的,本文将分层向量自回归(Hierarchical vector autoregression,HVAR)模型用于脑电信号的特征提取,并结合传统的线性支持向量机(Support vector machine,SVM)用于脑电信号识别.该模型不仅克服了自回归(Autoregression,AR)模型只能用来提取单通道特征的局限性,而且不再采用传统VAR(Vector autoregression)模型所有通道共用一个时滞的处理方法.创新之处在于在传统的VAR模型基础上添加正则化思想,有效地压缩参数空间,实现合理的分层结构.本文首次将HVAR模型用于由Keirn等采集并整理的脑电数据中.实验结果证明HVAR模型在阶数较小的情况下(2阶)与阶数较大(6阶)的AR模型效果相当,可见低阶的HVAR能很好地刻画脑电信号的时空关联关系,这说明HVAR可能是刻画EEG信号的一种新颖的方法,这对其他多通道时间序列分析都有借鉴意义.Abstract: Feature extraction and classification of electroencephalogram (EEG) signals is a core part of brain-computer interface (BCI). For multi-channel EEG signal and high dimension of feature vector of BCI system, a novel EEG signal recognition method called hierarchical vector autoregression (HVAR) is presented, which extracts EEG feature using regression coefficient of HVAR model and linear support vector machine (SVM). It overcomes the limitations of the autoregression (AR) model that can be used to extract the single channel EEG only, and effectively avoids the vector autoregression (VAR) model sharing a same delay for all channels. Our contribution is that regularization is added on the traditional VAR model and a reasonable hierarchical structure is adopted. It effectively compresses parameter space of VAR model. In this paper, HVAR model is used for EEG data classification for the first time. Experimental results show that the recognition accuracy of extracted feature of HVAR model using a 2 lag order multi-channel is higher than that of AR model of 6 lag order. So low-level HVAR model can describe the portrayed temporal relationship of EEG well. This shows HVAR may be a novel method to portray EEG signal, which has reference significance to other multi-channel time-series.
-
人类视觉在处理数量庞大的输入信息时,注意机制具有极其重要的作用[1].它能够将有限的资源优先分配给有用的信息,从而优先处理最有价值的数据. 与人类的视觉注意行为相对应,计算机在处理输入图像时,通过检测显著性区域来实现判断其中视觉信息的重要程度.视觉显著性检测在诸如目标检测、图像压缩、基于内容的图像编辑等方面中具有广泛的应用,是计算视觉研究中非常重要的基础性课题[2].
在显著性目标检测研究领域,基于区域的显著性检测方法由于检测速度快、精确度高等优点已经成为目前该领域中的主流方法.此类方法进行显著性检测的过程可以分为区域特征表示和对比度计算两个重要步骤,对图像区域的特征进行有效的表示直接影响到显著图的质量.然而目前的方法几乎都是使用底层视觉特征对分割区域内的像素集合进行特征表示,例如文献[3-4]使用CIELab 颜色直方图表示图像区域的特征;文献[5]使用RGB颜色特征、方向特征和纹理特征表示图像区域.与底层视觉特征相比较,中层语义特征具有更好的区分度,本文提出一种基于词袋模型的新的显著性目标检测算法.
1. 相关工作
自Koch等[6]提出显著图的定义以来,目前已经出现了大量的显著性检测算法.Achanta等[7]将这些方法总体上概括为以下三类:第一类为基于生物模型的方法,经典IT算法[8]是其中的典型代表.由于人类视觉系统的生物学结构非常复杂,此类方法计算复杂度非常高,而纯数学计算型的方法在很多环节使用简单的计算直接实现,大幅提高了计算速度和检测效果,是目前显著性检测算法中的主流研究方向.还有些方法采用了纯数学计算并融合生物学模型,例如Harel 等提出的GBVS(Graph based visual saliency) 模型[9].
对比度是引起人类视觉注意的最大因素,基于纯数学计算的显著性检测方法又因为所使用的对比度计算方式不同而有所区别.Ma等[10]提出了一种局部对比度的显著性检测方法,它使用CIELuv颜色表示图像中每个像素的特征,并使用欧式距离度量每个像素与其邻域像素之间的差异程度;MZ方法在计算局部对比度时,将邻域的大小设为固定值,无法实现多尺度的显著性计算,为此Achanta等[11]提出通过改变感知单元邻域的尺寸大小实行显著性的多尺度计算;LC (Luminance-based contrast)方法[12]同样是以图像中的每个像素作为基本处理单元,但与MZ不同的是,使用图像像素的灰度特征计算像素在整幅图像上的全局对比度;Cheng等[3] 提出的HC (Histogram-based contrast)方法在CIELab颜色空间的三个通道计算像素在整幅图像上的全局对比度;Achanta等[7]提出的FT (Frequency tuned)方法同样也是一种全局对比度计算方法,其所使用的全局信息是图像的平均信息;Goferman等[13] 提出的CA (Contex aware)方法也是从感知单元之间的差异性出发计算显著性,但是与上面方法不同的是,CA 考虑了感知单元之间的空间位置关系.
上述显著性检测方法都是在像素级别计算显著性,而基于区域的显著性检测方法以图像区域为基本处理单元,速度更快,精度更高. 此类方法又因为使用不同的分割方法,区域的图像特征表示和显著性计算而有所不同.Cheng等[3]提出的RC (Region-based contrast)方法使用图割对图像进行分割,然后使用颜色直方图表示每个图像区域的特征,在计算每个图像小块的全局对比度的同时考虑了颜色对比度、空间距离和分块大小三个因素;与RC方法基于超像素分割获得图像区域不同,Cheng等[14]提出的GC (Global cues)方法利用对所有像素进行初始聚类得到的聚类中心计算颜色对比度,利用对高斯成分进行二次聚类得到聚类中心计算颜色空间分布,最后使用文献[15]中的方法将颜色对比度与颜色空间分布相结合得到最终显著图;Margolin等[16] 提出的PD (Patch distinct)方法通过分析图像小块的内部统计特性,使用主成分分析表示图像小块进而计算图像小块的显著性; Jiang等[4] 提出的CBS (Context-based saliency)方法使用图割方法将图像快速分成不同的子区域,使用CIELab颜色直方图表示图像区域的特征,然后使用距离函数计算每个图像小块与近邻图像小块之间的差异性生成显著图;Shen等[5] 提出的LR (Low rank) 方法使用RGB 颜色特征、方向特征和纹理特征表示图像区域,使用鲁棒PCA (Principal component analysis) 算法对特征矩阵进行分解计算显著性.基于区域的显著性检测过程可以分为区域的图像特征表示和对比度计算两个重要步骤,目前此类方法几乎都是使用底层视觉特征进行对比度计算.相对于底层视觉特征,中层语义特征更加符合人类视觉模型,为此本文提出一种基于词袋模型的新的显著性目标检测方法.
2. 本文方法
2.1 方法描述
对于一幅给定的图像I,显著性检测的目的是将图像中任意像素x归于前景目标区域或者背景区域两种可能状态之一,将这两种状态分别简记为S (Salient)和B (Background),它们的先验概率相应地简记为P(S)和P(B),则根据贝叶斯推断原理,像素x的显著性计算公式为:
\begin{align} & P(S|x)=\frac{P(S)P(x|S)}{P(S)P(x|S)+P(B)P(x|B)} \\ & P(S)+P(B)=1 \\ \end{align}
(1) 式中,P(x|S)表示显著区域已知的情况下观测像素x的条件概率密度,P(x|B)表示背景区域已知的情况下观测像素x的条件概率密度.
2.2 基于目标性的先验概率
本文使用目标性计算式(1)中的先验概率,对于图像中的任意像素x,以此像素为中心,随机抽取图像中的W个窗口,文献[17]分别从以下四个方面计算每个窗口的目标性:
1) 窗口显著性.首先利用任意显著性检测方法计算得到图像中每个像素的显著值I(p),则窗口w ∈ W 的显著性计算公式为:
$\begin{align} & S(w,\theta_s)=\\ & \sum_{\{p\in{W} \mid I(P)\ge \theta_s\}}I(p)\times \frac{\{p\in{W} \mid I(P)\ge \theta_s\}}{|w|} \end{align}$
(2) 式中,θs表示待学习的显著性阈值参数.
2) 颜色对比度. 对于窗口w∈ W,以θcc为固定倍数在每个方向将其扩展到周围区域得到某一矩形区域Surr(w,θcc),则窗口w在此区域内的颜色对比度计算公式为:
$CC(w,\theta_{cc})=\chi^2(h(w),h(Surr(w,\theta_{cc})))$
(3) 式中,h(w)、h(Surr(w,θcc))分别表示窗口w与矩形区域Surr(w,θcc)的颜色直方图,χ2(·)表示卡方距离函数.
3) 边缘密度. 对于窗口w ∈ W,以θED为固定倍数将其收缩到内部环状区域Inn(w,θED),则此窗口w在区域Inn(w,θED)内的边缘性计算公式为:
$ED(w,\theta_{ED})=\frac{\sum_{p\in{Inn(w,\theta_{ED})}}I_{ED}(p)}{Len(Inn(w,\theta_{ED}))}$
(4) 式中,IED(p)表示使用Canny算子得到的二值图,Len(·)表示计算区域Inn(w,θED) 的周长.
4) 轮廓闭合性. 首先将图像分割为若干超像素S,则窗口w∈W的轮廓闭合性的计算公式为:
$SS(w) = 1 - \sum\limits_{s \in S} {\frac{{\min (|s{\rm{\backslash w}}|,|s \cap w|)}}{{|w|}}} $
(5) 式中,s∈S表示图像中的第s个超像素,|s\w|表示超像素s位于窗口w之外的面积,而|s∩ w|表示超像素s位于窗口w内部的面积.
将上述得到的窗口显著性S(w,θs)、颜色对比度CC(w,θcc)、边缘密度ED(w,θED)以及轮廓闭合性SS(w)进行融合就得到每个窗口被判定为显著性目标的概率值P(w),那么基于目标性的先验概率计算公式为:
$P_s(x)=\sum_{w\in{W}\cap x\in{W}}P(w_x)$
(6) 2.3 超像素词袋特征
已知一个图像数据集D={d1,d2,…,dN},由于CIELab颜色模型能够将亮度和色度分量分开,相关研究工作[3-4, 7, 16]也表明在此颜色空间进行检测得到的显著图的准确度更高,因此将图像变换到CIELab 颜色空间,然后随机抽取其中的300k个像素的颜色特征组成局部特征集合X,对X进行聚类得到视觉词典V=[v1,v2,…,vK] ∈ {RD× K},vk∈ RD×1,k=1,2,… ,K表示第k个视觉单词向量,K为视觉单词数目,D为像素颜色特征的维数. 在得到视觉词典后,使用硬分配编码方法对图像中的每个像素进行编码[18].对于数据集中任意一幅图像,cj∈ RD×1表示第j个像素颜色特征,其对应的编码矢量Uj∈ RK×1第k维值的计算公式为:
${{U}_{jk}}=\left\{ \begin{array}{*{35}{l}} 1,\text{若}j=\arg {{\min }_{j=1,2,\cdots ,K}}\|{{c}_{j}}-{{v}_{k}}{{\|}_{2}} \\ 0,\text{其他} \\ \end{array} \right.$
(7) 式中,矢量cj与vk之间的距离计算采用欧氏函数.
完成对图像中所有像素的编码操作之后,使用SLIC (Simple linear iterative clustering)方法对图像进行分割,如图 1(b)所示,图像被相应地分割成为N个尺寸均匀的超像素,假设其中第n个超像素区域内共有Pn个像素,则此区域内所有像素编码矢量的总和统计值为:
$BoF_n=\sum_{j=1}^{P_n}U_j$
(8) 式中,Uj表示超像素区域内第j个像素颜色特征的编码矢量,可以利用式(7)计算其第k维值,则BoFn就为图像中第n个超像素的词袋特征.
2.4 条件概率
为了估计式(1)中观测像素x的条件概率密度,本文假定图像周边的超像素区域为背景区域,如图 1(c)所示.假设背景区域内超像素的数目为Nb,背景超像素词袋特征记为BoFB,其中第j个超像素区域的词袋特征表示为BoFBj,使用Parzen窗法[19]得到背景超像素特征BoFB的概率密度分布,表达式为:
$P(\hat{BoF_B})=\frac{1}{N_b \sigma^K}\sum_{j=1}^{N_b}K\left(\frac{BoF_B-BoF_{Bj}}{\sigma}\right)$
(9) 式中,K为核函数,σ为窗宽,K为背景超像素特征的维数,即词袋特征的维数. 如果核函数选用高斯核函数,式(9)变为:
$ P(\hat{BoF_B})=\frac{1}{N_b \sigma^K}\sum_{j=1}^{N_b}{exp}\left(-\frac{\|BoF_B-BoF_{Bj}\|_2}{2\sigma^2}\right)$
(10) 式中,||·||2表示l2范数,则在背景区域已知的情况下,图像中任意超像素区域Rn的条件概率密度计算公式为:
$\begin{array}{l}P(\hat{R_i}\!\mid\!B)=\frac{1}{N_b \sigma^K }\sum\limits_{j=1}^{N_b}{exp}(-\frac{\|BoF_i-BoF_{Bj}\|_2}{2\sigma^2})\\P(R_i\!\mid\!\hat S)=1-P(\hat {R_i}\!\mid\! B)\end{array}$
(11) 将区域的显著性值传递给此区域内的所有像素就得到了基于中层语义特征的条件概率显著图P(x|B)和P(x|S).将式(6)中得到的先验概率和式(11)中得到的条件概率P(x|B)和P(x|S)代入式(1)中就得到了图像的最终显著图.
3. 实验与分析
3.1 数据库及评价准则
本节实验在4个显著性目标公开数据库上验证本文方法的性能.第一个为瑞士洛桑理工大学Achanta等建立的ASD数据库[7],该数据库是MSRA-5000数据库的一个子集,共有1000幅图像,是目前最为广泛使用的、已经人工精确标注出显著性目标的显著性检测算法标准测试库.第二个和第三个为SED1和SED2 数据库[20],这两个数据库都包含共100幅图像,并且提供了3个不同用户给出的精确人工标注,也是目前广泛使用的显著性检测算法标准测试库.这两个数据库的主要区别在于前者每幅图像包含一个目标物体,而后者包含两个目标物体. 第四个为SOD数据库[21],该数据库是由伯克利图像分割数据集的300幅图像所组成,提供了七个不同用户给出的精确人工标注.
在第一个评价准则中,假设使用某一固定阈值
t对显著图进行分割,得到二值分割后的图像,t的取值范围为[0,255]. 将二值分割(Binary segmentation,BS)图像与人工标注图像(Groud-truth,GT)进行比较得到查准率(Precision)和查全率(Recall),计算公式为: $Precision=\frac{\sum_{(x,y)}GT(x,y)BS(x,y)}{\sum_{(x,y)}BS(x,y)}$
(12) $Recall=\frac{\sum_{(x,y)}GT(x,y)BS(x,y)}{\sum_{(x,y)}GT(x,y)}$
(13) 式中,GT和BS分别表示人工标注图像和二值分割后的图像.将阈值t依次设定为1到255对数据库中的所有显著图进行二值分割,计算出相应的平均查准率和查全率,以查全率为横坐标,以查准率为纵坐标,就得到了关于阈值t在整个数据库上的PR(Precision-recall)曲线.
在第二个评价准则中,使用文献[3, 5, 7]中的自适应阈值确定方法对图像进行二值分割,同样与人工标注图像进行比较,得到查准率和查全率,并计算F度量值(F-measure),计算公式为:
$F_\beta=\frac{(1+\beta^2)\times Precision \times Recall}{\beta^2\times Precision+Recall}$
(14) 与文献[3, 5, 7]一致,本文也将β2设为0.3,并且将自适应阈值设为图像显著值的整数倍,即:
$t_\alpha=\frac{K} {W\times H}\sum_{x=1}^{W} \sum_{y=1}^{H} S(x,y)$
(15) 式中,W、H分别表示显著图的宽度和长度,
S为显著图,K的经验值为2. 为了进一步评价F度量值的综合性能,在区间[0.1,6]中以0.1为采样步长均匀选取一系列K 的值,利用式(14)计算不同K值对应的平均F度量值,然后以K值为横坐标,F值为纵坐标,相应地画出Fβ-K曲线.由于查准率和查全率不能度量显著图中被正确标注为前景像素和背景像素的精确数目,为了更加全面均衡地对显著性检测方法进行客观评价,使用文献[22]中的平均绝对误差(Mean absolute error,MAE)作为第三个评价准则,该准则计算未进行二值分割的连续显著图S与人工标注图GT所有像素之间的绝对误差的平均值,计算公式为: $MAE=\frac{1}{W\times H}\sum_{x=1}^{W} \sum_{y=1}^{H} \mid S(x,y)-GT(x,y)\mid$
(16) 式中,W、H分别表示S以及GT的宽度和长度.
3.2 参数
本文方法中的重要参数为超像素的数目N和视觉单词数目K,使用第二个度量准则中的平均F度量值衡量各种参数对检测性能的影响.首先固定K=50,将N分别设为100、150、200、250、300、350、400、450、500、600,不同超像素数目下的平均F度量值如图 2所示,由此可知,ASD、SED1、SED2以及SOD四个数据库上,当N大于200 之后,各个超像素数目之间的性能相差不大.当超像素数目分别为200、350、250、350时,本文方法取得最高的F值,因此接下来的实验在四个数据库上将N分别设为200、350、250、350.将K分别设为10、20、30、40、50、60、70、80、90、100,不同单词数目下的平均F度量值如图 3所示,由此可知,ASD数据库上各个单词数目之间的性能相差很小,单词数目为70 时,本文方法取得了最高的F值.SED1和SED2数据库上F值的最高与最低之差分别为0.011和0.013,单词数目分别为80和20时,本文方法取得了最高的F值.SOD数据库上的最高值与最低值之差超过0.02,这主要是因为此数据集比较复杂,当视觉单词数目比较少时,不能充分编码图像中的颜色特征,从而加剧了视觉单词数目之间的性能之差. 单词数为90时,本文方法取得了最高的F值. 因此在接下来的实验中,ASD、SED1、SED2以及SOD 数据库上的单词数目分别被设为70、80、20和90.
3.3 与其他显著性检测算法的比较
将本文方法与16种流行的显著性检测方法进行性能比较. 为了便于对比,本文将这16种流行算法分为: 1)在图像像素级别上进行显著性计算的方法,包括IT{[8]}、{MZ[10]}、AC[11]、LC[12]、HC[3]、FT[7]、CA[13]、 GBVS[9],这类方法是本领域引用次数较多的经典方法; 2)在图像区域级别上进行显著性计算的方法,包括RC[3]、GC[14]、 PD[16]、 CBS[4]、 LR[5],这类方法是近三年出现在顶级期刊上的方法; 3) 基于贝叶斯模型的方法,包括SUN (Saliency using natual statistics)[23]、\mbox{SEG (Segmentation)[24]、} CHB (Convex hull and Bayesian)[25],此类方法是与本文方法最为相关的显著性计算方法.
3.3.1 定量对比
图 4至图 7给出了本文算法与16种流行算法的PR曲线. 本文方法在ASD、SED1、 SED2以及SOD四个数据库上都取得了最优的性能.当分割阈值t为0时,所有方法具有相同的查准率,在ASD、SED1、SED2以及SOD数据库上的数值分别为0.1985、0.2674、0.2137、0.2748,即表明数据库中分别平均有19.85%、26.74%、21.37%、27.48%的像素属于显著性区域.当分割阈值t为255时查全率达到最小值.此时本文方法的查准率在ASD、SED1、SED2、SOD数据库上分别达到了0.9418、0.8808、0.9088、0.7781.当查全率为0.85时,本文方法在ASD数据库上的查准率保持在0.9以上,在SED1、SED2两个数据库上保持在0.75以上,在SOD数据库上也高于0.5,表明本文方法能够以更高精度检测到显著区域的同时覆盖更大的显著性区域.
除此之外,将式(15)中K值设为2计算自适应阈值,使用式(12)~(14)分别计算平均查准率、查全率和F 值,本文方法与16种流行算法的的对比结果见图 8. 由图中的数据可知,ASD数据与SED1数据库上取得了一致的结果,与基于像素的和基于区域的13种检测方法相比,本文方法具有最高的查准率、查全率和F值,说明本文方法能够以最高的精度检测显著性目标,同时能够最大覆盖显著性目标所在区域.与基于贝叶斯模型的显著性检测方法相比,本文方法具有最高的查准率,但是查全率仅仅低于CHB方法,这主要是因为CHB使用角点检测显著性区域作为先验信息时,很多角点会落在背景区域,造成检测到的显著性区域过大,如图 22(d)中第4排、图 23(d)中第2排所示.但本文方法仍然具有最高F 度量值,说明仍具有更优的检测性能. 在SED2和SOD数据库上取得了一致结果,与所有对比方法相比较,本文方法具有最高的查全率和F值,但是查准率却分别低于SEG方法和CBS方法.
为了更进一步评价F度量值的综合性能,将式(15)中K值分别设为[0.1:0.1:6]计算自适应阈值,使用式(14)计算得到一系列F值,以K值为横坐标,以F值为纵坐标得到Fβ-K 曲线.本文方法与16种流行算法的Fβ-K曲线分别见图 9~图 12.由图中的结果可知,在ASD 数据库上,与基于像素的和基于区域的13种检测方法相比,本文方法在每个K值处都具有最高的F值,与基于贝叶斯模型的显著性检测算法相比较,在K∈[5.7,6]这个区间时(如图 9(c)所示),本文方法的F值低于CHB 方法,在K取其他值时,本文方法的F值仍然最高,这是因为CHB方法的检测结果会出现显著范围过大的现象.SED1、SED2和SOD数据库上取得了一致的结果,相较于所有对比方法,本文方法在每个K值处都具有最高的F值.
为了全面评价显著性检测方法的性能,根据式(16)计算显著图与人工标注图之间的MAE值,本文方法与16种流行算法在所有数据库上的对比结果分别见图 13.由图中的结果可知,四个数据库上取得了一致的结果,本文方法具有最低的MAE值,SUN方法的MAE值最高.在ASD、SED1以及SOD数据库上,所有对比方法中,GC的MAE值最低,与该方法相比较,本文方法的MAE值又分别降低了22%、12%和17%;在SED2数据库上,所有对比方法中,HC的MAE值最低,与该方法相比较,本文方法的MAE值又降低了13%.
3.3.2 视觉效果对比
本文方法与基于像素的显著性检测算法的视觉对比结果见图 14~图 17. 由图 14(b)和14(i)、图 15,(b)和15(i)、图 16(b)和16(i)以及图 17(b)和17(i)可知,IT和GBVS 方法得到的显著图分辨率比较低,这是因为IT方法采用下采样的方式实现多尺度显著性计算,而GBVS方法中的马尔科夫链平衡状态的计算复杂度比较高,同样需要减小图像的分辨率实现快速计算. 由图 14(c)、图 15(c)、图 16(c)以及图 17(c)可知,MZ方法得到的显著图过分强调显著性目标边缘部分,这是因为在计算局部对比度时使用的邻域比较少. 相对于MZ方法,AC方法是一种多尺度局部对比度方法,多个尺度的范围比较大,如图 14(d)、图 15(d)、图 16(d)以及图 17(d)所示,该方法能够检测到整个显著性目标.LC和HC都是使用颜色的全局对比度,导致稀有颜色占优,只能检测到显著性目标的部分区域,例如图 14(e)和14(f)的第4排,两种方法只将鸡蛋中最明亮的颜色检测出来. 图 15(e)和图 15(f)中的第1排和第2排也出现了相同的现象,两种方法将图像中颜色最明亮的水面和草地错误地检测为显著性区域.与MZ方法相比,CA方法考虑了像素之间的距离因素,检测性能有很大的提高,但是仍然只是使用K个近邻计算局部对比度,因此同样会过分强调显著性目标边缘,如图 14(h)、图 15(h)、图 16(h)以及图 17(h)所示.与基于像素的典型显著性检测算法相比,本文方法以区域为处理单位,如图 14(j)、图 15(j)、图 16(j)以及图 17(j)所示,显著图具有很高的分辨率,能够一致高亮地凸显图像中的显著性目标.ASD数据库上,与图 14(k) 中的人工标注图相比较,图 14(j)中各显著图的检测准确度从上而下分别为0.9610、0.6512、0.9905、0.9961;SED1数据库上,与图 15(k) 中的人工标注图相比较,图 15(j)中各显著图的检测准确度从上而下分别为0.1911、0.9828; SED2数据库上,与图 16(k) 中的人工标注图相比较,图 16(j)中各显著图的检测准确度从上而下分别为0.9924、0.9939; SOD数据库上,与图 17(k) 中的人工标注图相比较,图 17(j)中各显著图的检测准确度从上而下分别为0.9987、0.9999.仍然存在以下缺陷:1)该方法只能检测到图像中颜色最显著的区域. 例如图 18(c)中第4排的鸡蛋图像中,GC方法只检测到了鸡蛋最明亮的区域,而不是整个鸡蛋;SED1以及SOD数据库上也出现了同样的现象,例如图 19(c)的第1排图像中,GC方法将颜色最明亮的水面错误地检测为显著性区域,而图 21(c)中的第1排图像中,GC方法只检测到了花朵中最明亮的花芯区域. 2)GC方法与RC方法不能有效地检测到尺寸比较大的显著性目标,例如图 21(c)的第2排. PD算法将模式和颜色对比度相结合,显著性目标的边界清晰,但该方法同样是一种全局对比度方法,无法将显著性目标整体地凸显出来,例如图 18(d)中第3排的鲜花图像,只把整幅图像中最显著的花蕊部分检测出来,而不是整个鲜花;SOD数据库上也出现了同样的现象,例如图 21(d)中第1排图像. CBS方法计算颜色的局部对比度,并在计算过程中利用中心先验信息,如图 18(e)、图 19(e)以及图 20(e)中第1排所示,当显著性目标偏离中心区域时,此方法会失效. LR方法本质上是一种忽略了空间位置因素的全局对比度方法,如图 18(f)、图 19(f)、图 20(f)以及图 21(f)中的所有示例图像所示,此方法得到的显著图非常不均匀,只能检测到显著性目标的部分区域.与上述方法相比,本文方法利用图像周边区域作为背景先验信息,如图 20(g)中第1排、图 18(g)中第4排、图 19(g)中第2排以及图 21(g)中第2排的示例图像所示,对于不同尺寸的目标都具有非常好的检测性能.如图 18(g)、图 19(g)以及图 20(g) 中第1 排所示,当显著性目标偏离中心区域时,本文方法也具有优良检测结果.图 18(g)、图 19(g)、图 20(g)以及图 21(g)中的所有示例图像显示,本文方法得到的显著图非常均匀,能够一致高亮地凸显图像中的显著性目标.
本文方法与基于区域的显著性检测算法的视觉对比结果见图 18~21.当显著性区域与背景的颜色非常接近时,RC方法会失效,如图 18(b)第1排、图 20(b)第1排以及图 21(b)第2排的示例图像所示. 与RC方法相比,GC不仅考虑了颜色的全局对比度,同时结合了颜色空间分布信息,但是这种方法
本文方法与基于贝叶斯模型的显著性检测算法的视觉对比结果见图 22sim25.由图 22(b)、图 23(b)、图 24(b)以及图 25(b)中的所有示例图像可知,SUN方法所得到的显著图过分强调目标的边缘,而不是整个目标.由于SEG方法在整幅图像内的每个滑动窗口内对背景和显著性区域进行先验性假定,如图 22(c)、23(c)以及25(c)中的所有示例图像所示,该方法不能凸显目标与背景之间的显著性差别. 对于CHB方法,显著图的准确度取决于凸包所在的区域,当图像中的背景变得复杂时,背景区域的角点相应地变多,导致检测结果会出现显著范围过大的现象,如图 22(d)中第4 排、图 23(d) 中第2排的示例图像所示.与此类方法相比,本文方法使用了更精确的目标性作为先验概率,能够一致高亮地凸显整个显著性目标,显著区域的边界与目标边界吻合,如图 22(e)、图 23(e)、图 24(e)以及图 25(e)所示.
4. 总结
本文提出一种基于词袋模型的新的显著性目标检测算法,首次将具有更好区分度的中层语义特征-词袋模型应用到显著性目标检测领域,具有非常强的新颖性. 具体来说,该方法首先利用目标性计算先验概率显著图,然后利用超像素区域的词袋计算条件概率显著图,最后根据贝叶斯原理将二者进行合成.多个公开数据库上的对比实验结果表明本文方法具有更高的精度和更好的查全率,能够一致高亮地凸显图像中的显著性目标.
-
表 1 受试者的样本数
Table 1 Trails of subjects
受试者 样本数 1 10 2 5 3 10 4 10 5 15 6 10 7 5 表 2 任务组合方式
Table 2 Patterns of task combinations
任务编号 组合方式 任务编号 组合方式 1 基准、乘法计算 6 乘法计算、几何图旋转 2 基准、字母组合 7 乘法计算、视觉计算 3 基准、几何图旋转 8 字母组合、几何图旋转 4 基准、视觉计算 9 字母组合、视觉计算 5 乘法计算、字母组合 10 几何图旋转、视觉计算 表 3 VAR模型不同时滞的平均正确率
Table 3 Average accuracy rate using VAR model with differentorder
1 2 3 4 5 6 7 8 9 10 2 0.83 0.73 0.85 0.85 0.81 0.91 0.84 0.77 0.74 0.78 3 0.79 0.74 0.81 0.82 0.80 0.88 0.80 0.73 0.73 0.75 4 0.75 0.75 0.80 0.82 0.80 0.86 0.80 0.71 0.71 0.70 5 0.73 0.71 0.78 0.78 0.81 0.86 0.77 0.70 0.65 0.70 6 0.73 0.72 0.75 0.76 0.78 0.84 0.76 0.68 0.68 0.69 7 0.71 0.67 0.71 0.73 0.77 0.81 0.72 0.65 0.65 0.65 表 4 LASSO-VAR模型不同时滞的平均正确率
Table 4 Average accuracy rate using LASSO-VAR model with different order
1 2 3 4 5 6 7 8 9 10 2 0.79 0.70 0.83 0.79 0.81 0.88 0.83 0.70 0.72 0.67 3 0.80 0.73 0.79 0.80 0.80 0.86 0.78 0.65 0.65 0.65 4 0.79 0.73 0.82 0.79 0.78 0.85 0.76 0.65 0.63 0.64 5 0.77 0.69 0.79 0.76 0.76 0.83 0.71 0.67 0.61 0.64 6 0.76 0.71 0.78 0.73 0.75 0.84 0.75 0.66 0.62 0.63 7 0.76 0.66 0.76 0.73 0.73 0.84 0.75 0.63 0.58 0.61 表 5 HVARC模型不同时滞的平均正确率
Table 5 Average accuracy rate using HVARC model with different order
1 2 3 4 5 6 7 8 9 10 2 0.82 0.73 0.85 0.80 0.86 0.90 0.84 0.73 0.70 0.70 3 0.81 0.75 0.82 0.84 0.84 0.90 0.84 0.70 0.68 0.69 4 0.80 0.76 0.84 0.82 0.83 0.89 0.82 0.69 0.66 0.68 5 0.78 0.73 0.81 0.79 0.85 0.87 0.78 0.69 0.64 0.64 6 0.80 0.73 0.81 0.79 0.82 0.88 0.81 0.70 0.65 0.66 7 0.78 0.73 0.81 0.79 0.80 0.87 0.81 0.67 0.63 0.66 表 6 HVARO模型不同时滞的平均正确率
Table 6 Average accuracy rate using HVARO model with different order
1 2 3 4 5 6 7 8 9 10 2 0.81 0.72 0.84 0.81 0.84 0.90 0.86 0.71 0.72 0.72 3 0.82 0.76 0.83 0.82 0.85 0.91 0.83 0.69 0.69 0.69 4 0.82 0.74 0.84 0.80 0.83 0.88 0.82 0.67 0.68 0.67 5 0.81 0.71 0.82 0.81 0.83 0.87 0.82 0.67 0.64 0.65 6 0.81 0.72 0.81 0.79 0.81 0.87 0.82 0.67 0.67 0.66 7 0.79 0.71 0.81 0.80 0.81 0.87 0.82 0.65 0.62 0.64 表 7 HVARE模型不同时滞的平均正确率
Table 7 Average accuracy rate using HVARE model with different order
1 2 3 4 5 6 7 8 9 10 2 0.79 0.70 0.83 0.80 0.82 0.87 0.83 0.69 0.71 0.68 3 0.77 0.72 0.80 0.82 0.81 0.87 0.79 0.64 0.68 0.69 4 0.78 0.73 0.80 0.80 0.79 0.86 0.77 0.65 0.65 0.64 5 0.78 0.71 0.78 0.79 0.80 0.85 0.75 0.66 0.64 0.64 6 0.78 0.71 0.76 0.79 0.80 0.85 0.77 0.68 0.64 0.66 7 0.78 0.68 0.76 0.80 0.76 0.86 0.77 0.64 0.64 0.65 表 8 不同特征提取方法的结果总结
Table 8 Summary of classification results for all subjects
AR-BG VAR LASSO-VAR HVARC HVARO HVARE 受 平均值 0.78 0.81 0.77 0.79 0.79 0.77 试 最大值 0.83 0.91 0.88 0.91 0.90 0.87 者 最佳任务 乘法计算、 乘法计算、 乘法计算、 乘法计算、 乘法计算、 乘法计算、 1 组合方式 几何图旋转 几何图旋转 几何图旋转 几何图旋转 几何图旋转 几何图旋转 受 平均值 0.74 0.73 0.67 0.68 0.69 0.67 试 最大值 0.89 0.82 0.76 0.74 0.77 0.76 者 最佳任务 字母组合、 字母组合、 字母组合、 字母组合、 字母组合、 字母组合、 2 组合方式 视觉计算 视觉计算 视觉计算 视觉计算 视觉计算 视觉计算 受 平均值 0.67 0.73 0.68 0.71 0.70 0.68 试 最大值 0.77 0.84 0.78 0.82 0.77 0.81 者 最佳任务 字母组合、 几何图旋转、 几何图旋转、 几何图旋转、 字母组合、 几何图旋转、 3 组合方式 几何图旋转 视觉计算 视觉计算 视觉计算 几何图旋转 视觉计算 受 平均值 0.77 0.82 0.75 0.77 0.78 0.75 试 最大值 0.93 0.91 0.86 0.89 0.91 0.86 者 最佳任务 乘法计算、 乘法计算、 乘法计算、 乘法计算、 乘法计算、 乘法计算、 4 组合方式 视觉计算 视觉计算 视觉计算 视觉计算 视觉计算 视觉计算 -
[1] 王行愚, 金晶, 张宇, 王蓓. 脑控:基于脑——机接口的人机融合控制. 自动化学报, 2013, 39(3):208-221 doi: 10.1016/S1874-1029(13)60023-3Wang Xing-Yu, Jin Jing, Zhang Yu, Wang Bei. Brain control:human-computer integration control based on brain-computer interface. Acta Automatica Sinica, 2013, 39(3):208-221 doi: 10.1016/S1874-1029(13)60023-3 [2] 伏云发, 王越超, 李洪谊, 徐保磊, 李永程. 直接脑控机器人接口技术. 自动化学报, 2012, 38(8):1229-1246 doi: 10.3724/SP.J.1004.2012.01229Fu Yun-Fa, Wang Yue-Chao, Li Hong-Yi, Xu Bao-Lei, Li Yong-Cheng. Direct brain-controlled robot interface technology. Acta Automatica Sinica, 2012, 38(8):1229-1246 doi: 10.3724/SP.J.1004.2012.01229 [3] McFarland D J, Wolpaw J R. Brain-computer interfaces for communication and control. Communications of the ACM, 2011, 54(5):60-66 doi: 10.1145/1941487 [4] Yang B H, Yan G Z, Yan R G, Wu T. Adaptive subject-based feature extraction in brain-computer interfaces using wavelet packet best basis decomposition. Medical Engineering & Physics, 2007, 29(1):48-53 http://cn.bing.com/academic/profile?id=2153925452&encoded=0&v=paper_preview&mkt=zh-cn [5] Shannon M, Zen H, Byrne W. Autoregressive models for statistical parametric speech synthesis. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3):587-597 doi: 10.1109/TASL.2012.2227740 [6] 孙会文, 伏云发, 熊馨, 杨俊, 刘传伟, 余正涛. 基于HHT运动想象脑电模式识别研究. 自动化学报, 2015, 41(9):1686-1692 http://www.aas.net.cn/CN/abstract/abstract18742.shtmlSun Hui-Wen, Fu Yun-Fa, Xiong Xin, Yang Jun, Liu Chuan-Wei, Yu Zheng-Tao. Identification of EEG induced by motor imagery based on Hilbert-Huang transform. Acta Automatica Sinica, 2015, 41(9):1686-1692 http://www.aas.net.cn/CN/abstract/abstract18742.shtml [7] 伏云发, 徐保磊, 李永程, 李洪谊, 王越超, 余正涛. 基于运动相关皮层电位握力运动模式识别研究. 自动化学报, 2014, 40(6):1045-1057 http://www.aas.net.cn/CN/abstract/abstract18374.shtmlFu Yun-Fa, Xu Bao-Lei, Li Yong-Cheng, Li Hong-Yi, Wang Yue-Chao, Yu Zheng-Tao. Recognition of actual grip force movement modes based on movement-related cortical potentials. Acta Automatica Sinica, 2014, 40(6):1045-1057 http://www.aas.net.cn/CN/abstract/abstract18374.shtml [8] Mousavi E A, Maller J J, Fitzferald P B, Lithgow B J. Wavelet common spatial pattern in asynchronous offline brain computer interfaces. Biomedical Signal Processing and Control, 2011, 6(2):121-128 doi: 10.1016/j.bspc.2010.08.003 [9] Li P Y, Wang X R, Li F L, Zhang R, Ma T, Peng Y H, Lei X, Tian Y, Guo D Q, Liu T J, Yao D Z, Xu P. Autoregressive model in the Lp norm space for EEG analysis. Journal of Neuroscience Methods, 2015, 240:170-174 doi: 10.1016/j.jneumeth.2014.11.007 [10] Jain N, Dandapat S. Constrained autoregressive (CAR) model. In:Proceedings of 2005 Annual IEEE India International Conference. Chennai, India:IEEE, 2005.255-257 [11] Huan N J, Palaniappan R. Neural network classification of autoregressive features from electroencephalogram signals for brain-computer interface design. Journal of Neural Engineering, 2004, 1(3):142-150 doi: 10.1088/1741-2560/1/3/003 [12] Lawhern V, Hairston W D, McDowell K, Westerfield M, Robbins K. Detection and classification of subject-generated artifacts in EEG signals using autoregressive models. Journal of Neuroscience Methods, 2012, 208(2):181-189 doi: 10.1016/j.jneumeth.2012.05.017 [13] Chen L L, Madhavan R, Rapoport B I, Anderson W S. Real-time brain oscillation detection and phase-locked stimulation using autoregressive spectral estimation and time-series forward prediction. IEEE Transactions on Biomedical Engineering, 2013, 60(3):753-762 doi: 10.1109/TBME.2011.2109715 [14] Anderson C W, Stolz E A, Shamsunder S. Multivariate autoregressive models for classification of spontaneous electroencephalographic signals during mental tasks. IEEE Transactions on Biomedical Engineering, 1998, 45(3):277-286 doi: 10.1109/10.661153 [15] Pei X M, Zheng C X. Feature extraction and classification of brain motor imagery task based on MVAR model. In:Proceedings of 2004 International Conference on Machine Learning and Cybernetics. Shanghai, China:IEEE, 2004.3726-3730 [16] Hu X, Nenov V. Multivariate AR modeling of electromyography for the classification of upper arm movements. Clinical Neurophysiology, 2004, 115(6):1267-1287 http://cn.bing.com/academic/profile?id=1970693885&encoded=0&v=paper_preview&mkt=zh-cn [17] Wang J, Xu G Z, Wang L, Zhang H Y. Feature extraction of brain-computer interface based on improved multivariate adaptive autoregressive models. In:Proceedings of the 3rd International Conference on Biomedical Engineering and Informatics. Yantai, China:IEEE, 2010.895-898 [18] Zhao C L, Zheng C X, Zhao M, Tu Y L, Liu J P. Multivariate autoregressive models and kernel learning algorithms for classifying driving mental fatigue based on electroencephalographic. Expert Systems with Applications, 2011, 38(3):1859-1865 doi: 10.1016/j.eswa.2010.07.115 [19] Heger D, Terziyska T, Schultz T. Connectivity based feature-level filtering for single-trial EEG BCIS. In:Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy:IEEE, 2014.2064-2068 [20] Faes L, Erla S, Porta A, Nollo G. A framework for assessing frequency domain causality in physiological time series with instantaneous effects. Philosophical Transactions of the Royal Society A-Mathematical, Physical and Engineering Sciences, 2013, 371(1997):20110618 doi: 10.1098/rsta.2011.0618 [21] Varotto G, Fazio P, Rossi Sebastiano D, Duran D, D'Incerti L, Parati E, Sattin D, Leonardi M, Franceschetti S, Panzica F. Altered resting state effective connectivity in long-standing vegetative state patients:an EEG study. Clinical Neurophysiology, 2014, 152(1):63-68 http://cn.bing.com/academic/profile?id=2032694363&encoded=0&v=paper_preview&mkt=zh-cn [22] Panzica F, Camafoglia L, Framceschetti S. EEG-EMG information flow in movement-activated myoclonus in patients with Unverricht-Lundborg disease. Clinical Neurophysiology, 2014, 125(9):1803-1808 doi: 10.1016/j.clinph.2014.01.005 [23] Wang J J, Zhang Y N. A novel method of multi-channel feature extraction combining multivariate autoregression and multiple-linear principal component analysis. Journal of Biomedical Engineering, 2015, 32(1):19-24 http://cn.bing.com/academic/profile?id=2403326835&encoded=0&v=paper_preview&mkt=zh-cn [24] Tibshirani R. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 1996, 58(1):267-288 http://cn.bing.com/academic/profile?id=2135046866&encoded=0&v=paper_preview&mkt=zh-cn [25] Yuan M, Lin Y. Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society, Series B, 2006, 68(1):49-67 doi: 10.1111/rssb.2006.68.issue-1 [26] Zhao P, Rocha G, Yu B. The composite absolute penalties family for grouped and hierarchical variable selection. The Annals of Statistics, 2009, 37(6A):3468-3497 doi: 10.1214/07-AOS584 [27] Beck A, Teboulle M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems.SIAM Journal on Image Sciences, 2009, 2(1):183——202 doi: 10.1137/080716542 [28] Jenatton R, Mairal J, Obozinski G, Obozinski G, Bach F. Proximal methods for hierarchical sparse coding. The Journal of Machine Learning Research, 2011, 12:2297-2334 http://cn.bing.com/academic/profile?id=1539012881&encoded=0&v=paper_preview&mkt=zh-cn [29] Keirn Z A, Aunon J I. A new mode of communication between man and his surroundings. IEEE Transactions on Biomedical Engineering, 1990, 37(12):1209-1214 doi: 10.1109/10.64464 期刊类型引用(8)
1. 郭闽榕. 基于运动想象的脑电信号特征提取研究. 信息技术与网络安全. 2021(01): 62-66 . 百度学术
2. 李昕,安占周,李秋月,蔡二娟,王欣. 基于多重多尺度熵的孤独症静息态脑电信号分析. 自动化学报. 2020(06): 1255-1263 . 本站查看
3. 陈妮,覃玉荣,孙鹏飞. 基于脑电自回归预测的实时相位估计方法. 电子测量与仪器学报. 2020(06): 183-190 . 百度学术
4. 蒋贵虎,陈万忠,马迪,吴佳宝. 基于ITD和PLV的四类运动想象脑电分类方法研究. 仪器仪表学报. 2019(05): 195-202 . 百度学术
5. 林圣琳,李伟,杨明,马萍. 考虑相关性的多元输出仿真模型验证方法. 自动化学报. 2019(09): 1666-1678 . 本站查看
6. 王金甲,党雪,杨倩,王凤嫔,孙梦然. 组LASSO罚多变量自回归模型脑电特征分工类. 高技术通讯. 2019(11): 1073-1081 . 百度学术
7. 孙小棋,李昕,蔡二娟,康健楠. 改进模糊熵算法及其在孤独症儿童脑电分析中的应用. 自动化学报. 2018(09): 1672-1678 . 本站查看
8. 杨默涵,陈万忠,李明阳. 基于总体经验模态分解的多类特征的运动想象脑电识别方法研究. 自动化学报. 2017(05): 743-752 . 本站查看
其他类型引用(17)
-