-
摘要: 高斯过程回归(Gaussian process regression,GPR)是一种广泛应用的回归方法,可以用于解决输入输出均为多元变量的人体姿态估计问题.计算复杂度是高斯过程回归的一个重要考虑因素,而常用的降低计算复杂度的方法为稀疏表示算法.在稀疏算法中,完全独立训练条件(Fully independent training conditional,FITC)法是一种较为先进的算法,多用于解决输入变量彼此之间完全独立的回归问题.另外,输入变量的噪声问题是高斯过程回归的另一个需要考虑的重要因素.对于测试的输入变量噪声,可以通过矩匹配的方法进行解决,而训练输入样本的噪声则可通过将其转换为输出噪声的方法进行解决,从而得到更高的计算精度.本文基于以上算法,提出一种基于噪声输入的稀疏高斯算法,同时将其应用于解决人体姿态估计问题.本文实验中的数据集来源于之前的众多研究人员,其输入为从视频序列中截取的图像或通过特征提取得到的图像信息,输出为三维的人体姿态.与其他算法相比,本文的算法在准确性,运行时间与算法稳定性方面均达到了令人满意的效果.Abstract: Gaussian process regression (GPR) is a common method for structured prediction and human pose estimation, in which input and output are both multivariate. Computational complexity is a significant consideration of GP regression and it can be reduced by sparse Gaussian algorithm. The fully independent training conditional (FITC) algorithm is a good method for sparse Gaussian process, and it can be applied to fully-independent input problems. Input noise is another significant consideration of GP regression. Moment matching can be used to solve trial input noise while training input noise can be modeled as output noise to achieve higher accuracy. On the basis of above algorithms, this study proposes a sparse Gaussian process with input noise for human pose estimation. A dataset from multiple people is used for experiments, in which the input is the image from video processing or image descriptor obtained by feature extraction, and the output is a three-dimensional human pose. The accuracy, runtime and stability of the algorithm are all satisfactory compared with other methods for human pose estimation.
-
人类视觉在处理数量庞大的输入信息时,注意机制具有极其重要的作用[1].它能够将有限的资源优先分配给有用的信息,从而优先处理最有价值的数据. 与人类的视觉注意行为相对应,计算机在处理输入图像时,通过检测显著性区域来实现判断其中视觉信息的重要程度.视觉显著性检测在诸如目标检测、图像压缩、基于内容的图像编辑等方面中具有广泛的应用,是计算视觉研究中非常重要的基础性课题[2].
在显著性目标检测研究领域,基于区域的显著性检测方法由于检测速度快、精确度高等优点已经成为目前该领域中的主流方法.此类方法进行显著性检测的过程可以分为区域特征表示和对比度计算两个重要步骤,对图像区域的特征进行有效的表示直接影响到显著图的质量.然而目前的方法几乎都是使用底层视觉特征对分割区域内的像素集合进行特征表示,例如文献[3-4]使用CIELab 颜色直方图表示图像区域的特征;文献[5]使用RGB颜色特征、方向特征和纹理特征表示图像区域.与底层视觉特征相比较,中层语义特征具有更好的区分度,本文提出一种基于词袋模型的新的显著性目标检测算法.
1. 相关工作
自Koch等[6]提出显著图的定义以来,目前已经出现了大量的显著性检测算法.Achanta等[7]将这些方法总体上概括为以下三类:第一类为基于生物模型的方法,经典IT算法[8]是其中的典型代表.由于人类视觉系统的生物学结构非常复杂,此类方法计算复杂度非常高,而纯数学计算型的方法在很多环节使用简单的计算直接实现,大幅提高了计算速度和检测效果,是目前显著性检测算法中的主流研究方向.还有些方法采用了纯数学计算并融合生物学模型,例如Harel 等提出的GBVS(Graph based visual saliency) 模型[9].
对比度是引起人类视觉注意的最大因素,基于纯数学计算的显著性检测方法又因为所使用的对比度计算方式不同而有所区别.Ma等[10]提出了一种局部对比度的显著性检测方法,它使用CIELuv颜色表示图像中每个像素的特征,并使用欧式距离度量每个像素与其邻域像素之间的差异程度;MZ方法在计算局部对比度时,将邻域的大小设为固定值,无法实现多尺度的显著性计算,为此Achanta等[11]提出通过改变感知单元邻域的尺寸大小实行显著性的多尺度计算;LC (Luminance-based contrast)方法[12]同样是以图像中的每个像素作为基本处理单元,但与MZ不同的是,使用图像像素的灰度特征计算像素在整幅图像上的全局对比度;Cheng等[3] 提出的HC (Histogram-based contrast)方法在CIELab颜色空间的三个通道计算像素在整幅图像上的全局对比度;Achanta等[7]提出的FT (Frequency tuned)方法同样也是一种全局对比度计算方法,其所使用的全局信息是图像的平均信息;Goferman等[13] 提出的CA (Contex aware)方法也是从感知单元之间的差异性出发计算显著性,但是与上面方法不同的是,CA 考虑了感知单元之间的空间位置关系.
上述显著性检测方法都是在像素级别计算显著性,而基于区域的显著性检测方法以图像区域为基本处理单元,速度更快,精度更高. 此类方法又因为使用不同的分割方法,区域的图像特征表示和显著性计算而有所不同.Cheng等[3]提出的RC (Region-based contrast)方法使用图割对图像进行分割,然后使用颜色直方图表示每个图像区域的特征,在计算每个图像小块的全局对比度的同时考虑了颜色对比度、空间距离和分块大小三个因素;与RC方法基于超像素分割获得图像区域不同,Cheng等[14]提出的GC (Global cues)方法利用对所有像素进行初始聚类得到的聚类中心计算颜色对比度,利用对高斯成分进行二次聚类得到聚类中心计算颜色空间分布,最后使用文献[15]中的方法将颜色对比度与颜色空间分布相结合得到最终显著图;Margolin等[16] 提出的PD (Patch distinct)方法通过分析图像小块的内部统计特性,使用主成分分析表示图像小块进而计算图像小块的显著性; Jiang等[4] 提出的CBS (Context-based saliency)方法使用图割方法将图像快速分成不同的子区域,使用CIELab颜色直方图表示图像区域的特征,然后使用距离函数计算每个图像小块与近邻图像小块之间的差异性生成显著图;Shen等[5] 提出的LR (Low rank) 方法使用RGB 颜色特征、方向特征和纹理特征表示图像区域,使用鲁棒PCA (Principal component analysis) 算法对特征矩阵进行分解计算显著性.基于区域的显著性检测过程可以分为区域的图像特征表示和对比度计算两个重要步骤,目前此类方法几乎都是使用底层视觉特征进行对比度计算.相对于底层视觉特征,中层语义特征更加符合人类视觉模型,为此本文提出一种基于词袋模型的新的显著性目标检测方法.
2. 本文方法
2.1 方法描述
对于一幅给定的图像I,显著性检测的目的是将图像中任意像素x归于前景目标区域或者背景区域两种可能状态之一,将这两种状态分别简记为S (Salient)和B (Background),它们的先验概率相应地简记为P(S)和P(B),则根据贝叶斯推断原理,像素x的显著性计算公式为:
\begin{align} & P(S|x)=\frac{P(S)P(x|S)}{P(S)P(x|S)+P(B)P(x|B)} \\ & P(S)+P(B)=1 \\ \end{align}
(1) 式中,P(x|S)表示显著区域已知的情况下观测像素x的条件概率密度,P(x|B)表示背景区域已知的情况下观测像素x的条件概率密度.
2.2 基于目标性的先验概率
本文使用目标性计算式(1)中的先验概率,对于图像中的任意像素x,以此像素为中心,随机抽取图像中的W个窗口,文献[17]分别从以下四个方面计算每个窗口的目标性:
1) 窗口显著性.首先利用任意显著性检测方法计算得到图像中每个像素的显著值I(p),则窗口w ∈ W 的显著性计算公式为:
$\begin{align} & S(w,\theta_s)=\\ & \sum_{\{p\in{W} \mid I(P)\ge \theta_s\}}I(p)\times \frac{\{p\in{W} \mid I(P)\ge \theta_s\}}{|w|} \end{align}$
(2) 式中,θs表示待学习的显著性阈值参数.
2) 颜色对比度. 对于窗口w∈ W,以θcc为固定倍数在每个方向将其扩展到周围区域得到某一矩形区域Surr(w,θcc),则窗口w在此区域内的颜色对比度计算公式为:
$CC(w,\theta_{cc})=\chi^2(h(w),h(Surr(w,\theta_{cc})))$
(3) 式中,h(w)、h(Surr(w,θcc))分别表示窗口w与矩形区域Surr(w,θcc)的颜色直方图,χ2(·)表示卡方距离函数.
3) 边缘密度. 对于窗口w ∈ W,以θED为固定倍数将其收缩到内部环状区域Inn(w,θED),则此窗口w在区域Inn(w,θED)内的边缘性计算公式为:
$ED(w,\theta_{ED})=\frac{\sum_{p\in{Inn(w,\theta_{ED})}}I_{ED}(p)}{Len(Inn(w,\theta_{ED}))}$
(4) 式中,IED(p)表示使用Canny算子得到的二值图,Len(·)表示计算区域Inn(w,θED) 的周长.
4) 轮廓闭合性. 首先将图像分割为若干超像素S,则窗口w∈W的轮廓闭合性的计算公式为:
$SS(w) = 1 - \sum\limits_{s \in S} {\frac{{\min (|s{\rm{\backslash w}}|,|s \cap w|)}}{{|w|}}} $
(5) 式中,s∈S表示图像中的第s个超像素,|s\w|表示超像素s位于窗口w之外的面积,而|s∩ w|表示超像素s位于窗口w内部的面积.
将上述得到的窗口显著性S(w,θs)、颜色对比度CC(w,θcc)、边缘密度ED(w,θED)以及轮廓闭合性SS(w)进行融合就得到每个窗口被判定为显著性目标的概率值P(w),那么基于目标性的先验概率计算公式为:
$P_s(x)=\sum_{w\in{W}\cap x\in{W}}P(w_x)$
(6) 2.3 超像素词袋特征
已知一个图像数据集D={d1,d2,…,dN},由于CIELab颜色模型能够将亮度和色度分量分开,相关研究工作[3-4, 7, 16]也表明在此颜色空间进行检测得到的显著图的准确度更高,因此将图像变换到CIELab 颜色空间,然后随机抽取其中的300k个像素的颜色特征组成局部特征集合X,对X进行聚类得到视觉词典V=[v1,v2,…,vK] ∈ {RD× K},vk∈ RD×1,k=1,2,… ,K表示第k个视觉单词向量,K为视觉单词数目,D为像素颜色特征的维数. 在得到视觉词典后,使用硬分配编码方法对图像中的每个像素进行编码[18].对于数据集中任意一幅图像,cj∈ RD×1表示第j个像素颜色特征,其对应的编码矢量Uj∈ RK×1第k维值的计算公式为:
${{U}_{jk}}=\left\{ \begin{array}{*{35}{l}} 1,\text{若}j=\arg {{\min }_{j=1,2,\cdots ,K}}\|{{c}_{j}}-{{v}_{k}}{{\|}_{2}} \\ 0,\text{其他} \\ \end{array} \right.$
(7) 式中,矢量cj与vk之间的距离计算采用欧氏函数.
完成对图像中所有像素的编码操作之后,使用SLIC (Simple linear iterative clustering)方法对图像进行分割,如图 1(b)所示,图像被相应地分割成为N个尺寸均匀的超像素,假设其中第n个超像素区域内共有Pn个像素,则此区域内所有像素编码矢量的总和统计值为:
$BoF_n=\sum_{j=1}^{P_n}U_j$
(8) 式中,Uj表示超像素区域内第j个像素颜色特征的编码矢量,可以利用式(7)计算其第k维值,则BoFn就为图像中第n个超像素的词袋特征.
2.4 条件概率
为了估计式(1)中观测像素x的条件概率密度,本文假定图像周边的超像素区域为背景区域,如图 1(c)所示.假设背景区域内超像素的数目为Nb,背景超像素词袋特征记为BoFB,其中第j个超像素区域的词袋特征表示为BoFBj,使用Parzen窗法[19]得到背景超像素特征BoFB的概率密度分布,表达式为:
$P(\hat{BoF_B})=\frac{1}{N_b \sigma^K}\sum_{j=1}^{N_b}K\left(\frac{BoF_B-BoF_{Bj}}{\sigma}\right)$
(9) 式中,K为核函数,σ为窗宽,K为背景超像素特征的维数,即词袋特征的维数. 如果核函数选用高斯核函数,式(9)变为:
$ P(\hat{BoF_B})=\frac{1}{N_b \sigma^K}\sum_{j=1}^{N_b}{exp}\left(-\frac{\|BoF_B-BoF_{Bj}\|_2}{2\sigma^2}\right)$
(10) 式中,||·||2表示l2范数,则在背景区域已知的情况下,图像中任意超像素区域Rn的条件概率密度计算公式为:
$\begin{array}{l}P(\hat{R_i}\!\mid\!B)=\frac{1}{N_b \sigma^K }\sum\limits_{j=1}^{N_b}{exp}(-\frac{\|BoF_i-BoF_{Bj}\|_2}{2\sigma^2})\\P(R_i\!\mid\!\hat S)=1-P(\hat {R_i}\!\mid\! B)\end{array}$
(11) 将区域的显著性值传递给此区域内的所有像素就得到了基于中层语义特征的条件概率显著图P(x|B)和P(x|S).将式(6)中得到的先验概率和式(11)中得到的条件概率P(x|B)和P(x|S)代入式(1)中就得到了图像的最终显著图.
3. 实验与分析
3.1 数据库及评价准则
本节实验在4个显著性目标公开数据库上验证本文方法的性能.第一个为瑞士洛桑理工大学Achanta等建立的ASD数据库[7],该数据库是MSRA-5000数据库的一个子集,共有1000幅图像,是目前最为广泛使用的、已经人工精确标注出显著性目标的显著性检测算法标准测试库.第二个和第三个为SED1和SED2 数据库[20],这两个数据库都包含共100幅图像,并且提供了3个不同用户给出的精确人工标注,也是目前广泛使用的显著性检测算法标准测试库.这两个数据库的主要区别在于前者每幅图像包含一个目标物体,而后者包含两个目标物体. 第四个为SOD数据库[21],该数据库是由伯克利图像分割数据集的300幅图像所组成,提供了七个不同用户给出的精确人工标注.
在第一个评价准则中,假设使用某一固定阈值
t对显著图进行分割,得到二值分割后的图像,t的取值范围为[0,255]. 将二值分割(Binary segmentation,BS)图像与人工标注图像(Groud-truth,GT)进行比较得到查准率(Precision)和查全率(Recall),计算公式为: $Precision=\frac{\sum_{(x,y)}GT(x,y)BS(x,y)}{\sum_{(x,y)}BS(x,y)}$
(12) $Recall=\frac{\sum_{(x,y)}GT(x,y)BS(x,y)}{\sum_{(x,y)}GT(x,y)}$
(13) 式中,GT和BS分别表示人工标注图像和二值分割后的图像.将阈值t依次设定为1到255对数据库中的所有显著图进行二值分割,计算出相应的平均查准率和查全率,以查全率为横坐标,以查准率为纵坐标,就得到了关于阈值t在整个数据库上的PR(Precision-recall)曲线.
在第二个评价准则中,使用文献[3, 5, 7]中的自适应阈值确定方法对图像进行二值分割,同样与人工标注图像进行比较,得到查准率和查全率,并计算F度量值(F-measure),计算公式为:
$F_\beta=\frac{(1+\beta^2)\times Precision \times Recall}{\beta^2\times Precision+Recall}$
(14) 与文献[3, 5, 7]一致,本文也将β2设为0.3,并且将自适应阈值设为图像显著值的整数倍,即:
$t_\alpha=\frac{K} {W\times H}\sum_{x=1}^{W} \sum_{y=1}^{H} S(x,y)$
(15) 式中,W、H分别表示显著图的宽度和长度,
S为显著图,K的经验值为2. 为了进一步评价F度量值的综合性能,在区间[0.1,6]中以0.1为采样步长均匀选取一系列K 的值,利用式(14)计算不同K值对应的平均F度量值,然后以K值为横坐标,F值为纵坐标,相应地画出Fβ-K曲线.由于查准率和查全率不能度量显著图中被正确标注为前景像素和背景像素的精确数目,为了更加全面均衡地对显著性检测方法进行客观评价,使用文献[22]中的平均绝对误差(Mean absolute error,MAE)作为第三个评价准则,该准则计算未进行二值分割的连续显著图S与人工标注图GT所有像素之间的绝对误差的平均值,计算公式为: $MAE=\frac{1}{W\times H}\sum_{x=1}^{W} \sum_{y=1}^{H} \mid S(x,y)-GT(x,y)\mid$
(16) 式中,W、H分别表示S以及GT的宽度和长度.
3.2 参数
本文方法中的重要参数为超像素的数目N和视觉单词数目K,使用第二个度量准则中的平均F度量值衡量各种参数对检测性能的影响.首先固定K=50,将N分别设为100、150、200、250、300、350、400、450、500、600,不同超像素数目下的平均F度量值如图 2所示,由此可知,ASD、SED1、SED2以及SOD四个数据库上,当N大于200 之后,各个超像素数目之间的性能相差不大.当超像素数目分别为200、350、250、350时,本文方法取得最高的F值,因此接下来的实验在四个数据库上将N分别设为200、350、250、350.将K分别设为10、20、30、40、50、60、70、80、90、100,不同单词数目下的平均F度量值如图 3所示,由此可知,ASD数据库上各个单词数目之间的性能相差很小,单词数目为70 时,本文方法取得了最高的F值.SED1和SED2数据库上F值的最高与最低之差分别为0.011和0.013,单词数目分别为80和20时,本文方法取得了最高的F值.SOD数据库上的最高值与最低值之差超过0.02,这主要是因为此数据集比较复杂,当视觉单词数目比较少时,不能充分编码图像中的颜色特征,从而加剧了视觉单词数目之间的性能之差. 单词数为90时,本文方法取得了最高的F值. 因此在接下来的实验中,ASD、SED1、SED2以及SOD 数据库上的单词数目分别被设为70、80、20和90.
3.3 与其他显著性检测算法的比较
将本文方法与16种流行的显著性检测方法进行性能比较. 为了便于对比,本文将这16种流行算法分为: 1)在图像像素级别上进行显著性计算的方法,包括IT{[8]}、{MZ[10]}、AC[11]、LC[12]、HC[3]、FT[7]、CA[13]、 GBVS[9],这类方法是本领域引用次数较多的经典方法; 2)在图像区域级别上进行显著性计算的方法,包括RC[3]、GC[14]、 PD[16]、 CBS[4]、 LR[5],这类方法是近三年出现在顶级期刊上的方法; 3) 基于贝叶斯模型的方法,包括SUN (Saliency using natual statistics)[23]、\mbox{SEG (Segmentation)[24]、} CHB (Convex hull and Bayesian)[25],此类方法是与本文方法最为相关的显著性计算方法.
3.3.1 定量对比
图 4至图 7给出了本文算法与16种流行算法的PR曲线. 本文方法在ASD、SED1、 SED2以及SOD四个数据库上都取得了最优的性能.当分割阈值t为0时,所有方法具有相同的查准率,在ASD、SED1、SED2以及SOD数据库上的数值分别为0.1985、0.2674、0.2137、0.2748,即表明数据库中分别平均有19.85%、26.74%、21.37%、27.48%的像素属于显著性区域.当分割阈值t为255时查全率达到最小值.此时本文方法的查准率在ASD、SED1、SED2、SOD数据库上分别达到了0.9418、0.8808、0.9088、0.7781.当查全率为0.85时,本文方法在ASD数据库上的查准率保持在0.9以上,在SED1、SED2两个数据库上保持在0.75以上,在SOD数据库上也高于0.5,表明本文方法能够以更高精度检测到显著区域的同时覆盖更大的显著性区域.
除此之外,将式(15)中K值设为2计算自适应阈值,使用式(12)~(14)分别计算平均查准率、查全率和F 值,本文方法与16种流行算法的的对比结果见图 8. 由图中的数据可知,ASD数据与SED1数据库上取得了一致的结果,与基于像素的和基于区域的13种检测方法相比,本文方法具有最高的查准率、查全率和F值,说明本文方法能够以最高的精度检测显著性目标,同时能够最大覆盖显著性目标所在区域.与基于贝叶斯模型的显著性检测方法相比,本文方法具有最高的查准率,但是查全率仅仅低于CHB方法,这主要是因为CHB使用角点检测显著性区域作为先验信息时,很多角点会落在背景区域,造成检测到的显著性区域过大,如图 22(d)中第4排、图 23(d)中第2排所示.但本文方法仍然具有最高F 度量值,说明仍具有更优的检测性能. 在SED2和SOD数据库上取得了一致结果,与所有对比方法相比较,本文方法具有最高的查全率和F值,但是查准率却分别低于SEG方法和CBS方法.
为了更进一步评价F度量值的综合性能,将式(15)中K值分别设为[0.1:0.1:6]计算自适应阈值,使用式(14)计算得到一系列F值,以K值为横坐标,以F值为纵坐标得到Fβ-K 曲线.本文方法与16种流行算法的Fβ-K曲线分别见图 9~图 12.由图中的结果可知,在ASD 数据库上,与基于像素的和基于区域的13种检测方法相比,本文方法在每个K值处都具有最高的F值,与基于贝叶斯模型的显著性检测算法相比较,在K∈[5.7,6]这个区间时(如图 9(c)所示),本文方法的F值低于CHB 方法,在K取其他值时,本文方法的F值仍然最高,这是因为CHB方法的检测结果会出现显著范围过大的现象.SED1、SED2和SOD数据库上取得了一致的结果,相较于所有对比方法,本文方法在每个K值处都具有最高的F值.
为了全面评价显著性检测方法的性能,根据式(16)计算显著图与人工标注图之间的MAE值,本文方法与16种流行算法在所有数据库上的对比结果分别见图 13.由图中的结果可知,四个数据库上取得了一致的结果,本文方法具有最低的MAE值,SUN方法的MAE值最高.在ASD、SED1以及SOD数据库上,所有对比方法中,GC的MAE值最低,与该方法相比较,本文方法的MAE值又分别降低了22%、12%和17%;在SED2数据库上,所有对比方法中,HC的MAE值最低,与该方法相比较,本文方法的MAE值又降低了13%.
3.3.2 视觉效果对比
本文方法与基于像素的显著性检测算法的视觉对比结果见图 14~图 17. 由图 14(b)和14(i)、图 15,(b)和15(i)、图 16(b)和16(i)以及图 17(b)和17(i)可知,IT和GBVS 方法得到的显著图分辨率比较低,这是因为IT方法采用下采样的方式实现多尺度显著性计算,而GBVS方法中的马尔科夫链平衡状态的计算复杂度比较高,同样需要减小图像的分辨率实现快速计算. 由图 14(c)、图 15(c)、图 16(c)以及图 17(c)可知,MZ方法得到的显著图过分强调显著性目标边缘部分,这是因为在计算局部对比度时使用的邻域比较少. 相对于MZ方法,AC方法是一种多尺度局部对比度方法,多个尺度的范围比较大,如图 14(d)、图 15(d)、图 16(d)以及图 17(d)所示,该方法能够检测到整个显著性目标.LC和HC都是使用颜色的全局对比度,导致稀有颜色占优,只能检测到显著性目标的部分区域,例如图 14(e)和14(f)的第4排,两种方法只将鸡蛋中最明亮的颜色检测出来. 图 15(e)和图 15(f)中的第1排和第2排也出现了相同的现象,两种方法将图像中颜色最明亮的水面和草地错误地检测为显著性区域.与MZ方法相比,CA方法考虑了像素之间的距离因素,检测性能有很大的提高,但是仍然只是使用K个近邻计算局部对比度,因此同样会过分强调显著性目标边缘,如图 14(h)、图 15(h)、图 16(h)以及图 17(h)所示.与基于像素的典型显著性检测算法相比,本文方法以区域为处理单位,如图 14(j)、图 15(j)、图 16(j)以及图 17(j)所示,显著图具有很高的分辨率,能够一致高亮地凸显图像中的显著性目标.ASD数据库上,与图 14(k) 中的人工标注图相比较,图 14(j)中各显著图的检测准确度从上而下分别为0.9610、0.6512、0.9905、0.9961;SED1数据库上,与图 15(k) 中的人工标注图相比较,图 15(j)中各显著图的检测准确度从上而下分别为0.1911、0.9828; SED2数据库上,与图 16(k) 中的人工标注图相比较,图 16(j)中各显著图的检测准确度从上而下分别为0.9924、0.9939; SOD数据库上,与图 17(k) 中的人工标注图相比较,图 17(j)中各显著图的检测准确度从上而下分别为0.9987、0.9999.仍然存在以下缺陷:1)该方法只能检测到图像中颜色最显著的区域. 例如图 18(c)中第4排的鸡蛋图像中,GC方法只检测到了鸡蛋最明亮的区域,而不是整个鸡蛋;SED1以及SOD数据库上也出现了同样的现象,例如图 19(c)的第1排图像中,GC方法将颜色最明亮的水面错误地检测为显著性区域,而图 21(c)中的第1排图像中,GC方法只检测到了花朵中最明亮的花芯区域. 2)GC方法与RC方法不能有效地检测到尺寸比较大的显著性目标,例如图 21(c)的第2排. PD算法将模式和颜色对比度相结合,显著性目标的边界清晰,但该方法同样是一种全局对比度方法,无法将显著性目标整体地凸显出来,例如图 18(d)中第3排的鲜花图像,只把整幅图像中最显著的花蕊部分检测出来,而不是整个鲜花;SOD数据库上也出现了同样的现象,例如图 21(d)中第1排图像. CBS方法计算颜色的局部对比度,并在计算过程中利用中心先验信息,如图 18(e)、图 19(e)以及图 20(e)中第1排所示,当显著性目标偏离中心区域时,此方法会失效. LR方法本质上是一种忽略了空间位置因素的全局对比度方法,如图 18(f)、图 19(f)、图 20(f)以及图 21(f)中的所有示例图像所示,此方法得到的显著图非常不均匀,只能检测到显著性目标的部分区域.与上述方法相比,本文方法利用图像周边区域作为背景先验信息,如图 20(g)中第1排、图 18(g)中第4排、图 19(g)中第2排以及图 21(g)中第2排的示例图像所示,对于不同尺寸的目标都具有非常好的检测性能.如图 18(g)、图 19(g)以及图 20(g) 中第1 排所示,当显著性目标偏离中心区域时,本文方法也具有优良检测结果.图 18(g)、图 19(g)、图 20(g)以及图 21(g)中的所有示例图像显示,本文方法得到的显著图非常均匀,能够一致高亮地凸显图像中的显著性目标.
本文方法与基于区域的显著性检测算法的视觉对比结果见图 18~21.当显著性区域与背景的颜色非常接近时,RC方法会失效,如图 18(b)第1排、图 20(b)第1排以及图 21(b)第2排的示例图像所示. 与RC方法相比,GC不仅考虑了颜色的全局对比度,同时结合了颜色空间分布信息,但是这种方法
本文方法与基于贝叶斯模型的显著性检测算法的视觉对比结果见图 22sim25.由图 22(b)、图 23(b)、图 24(b)以及图 25(b)中的所有示例图像可知,SUN方法所得到的显著图过分强调目标的边缘,而不是整个目标.由于SEG方法在整幅图像内的每个滑动窗口内对背景和显著性区域进行先验性假定,如图 22(c)、23(c)以及25(c)中的所有示例图像所示,该方法不能凸显目标与背景之间的显著性差别. 对于CHB方法,显著图的准确度取决于凸包所在的区域,当图像中的背景变得复杂时,背景区域的角点相应地变多,导致检测结果会出现显著范围过大的现象,如图 22(d)中第4 排、图 23(d) 中第2排的示例图像所示.与此类方法相比,本文方法使用了更精确的目标性作为先验概率,能够一致高亮地凸显整个显著性目标,显著区域的边界与目标边界吻合,如图 22(e)、图 23(e)、图 24(e)以及图 25(e)所示.
4. 总结
本文提出一种基于词袋模型的新的显著性目标检测算法,首次将具有更好区分度的中层语义特征-词袋模型应用到显著性目标检测领域,具有非常强的新颖性. 具体来说,该方法首先利用目标性计算先验概率显著图,然后利用超像素区域的词袋计算条件概率显著图,最后根据贝叶斯原理将二者进行合成.多个公开数据库上的对比实验结果表明本文方法具有更高的精度和更好的查全率,能够一致高亮地凸显图像中的显著性目标.
-
表 1 GP, FITC, NIGP和SGPIN算法比较
Table 1 Comparison of GP, FITC, NIGP and SGPIN
算法 训练点个数 MSE ($10^{-3}$) 运行时间(s) GP 200 31.1326 1.876034 FITC 800 18.6279 0.062001 NIGP 200 18.6279 13.630882 SGPIN 800 8.6265 0.003087 200 18.4946 0.002612 表 2 实验数据集
Table 2 Experimental set
特征 动作 个体1 个体2 个体3 总数 HoG Walking 1 176 876 895 2 947 Jogging 439 795 831 2 065 Throw/Catch 217 806 0 1 023 Gestures 801 681 214 1 696 Box 502 464 933 1 889 Total 3 135 3 622 2 873 9 630 表 3 基于HumanEva-I数据集HoG特征的不同算法的平均误差
Table 3 Evaluation of average error of difierent algorithms based on HoG feature of HumanEva-I
研究个体 动作 样本数 GP TGP TGPKNN KTA HSICKNN SGPIN S1 Walking 1 176 398.5823 197.1179 193.9949 213.5265 218.6241 161.2112 Jogging 439 383.7747 212.3234 212.2018 188.6683 196.0839 154.5919 Throw/Catch 217 414.5873 174.2834 / / / 100.7592 Gestures 801 415.3106 98.6237 102.5520 92.1541 156.6464 20.1770 Box 502 426.6358 162.6801 163.3203 118.0500 149.5003 82.3949 S2 Walking 876 398.5817 197.1496 195.5694 206.7040 211.9735 160.4342 Jogging 795 405.1201 213.0572 207.2430 227.3562 231.1777 176.1768 Throw/Catch 806 421.5898 210.1543 199.3265 173.2717 189.7417 92.6742 Gestures 681 410.0671 201.1053 201.7576 153.9103 173.0548 63.2473 Box 464 421.3947 171.6007 109.1912 137.1031 159.5833 98.3920 S3 Walking 895 412.0019 219.2579 214.8589 236.1566 239.6487 177.3461 Jogging 831 441.7053 211.1343 206.1400 233.5746 236.5287 184.2251 Throw/Catch 0 / / / / / / Gestures 214 473.7616 159.7482 / / / 40.3100 Box 933 483.6534 214.1621 207.7578 186.5170 195.9815 120.6541 总数 9 630 284.0985 160.1196 162.0768 / / 155.3066 表 4 基于HumanEva-I数据集HoG特征的不同算法的运行时间
Table 4 Evaluation of runtime of difierent algorithms based on HoG feature of HumanEva-I
研究个体 动作 样本数 GP TGP TGPKNN KTA HSICKNN SGPIN S1 Walking 1 176 0.11 26.77 24.67 28.16 27.87 18.02 Jogging 439 0.03 8.47 10.43 10.18 10.26 21.65 Throw/Catch 217 0.01 3.77 / / / 22.44 Gestures 801 0.07 27.15 27.31 18.64 19.42 19.78 Box 502 0.03 10.11 11.19 11.75 11.84 21.90 S2 Walking 876 0.08 20.86 25.83 20.03 20.26 22.04 Jogging 795 0.07 18.06 17.86 17.64 17.74 23.32 Throw/Catch 806 0.02 18.56 26.59 20.13 20.02 21.69 Gestures 681 0.04 14.32 15.52 15.91 16.64 18.38 Box 464 0.03 9.02 10.35 10.71 11.43 23.69 S3 Walking 895 0.09 22.78 22.63 20.75 20.95 21.13 Jogging 831 0.08 21.83 20.13 18.51 19.01 20.36 Throw/Catch 0 / / / / / / Gestures 214 0.04 6.13 / / / 22.62 Box 933 0.10 23.70 23.67 22.68 23.57 21.69 总数 9 630 11 1928 442 491 495 41 表 5 个体3行走姿态的预测误差
Table 5 Predicting errors of subject 3 walking
GP TGP TGPKNN HSICKNN KTA SGPIN 1 412.0 219.1 214.8 236.3 239.6 177.6 2 412.0 218.0 214.9 232.5 235.7 176.9 3 412.0 220.2 214.6 237.1 240.9 177.7 4 412.0 220.4 215.6 241.6 244.8 177.5 5 412.0 218.7 214.5 233.4 237.3 177.0 方差 0.00 1.04 0.18 12.89 12.38 0.14 -
[1] 沈建冬, 陈恒.融合HOG和颜色特征的人体姿态估计新算法.计算机工程与应用, 2017, 53(21):190-194 doi: 10.3778/j.issn.1002-8331.1606-0319Shen Jian-Dong, Chen Heng. New human pose estimation algorithm based on HOG and color features. Computer Engineering and Applications, 2017, 53(21):190-194 doi: 10.3778/j.issn.1002-8331.1606-0319 [2] Wang J M, Fleet D J, Hertzmann A. Gaussian process dynamical models for human motion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(2):283-298 doi: 10.1109/TPAMI.2007.1167 [3] 袁紫华, 李峰, 周书仁.基于Haar型LBP纹理特征的人体姿态估计.计算机工程, 2015, 41(4):199-204 doi: 10.3969/j.issn.1000-3428.2015.04.038Yuan Zi-Hua, Li Feng, Zhou Shu-Ren. Human pose estimation based on Haar characteristics LBP texture feature. Computer Engineering, 2015, 41(4):199-204 doi: 10.3969/j.issn.1000-3428.2015.04.038 [4] Zhao X, Ning H Z, Liu Y C, Huang T. Discriminative estimation of 3D human pose using Gaussian processes. In:Proceedings of the 19th International Conference on Pattern Recognition. Tampa, FL, USA:IEEE, 2008. 1-4 [5] Bratieres S, Quadrianto N, Ghahramani Z. GPstruct:Bayesian structured prediction using gaussian processes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(7):1514-1520 doi: 10.1109/TPAMI.2014.2366151 [6] Ding M, Fan G L. Articulated Gaussian kernel correlation for human pose estimation. In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Boston, MA, USA:IEEE, 2015. 57-64 [7] Rasmussen C E, Ghahramani Z. Infinite mixtures of Gaussian process experts. In:Proceedings of the 14th International Conference on Neural Information Processing Systems:Natural and Synthetic. Vancouver, British Columbia, Canada:MIT Press, 2002. 881-888 [8] 俞斌峰, 季海波.稀疏贝叶斯混合专家模型及其在光谱数据标定中的应用.自动化学报, 2016, 42(4):566-579 http://www.aas.net.cn/CN/abstract/abstract18844.shtmlYu Bin-Feng, Ji Hai-Bo. Sparse Bayesian mixture of experts and its application to spectral multivariate calibration. Acta Automatica Sinica, 2016, 42(4):566-579 http://www.aas.net.cn/CN/abstract/abstract18844.shtml [9] 刘长红, 杨扬, 陈勇.增量式人体姿态映射模型的学习方法.计算机科学, 2010, 37(3):268-270 doi: 10.3969/j.issn.1002-137X.2010.03.067Liu Chang-Hong, Yang Yang, Chen Yong. Incrementally learning human pose mapping model. Computer Science, 2010, 37(3):268-270 doi: 10.3969/j.issn.1002-137X.2010.03.067 [10] 闫小喜, 韩崇昭.基于增量式有限混合模型的多目标状态极大似然估计.自动化学报, 2011, 37(5):577-584 http://www.aas.net.cn/CN/abstract/abstract17393.shtmlYan Xiao-Xi, Han Chong-Zhao. Maximum likelihood estimation of multiple target states based on incremental finite mixture model. Acta Automatica Sinica, 2011, 37(5):577-584 http://www.aas.net.cn/CN/abstract/abstract17393.shtml [11] Csató L, Opper M. Sparse on-line Gaussian processes. Neural Computation, 2002, 14(3):641-668 doi: 10.1162/089976602317250933 [12] Bijl H, van Wingerden J W, Schön T B, Verhaegen M. Online sparse Gaussian process regression using FITC and PITC approximations. IFAC-PapersOnLine, 2015, 48(28):703-708 doi: 10.1016/j.ifacol.2015.12.212 [13] Snelson E, Ghahramani Z. Sparse Gaussian processes using pseudo-inputs. In:Proceedings of the 18th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada:MIT Press, 2006. 1257-1264 [14] McHutchon A, Rasmussen C E. Gaussian process training with input noise. In:Proceedings of the 24th International Conference on Neural Information Processing Systems. Granada, Spain:ACM, 2011. 1341-1349 [15] HumanEva Dataset[Online], available:http://humaneva.is.tue.mpg.de/, November 3, 2017 [16] Sigal L, Balan A O, Black M J. HumanEva:synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion. International Journal of Computer Vision, 2006, 87(1-2):Article No. 4 http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0224696659/ [17] Poppe R. Evaluating example-based pose estimation:experiments on the HumanEva sets. In:Proceedings of the 2007 Computer Vision and Pattern Recognition Workshop on Evaluation of Articulated Human Motion and Pose Estimation (EHuM2). Minneapolis, USA:IEEE, 2007. [18] 苏本跃, 蒋京, 汤庆丰, 盛敏.基于函数型数据分析方法的人体动态行为识别.自动化学报, 2017, 43(5):866-876 http://www.aas.net.cn/CN/abstract/abstract19064.shtmlSu Ben-Yue, Jiang Jing, Tang Qing-Feng, Sheng Min. Human dynamic action recognition based on functional data analysis. Acta Automatica Sinica, 2017, 43(5):866-876 http://www.aas.net.cn/CN/abstract/abstract19064.shtml [19] Shakhnarovich G, Viola P, Darrell T. Fast pose estimation with parameter-sensitive hashing. In:Proceedings of the 9th IEEE International Conference on Computer Vision. Nice, France:IEEE, 2003. 750-757 [20] 韩贵金, 朱虹.一种基于图结构模型的人体姿态估计算法.计算机工程与应用, 2013, 49(14):30-33 doi: 10.3778/j.issn.1002-8331.1302-0153Han Gui-Jin, Zhu Hong. Human pose estimation algorithm based on pictorial structure model. Computer Engineering and Applications, 2013, 49(14):30-33 doi: 10.3778/j.issn.1002-8331.1302-0153 [21] Jiang H. Human pose estimation using consistent max covering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(9):1911-1918 doi: 10.1109/TPAMI.2011.92 [22] Yang W L, Wang Y, Mori G. Recognizing human actions from still images with latent poses. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, USA:IEEE, 2010. 2030-2037 [23] 徐峰, 张军平.人脸微表情识别综述.自动化学报, 2017, 43(3):333-348 http://www.aas.net.cn/CN/abstract/abstract19013.shtmlXu Feng, Zhang Jun-Ping. Facial microexpression recognition:a survey. Acta Automatica Sinica, 2017, 43(3):333-348 http://www.aas.net.cn/CN/abstract/abstract19013.shtml [24] 徐渊, 许晓亮, 李才年, 姜梅, 张建国.结合SVM分类器与HOG特征提取的行人检测.计算机工程, 2016, 42(1):56-60, 65 doi: 10.3969/j.issn.1000-3428.2016.01.011Xu Yuan, Xu Xiao-Liang, Li Cai-Nian, Jiang Mei, Zhang Jian-Guo. Pedestrian detection combining with SVM classifier and HOG feature extraction. Computer Engineering, 2016, 42(1):56-60, 65 doi: 10.3969/j.issn.1000-3428.2016.01.011 [25] Bo L F, Sminchisescu C. Twin gaussian processes for structured prediction. International Journal of Computer Vision, 2010, 87(1-2):28-52 doi: 10.1007/s11263-008-0204-y [26] Cristianini N, Shawe-Taylor J, Elisseeff A, Kandola J. On kernel-target alignment. In:Proceedings of the 14th International Conference on Neural Information Processing Systems:Natural and Synthetic. Vancouver, British Columbia, Canada:MIT Press, 2001. 367-373 [27] Gretton A, Bousquet O, Smola A J, Schölkopf B. Measuring statistical dependence with Hilbert-Schmidt norms. Algorithmic Learning Theory. Berlin Heidelberg, Germany:Springer-Verlag, 2005. 期刊类型引用(8)
1. 郭闽榕. 基于运动想象的脑电信号特征提取研究. 信息技术与网络安全. 2021(01): 62-66 . 百度学术
2. 李昕,安占周,李秋月,蔡二娟,王欣. 基于多重多尺度熵的孤独症静息态脑电信号分析. 自动化学报. 2020(06): 1255-1263 . 本站查看
3. 陈妮,覃玉荣,孙鹏飞. 基于脑电自回归预测的实时相位估计方法. 电子测量与仪器学报. 2020(06): 183-190 . 百度学术
4. 蒋贵虎,陈万忠,马迪,吴佳宝. 基于ITD和PLV的四类运动想象脑电分类方法研究. 仪器仪表学报. 2019(05): 195-202 . 百度学术
5. 林圣琳,李伟,杨明,马萍. 考虑相关性的多元输出仿真模型验证方法. 自动化学报. 2019(09): 1666-1678 . 本站查看
6. 王金甲,党雪,杨倩,王凤嫔,孙梦然. 组LASSO罚多变量自回归模型脑电特征分工类. 高技术通讯. 2019(11): 1073-1081 . 百度学术
7. 孙小棋,李昕,蔡二娟,康健楠. 改进模糊熵算法及其在孤独症儿童脑电分析中的应用. 自动化学报. 2018(09): 1672-1678 . 本站查看
8. 杨默涵,陈万忠,李明阳. 基于总体经验模态分解的多类特征的运动想象脑电识别方法研究. 自动化学报. 2017(05): 743-752 . 本站查看
其他类型引用(17)
-