-
摘要: 提出了一种基于视觉知识加工模型的目标识别方法. 该加工模型结合目标定位、模板筛选和MFF-HMAX (Hierarchical model and X based on multi-feature fusion)方法对图像进行学习, 形成相应的视觉知识库, 并用于指导目标的识别. 首先, 利用Itti模型获取图像的显著区, 结合视觉通路中What和Where通道的位置、大小等特征以及视觉知识库中的定位知识确定初期候选目标区域; 然后, 采用二步去噪处理获取候选目标区域, 利用MFF-HMAX模型提取目标区域的颜色、亮度、纹理、轮廓、大小等知识特征, 并采用特征融合思想将各项特征融合供目标识别; 最后, 与单一特征以及目前的流行方法进行对比实验, 结果表明本文方法不仅具备较高的识别效果, 同时能够模仿人脑学习视觉知识的过程形成视觉知识库.Abstract: A novel object recognition method based on visual knowledge processing model is presented. Combined with object localization, template screening and hierarchical model and X based on multi-feature fusion (MFF-HMAX) method, the visual knowledge processing model yields a visual knowledge base which can be used as a guide in object recognition. Firstly, significant areas of the image can be obtained via Itti model; according to these areas and "what" and "where" information, such as location, size, etc., the candidate objects are conformed. Secondly, MFF-HMAX model is used to extract various features, like color, intensity, texture, contour, size, etc., from the objects denoised by the two-step denoising process. After multi-feature fusion, the features can be used in object recognition. Finally, the method is tested and compared with single feature method and current popular methods. The results show that this method can not only get good performance in improving accuracy of object detection, but also yield a base of visual knowledge by imitating the forming process in human brain.
-
目标识别是计算机视觉领域中最具挑战性的课题之一.虽然针对特定目标的识别已具备较为成熟的方法,但如何设计一种符合人脑视觉认知系统的识别方法,仍非常具有挑战性.因此,国内外研究者从视觉系统的角度提出了各种目标识别的方法,可以分为自底向上的(Bottom-up,B-U)[1-9]、自顶向下的(Top-down,T-D)[10]以及自顶向下和自底向上相结合的(Top-down and bottom-up,TD-BU)[10-14].
自底向上的目标识别方法是由数据驱动、通过融合局部显著性和全局显著性得到视觉显著性,并依据注意焦点的选择和转移进行显著区的检测,属于低级认知过程. 2005年,Serre等根据人的视觉系统信息加工机理的研究成果,提出了Hierarchical model and X (HMAX)模型[1],成为第一个能模拟人脑视觉系统的目标识别模型.它具备S1、C1、S2、C2四层结构,分别对应视觉皮层的V1、V2、V4和IT区.其中,S1层通过使用Gabor小波获取V1区简单细胞在不同尺度、方向上的响应. C1层则模拟V2区复杂细胞,对相邻空间/尺度上的Gabor滤波响应值取最大,获取具有局部尺度不变性的特征.然后,S2层模拟V4区将C1层的输出特征与抽取的模板特征进行相似度匹配.最后,由C2层模拟IT层,取S2层输出中所有尺度和位置上的最大值,从而获得具有全局尺度/位置不变性的特征.该模型较好地模拟了人脑视皮层中神经细胞的对象识别过程,但其计算量过大,且采用全局随机获取特征模板的方式,降低了识别效果的稳定性. 2008年,朱庆生等[2]通过提取在尺度和方向上具有较强不变性和选择性的特征集,改善HMAX中模板提取不稳定问题. 2009年,汤毓婧[3]通过提取显著点处的小块作为特征小块,在一定程度上提高特征模板有效性. 2010年,江达秀[4]提出根据表情特征的分布特性进行人工标注,形成HMAX的模板块.但这些方法常常需要人工参与模块标注,且都存在共同问题,即识别率与计算量很难平衡等问题.针对此问题,Walther等[5]提出利用Itti模型确定图像的显著区域,缩小HMAX模型的目标区域,降低了随机抽取到噪声区的可能性. 2012年,He等[6]提出将Itti模型、模版筛选和HMAX模型相结合,取得了不错的识别效果.但该方法仅考虑了目标中的局部特性,没有考虑目标对象的整体特性,不符合认知心理学中"整体优先效应"的原则[7-8].另外,使用的特征较为单一,而最近胡湘萍[9]将图像的多项特征进行融合,并用于图像识别,提高了图像分类的准确度,有效地说明利用多特征表示图像的必要性.
事实上,人脑的认知过程不仅为自底向上,人们在识别一幅新图时,常常会优先识别自己所熟悉的事物,这种情况即为自顶向下的高级认知过程,一种任务驱动的目标识别方法.由于自顶向下的识别方法与人的主观意识有关,包含记忆、控制等模块的分工协作,因此,对其相应的研究工作较少,多数工作限于生物实验取证和理论研究[11-12],或将自顶向下与自底向上两机制相结合实现目标识别. 2006年,Navalpakkam等[13]提出用目标的统计知识和复杂的背景作为T-D的指导信息,优化B-U显著图的相关权重,实现目标的快速定位. 2012年,Marat等[14]将学习目标特征和上下文线索信息有机结合起来,通过训练上下文特征和局部目标特征得到特征标记库,用来指导B-U低级显著图以得到最终的目标位置. Borji等[10]将场景全局信息、先验目标位置和先验的动作信息通过贝叶斯概率模型来模拟T-D视觉注意机制.这些方法充分利用经验标注,或是概率计算的方式影响自底向上信息的获取.但大都从视觉系统的What通道出发,预先学习对象的底层特征数据,然后遍历图像所有空间获取目标区域,缺乏与Where信息中位置知识的结合,增大了目标识别的耗时.
综上可见,目前的低级视觉认知方法仍缺乏高级认知的指导,对于相同目标不同位置,无法充分结合What和Where信息,用位置特性驱动注意机制有效地获取目标区域.由于Itti和HMAX模型能够较好地模拟大脑视觉认知中的低级认知过程,故本文以Itti和HMAX为基础模型,添加模板筛选、多特征融合以及目标区定位的思想,建立一种基于视觉知识加工模型的目标识别方法 (Object recognition method based on visual knowledge processing model,VKPM),以便快速地获取目标区域,提高目标识别效率和准确度.
本文后续内容组织如下:第1节介绍VKPM目标识别方法的结构,分析其与大脑视觉认知过程的对应关系;第2节从显著区知识、目标位置知识和特征属性知识三方面给出视觉知识库的建立过程;第3节引入视觉知识库的指导,从T-D和B-U两机制相结合的角度给出VKPM目标识别方法的实现过程;第4节将该方法与流行方法进行实验对比,以验证其有效性;最后一节给出本文的结论.
1. 人的视觉系统与视觉知识加工模型
人脑视觉认知的过程是视觉系统对客观事物的整体特征和属性的反应.目前,视觉系统划分为What通路和Where通路[15].如图 1所示,首先,视网膜会根据任务的指导确定图像中的注意区域.然后,沿着What通路和Where通路获取目标信息.其中,What通路是沿腹部依次经过侧膝体(Lateral geniculate nucleus,LGN)、初级视皮层区域(V1,V2,V4)、下颞叶皮层(IT),主要采集有关目标的形状、大小、颜色等静态特征. Where通路则沿背部依次经过LGN、V1、V2、中颞叶区(MT)、后顶叶皮层(Posterior parietal corterx,PPC),主要采集目标空间位置变化的信息.需要注意的是,这两条视觉信息流在大脑中是并行处理的,直到它们汇总至前额皮层(Prefrontal cortex,PFC).最后,由PFC区对信息流融合加工以及记忆比对,完成目标识别.
由此可以发现,视觉认知过程是由初级视觉过程、中级视觉过程和高级视觉过程三部分组成[16-18].因此,VKPM目标识别方法分为三个模块: Itti模型、MFF-HMAX (Hierarchical model and X based on multi-feature fusion)模型以及视知觉处理中心,用于模拟人脑学习视觉知识的过程,见图 2.
模块一采用Itti模型获取图像的显著区域,并依据视觉知识定位目标候选区域,这个过程用于模拟人脑认知系统中Retinal区[16]的视觉初级知识获取功能.
模块二利用MFF-HMAX模型获取图像在人脑视皮层中What通道和Where通道的信息,这个过程用于模拟脑皮层中LGN-PPC/IT区[17]的视觉特征处理功能.
模块三"视知觉处理中心"分为视觉知识库和控制系统两个子系统.视觉知识库用于储存各个图像类型相应的知识,而控制系统则是利用T-D机制,依据视觉知识引导目标的识别,这个过程用于模拟人脑认知系统中PFC区[18]的视觉知识加工与记忆功能.
这三个模块综合模拟了视觉系统的知识加工过程,形成一个视觉系统的知识加工模型.
为了更好地实现视觉认知过程中高级认知和低级认知的融合,把视觉知识加工过程分为两个阶段:学习和识别.在学习阶段采用B-U机制,形成不同类型图像的类属视觉知识库,在识别阶段则采用T-D机制利用视觉知识引导B-U机制的图像识别.
2. 视觉知识库的建立
目前,多数的目标识别方法是自底向上地利用视觉感知特征来引导目标的识别过程,但忽略了Where信息中位置、形状特征的定义,常常需要依据固定的目标大小遍历图像的所有空间进行识别,降低了识别的有效性和实时性.为了能综合利用视觉感知What和Where两个通道的信息,本文将形状、位置和颜色等属性作为类属特征学习,并以5元组的形式将图像的类属知识存储为视觉知识库,供后期目标识别中作为T-D机制的知识指导.其中,视觉知识库的定义见第2.4节.
2.1 显著区的计算
显著区知识用于确定对象内局部显著区域位置,结合目标位置知识可锁定对象整体的候选位置,为目标识别提供有效的捷径. VKPM利用Itti模型进行显著区域学习,获取显著区域长$l_{1}',l_{2}',l_{3}',\cdots,l_{n}'$,宽$h_{1}',h_{2}',h_{3}',\cdots,h_{n}'$以及位置锚点坐标$(x_{1}',y_{1}' ),(x_{2}',y_{2}'),\cdots,(x_{n}',y_{n}')$,其中以图像的左下角为坐标原点.同时,记录目标区域中颜色特征值$SV^{Co}$、亮度特征值$SV^{In}$、朝向特征值$SV^{Or}$以及相应的显著特征权重$\mu_{i}^{r} \,(i=1,2,3,\cdots,n;r\in\{Co,In,Or\})$.
需要注意的是,显著特征权重的计算是将单个对象的候选区域以学习时所获取的相似值为依据降序排列,选用图像$i$中相似度最高的候选区域为目标对象,对其初期获取的颜色特征值$SV^{Co}$、亮度特征值$SV^{In}$、朝向特征值$SV^{Or}$进行平均值计算,并依据降序赋予该对象相应权重为1、0、-1.待学习完毕,利用式(1)和(2)确定显著特征权重.
$ \mu _i^r = \left\{ {\begin{array}{*{20}{l}} {1,}&{SV_i^r = {\rm{max}}(SV_i^{Co},SV_i^{In},SV_i^{Or})}\\ { - 1,}&{SV_i^r = {\rm{min}}(SV_i^{Co},SV_i^{In},SV_i^{Or})}\\ {0,}&{{\rm{其他}}} \end{array}} \right. $
(1) $ {\mu ^r} = \frac{{\sum\limits_{i = 1}^n {\mu _i^r} }}{n},\quad r \in \{ Co,In,Or\} $
(2) 2.2 目标位置知识的计算
目标位置知识分为定位知识和轮廓知识,其中,定位知识用于确立新图中目标位置,包括目标对象的长$l_{1},l_{2},l_{3},\cdots,l_{n}$,宽$h_{1},h_{2},h_{3},\cdots,h_{n}$以及锚点坐标$(x_{1},y_{1}),(x_{2},y_{2} ),\cdots,(x_{n},y_{n} )$.轮廓知识则是用于确定MFF-HMAX模型中的模板块,包括目标对象的轮廓及其内部区域.在传统的HMAX模型中,需要在学习的过程中形成"模板块",而这些"模板块"是利用随机抽取的方式对图像整体区域进行采集的.但是,随机抽取的方式带来了学习效率的不确定性,同时,会误选一些代表性较弱、甚至噪声的模板块,影响了识别精准度.故将MFF-HMAX模型中模板块的抽取范围限定在目标对象的轮廓及其内部区域.
由于所获取的目标对象仍存在背景所带来的噪声影响,需要进行图像去噪处理.因此,利用OSTU方法对"待识别目标"进行图像阈值分割处理,初步消除不必要的背景信息;然后,采用形态学处理以及面积阈值法实现二次去噪处理;最后,依据二步去噪后的结果确立图像的定位知识与轮廓知识,具体流程如图 3所示.
2.3 特征属性的计算
为了改善传统HMAX模型特征单一化的问题,MFF-HMAX模型添加了多通道特征提取的模块,采用R-G通道(Red-green)、B-Y通道(Blue-yellow)、L-D通道(Light-dark)和灰度通道多通道模式提取目标区的特征向量${\pmb X_{1}}$、${\pmb X_{2}}$、${\pmb X_{3}}$、${\pmb X_{4}}$.然后,采用式(3)对不同特征分配属性权重$\beta_{k}$,值越大表示该特征对目标识别的贡献越大.
$ \begin{array}{l} \min \; - \sum\limits_{k = 1}^4 {\beta _k}\sum\limits_{i = 1}^n \mathop {\max }\limits_{{\mu ^k} \in \{ {Y^k} - y_i^k\} } \ell ({f_{w,b}}(x_i^k,y_i^k),\\ \qquad {f_{w,b}}(x_i^k,{\mu ^k}))\\ s.{\mkern 1mu} t.\quad \sum\limits_{k = 1}^4 {{\beta _k}} = 1\\ {\beta _k} > 0,\quad k = 1,2,3,4 \end{array} $
(3) $ {f_{w,b}}(x,Y) = \langle w,\phi (x,Y)\rangle + {b_Y} $
(4) 其中,$\beta_{k}$为特征向量${\pmb X_{k}}$的属性权重,权重越大表示该类特征向量对当前类别的贡献越大.函数$\ell (t)=C{\rm max}(0,1-t)$是常用的损失函数[19],$C$为常数. $f_{w,b}(x,Y)$是判别函数[19],用于判别$x$的所属类别.判别函数的值可由式(4)获得,argmax$(f(x,Y))$即为$x$的所属类别. $\phi(x,Y)$表示特征与标签的联合映射,${\pmb w}$表示法向量,$b$为截距. $Y^{k}$表示特征向量${\pmb X_{k}}$相应的标签集,$y_{i}^{k}$表示$Y^{k}$中的第\;$i$\;类特征的标签,$x_{i}^{k}$表示特征向量${\pmb X_{k}}$\;第\;$i$\;项特征.式(3)的目标为判别函数在正确分类时,利用特征的属性权重调整其样本值和不正确分类值之间差值,使其尽可能大,即分类边界最大原则[19].
2.4 建立视觉知识库
通过对图像的学习,形成不同图像类别的视觉知识库,图像类型$i$的视觉知识表示为$D_{i}$ ($id_{i}$,$name_{i}$,$feat_{i}$,$size_{i}$,$pos_{i}$),其中,$id_{i}$为序列号,$name_{i}$为图像类型的名称,$feat_{i}$为该图像类型的知识特征,由特征值$SV_{ij}^{Co}$、$SV_{ij}^{In}$、$SV_{ij}^{Or}$、特征向量${\pmb X_{t}^{ij}}$以及相应的权重参数$\mu_{i}^{r}$、$\beta_{it}$组成,$r\in\{Co,In,Or\},j=1,2,\cdots,m$,$m$为图像个数,$t=1,2,3,4$; $size_{i}$为该图像类型$i$的尺寸范围,由目标区域的长$l_{i1}$,$l_{i2}$,$l_{i3}$,$\cdots$,$l_{im}$和宽$h_{i1}$,$h_{i2}$,$h_{i3}$,$\cdots$,$h_{im}$,以及显著区域的长$l_{i1}',l_{i2}',l_{i3}',\cdots,l_{im}'$和宽$h_{i1}'$,$h_{i2}'$,$h_{i3}'$,$\cdots$,$h_{im}'$组成;以图像的左下角为锚点坐标,则$pos_{i}$为该图像类型$i$中目标对象的锚点坐标($x_{i1}$,$y_{i1}$),$(x_{i2}$,$y_{i2}$),$\cdots$,($x_{im}$,$y_{im}$),显著区域的锚点坐标($x_{i1}'$,$y_{i1}'$),($x_{i2}'$,$y_{i2}'$),$\cdots$,($x_{im}'$,$y_{im}'$)组成.需要指出的是,这些知识并不是一成不变的,在不断的学习过程中,也会产生相应的变化.
3. 基于视觉知识加工模型的目标识别方法的实现过程
VKPM方法旨在模仿人脑的视觉认知过程,形成视觉知识.因此,由视觉知识库建立以及目标识别两部分组成.
3.1 VKPM方法的视觉知识库建立过程
在视觉知识库建立过程中,主要是学习图像知识,获取位置知识、确立目标所需的显著特征权重以及特征融合所需的属性权重,故采用B-U机制完成,具体流程如下.
步骤1.计算显著特征权重.利用Itti模型对待学习图像中的目标对象进行学习,获取相应的显著特征值$SV_{ij}^{Co}$、$SV_{ij}^{In}$以及$SV_{ij}^{Or}$.同时,计算式(1)得到相应的显著特征权重$\mu_{i}^{r}$.
步骤2.获取位置知识.利用图 3中的二步去噪处理获得目标对象的轮廓知识,结合各个目标对象区域长$l_{1}$,$l_{2},l_{3},\cdots,l_{n}$,宽$h_{1},h_{2},h_{3},\cdots,h_{n}$以及锚点坐标$(x_{1},y_{1}),(x_{2},y_{2} ),\cdots,(x_{n},y_{n})$,形成"目标对象位置知识".同时,记录相应的显著区域长$l_{1}',l_{2}',l_{3}',\cdots,l_{n}'$,宽$h_{1}',h_{2}',h_{3}',\cdots,h_{n}'$以及锚点坐标$(x_{1}',y_{1}'),(x_{2}',y_{2}'),\cdots,(x_{n}',y_{n}')$,形成"显著区域位置知识".
步骤3.模板筛选.根据获取的显著特征权重以及轮廓知识对目标对象的轮廓及其内部区域的像素点进行降序排列,选择前$M$个像素点为中心的像素区作为MFF-HMAX模型的"模板块".
步骤4.计算属性权重.利用MFF-HMAX模型进行特征提取,获取各个目标对象在不同通道下的特征向量,并利用判别函数(如式(4)所示)以及损失函数对图像的不同通道进行单独训练,形成相应的参数$w$和$b$,其训练问题可表述为如下优化问题:
$ \begin{array}{l} {\min _{w,b,\xi }}\frac{1}{2}||w|{|^2} + \sum\limits_{i = 1}^R {{\xi _i}} \\ {\rm{s}}.{\mkern 1mu} {\rm{t}}.\quad \ell ({f_{w,b}}(x_i^k,y_i^k),{f_{w,b}}(x_i^k,{\mu ^k})) \le {\xi _i} \end{array} $
(5) 其中,$\xi$为惩罚函数[19],$R$为训练图像的个数.由于式(5)是一个凸优化问题,可以得到唯一最优解.待获取最优参数$w$和$b$后,将其代入式(3).通过不断调整各通道的属性权重$\beta_{k}$,使其与相应损失函数值的乘积和最大化,从而获取最终的属性权重.其中,各通道的属性权重$\beta_{k}$的和为1,且均大于0.
步骤5.构建视觉知识库.整合步骤1~4所获取的显著特征权重、属性权重、特征值以及显著区和目标区的位置知识,建立视觉知识库.
3.2 VKPM方法的目标识别过程
在目标识别过程中,由Itti模型、MFF-HMAX模型完成B-U机制的特征提取,由"视知觉处理中心"实现T-D机制的知识指导,见图 2. 其中,目标的识别过程是由T-D机制引导B-U机制完成,具体实现的过程如下.
步骤1.计算显著性.利用Itti获取新图像$q$的显著区域,其中,目标的显著值$SV$是由$k$个尺度下的特征显著性与视觉知识库所提供的关系权重$\mu^{j}$乘积求和得到,如式(6)所示.
$ SV = \sum\limits_{(j \in Co,In,Or)} {\sum\limits_{k = 1}^N {{\mu ^j}} } \cdot SV_k^j $
(6) 步骤2.确立初期候选目标区域.依据图像$q$内所获取的显著特征值$SV$确定显著区的锚点坐标($x'_{new^{q}_{p}}$,$y'_{new^{q}_{p}}$)以及长$l'_{new^{q}_{p}}$、宽$h'_{new^{q}_{p}}$ ($p=1,2,\cdots,P$,$P$为显著区个数).然后,结合视觉知识库中"显著区域位置知识"与"目标对象位置知识"的定义,利用式(7)~式(10)获取初期目标候选区域的坐标$(x_{new^{q}_{p}}$,$y_{new^{q}_{p}})$以及长$l_{new^{q}_{p}}$、宽$h_{new^{q}_{p}}$.注意,每幅图像对应多个显著区,由此获取的多个初期目标候选区域在此步骤仍保留,供后期筛选.
$ \begin{matrix} {{x}_{new_{p}^{q}}}={{{{x}'}}_{new_{p}^{q}}}+\frac{\frac{\sum\limits_{i=1}^{n}{\vartriangle }{{x}_{i}}}{n}}{\frac{\sum\limits_{i=1}^{n}{{{l}_{{{i}'}}}}}{n}}{{{{l}'}}_{new_{p}^{q}}}= \\ {{{{x}'}}_{new_{p}^{q}}}+{{{{l}'}}_{new_{p}^{q}}}\sum\limits_{i=1}^{n}{\frac{{{x}_{i}}-{{x}_{{{i}'}}}}{{{l}_{{{i}'}}}}} \\ \end{matrix} $
(7) $ \begin{matrix} {{y}_{new_{p}^{q}}}={{{{y}'}}_{new_{p}^{q}}}+\frac{\frac{\sum\limits_{i=1}^{n}{\vartriangle }{{y}_{i}}}{n}}{\frac{\sum\limits_{i=1}^{n}{{{h}_{{{i}'}}}}}{n}}{{{{h}'}}_{new_{p}^{q}}}= \\ {{{{y}'}}_{new_{p}^{q}}}+{{{{h}'}}_{new_{p}^{q}}}\sum\limits_{i=1}^{n}{\frac{{{y}_{i}}-{{y}_{{{i}'}}}}{{{h}_{{{i}'}}}}} \\ \end{matrix} $
(8) $ {{l}_{new_{p}^{q}}}={{{{l}'}}_{new_{p}^{q}}}\frac{\frac{\sum\limits_{i=1}^{n}{{{l}_{i}}}}{n}}{\frac{\sum\limits_{i=1}^{n}{{{l}_{{{i}'}}}}}{n}}={{{{l}'}}_{new_{p}^{q}}}\sum\limits_{i=1}^{n}{\frac{{{l}_{i}}}{{{l}_{{{i}'}}}}} $
(9) $ {{h}_{new_{p}^{q}}}={{{{h}'}}_{new_{p}^{q}}}\frac{\frac{\sum\limits_{i=1}^{n}{{{h}_{i}}}}{n}}{\frac{\sum\limits_{i=1}^{n}{{{h}_{{{i}'}}}}}{n}}={{{{h}'}}_{new_{p}^{q}}}\sum\limits_{i=1}^{n}{\frac{{{h}_{i}}}{{{h}_{{{i}'}}}}} $
(10) 步骤3.确立候选目标区域.利用二步去噪方法对初期获取的目标候选区进行前后背景分割和去噪处理,确定目标候选区,供MFF-HMAX模型提取图像的底层特征.
步骤4.多特征融合.利用MFF-HMAX模型提取目标对象在各通道的特征向量,并利用式(11)将视觉知识库中特征的属性权重与特征向量进行融合,形成目标对象的多特征融合向量$\pmb{\mathcal{T}}$,以识别出测试图像所属类别.
$ {{\tau }_{new_{p}^{q}}}={{\beta }_{1}}X_{1}^{new_{p}^{q}}+{{\beta }_{2}}X_{2}^{new_{p}^{q}}+{{\beta }_{3}}X_{3}^{new_{p}^{q}}+{{\beta }_{4}}X_{4}^{new_{p}^{q}} $
(11) 步骤5.目标识别.利用SVM分类器进行目标识别.需要注意的是,虽然每一幅图像对应多个目标候选区,但最终的目标区域仅保留相似度最高的目标候选区.
4. 实验结果与分析
仿真实验平台配置为酷睿四核处理器,2.8 GHz,6 GB内存,使用Caltech 101数据集和Pascal 2007数据集进行实验.其中,Caltech 101数据集一共101个类别,9 146幅图像,每个类别包含40至800个图像. Pascal 2007数据集包含20个类别,共9 963幅图像.图 4(a) 显示了数据集中部分图像样例.由于两个数据集包含较为显著的目标对象以及较为复杂的背景信息.因此,本文所提出的VKPM目标识别方法不仅能够充分学习数据集中各个对象相应的知识形成视觉知识库,同时,在较为复杂的背景中进行目标识别也能充分测试VKPM的泛化性.
实验过程分为学习阶段与测试阶段.在学习阶段,分别从Caltech 101数据集和Pascal 2007数据集的各个对象中随机抽取30幅图进行学习.其中,学习图像会提供相应的目标区域.待相应的视觉知识构建完成,将数据集剩余图像作为测试图像,用以检验视觉知识的准确性,本文方法各阶段的参数设置如表 1所示.为了评估本文方法的识别效果,采用五折交叉实验法,同时,将平均精度作为多类别目标识别的评价标准,如式(12)和(13)所示.
$ PreVa{{l}_{i}}=\frac{P{{T}_{i}}}{P{{T}_{i}}+P{{N}_{i}}} $
(12) $ AvgPre=\frac{\sum\limits_{i=1}^{N}{P}reVa{{l}_{i}}}{N} $
(13) 表 1 本文方法参数设置Table 1 Parameters setting of our methodBand $\Sigma$ Filt sizes $\delta$ $\lambda$ $N$$^\Sigma$ Orient $\theta$ Patch $n_j$ 1 7 & 9 2.8 & 3.6 3.5 & 4.6 8 0 4$\times$4 2 11 & 13 4.5 & 5.4 5.6 & 6.8 10 3 15 & 17 6.3 & 7.3 7.9 & 9.1 12 $\dfrac{\pi}{4}$ 8$\times$8 4 19 & 21 8.2 & 9.2 10.3 & 11.5 14 5 23 & 25 10.2 & 11.3 12.7 & 14.1 16 $\dfrac{\pi}{2}$ 12$\times$12 6 27 & 29 12.3 & 13.4 15.4 & 16.8 18 7 31 & 33 14.6 & 15.8 18.2 & 19.7 20 $\dfrac{3\pi}{4}$ 14$\times$14 8 35 & 37 17.0 & 18.2 21.2 & 22.8 22 其中,$PreVal_{i}$表示第$i$类图像的识别精度,$AvgPre$则为数据集的平均识别精度. $PT_{i}$表示正确识别的样本数,$PN_{i}$表示错误识别的样本数,$N$表示数据集中图像的总类别数(101).
4.1 候选目标对象的确立
为了应对由不同对象的大小、位置不同所造成的目标区域确立难的问题,在候选位置确立时,利用视觉知识引导Itti模型获取目标对象区.从图 4 (a)可以明显发现,图像中目标对象大小、位置上有明显的不同.但通过视觉知识的引导,实现目标识别过程中的步骤1和2 (见第3.2节),可较为完整地获取候选目标对象.由图 4 (b)可以看出,本文所提出的方法基本可以锁定目标候选区域供后期识别,符合了脑科学中"整体优先效应"[7-8]的原则.
由于候选区域中仍存在噪声区,影响了图像的识别精度,需要对目标对象去噪处理,即实现目标识别过程中的步骤3 (见第3.2节).图 5显示了目标对象(即图 4 (b))经过二步去噪处理后的轮廓信息图,将图 5 (a)与图 5(b) 对比可以发现,OSTU阈值分割可以有效地将前后背景分割,而通过形态学处理和面积阈值去噪后,可以进一步消除小块零散的噪声区.因此,通过二步去噪方法可以明显地去除噪声区,进一步缩小目标区域的范围.同时,根据去噪后的图像可进一步获取图像的轮廓信息,供MFF-HMAX方法中"模板块"的确立.
4.2 模板块筛选的作用
由于HMAX模型中C2层需要将C1层的输出特征与抽取的模板特征进行相似度匹配,故模板块的筛选对后期的识别结果也具有一定的影响.图 6(a) 为传统HMAX随机提取的"模板块".虽然HMAX模型所提取的模板块具有一定的随机性、全局性,但是易产生无用的"模板块"、甚至是干扰的"模板块".相反,从图 6(b) 可以发现,通过实现视觉知识库建立过程的步骤1~3 (见第3.1节),VKPM方法所筛选出的"模板块"集中在目标对象的轮廓以及内部信息,能有效地体现目标对象的关键特性.
4.3 属性权重的作用
在识别过程中,采用了多特征融合方法,利用权重分配来确立各特征的贡献度.根据视觉知识加工过程中步骤4,可获取各特征的属性权重$\beta_{k}$.为了验证属性权重的作用,实验将单一特征方法[1]、多特征简单叠加方法以及本文的多特征融合方法进行对比.从图 7可以发现,若采用传统HMAX模型的单一特征进行识别,效果明显不佳,但采用多特征简单叠加的识别方法,总体的识别效果反而比单一特征的模型降低超过10%,说明权重的分配的确对融合后特征向量的识别效果有明显的影响.而采用本文提出的权重分配方法,总体的识别效果显著提升,更为合理地融合了各个特征向量.
4.4 Caltech 101数据集的分类对比实验
为了验证本文方法的有效性,实验将VKPM方法与Itti+HMAX[5]、传统HMAX[1]相比,识别效果具有明显优势,说明添加视觉知识的指导能够较好地确定图像的显著区、获取目标区域,有效地避免了背景噪声所带来的影响.原因在于,视觉知识模型充分利用了目标对象的形状大小以及空间位置信息,因此,对于图像位置、大小的变化具有一定的泛化性,对于零散的模板块起到了一定的抑制作用.当然,实验同样对比了同等条件下,本文方法与目前6种流行方法[9, 20-24]对于Caltech 101数据集的识别效果,如图 7所示.为了说明VKPM方法与已有方法的区别,选用T-test方法对识别效果进行分析,得出表 2.表 2中$P$-value是鉴别方法具有显著性差异的评判指标.当$P<0.05$时,说明具有显著差异,则对比结果具有意义;否则,对比结果无意义.从表 2可以明显发现,本文方法分别与其他方法具有显著性差异.因此,识别结果具有意义.由图 7可以发现,VKPM具有较好的识别效果.
同时,为了进一步分析VKPM方法在各类型目标上的识别效果,将Caltech 101数据集分为8个类别进行对比,分别是:运动器具、日常用品、动物、乐器、交通工具、建筑物、植物以及家具.从图 8可以发现,对于动物以及家具类别,VKPM方法和Su方法[25]、SPBoW方法[26]的识别效果相差不大,基本保持一致.但是,从表 2可以发现,本文方法与 Su方法[25]、SPBoW方法[26]具有显著性差异.同时,对于运动器具、乐器、交通工具以及建筑物类别,VKPM方法具有较为显著的目标识别优势.原因在于:这些目标对象具有较为清晰的轮廓,且目标对象的空间位置知识变化较小,便于在测试图像中较为精准地定位目标对象的区域.由此可见,本文方法的识别效果基本优于其他主流的识别方法.
4.5 Pascal 2007数据集的分类对比实验
实验使用Pascal 2007数据集进一步验证本文方法的识别效果,从图 9可以发现,与传统HMAX[1]、Itti+HMAX[5]以及多特征简单叠加的方法相比,本文改进方法的识别效果的确具有明显优势,对于背景较为复杂的数据集,能够较好地识别出目标类别.
同样,将VKPM方法与目前流行算法对比,从表 3可以发现,本文方法与其余方法具有显著性差异.同时,如图 9所示,本文方法较其他方法具有较好的识别效果.特别地,对于自行车、船、火车等较为显著的目标,VKPM方法具有一定的优势.对于瓶子、猫这些空间位置知识较为复杂的目标,虽然较难捕捉较为清晰的轮廓特征,但也达到了不错的识别效果.从图 9可以发现,VKPM方法的识别效果基本优于其他方法,为目标识别提供了一种较为有效的方法.
5. 结论
本文提出一种基于视觉知识加工模型的目标识别方法,应用于多类型图像的识别,取得了较为满意的实验结果.与现有方法相比,VKPM具有以下几个突出的特点: 1)模仿人脑视觉认知的过程形成视觉知识库,利用高级认知系统指导低级认知系统,确立目标区域.现有方法出发点大都基于What信息,或是目标在图像某区域出现的概率数据,遍历图像确立目标区域,缺乏对Where信息的有效定义,对于相同目标不同位置无法快速定位.本模型利用所获取的显著区域以及视觉知识库中目标对象的位置、大小等知识定义,确立目标的位置信息,在很大程度上节省由遍历搜索目标引起的计算资源,为图像中目标区域确立难的问题提供了一种有效的解决方法. 2)利用二步去噪处理和模板筛选方法避免了背景噪声所带来的干扰,克服了传统HMAX因随机抽取模块导致识别效果不佳的缺点. 3)用MFF-HAMX实现了目标多特征融合思想,消除由单一特征不充分所引起的歧义.
然而,特征数据的多少将对识别速度产生影响,如何获取合适的特征数据量并进行融合可能是一个有意义的研究问题.另外,视觉知识库中部分知识可能受图像质量影响比较大,若通过图像融合技术[27-31]保证形成视觉知识前的图像质量,对提高目标识别率可能有很大帮助.
-
表 1 本文方法参数设置
Table 1 Parameters setting of our method
Band $\Sigma$ Filt sizes $\delta$ $\lambda$ $N$$^\Sigma$ Orient $\theta$ Patch $n_j$ 1 7 & 9 2.8 & 3.6 3.5 & 4.6 8 0 4$\times$4 2 11 & 13 4.5 & 5.4 5.6 & 6.8 10 3 15 & 17 6.3 & 7.3 7.9 & 9.1 12 $\dfrac{\pi}{4}$ 8$\times$8 4 19 & 21 8.2 & 9.2 10.3 & 11.5 14 5 23 & 25 10.2 & 11.3 12.7 & 14.1 16 $\dfrac{\pi}{2}$ 12$\times$12 6 27 & 29 12.3 & 13.4 15.4 & 16.8 18 7 31 & 33 14.6 & 15.8 18.2 & 19.7 20 $\dfrac{3\pi}{4}$ 14$\times$14 8 35 & 37 17.0 & 18.2 21.2 & 22.8 22 表 2 101数据集的p-value对比表
Table 2 The comparison of p-value on Caltech 101
-
[1] Serre T, Wolf L, Poggio T. Object recognition with features inspired by visual cortex. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). San Diego, CA: IEEE, 2005. 994-1000 [2] 朱庆生, 张敏, 柳锋. 基于HMAX特征的层次式柑桔溃疡病识别方法. 计算机科学, 2008, 35(4): 231-232Zhu Qing-Sheng, Zhang Min, Liu Feng. Hierarchical citrus canker recognition based on HMAX features. Computer Science, 2008, 35(4): 231-232 [3] 汤毓婧. 基于人脑视觉感知机理的分类与识别研究 [硕士学位论文], 南京理工大学, 中国, 2009Tang Yu-Qian. Classification and Recognition Research based on Human Visual Perception Mechanism [Master dissertation], Nanjing University of Science, China, 2009 [4] 江达秀. 基于HMAX模型的人脸表情识别研究 [硕士学位论文], 浙江理工大学, 中国, 2010Jiang Da-Xiu. Research on the Facial Expression Recognition based on HMAX model [Master dissertation], Zhejiang Sci-Tech University, China, 2010 [5] Walther D, Koch C. Modeling attention to salient proto-objects. Neural Networks, 2006, 19(9): 1395-1407 [6] 何佳聪,蔡恒进,邓娟,吕恒,刘翘楚. 基于改进的 HMAX 算法的车型识别应用. 计算机科学与应用, 2012, 2(5): 233-239He Jia-Cong, Cai Heng-Jin, Deng Juan, Lv Heng, Liu Qiao-Chu. Improved HMAX model for vehicle type recognition. Computer Science and Application, 2012, 2(5): 233-239 [7] 邱香, 傅小兰, 隋丹妮, 李健, 唐一源. 复合字母刺激心理旋转加工中的整体优先效应. 心理学报, 2009, 41(1): 1-9Qiu Xiang, Fu Xiao-Lan, Sui Dan-Ni, Li Jian, Tang Yi-Yuan. The effect of global precedence on mental rotation of compound stimuli. Acta Psychologica Sinica, 2009, 41(1): 1-9 [8] Navon D. Forest before trees: the precedence of global features in visual perception. Cognitive psychology, 1977, 9(3): 353-383 [9] 胡湘萍. 基于多核学习的多特征融合图像分类研究. 计算机工程与应用, 2016, 52(5): 194-198Hu Xiang-Ping. Multiple feature fusion via multiple kernel learning for image classification. Computer Engineering and Applications, 2016, 52(5): 194-198 [10] Borji A, Sihite D N, Itti L. Probabilistic learning of task-specific visual attention. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2012. 470-477 [11] Itti L, Koch C. Feature combination strategies for saliency-based visual attention systems. Journal of Electronic Imaging, 2001, 10(1): 161-169 [12] Chikkerur S, Serre T, Tan C, Poggio T. What and where: a Bayesian inference theory of attention. Vision Research, 2010, 50(22): 2233-2247 [13] Navalpakkam V, Itti L. An integrated model of top-down and bottom-up attention for optimizing detection speed. In: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York, NY: IEEE, 2006. 2049-2056 [14] Marat S, Itti L. Influence of the amount of context learned for improving object classification when simultaneously learning object and contextual cues. Visual Cognition, 2012, 20(4-5): 580-602 [15] Ungerleider L G. Two cortical visual systems. Analysis of Visual Behavior. Cambridge: MIT Press, 1982. 549-586 [16] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex. Nature Neuroscience, 1999, 2(11): 1019-1025 [17] Zhou H, Friedman H S, Von Der Heydt R. Coding of border ownership in monkey visual cortex. The Journal of Neuroscience, 2000, 20(17): 6594-6611 [18] DiCarlo J J, Maunsell J H R. Form representation in monkey inferotemporal cortex is virtually unaltered by free viewing. Nature Neuroscience, 2000, 3(8): 814-821 [19] Zien A, Ong C S. Multiclass multiple kernel learning. In: Proceedings of the 24th International Conference on Machine Learning. Corvallis, OR: ACM, 2007. 1191-1198 [20] Vedaldi A, Fulkerson B. Vlfeat: an open and portable library of computer vision algorithms. In: Proceedings of the 18th ACM International Conference on Multimedia. Firenze: ACM, 2010. 1469-1472 [21] Sohn K, Jung D Y, Lee H, Hero A O. Efficient learning of sparse, distributed, convolutional feature representations for object recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain: IEEE, 2011. 2643-2650 [22] Balasubramanian K, Yu K, Lebanon G. Smooth sparse coding via marginal regression for learning sparse representations. In: Proceedings of the 30th International Conference on Machine Learning. Atlanta, Georgia, USA: IMLS, 2012. 289-297 [23] Wang J J, Yang J C, Yu K, Lv F J, Huang T, Gong Y H. Locality-constrained linear coding for image classification. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA: IEEE, 2010. 3360-3367 [24] Qiao M, Li J. Distance-based mixture modeling for classification via hypothetical local mapping. Statistical Analysis and Data Mining: The ASA Data Science Journal, 2016, 9(1): 43-57 [25] Su Y, Jurie F. Improving image classification using semantic attributes. International Journal of Computer Vision, 2012, 100(1): 59-77 [26] Wu L, Hoi S C H, Yu N H. Semantics-preserving bag-of-words models and applications. IEEE Transactions on Image Processing, 2010, 19(7): 1908-1920 [27] 杨波, 敬忠良. 梅花形采样离散小波框架图像融合算法. 自动化学报, 2010, 36(1): 12-22Yang Bo, Jing Zhong-Liang. Image fusion algorithm based on the quincunx-sampled discrete wavelet frame. Acta Automatica Sinica, 2010, 36(1): 12-22 [28] 朱仁欢, 魏海锋, 卢一相, 孙冬. 不均匀光照车牌增强算法研究. 小型微型计算机系统, 2015, 36(3): 601-604Zhu Ren-Hua, Wei Hai-Feng, Lu Yi-Xiang, Sun Dong. Study on enhancement algorithm of license plate under non-uniform illumination. Journal of Chinese Computer Systems, 2015, 36(3): 601-604 [29] 张小利, 李雄飞, 李军. 融合图像质量评价指标的相关性分析及性能评估. 自动化学报, 2014, 40(2): 306-315Zhang Xiao-Li, Li Xiong-Fei, Li Jun. Validation and correlation analysis of metrics for evaluating performance of image fusion. Acta Automatica Sinica, 2014, 40(2): 306-315 [30] 徐萌萌. 基于小波变换的图像融合算法研究 [硕士论文], 哈尔滨理工大学, 中国, 2014Xu Meng-Meng. Image Fusion Algorithm based on Wavelet Transform [Master dissertation], Harbin University of Science and Technology, China, 2014 [31] 郭雄飞. 图像融合技术研究与应用 [硕士学位论文], 中北大学, 中国, 2014Guo Xiong-Fei. Image Fusion Algorithms Research and Application [Master dissertation], North University of China, China, 2014 期刊类型引用(3)
1. 薄一航. 数字人文视阈下计算机如何“观”影?. 数字人文. 2024(01): 93-118 . 百度学术
2. 王晓峰,杨亚东. 基于生态演化的通用智能系统结构模型研究. 自动化学报. 2020(05): 1017-1030 . 本站查看
3. 张新良,冷正明,赵运基,付陈琳. 双目视觉伺服的4-DOF机械手臂运动控制. 仪表技术与传感器. 2019(01): 81-85 . 百度学术
其他类型引用(3)
-