Background Modeling of Infrared Image in Dynamic Scene With Gaussian Mixture Model in Compressed Sensing Domain
-
摘要: 针对动态场景下红外图像的背景模型构建问题,提出一种基于压缩感知(Compressed sensing,CS)域高斯混合模型(Gaussian mixture model,GMM)的背景建模方法.该方法不是对图像中的每个像素建立高斯混合模型,而是对图像局部区域的压缩感知测量值建立高斯混合模型.1)通过提取红外图像轮廓的角点特征,估计相邻帧图像间的相对运动参数以对图像进行校正与配准;2)将每帧图像网格化为适当数目的局部子图,利用序列图像构建每个局部子图的压缩感知域高斯混合背景模型;3)采用子空间学习训练稀疏字典,通过子空间追踪对可能含有目标的局部子图进行选择性稀疏重构;4)通过背景减除实现前景目标检测.以红外图像数据集CDnet2014和VIVID PETS2005进行实验验证,结果表明:该方法能建立有效的动态场景红外图像背景模型,对成像过程中所受到的场景动态变化、背景扰动等具有较强的鲁棒性,其召回率、精确率、F-measure等性能指标及处理速度较之于同类算法具有明显优势.Abstract: For the problem in background modeling of infrared image in dynamic scene, a new approach to background modeling based on Gaussian mixture model (GMM) in the compressed sensing (CS) domain is presented. The Gaussian mixture model is not for each pixel in the image but for the compression sensing measurement of local regions in the image. Firstly, correction and registration of images are carried out with the motion parameters between adjacent frames estimated by utilizing corner feature of image contour. Then, each frame in the infrared image sequence is meshed into an appropriate number of local sub-images, and the background model of each local sub-image is constructed with Gaussian mixture model in the compressed sensing domain. Furthermore, the local sub-images which may contain target are selectively reconstructed by employing subspace pursuit algorithm with sparse dictionary trained by the subspace learning method. Finally, the foreground targets are detected by background subtraction. Experiments on two datasets of infrared images, CDnet2014 and VIVID PETS2005, are conducted to verify the performance of the proposed algorithm. The results show that the proposed algorithm can establish efficient background model for infrared image in dynamic scene, and has strong robustness to dynamic changes of scene and background disturbance during imaging. The performance evaluations such as recall, precision and F-measure as well as processing speed have obvious advantages over the comparison algorithms.
-
相比于雷达探测方式, 红外探测具有被动接收、隐蔽性好、全天候工作、抗干扰能力强以及较好的烟尘雨雾穿透能力等优势.随着"全天候作战"、"精确打击"、"先敌发现、先敌开火、先敌摧毁"等现代战争需求的不断演变, 采用红外探测技术的红外搜索与跟踪系统(Infrared search and track system, IRST)、前视红外系统(Forward looking infrared system, FLIR)等被广泛应用于搜索、监视、侦察、预警、制导等军事领域.然而, 对大多数红外探测器而言, 一方面, 为了尽早地探测到目标, 以便留出尽量多的反应时间和作用距离, 往往要求探测距离尽量远.相对于数十千米的探测距离, 飞机、车辆等几十米到几米大小的目标在探测器像平面上所占的尺寸较小, 仅有几十、十几甚至几个像素.另一方面, 红外辐射在传输过程中受到大气的吸收、散射等衰减作用, 到达探测器的能量较微弱, 造成目标细节模糊、信噪比低, 甚至淹没在复杂的背景杂波中.此外, 红外探测器所在载体的运动、抖动及探测器自身的主动扫描、变焦等, 使得成像场景动态变化, 目标的大小、形状也不断变化, 还可能不时脱离和再次进入视场.因此, 对动态场景红外图像中的目标检测具有重要的军事价值, 但也面临极大的挑战.
红外图像的背景部分占大部分区域, 表现为连续分布, 而目标部分仅有少量像素, 表现为邻域不相关性, 且没有纹理等细节特征.利用红外序列图像进行背景建模, 将待检图像与背景图像做判别(或减除)操作以滤除背景杂波, 成为实现红外目标检测的有效方法之一.与可见光图像的背景减除所面临的挑战略有不同, 红外图像背景建模不受阴影的影响, 且光照变化的影响也转化为红外辐射强度变化的影响.
近年来, 对可见光图像等的背景建模方法主要有基于空域滤波的背景估计方法[1-3]、基于像素值分布的背景建模方法[4-9]、基于子空间表示的背景重建方法[10-13]等. Cao等[1]和Bae等[2]分别设计了二维最小均方滤波器(Two-dimensional least mean square, TDLMS), 通过分析和统计图像邻域相关性信息, 预测图像背景; Kim[3]针对海天交接等异构背景情况下的目标检测, 提出了采用双层背景去除滤波器实现目标信号增强及背景和水平线结构的去除. Stauffer等[4]将每个像素值的概率模型化为多个高斯分布的混合, 利用高斯混合模型(Gaussian mixture model, GMM)实现图像背景建模, 但存在运算量大、收敛速度慢等局限性; Lee[5]将全局静态保持因子替换为在每帧图像输入时为每个高斯函数选取自适应的学习率来提高收敛速度; Haines等[6]采取单像素分布建模和概率正则化两步实现基于Dirichlet过程高斯混合模型的背景建模方法, 并通过模型的连续更新学习应对场景变化; Elgammal等[7]将核函数引入到估计像素值分布的背景建模中, 利用最近几个样本中的像素值进行核密度估计(Kernel density estimation, KDE), 依据概率区分图像的前景和背景; Kim等[8]通过训练为每个像素建立一个存储一个或多个码字(Codeword)的码书(Codebook)以表示背景状态; Barnich等[9]采用为每个像素随机采样的策略构建背景估计模型, 提出一种称为视觉背景提取器(Visual background extractor, ViBe)的通用背景减除技术. Wang等[10]采用序列Karhunen-Loeve算法实现增量的子空间学习, 从而实现自适应的背景建模以应对场景动态变化; Seo等[11]提出了双向二维主成分分析技术(Two-directional two-dimensional principal component analysis, (2D)2PCA), 通过周期性地更新子空间表示实现场景自适应背景建模; He等[12]利用随机的子采样数据估计出背景图像的低秩子空间, 提出了Grassmannian鲁棒自适应子空间追踪算法(Grassmannian robust adaptive subspace tracking algorithm, GRASTA); Zhou等[13]利用连续序列图像的线性相关性构造低秩矩阵, 进而将运动目标检测转化为检测低秩矩阵中的离群点, 提出了低秩表示中检测邻近离群点算法(Detecting contiguous outliers in the low-rank representation, DECOLOR).
本文综合高斯混合模型和子空间表示两类图像背景建模方法的优势, 将压缩感知理论引入到基于高斯混合模型的背景建模过程中, 不再对红外图像中的每个像素建立高斯混合模型, 而是对红外图像中局部区域的压缩感知测量值建立高斯混合模型; 通过将红外序列图像逐帧网格化后, 为各局部子图建立压缩感知域高斯混合背景模型, 并在目标检测时只对可能含有目标的局部子图进行选择性稀疏重构, 通过对应局部子图的背景减除实现前景目标检测; 对于动态场景下相邻帧图像的坐标系统不一致问题, 采用投影变换模型估计相对运动参数, 在图像校正与配准的基础上建立背景模型.
1. 数学模型
1.1 压缩感知理论
压缩感知(Compressed sensing, CS)理论认为只要信号是稀疏的或在某个变换域上稀疏, 便能用一个与稀疏基不相关的观测矩阵将高维信号投影到一个低维空间上, 并且可以完整地重构出原始信号[14].对图像的压缩感知过程就是将高维空间的图像数据向量化为${\pmb x}=[x_{1}, x_{2}, \cdots, x_{n}]^{\rm T}\in {\bf R}^{n}$, 向一个测量矩阵$\Phi \in {\bf R}^{m \times n}$ $(m\ll n)$进行投影, 得到低维空间的压缩感知测量向量${\mathit{\boldsymbol y}}=[y_{1}, y_{2}, \cdots, y_{m}]^{\rm T}\in {\bf R}^{m}$, 该过程可以表示为
$ {\mathit{\boldsymbol y}}=\Phi {\mathit{\boldsymbol x}} $
(1) 然而, 图像本身可能不是稀疏的, 但在许多稀疏基(傅里叶基、小波基等正交基或过完备的稀疏字典)上是可以被稀疏表示的.假设存在一组稀疏基$\Psi$ $=[{\mathit{\boldsymbol \psi}}_{1}$, ${\mathit{\boldsymbol \psi}}_{2}, \cdots , {\mathit{\boldsymbol \psi}}_{q}]\in {\bf R}^{n \times q}$能有效地对向量化图像数据${\mathit{\boldsymbol x}}$进行稀疏表示, 则有
$ \mathit{\boldsymbol x} = \sum\limits_{i = 1}^q {{{\mathit{\boldsymbol{\psi }}}_i}} {\theta _i} = \Psi \Theta $
(2) 其中, $\Theta=[\theta_{1}, \theta_{2}, \cdots, \theta_{q}]^{\rm T}\in {\bf R}^{q}$是原始信号在稀疏基$\Psi$上的稀疏系数.那么, 压缩感知的测量过程可以表示为
$ {\mathit{\boldsymbol y}}=\Phi\Psi\Theta=A\Theta $
(3) 其中, $A=\Phi\Psi$被称为感知矩阵.它要满足一定的约束等距性(Restricted isometry property, RIP)[15]条件, 才能通过求解优化问题将原始信号从压缩感知信号中高概率的重构出来, 而感知矩阵的约束等距性的等价条件是测量矩阵$\Phi$与稀疏基$\Psi$不相关[16].
随机投影(Random projection, RP)作为一种非自适应线性测量方式, 能将高维信号投影到低维空间上, 且保持可重构原始信号的足够信息.该过程无需获取数据的任何先验知识, 可以随机选择独立于数据的测量矩阵, 且无需随着数据的变化而改变, 已被广泛地应用于图像检索[17]、数据压缩[18]和纹理分类[19-21]等领域.随机投影的理论依据主要是Johnson-Lindenstrauss引理[22]:对于任意$0<\varepsilon<1$与正整数$d$, 当$m$为满足$m\geq$ $4(\varepsilon^{2}/2$ $-$ $\varepsilon^{3}/3)^{-1}\ln{d}$的正整数时, 对任意${\bf R}^{n}$中$d$个点构成的集合${ P}$, 存在$f$: ${\bf R}^{n} \rightarrow {\bf R}^{m}$, 使得任意$u$, $v$ $\in$ ${P}$有: $(1-\varepsilon)\|u-v\|^{2}\leq \|f(u)-f(v)\|^{2}\leq (1+$ $\varepsilon)\|u$ $-$ $v\|^{2}$.该引理表明, $n$维欧氏空间中的多个点组成的集合能够被投影到$m$维空间上, 且能保持这些点之间的距离基本不变.
由于高斯随机测量矩阵中的每一个元素服从独立同分布, 且与绝大多数正交稀疏基不相关, 因此, 本文选取高斯随机测量矩阵作为压缩感知随机投影过程的测量矩阵, 即
$ \Phi=[{\mathit{\boldsymbol \phi}}_{1}, {\mathit{\boldsymbol \phi}}_{2}, \cdots, {\mathit{\boldsymbol \phi}}_{m}]^{\rm T} $
(4) 其中, ${\mathit{\boldsymbol \phi}}_{i}\in {\bf R}^{n}$, 且${\mathit{\boldsymbol \phi}}_{i}$为$n$维正态分布${\rm N}(0, {\pmb I})$.
1.2 压缩感知域高斯混合模型
当变量$x$服从高斯分布时, 其概率密度函数定义为
$ {\rm N}(x;\mu, \sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp{\left[-\frac{ (x-\mu)^{2}}{2\sigma^{2}}\right]} $
(5) 其中, $\mu$是均值, $\sigma^{2}$是方差.然而, 高斯分布是一个单模态的分布, 不能对多模态的数据分布提供一个较好的近似.但是, 以概率论的中心极限定理为理论基础的高斯混合模型被认为是可以拟合任意形状的概率分布, 即将数据看作是从多个高斯分布中生成出来的.每个高斯混合模型由多个高斯分布组成, 这些高斯分布线性加在一起就组成了高斯混合模型的概率密度函数
$ p(x)=\sum\limits_{i=1}^{s}{p(i)p(x|i)}=\sum\limits_{i=1}^{s}{\omega_{i}{\rm N}(x;\mu_{i}, \sigma_{i})} $
(6) 其中, $s$是高斯分布的个数, $\omega_{i}$是第$i$个高斯分布的权值, $\mu_{i}$和$\sigma_{i}^{2}$分别是第$i$个高斯分布的均值和方差.一般而言, 高斯混合模型中高斯分布的个数取3 $\sim$ 5个[4], 且假定相互独立.压缩感知测量值作为对高维数据向量的随机投影, 其概率分布必然也可以用高斯混合模型来拟合[23].
传统的基于高斯混合模型的图像背景建模, 就是为每个像素点确定多个高斯分布的权值、均值和方差参数的过程[24].然而, 该方法需要为每个像素建立多个高斯分布, 并在新图像输入时更新每个像素对应的每个高斯分布的参数值, 存在运算量大、收敛速度慢等局限性.本文采用低维空间的压缩感知测量向量${\mathit{\boldsymbol y}}=[y_{1}, y_{2}, \cdots, y_{m}]^{\rm T}$代替高维空间的数据向量${\pmb x}=[x_{1}, x_{2}, \cdots, x_{n}]^{\rm T}$, 并为每个测量值建立高斯混合模型, 能在保证背景建模效果的条件下显著地降低运算量.
当$t$时刻有新图像输入时, 先用高斯随机测量矩阵对向量化图像做压缩感知, 然后逐个分析测量值与$s$个高斯分布的匹配程度, 并按下述判别法则选择匹配的高斯分布
$ |y_{t}-\mu_{i, t-1}|<\xi \sigma_{i, t-1}, \quad i=1, 2, \cdots, s $
(7) 其中, $\xi$为一常数.当存在匹配的高斯分布时, 利用当前压缩感知测量值$y_{t}$对该匹配的高斯分布的均值和方差参数进行更新
$ \mu_{t}=(1-\beta) \mu_{t-1}+\beta y_{t} $
(8) $ \sigma_{t}^{2}=(1-\beta) \sigma_{t-1}^{2}+\beta (y_{t}-\mu_{t})^{2} $
(9) 其中, $\beta \in (0, 1)$为均值和方差的学习率.同时, 对全部$s$个高斯分布的权值进行更新
$ \omega_{i, t}=(1- (-1)^{\tau}\alpha) \omega_{i, t-1} $
(10) 其中, $\alpha \in (0, 1)$为权值的学习率, $\tau \in \{0, 1\}$对于匹配的高斯分布取1, 不匹配的取0.若都不匹配, 则更新权值最小的高斯分布的均值和方差参数, 并对所有权值作归一化处理, 使得$\sum_{i=1}^{s}{\omega_{i}}=1$.
此外, 由于背景建模所用的数据是图像的压缩感知测量值而不是图像的像素灰度, 而通过随机投影得到的压缩感知测量值服从高斯分布, 于是采用高斯混合模型来建立图像背景模型在理论上是可行的.但是, Codebook算法通过为每个像素建立多个可能的取值范围来表示背景模型, ViBe算法通过随机采样对应像素周边的像素构成样本集来描述背景模型, 这些算法均利用背景模型来判定图像像素为背景还是前景, 而对图像压缩感知测量值的判定无效, 而且无法从这些算法建立的背景模型中恢复出背景图像, 因此, 这些算法不适用于以图像的压缩感知测量值代替图像的像素灰度来建立背景模型.
2. 局部图像的背景建模与选择性稀疏重构
2.1 网格化图像的局部背景建模
由于红外图像的背景往往表现为邻域相似的大面积连续分布, 那么在整幅图像上实现背景建模就忽视了大量可用邻域信息, 而且会因为维数过高而造成计算量大.在本文中, 利用网格将图像划分成若干个相同大小的局部子图, 然后对每个局部子图进行背景建模, 通过拼接得到整幅图像的背景模型.该方法不但能降低背景重构过程的计算量, 而且适用于采用并行计算的工程实现.
将一幅红外图像用矩阵${D}$表示, 那么将图像网格化成$r\times c$个局部子图的过程可以表示为
$ {D}= \begin{bmatrix} D_{0, 0} &D_{0, 1} &\cdots&D_{0, c-1} \\ D_{1, 0} &D_{1, 1} &\cdots&D_{1, c-1} \\ \vdots &\vdots &\ddots& \vdots \\ D_{r-1, 0}&D_{r-1, 1}&\cdots&D_{r-1, c-1} \\ \end{bmatrix} $
(11) 其中, $D_{i, j}$为第$i$行$j$列的局部子图.
局部图像的压缩感知域高斯混合背景建模过程如图 1所示.
利用序列图像对每个局部子图构建压缩感知域高斯混合背景模型时, 序列图像的相同位置的局部子图必须采用相同的测量矩阵, 不同位置的局部子图可以采用不同的测量矩阵.在本文中, 所有图像的所有局部子图均采用同一个高斯随机测量矩阵以简化算法复杂度.
2.2 基于子空间的选择性稀疏重构
为了尽可能完美地从背景模型中恢复出背景图像, 必须找到一组能使图像尽可能稀疏表示的稀疏基, 这也是实现压缩感知的理论基础.通常使用的完备正交基(例如傅里叶基、小波基)不含冗余、基底间线性独立.采用这种完备正交基的图像稀疏表示简单且唯一, 但往往不够稀疏.稀疏字典是一种由非正交基底组成的超完备的稀疏基, 能针对具体类型的图像自适应地选择原子, 使图像在该基上的表示尽可能稀疏.那么, 局部子图数据向量${\pmb x}$便可以表示成稀疏字典$\Psi=[{\mathit{\boldsymbol \psi}}_{1}, {\mathit{\boldsymbol \psi}}_{2}, \cdots , {\mathit{\boldsymbol \psi}}_{q}]\in {\bf R}^{n \times q}$ $(q\gg n)$的原子线性组合的形式, 对应的稀疏系数为$\Theta=$ $[\theta_{1}$, $\theta_{2}, \cdots, \theta_{q}]^{\rm T}\in {\bf R}^{q}$.
子空间学习是构造稀疏字典的有效方法之一.通过迭代地进行训练样本聚类和类内子空间学习的方法实现子空间辨识, 能得到较好的实现图像的尽可能稀疏表示的稀疏字典[25].该方法包括子空间辨识(步骤1 $\sim$ 7)和子空间优化(步骤8 $\sim$ 12)两个阶段, 每个阶段都迭代的进行训练样本聚类和子空间学习, 具体实现步骤如下:
输入.归一化训练样本集合$Z \in {\bf R}^{n \times l}$, 稀疏度$k$, 容忍误差$\varepsilon_{1}$, $\varepsilon_{2}$, 样本数阈值$th$.
输出.稀疏字典$\Psi$.
步骤1.初始化计数器$t=0$、稀疏字典$\Psi =Z$.
步骤2.若训练样本集合$Z$非空, 则执行步骤3 $\sim$ 7, 否则跳转到步骤8.
步骤3. $t=t+1$, 从训练样本集合$Z$中取出第一个样本${\mathit{\boldsymbol x}}$, 并从$Z$中剔除该样本.
步骤4.采用正交最小二乘法从稀疏字典$\Psi$中找出最能表达${\mathit{\boldsymbol x}}$的前$k$个原子, 构成矩阵$G$.
步骤5.对$G$奇异值分解, 使得$U \Lambda V^{\rm T}=G$, 并由$U$中的前$k$个向量构成子空间$E_{t}$.
步骤6.由$Z$中用子空间$E_{t}$稀疏表示时误差小于容忍误差$\varepsilon_{1}$的训练样本与${\mathit{\boldsymbol x}}$构成聚类$C_{t}$, 并从$Z$中剔除这些样本.
步骤7.跳转到步骤2.
步骤8.统计样本数大于阈值$th$的聚类, 由对应的子空间构成优化阶段的初始子空间集合, 并重置训练样本集合$Z$.
步骤9.利用子空间集合对训练样本集合$Z$中的所有样本重新聚类.
步骤10.分别对各个聚类内训练样本构成的矩阵$Q$做奇异值分解, 使得, 并由$U$中的前$l$个向量构成新的子空间.
步骤11.若所有训练样本与其在子空间上的稀疏表示之间的误差之和大于容忍误差$\varepsilon_{2}$, 则执行步骤9 $\sim$ 11, 否则跳转到步骤12.
步骤12.由所有的子空间组合成稀疏字典$\Psi$.
一个通过子空间学习训练得到的红外图像稀疏字典示例如图 2所示.
此外, 当大量新样本输入时, 事先训练好的稀疏字典可能无法较好地稀疏表示图像, 需要采用增量学习的方式在线更新稀疏字典.对新样本进行辨识, 若隶属于某个聚类, 则字典不更新; 否则, 构成一个新聚类, 并学习得到新的子空间加入到稀疏字典中.
由于采用对压缩感知测量值建立高斯混合背景模型, 那么从背景模型中恢复出背景图像, 就要对压缩感知测量值进行稀疏重构, 即从已知测量矩阵$\Phi$的$m$次非相干线性投影(局部子图的压缩感知测量向量)中重构出$n$ $(n \gg m)$维原始信号(局部子图的数据向量), 这本质上是一个病态求逆的问题[26].首先, 利用重构算法求解感知矩阵$A$感知到的压缩感知测量向量${\mathit{\boldsymbol y}}$对应的尽量稀疏的稀疏系数$\Theta$.求解最小化$\ell_{0}$范数的贪婪算法是实现稀疏重构的有效方法之一, 即求解优化问题
$ \hat{\Theta}=\arg\min\limits_{\Theta}{\|\Theta\|_{0}}, \quad {\rm s.t.} \ {\mathit{\boldsymbol y}}=A\Theta $
(12) 其中, $\|\cdot\|_{0}$是向量的$\ell_{0}$范数, 即向量中非零元素的个数.然后, 利用训练得到的稀疏字典重构局部子图数据向量$\hat{\pmb x}$, 表示为
$ \hat{\pmb x}=\Psi\hat{\Theta} $
(13) 在本文中, 子空间追踪(Subspace pursuit, SP)算法[27]被用来求解稀疏系数$\Theta$.该算法弥补了匹配追踪类算法一旦选定某原子就一直保持而不能"回溯", 可能陷入局部最优解的不足, 对于稀疏信号的重构效果接近于线性规划(Linear programming, LP)优化技术, 但处理速度较之更快.
由于采用网格化图像的局部背景建模, 那么背景的稀疏重构也是对局部子图的稀疏重构.在利用背景模型进行前景目标检测时, 如果待检图像局部子图的压缩感知测量值与背景模型的高斯混合分布相匹配, 即待检图像对应的局部子图不含有目标, 那么就不需要对该局部子图稀疏重构, 只需有选择性地对可能含有目标的局部子图稀疏重构, 之后由待检图像的局部子图$D_{i, j}$减除背景图像的局部子图$D_{i, j}^{b}$, 得到前景图像的局部子图$D_{i, j}^{t}$, 即
$ D_{i, j}^{t}= \begin{cases} D_{i, j}-D_{i, j}^{b},&\text{若$S_{i, j} \geq m\delta$} \\ {\bf 0},&\text{其他} \end{cases} $
(14) 其中, $S_{i, j}$表示第$i$行第$j$列局部子图的$m$个测量值中满足式(7)的个数, $\delta \in (0, 1]$为判定该局部子图含有目标的阈值系数.
3. 动态场景红外图像的背景建模策略与实现
3.1 运动参数估计及图像校正与配准
对于固定场景的背景建模, 直接将序列图像以相同的划分方式网格化, 并逐帧依次为每个局部子图建立背景模型.对于动态场景的背景建模, 由于场景变化造成图像坐标与物理场景坐标不一致, 不能直接进行网格化, 需要先估计图像间的运动参数, 然后校正图像坐标并向基准图像的网格进行精确配准.无论是固定场景的序列图像, 还是校正后的动态场景的序列图像, 局部背景建模过程都是操作配准了的对应网格的局部子图.本文通过提取红外图像轮廓上的角点特征, 采用投影变换模型估计相邻两帧图像间的相对运动参数, 实现相对于基准图像的图像校正与配准.
由于红外图像没有纹理、细节模糊、信噪比低, 采用传统的基于灰度信息的图像配准无法很好地估计出运动参数, 而直接在灰度图像上提取的特征点往往不准确, 造成匹配错误.因此, 采用在Canny边缘检测算子获得的图像轮廓上提取角点特征[28], 能极大地提高相邻两帧图像间特征点对的匹配准确率.
所有轮廓曲线上的局部极大值被认为是候选角点.通过剔除部分虚假角点, 最终确定可以用于运动参数估计的特征点. 图 3给出了一帧红外图像及在其图像轮廓上提取的角点特征.
利用获得的图像角点特征, 建立连续两帧图像间的特征点对应关系, 通过求解两个坐标系之间的单应性关系, 估计出图像间的相对运动参数.考虑到移动载体上的红外探测器存在平移、旋转、变焦、扫描等运动, 投影变换模型较之于仿射变换模型能更好地表达探测器的相对运动.对于给定两帧连续图像$I_{t-1}(x, y)$和$I_{t}(x, y)$, 估计图像间的相对运动参数的目的就是将图像$I_{t}(x, y)$进行校正, 使之像素坐标统一到图像$I_{t-1}(x, y)$的坐标系上.假设$(x, y)$和$(x{'}, y{'})$是图像$I_{t}(x, y)$校正前后像素点的坐标, 那么在投影变换模型下存在如下关系:
$ x'=\frac{h_{0}x+h_{1}y+h_{2}}{h_{6}x+h_{7}y+1}, \quad y'=\frac{h_{3}x+h_{4}y+h_{5}}{h_{6}x+h_{7}y+1} $
(15) 令$f=h_{6}x+h_{7}y+1$, 上述关系可写为矩阵形式
$ \begin{bmatrix} x{'} \\ y{'} \\ 1 \\ \end{bmatrix} = \frac{1}{f} \begin{bmatrix} h_{0}&h_{1}&h_{2} \\ h_{3}&h_{4}&h_{5} \\ h_{6}&h_{7}&1 \\ \end{bmatrix} \begin{bmatrix} x \\ y \\ 1 \\ \end{bmatrix} $
(16) 令${\mathit{\boldsymbol p}}_{t}=(x, y, 1)^{\rm T}$, ${\mathit{\boldsymbol p}}_{t-1}=(x{'}, y{'}, 1)^{\rm T}$, 则有
$ {\mathit{\boldsymbol p}}_{t-1}=H_{(t-1, t)}{\mathit{\boldsymbol p}}_{t} $
(17) 因此, 只要在图像$I_{t-1}(x, y)$和$I_{t}(x, y)$中找到至少4组相配对的角点特征, 就能利用RANSAC算法估计出投影变换模型中的8个相对运动参数[29]. 图 4给出了相邻两帧图像及在叠加的图像轮廓上标注的配对的角点特征, 其中, 用低灰度值表示前一帧图像轮廓, 用高灰度值表示当前帧图像轮廓.
若以第1帧图像的坐标系为基准, 可以将后续的所有图像均通过相对几何校正, 统一像素坐标到基准坐标系上, 即有
$ {\mathit{\boldsymbol p}}_{1}=H_{(1, t)}{\mathit{\boldsymbol p}}_{t} $
(18) 其中,
$ H_{(1, t)}=H_{(1, 2)}H_{(2, 3)} \cdots H_{(t-2, t-1)}H_{(t-1, t)} $
(19) 然而, 由于累积误差的存在, 使得所有图像均以第1帧图像为基准并向其校正是不合适的.本文采用一定长度时域滑窗的方式, 以滑窗内的第1帧图像为相对基准图像, 将滑窗内的后续图像均向其进行几何校正.滑窗的长度可以根据红外探测器所在载体的运动速度来确定, 运动较慢, 可以选用较长的滑窗, 反之, 滑窗长度应设置为较短.
在图像的相对几何校正过程中, 校正后图像的像素坐标$(x', y')$可能不是整数, 且分布是不规则的, 会出现像素挤压、疏密不均等畸变现象, 因此需要对不规则的畸变图像通过灰度内插生成规则的栅格图像.本文采用间接法对畸变图像进行几何校正, 即从校正后图像的目标栅格坐标出发, 反算出其在校正前图像中的坐标, 通过双线性灰度插值计算校正后图像的灰度, 如图 5所示.
双线性灰度插值即通过在两个方向上分别进行一次线性插值, 实现利用校正前图像的像素灰度得到校正后图像的像素灰度.对于校正后图像坐标为$(x, y)$的像素, 其灰度$f(x, y)$可以由校正前图像坐标为$(x_{1}, y_{1})$、$(x_{1}, y_{2})$、$(x_{2}, y_{1})$、$(x_{2}, y_{2})$四个像素的灰度插值得到, 即
$ f(x, y_{1}) \approx \frac{x_{2}-x}{x_{2}-x_{1}}f(x_{1}, y_{1}) + \frac{x-x_{1}}{x_{2}-x_{1}}f(x_{2}, y_{1}) $
(20) $ f(x, y_{2}) \approx \frac{x_{2}-x}{x_{2}-x_{1}}f(x_{1}, y_{2}) + \frac{x-x_{1}}{x_{2}-x_{1}}f(x_{2}, y_{2}) $
(21) $ f(x, y) \approx \frac{y_{2}-y}{y_{2}-y_{1}}f(x, y_{1}) + \frac{y-y_{1}}{y_{2}-y_{1}}f(x, y_{2}) $
(22) 最后, 将校正后图像向基准图像的网格进行精确配准, 对应网格的局部子图用于背景建模, 而没有充满局部网格区域的局部子图不能用于背景建模.
3.2 背景建模方案集成与算法实现
综合前述分析, 动态场景红外图像的压缩感知域高斯混合背景建模过程分为背景模型构建和选择性稀疏重构两部分.其中, 背景模型构建是在对红外序列图像进行投影变换模型下的运动参数估计及图像校正与配准的基础上, 对网格化图像的各局部子图向量化并进行压缩感知, 进而实现压缩感知测量值的高斯混合模型构建; 选择性稀疏重构是在分析待检图像各局部子图的压缩感知测量值是否与背景的高斯混合分布相匹配, 即判断各局部子图是否含有目标的基础上, 利用子空间学习训练得到的稀疏字典以子空间追踪法对可能含有目标的局部子图进行选择性稀疏重构.最后, 通过对待检图像与背景图像的逐个局部子图的减除操作实现前景目标的检测.因此, 动态场景红外图像的压缩感知域高斯混合背景建模及目标检测流程如图 6所示.
在具体的应用场合中, 红外探测器获取的图像序列对应的是固定场景还是动态场景往往事先已知, 那么对于动态场景的判断可以忽略而采用人为设置; 而在无法预知是否为动态场景的情况下, 完全可以均视为动态场景, 即将固定场景作为动态场景的特例来处理, 同时能有效排除探测器抖动等带来的干扰.
采用背景建模方法进行红外序列图像中的前景目标检测, 最终是通过原图像与建模得到的背景图像的减除操作来实现, 因此, 建立的背景模型的好坏决定了前景目标检测效果的优劣.为了优化算法的性能, 本文提出的背景建模方法在前景目标检测过程中从两个方面不断地在线学习更新: 1)采用增量学习法不断更新稀疏字典, 以降低含有目标局部子图的重构误差; 2)将不含有目标的局部子图用于背景模型的不断更新, 使得背景模型能适应场景红外辐射强度受到环境温度影响带来的动态变化.
本文提出的背景建模方法既从图像校正后的精确配准和增量学习法稀疏字典两个方面考虑提高背景模型的重构精度, 又从局部子图的压缩感知和选择性稀疏重构两个方面考虑降低算法计算量.因此, 利用本文提出的压缩感知域高斯混合背景模型能高效地实现前景目标检测, 具体实现步骤如下:
输入.红外图像序列$I_{\rm seq}$, 滑窗长度$l$, 网格划分行列数$r$, $c$, 测量矩阵$\Phi$, 高斯分布个数$s$, 参数学习率$\alpha$, $\beta$, 最大累积重构误差$\varepsilon_{\max}$.
输出.前景图像序列$T_{\rm seq}$.
步骤1.初始化稀疏字典$\Psi=[\ ]$, 累积重构误差$\varepsilon_{\rm sum}=0$.
步骤2. For $i=1$ to ${\rm length}(I_{\rm seq})$
步骤3.取第$i$到$i+l-1$帧为待处理序列图像.
步骤4. If序列图像属于动态场景
步骤5.提取序列内各图像轮廓的角点特征.
步骤6.估计两两相邻帧间的相对运动参数.
步骤7.以第$i$帧图像为基准校正图像.
步骤8. End If.
步骤9. If $\Psi==[\;]$ or $\varepsilon_{\rm sum}>\varepsilon_{\max}$
步骤10.增量学习法更新稀疏字典$\Psi$.
步骤11.重置累积重构误差$\varepsilon_{\rm sum}=0$.
步骤12. End If.
步骤13.网格化待检(校正后)图像并精确配准.
步骤14.对所有局部子图向量化后压缩感知.
步骤15.对压缩感知测量值构建高斯混合模型.
步骤16. For $j=i$ to $i+l-1$
步骤17.判断第$i$帧待检(校正后)图像的各局部子图是否含有目标.
步骤18.若某局部子图含有目标, 稀疏重构该局部子图, 并将重构误差累积到$\varepsilon_{\rm sum}$.
步骤19.若某局部子图不含有目标, 更新该局部子图对应的高斯混合模型.
步骤20.对待检(校正后)图像与背景图像的逐个局部子图的减除操作得到前景目标图像.
步骤21. End For.
步骤22. $i=i+l$.
步骤23. End For.
4. 实验验证与比较分析
为了验证本文算法的性能, 采用两组固定场景的红外图像序列和两组动态场景的红外图像序列, 分别验证并分析本文算法在固定场景和动态场景条件下的背景建模效果和性能.其中, 固定场景的两组红外图像序列均取自CDnet2014数据集1, 采用远红外探测器平视拍摄的公园里步行的人(Park)和湖边准备划船的人(Lakeside), 图像分辨率分别为352像素$\times$288像素和320像素$\times$ 240像素[30].动态场景的两组红外图像序列均取自VIVID PETS2005数据集2, 采用机载红外探测器俯视拍摄的公路上行驶的车辆(Pktest01, Pktest03), 图像分辨率均为320像素$\times$ 256像素[31].
1http://wordpress-jodoin.dmi.usherb.ca/
2http://vision.cse.psu.edu/data/vividEval/
对所有测试数据集, 将本文算法与GMM算法[4]、KDE算法[7]、Codebook算法[8]、ViBe算法[9]、GRASTA算法[12]和DECOLOR算法[13]等六个典型背景建模算法进行性能比较.所有算法的实验环境均为Intel Core i5-5200 U双核处理器, 2.2 GHz主频, 8 GB内存, Windows 10操作系统, 本文算法的开发平台为MATLAB R2012a.
为了更好地评价背景建模方法的性能, 对测试图像与背景图像做判别(或减除)操作后的前景目标图像进行二值化阈值分割, 以得到的掩膜图像为评价对象, 采用像素级分析方法, 统计掩膜图像中的前景目标像素和背景像素被正确和错误检测的个数.不妨以前景目标像素为正, 背景像素为负, 令被正确检测为前景目标像素的个数为$tp$, 被错误检测为前景目标像素的个数为$fp$; 被正确检测为背景像素的个数为$tn$, 被错误检测为背景像素的个数为$fn$.那么, 选用召回率Recall、精确率Precision及二者的调和平均值F-measure作为算法性能的评价指标[32], 其中, 召回率表示被正确检测为前景目标像素的个数占所有前景目标像素的个数的比例, 精确率表示被正确检测为前景目标像素的个数占所有被检测为前景目标像素的个数的比例, 它们的计算公式分别为
$ {\rm Recall}=\frac{tp}{tp+fn} $
(23) $ {\rm Precision}=\frac{tp}{tp+fp} $
(24) $ \mbox{F-measure}=\frac{2 \times {\rm Recall} \times {\rm Precision}}{\rm Recall+Precision} $
(25) 4.1 固定场景的实验验证与比较分析
采用CDnet2014数据集中的两组固定场景(Park, Lakeside)的红外图像序列, 对六个典型背景建模算法和本文算法的性能进行验证.在本实验中, 从Park场景的图像序列中选取有Groundtruth的第250 $\sim$ 599帧, 共350帧图像作为本次实验的图像序列, 从Lakeside场景的图像序列中选取有Groundtruth的第1 001 $\sim$ 2 000帧, 共1 000帧图像作为本次实验的图像序列, 此外, 统计分析过程中, 将两个数据集的Groundtruth中被标记为unknown的像素看作背景像素.
在本实验中, GMM算法选用高斯分布个数为3, 均值和方差的学习率为0.1, 权值学习率为0.1, 背景的权值阈值为0.75; KDE算法选用Sobral在BGSLibrary[33]中使用的参数; Codebook算法和ViBe算法选用作者提供的默认参数; GRASTA算法选用的训练图像帧数为20帧, 最大迭代次数为20; DECOLOR算法选用作者提供的默认参数; 本文算法选用高斯分布个数$s=3$, 均值和方差的学习率$\beta=0.2$, 权值学习率$\alpha=0.2$, 压缩感知率为0.5, 即$m=0.5n$, 重构稀疏度$k=0.5q$.此外, 对两组固定场景(Park, Lakeside)分别选用前30帧和20帧图像训练高斯混合模型的均值、方差和权值, 图像网格化划分的局部子图大小分别为32像素$ \times$ 32像素和32像素$ \times$ 24像素.
通过在两组固定场景图像序列下的实验验证, 统计了六个典型背景建模算法和本文算法的平均召回率和精确率, 结果如图 7所示.
在Park场景中, 前景目标的行人的尺寸相对较大, 但部分区域的目标像素灰度值与背景像素灰度值很接近, 造成采用本文算法与六个典型算法得到的前景掩膜图像中前景目标像素的召回率普遍不高.即便DECOLOR算法和GMM算法的召回率相对较高, 但却有较低的精确率, 即这两个算法将大量像素归类为前景目标像素, 以牺牲精确率的方式换取相对较高的召回率.本文算法在保证较高的精确率的同时, 具有相对较高的召回率.在Lakeside场景中, 前景目标在背景中不显著, 且前景目标像素灰度值与背景像素灰度值很接近, 使得采用六个典型算法得到的前景掩膜图像中前景目标像素的召回率很低, 相对而言, 采用本文算法得到的前景掩膜图像中目标像素的召回率相对较高, 且精确率与六个典型算法的结果相差不大.
为了综合召回率和精确率两个指标来评价和比较本文算法与六个典型算法的性能, 统计计算了在两组固定场景图像序列下采用各算法得到的前景掩膜图像中前景目标像素的召回率和精确率的调和平均值F-measure, 如表 1所示.从表 1可以看出, 在Park场景中, 采用本文算法得到的前景掩膜图像的F-measure值仅比DECOLOR算法差, 这是由于DECOLOR算法将目标所在区域附近全部看作前景目标, 使得召回率接近于1, 而精确率却与其他算法相差不大.在Lakeside场景中, 本文算法能有效地检测出前景目标, 使得F-measure值具有显著的优势, 而六个典型算法没有完整检测出前景目标, 故F-measure值普遍较低.因此, 本文算法在两组固定场景图像序列下的召回率和精确率的调和平均值F-measure方面也表现优异.
表 1 固定场景图像序列下各算法的F-measure指标Table 1 The F-measure index of different algorithms in fixed scene image sequencesGMM KDE Codebook ViBe GRASTA DECOLOR Ours CDnet2014 park 0.6429 0.3761 0.3379 0.5335 0.4645 0.8098 0.6607 CDnet2014 lakeside 0.2561 0.0185 0.1943 0.2 0.0238 0.224 0.7848 直观起见, 分别从Park场景和Lakeside场景的红外图像序列中抽取六帧代表性图像, 给出了图像对应的Groundtruth和采用六个典型算法与本文算法得到的前景掩膜图像, 如图 8和图 9所示.从图 8和图 9可以看出, 在Park场景中, 各算法均能检测出前景目标, 其中, DECOLOR算法和GMM算法将大量的背景像素误认为是前景目标像素, 其余四个典型算法均有大量前景目标像素没被有效地检测出来.而本文算法不但能有效地检测出绝大多数的前景目标像素, 而且引入较少的虚警像素.在Lakeside场景中, 六个典型算法均有大量前景目标像素没被有效地检测出来, 而本文算法以较低的虚警率检测出了绝大多数的前景目标像素, 使得到的前景掩膜图像与Groundtruth非常接近.
此外, 为了分析本文算法处理固定场景红外图像序列的速度性能, 对算法执行压缩感知、模型构建、稀疏重构和背景减除环节处理Park场景和Lakeside场景图像序列中一帧图像的平均时间消耗进行了统计, 如表 2所示.同时, 对GMM算法在背景建模和前景像素判别两个环节处理一帧图像的平均时间消耗进行了统计, 其中, 对Park场景的背景建模和前景像素判别过程的平均时间消耗分别为5.0381 s和0.1482 s, 对Lakeside场景的背景建模和前景像素判别过程的平均时间消耗分别为3.4989 s和0.0891 s.不难看出, 本文采用压缩感知测量值建立高斯混合模型和选择性稀疏重构策略能显著减少运算量, 较之于逐个像素建模与判别的传统高斯混合模型策略, 本文算法在处理速度方面得到极大的提升.
表 2 处理固定场景中一帧红外图像的平均时间消耗(s)Table 2 The average time consumption of each infrared image in fixed scenes (s)压缩感知 模型构建 稀疏重构 背景减除 CDnet2014 park 0.0065 0.1352 0.4938 0.0003 CDnet2014 lakeside 0.0043 0.0827 0.5594 0.0003 实验结果表明, 对局部图像压缩感知测量值建立高斯混合模型的方法切实可行且非常高效, 在前景目标与背景灰度很接近的情况下依然具有较高的召回率, 体现出较高的灵敏度, 带来较强的目标检测能力.同时, 采用局部子图的选择性稀疏重构策略能显著减少虚警像素, 提高精确率, 在不含有目标的区域具有较强的抗背景扰动能力, 而在可能含有目标的局部区域以牺牲精确率为代价提高召回率.较之于六个典型算法, 本文算法建立的背景模型对红外图像序列中的前景目标检测具有显著的优势.
4.2 动态场景的实验验证与比较分析
采用VIVID PETS2005数据集中的两组动态场景(Pktest01, Pktest03)的红外图像序列, 对六个典型背景建模算法和本文算法进行验证.由于VIVID PETS2005数据集是面向图像序列中的对某个车辆目标的跟踪设计的, 而且不是逐帧给出目标所在区域范围, 而是以每10帧为一个关键帧的方式给出.因此, 在本实验中以每10帧取一帧的方式从Pktest01场景图像序列的1 460帧图像中选取146帧图像作为本次实验的图像序列, 从Pktest03场景图像序列的2 011帧图像中选取202帧图像作为本次实验的图像序列.此外, 采用人工标注的方式生成了Pktest01场景和Pktest03场景的本次实验用图像序列的Groundtruth.
在本实验中, GMM算法、KDE算法、Code- book算法和ViBe算法选用的参数均与固定场景实验中一致; GRASTA算法选用的训练图像帧数为10帧, 最大迭代次数为30; DECOLOR算法与本文算法均采用时域滑窗方式, 根据两组红外图像序列的场景变化快慢, 对Pktest01场景选用时域滑窗长度为5帧, 对Pktest03场景选用时域滑窗长度为10帧; 本文算法选用高斯分布个数$s=3$, 均值和方差的学习率$\beta=0.2$, 权值学习率$\alpha=0.2$, 压缩感知率为0.5, 即$m=0.5n$, 重构稀疏度$k=0.2q$.此外, 选用时域滑窗中的图像训练高斯混合模型的均值、方差和权值, 图像网格化划分的局部子图大小均为32像素$\times $32像素.
通过实验统计在两组动态场景图像序列下六个典型背景建模算法和本文算法的平均召回率和精确率, 如图 10所示.
由于GMM算法、KDE算法、Codebook算法和ViBe算法所实现的背景建模都是基于对序列图像中同一坐标位置像素的长时间观测, 对于动态场景的图像序列, 图像坐标系与场景坐标系的对应关系不断改变, 无法进行持续的背景建模, 以致于利用这些算法所建立的背景模型将大量的背景像素误认为是前景目标像素, 所以召回率较高而精确率较低.由于GRASTA算法以图像序列的低秩性为理论基础进行背景建模, 对于动态场景的图像序列, 得到的前景目标像素主要是由于运动引起的灰度变化较为显著的像素, 尤其是边缘像素, 而真正的前景目标像素的相对运动不明显, 故而不能被很好地检测出来. DECOLOR算法对动态场景的图像序列先执行对齐操作, 而后进行背景建模, 使得运动的目标像素大多能被检测出来, 但是, 该算法同样将大量虚警像素归类为前景目标像素, 在性能指标统计上表现为召回率较高而精确率不高.本文算法能适应动态场景的图像序列中的背景变化, 建立有效的背景模型, 通过背景减除来较好地检测出前景目标.
为了综合召回率和精确率两个指标来评价和比较本文算法与六个典型算法的性能, 统计计算了两组动态场景图像序列下各算法的召回率和精确率的调和平均值F-measure, 如表 3所示.从表 3可以看出, 由于GMM算法、KDE算法、Codebook算法、ViBe算法和GRASTA算法的精确率都很低, 使得F-measure值也很低. DECOLOR算法和本文算法能有效地检测出前景目标像素, 使得F-measure值相对较高.在Pktest01场景中, 本文算法的F-measure值略低于DECOLOR算法, 而在Pktest03场景中, 本文算法的F-measure值略高于DECOLOR算法.
表 3 动态场景图像序列下各算法的F-measure指标Table 3 The F-measure index of different algorithms in dynamic scene image sequencesGMM KDE Codebook ViBe GRASTA DECOLOR Ours PETS2005 pktest01 0.0089 0.0052 0.0040 0.0086 0.0125 0.3927 0.3369 PETS2005 pktest03 0.0099 0.0086 0.0062 0.0123 0.0047 0.1929 0.2198 直观起见, 分别从Pktest01场景和Pktest03场景的红外图像序列中抽取六帧代表性图像, 给出了图像对应的Groundtruth和六个典型算法与本文算法运算得到的前景掩膜图像, 如图 11和图 12所示.从图 11和图 12可以看出, GMM算法、KDE算法、Codebook算法、ViBe算法和GRASTA算法均由于没有考虑动态场景的情况, 没有对序列图像进行对齐或配准, 因而将大量的背景像素误认为是前景像素, 造成背景模型失效, 无法有效地检测出前景运动目标. DECOLOR算法和本文算法采用不同的策略对序列图像进行了对齐或配准, 故可以建立有效的背景模型并检测出前景目标.相对于DECOLOR算法, 本文算法不但能有效地检测出前景目标, 而且引入了较少的虚警像素.
此外, 为了比较分析本文算法和DECOLOR算法在处理动态场景红外图像序列时的速度性能, 对两个算法执行校正与配准、背景建模与重构过程处理Pktest01场景和Pktest03场景图像序列中一帧图像的平均时间消耗进行了统计, 如表 4所示.从表 4可以看出, 本文算法在背景建模与重构过程中的处理速度比DECOLOR算法略快, 但图像校正与配准过程中的处理速度慢于DECOLOR算法, 这与两个算法所采用的策略不同有关. DECOLOR算法虽然对图像对齐与配准较快, 但只能处理抖动或较小位移情况下的图像坐标系不一致等情形, 而本文算法的图像对齐与配准策略则不受此限制.
表 4 处理动态场景中一帧红外图像的平均时间消耗(s)Table 4 The average time consumption of each infrared image in dynamic scenes (s)图像校正与配准 背景建模与重构 DECOLOR Ours DECOLOR Ours PETS2005 pktest01 0.6610 1.4632 0.6053 0.5509 PETS2005 pktest03 0.7608 1.1273 0.6942 0.6454 实验结果表明, 利用图像轮廓角点特征估计的相邻两帧图像间的相对运动参数能较好地反映探测器的真实运动, 对动态场景下红外图像序列的相对几何校正与配准较为准确, 利用配准之后的动态场景图像序列能像固定场景背景建模一样建立背景模型以有效地检测出前景目标, 有效地克服了成像场景动态变化带来的背景模型失效问题.但是, 不论在固定场景下还是动态场景下, 采用背景减除的方式, 对于在前景目标与背景灰度接近的区域, 前景孔洞现象难以避免.
5. 结论
本文提出了一种动态场景红外图像的压缩感知域高斯混合背景建模方法, 该方法采用对网格化图像的局部子图的压缩感知测量值建立高斯混合模型代替传统的对图像中的每个像素建立高斯混合模型, 既减少了背景建模过程的计算量, 又提高了所建立背景模型的鲁棒性.同时, 通过提取图像轮廓的角点特征, 估计相邻两帧图像在投影变换模型下的运动参数以对图像进行相对几何校正, 经配准后才进行背景建模, 较好地解决了由于探测器所在载体的运动、抖动或探测器自身主动扫描、变焦等引起成像场景动态变化而使背景模型失效的问题.此外, 采用稀疏字典的增量学习法不断更新和背景模型在检测过程中的不断更新, 提高了本文算法的在线学习能力和对背景红外辐射强度动态变化的适应能力.实验结果表明, 本文算法能为动态场景下的红外图像建立较好的背景模型, 实现高效的前景目标检测, 且召回率、精确率、F-measure等性能指标及处理速度均表现优异, 适用于绝大多数固定场景或动态场景下的红外图像目标检测应用, 但受制于基于图像轮廓角点特征的图像校正与配准, 对于背景单一的天空、海面等应用将不适用, 而在场景变化剧烈且重叠率低的目标检测应用中建立背景模型的意义不大.在下一步工作中, 将研究更有效的前景像素判别方法, 避免前景孔洞现象的出现, 以发挥压缩感知域高斯混合背景模型的更大优势.
-
表 1 固定场景图像序列下各算法的F-measure指标
Table 1 The F-measure index of different algorithms in fixed scene image sequences
GMM KDE Codebook ViBe GRASTA DECOLOR Ours CDnet2014 park 0.6429 0.3761 0.3379 0.5335 0.4645 0.8098 0.6607 CDnet2014 lakeside 0.2561 0.0185 0.1943 0.2 0.0238 0.224 0.7848 表 2 处理固定场景中一帧红外图像的平均时间消耗(s)
Table 2 The average time consumption of each infrared image in fixed scenes (s)
压缩感知 模型构建 稀疏重构 背景减除 CDnet2014 park 0.0065 0.1352 0.4938 0.0003 CDnet2014 lakeside 0.0043 0.0827 0.5594 0.0003 表 3 动态场景图像序列下各算法的F-measure指标
Table 3 The F-measure index of different algorithms in dynamic scene image sequences
GMM KDE Codebook ViBe GRASTA DECOLOR Ours PETS2005 pktest01 0.0089 0.0052 0.0040 0.0086 0.0125 0.3927 0.3369 PETS2005 pktest03 0.0099 0.0086 0.0062 0.0123 0.0047 0.1929 0.2198 表 4 处理动态场景中一帧红外图像的平均时间消耗(s)
Table 4 The average time consumption of each infrared image in dynamic scenes (s)
图像校正与配准 背景建模与重构 DECOLOR Ours DECOLOR Ours PETS2005 pktest01 0.6610 1.4632 0.6053 0.5509 PETS2005 pktest03 0.7608 1.1273 0.6942 0.6454 -
[1] Cao Y, Liu R M, Yang J. Small target detection using two-dimensional least mean square (TDLMS) filter based on neighborhood analysis. International Journal of Infrared and Millimeter Waves, 2008, 29(2):188-200 doi: 10.1007/s10762-007-9313-x [2] Bae T W, Kim Y C, Ahn S H, Sohng K I. An efficient two-dimensional least mean square (TDLMS) based on block statistics for small target detection. Journal of Infrared, Millimeter, and Terahertz Waves, 2009, 30(10):1092-1101 doi: 10.1007/s10762-009-9530-6 [3] Kim S. Double layered-background removal filter for detecting small infrared targets in heterogenous backgrounds. Journal of Infrared, Millimeter, and Terahertz Waves, 2011, 32(1):79-101 doi: 10.1007/s10762-010-9742-9 [4] Stauffer C, Grimson W E L. Adaptive background mixture models for real-time tracking. In: Proceedings of the 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Fort Collins, Colorado, USA: IEEE, 1999, 2: 252 [5] Lee D S. Effective Gaussian mixture learning for video background subtraction. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5):827-832 doi: 10.1109/TPAMI.2005.102 [6] Haines T S F, Xiang T. Background subtraction with dirichlet process mixture models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(4):670-683 doi: 10.1109/TPAMI.2013.239 [7] Elgammal A, Harwood D, Davis L. Non-parametric model for background subtraction. In: Proceedings of the 6th European Conference on Computer Vision. Berlin, Heidelberg, Germany: Springer, 2000. 751-767 [8] Kim K, Chalidabhongse T H, Harwood D, Davis L. Real-time foreground-background segmentation using codebook model. Real-Time Imaging, 2005, 11(3):172-185 doi: 10.1016/j.rti.2004.12.004 [9] Barnich O, Van Droogenbroeck M. ViBe:a universal background subtraction algorithm for video sequences. IEEE Transactions on Image Processing, 2011, 20(6):1709-1724 doi: 10.1109/TIP.2010.2101613 [10] Wang L, Wang L, Wen M, Zhuo Q, Wang W Y. Background subtraction using incremental subspace learning. In: Proceedings of the 2007 IEEE International Conference on Image Processing. San Antonio, Texas, USA: IEEE, 2007. V-45-V-48 [11] Seo J W, Kim S D. Recursive on-line (2D)2PCA and its application to long-term background subtraction. IEEE Transactions on Multimedia, 2014, 16(8):2333-2344 doi: 10.1109/TMM.2014.2353772 [12] He J, Balzano L, Szlam A. Incremental gradient on the grassmannian for online foreground and background separation in subsampled video. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2012. 1568-1575 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.662.1791&rep=rep1&type=pdf [13] Zhou X W, Yang C, Yu W C. Moving object detection by detecting contiguous outliers in the low-rank representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3):597-610 doi: 10.1109/TPAMI.2012.132 [14] 沈燕飞, 李锦涛, 朱珍民, 张勇东, 代锋.基于非局部相似模型的压缩感知图像恢复算法.自动化学报, 2015, 41(2):261-272 http://www.aas.net.cn/CN/abstract/abstract18605.shtmlShen Yan-Fei, Li Jin-Tao, Zhu Zhen-Min, Zhang Yong-Dong, Dai Feng. Image reconstruction algorithm of compressed sensing based on nonlocal similarity model. Acta Automatica Sinica, 2015, 41(2):261-272 http://www.aas.net.cn/CN/abstract/abstract18605.shtml [15] Candés E J. The restricted isometry property and its implications for compressed sensing. Comptes Rendus Mathematique, 2008, 346(9-10):589-592 doi: 10.1016/j.crma.2008.03.014 [16] Baraniuk R. Compressive sensing. In: Proceedings of the 42nd Annual Conference on Information Sciences and Systems. Princeton, NJ, USA: IEEE, 2008. 4-5 [17] Szabó Z, Lñrincz A. Distributed high dimensional information theoretical image registration via random projections. Digital Signal Processing, 2012, 22(6):894-902 doi: 10.1016/j.dsp.2012.04.018 [18] Amador J. Random projection and orthonormality for lossy image compression. Image and Vision Computing, 2007, 25(5):754-766 doi: 10.1016/j.imavis.2006.05.018 [19] Liu L, Fieguth P W. Texture classification from random features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3):574-586 doi: 10.1109/TPAMI.2011.145 [20] Liu L, Fieguth P W, Clausi D, Kuang G Y. Sorted random projections for robust rotation-invariant texture classification. Pattern Recognition, 2012, 45(6):2405-2418 doi: 10.1016/j.patcog.2011.10.027 [21] Liu L, Fieguth P W, Hu D W, Wei Y M, Kuang G Y. Fusing sorted random projections for robust texture and material classification. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(3):482-496 doi: 10.1109/TCSVT.2014.2359098 [22] Johnson W, Lindenstrauss J. Extensions of lipschitz mappings into a Hilbert space. Contemporary Mathematics, 1984, 26:189-206 doi: 10.1090/conm/026 [23] Diaconis P, Freedman D. Asymptotics of graphical projection pursuit. The Annals of Statistics, 1984, 12(3):793-815 http://cn.bing.com/academic/profile?id=5ece6b6fde4df69c965412100d9e9b9b&encoded=0&v=paper_preview&mkt=zh-cn [24] 朱碧婷, 郑世宝.基于高斯混合模型的空间域背景分离法及阴影消除法.中国图象图形学报, 2008, 13(10):1906-1909 doi: 10.11834/jig.20081022Zhu Bi-Ting, Zheng Shi-Bao. Space-domain background subtraction and shadow elimination based on Gaussian mixture model. Journal of Image and Graphics, 2008, 13(10):1906-1909 doi: 10.11834/jig.20081022 [25] Gowreesunker B V, Tewfik A H. Learning sparse representation using iterative subspace identification. IEEE Transactions on Signal Processing, 2010, 58(6):3055-3065 doi: 10.1109/TSP.2010.2044251 [26] 荆楠, 毕卫红, 胡正平, 王林.动态压缩感知综述.自动化学报, 2015, 41(1):22-37 http://www.aas.net.cn/CN/abstract/abstract18580.shtmlJing Nan, Bi Wei-Hong, Hu Zheng-Ping, Wang Lin. A survey on dynamic compressed sensing. Acta Automatica Sinica, 2015, 41(1):22-37 http://www.aas.net.cn/CN/abstract/abstract18580.shtml [27] Dai W, Milenkovic O. Subspace pursuit for compressive sensing signal reconstruction. IEEE Transactions on Information Theory, 2009, 55(5):2230-2249 doi: 10.1109/TIT.2009.2016006 [28] He X C, Yung N H C. Corner detector based on global and local curvature properties. Optical Engineering, 2008, 47(5):Article No.057008 [29] Zhao Y, Hong R C, Jiang J G. Visual summarization of image collections by fast RANSAC. Neurocomputing, 2016, 172:48-52 doi: 10.1016/j.neucom.2014.09.095 [30] Wang Y, Jodoin P M, Porikli F, Konrad J, Benezeth Y, Ishwar P. CDnet 2014: an expanded change detection benchmark dataset. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Columbus, Ohio, USA: IEEE, 2014. 393-400 https://www.semanticscholar.org/paper/CDnet-2014%3A-An-Expanded-Change-Detection-Benchmark-Wang-Jodoin/45790b5bf6a3ad7c641809035661d14d73d6361b [31] Collins R, Zhou X, Teh S K. An open source tracking testbed and evaluation web site. In: Proceedings of the 2005 IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS). Beijing, China: IEEE, 2005. 1-8 [32] 秦明, 陆耀, 邸慧军, 吕峰.基于误差补偿的复杂场景下背景建模方法.自动化学报, 2016, 42(9):1356-1366 http://www.aas.net.cn/CN/abstract/abstract18924.shtmlQin Ming, Lu Yao, Di Hui-Jun, Lv Feng. An error compensation based background modeling method for complex scenarios. Acta Automatica Sinica, 2016, 42(9):1356-1366 http://www.aas.net.cn/CN/abstract/abstract18924.shtml [33] Sobral A. BGSLibrary: an openCV C++ background subtraction library. In: Proceedings of the 2013 IX Workshop de Visão Computacional. Rio de Janeiro, Brazil, 2013. 1-6 期刊类型引用(9)
1. 马玉磊,钟潇柔. 基于改进YOLOv4网络的红外遥感小目标检测方法. 电子器件. 2024(04): 1107-1115 . 百度学术
2. 肖文鑫,张文文. 一种基于概率关联的局部高斯过程回归算法. 自动化学报. 2022(08): 1940-1949 . 本站查看
3. 陈蕾,邵楷,林腾涛,陈兴国. 一种噪声容错弱监督矩阵补全的生存分析方法. 自动化学报. 2021(12): 2801-2814 . 本站查看
4. 刘伟,郝晓丽,吕进来. 自适应混合高斯建模的高效运动目标检测. 中国图象图形学报. 2020(01): 113-125 . 百度学术
5. 刘振卿,任杰. 红外运动图像序列中微弱点目标动态检测系统. 激光杂志. 2020(03): 113-116 . 百度学术
6. 陶冶,凌志浩. 基于光流优化的堆叠Unet背景建模神经网络. 计算机应用研究. 2020(09): 2861-2865 . 百度学术
7. 李孔泽,区春燕. 基于统计方法的远程通信数据传输实验系统. 电子设计工程. 2019(14): 163-166+171 . 百度学术
8. 高金锋,马贺红,姚汝贤. 基于轮廓波维纳滤波的红外图像动态压缩仿真. 计算机仿真. 2019(11): 347-351 . 百度学术
9. 吕飞,冯晔. 基于连续波雷达的无人机检测. 电子测量技术. 2019(20): 157-161 . 百度学术
其他类型引用(16)
-