一种能量函数意义下的生成式对抗网络

王功明; 乔俊飞; 王磊

doi:10.16383/j.aas.2018.c170600

一种能量函数意义下的生成式对抗网络

doi: 10.16383/j.aas.2018.c170600

王功明^1,2,,
乔俊飞^1,2, ,,
王磊^1,2,

1.
北京工业大学信息学部北京 100124
2.
计算智能与智能系统北京市重点实验室北京 100124

基金项目:

国家自然科学基金 61533002

详细信息

作者简介:
王功明北京工业大学信息学部博士研究生.主要研究方向为深度学习, 神经网络结构设计与优化.E-mail:xiaowangqsd@163.com

王磊北京工业大学信息学部博士研究生.主要研究方向为神经网络结构设计与优化.E-mail:jade wanglei@163.com

通讯作者:
乔俊飞北京工业大学信息学部教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化.本文通信作者.E-mail:junfeq@bjut.edu.cn

计量
- 文章访问数: 2395
- HTML全文浏览量: 578
- PDF下载量: 1263
- 被引次数: 28
出版历程
- 收稿日期: 2017-10-31
- 录用日期: 2017-12-23
- 刊出日期: 2018-05-20

A Generative Adversarial Network Based on Energy Function

WANG Gong-Ming^{1,2
,},
QIAO Jun-Fei^{1,2
, ,},
WANG Lei^{1,2
,}

1.
Faculty of Information Technology, Beijing University of Technology, Beijing 100124
2.
Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124

Funds:

National Natural Science Foundation of China 61533002

More Information

Author Bio:
Ph. D. candidate at the Faculty of Information Technology, Beijing University of Technology. His research interest covers deep learning, structure design and optimization of neural networks

Ph. D. candidate at the Faculty of Information Technology, Beijing University of Technology. His research interest covers structure design and optimization of neural networks

Corresponding author: QIAO Jun-Fei Professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, structure design and optimization of neural networks. Corresponding author of this paper

摘要

摘要: 生成式对抗网络（Generative adversarial network，GAN）是目前人工智能领域的一个研究热点，引起了众多学者的关注.针对现有GAN生成模型效率低下和判别模型的梯度消失问题，本文提出一种基于重构误差的能量函数意义下的生成式对抗网络模型（Energy reconstruction error GAN，E-REGAN）.首先，将自适应深度信念网络（Adaptive deep belief network，ADBN）作为生成模型，来快速学习给定样本数据的概率分布并进一步生成相似的样本数据.其次，将自适应深度自编码器（Adaptive deep autoencoder，ADAE）的重构误差（Reconstruction error，RE）作为一个表征判别模型性能的能量函数，能量越小表示GAN学习优化过程越趋近纳什均衡的平衡点，否则反之.同时，通过反推法给出了E-REGAN的稳定性分析.最后在MNIST和CIFAR-10标准数据集上的实验结果表明，相较于现有的类似模型，E-REGAN在学习速度和数据生成能力两方面均有较大提高.
- 生成式对抗网络 /
- 能量函数 /
- 重构误差 /
- 自适应深度信念网络 /
- 自适应深度自编码器 /
- 纳什均衡
Abstract: Generative adversarial network (GAN) has become a hot research in artificial intelligence, and has received much attention from scholars. In view of low efficiency of generative model and gradient disappearance of discriminative model, a GAN based on energy function (E-REGAN) is proposed in this paper, in which reconstruction error (RE) acts as the energy function. Firstly, an adaptive deep belief network (ADBN) is presented as the generative model, which is used to fast learn the probability distribution of given sample data and further generate new data with similar probability distribution. Secondly, the RE in adaptive deep auto-encoder (ADAE) acts as an energy function evaluating the performance of discriminative model; the smaller energy function, the closer to Nash equilibrium the learning optimization process of GAN will be, and vice versa. Meanwhile, the stability analysis of the proposed E-REGAN is given using the inverse inference method. Finally, the simulation results from MNIST and CIFAR-10 benchmark dataset experiments show that, compared with the existing similar models, the proposed E-REGAN achieves significant improvement in learning rate and data generation capability.
- Generative adversarial network (GAN) /
- energy function /
- reconstruction error (RE) /
- adaptive deep belief network (ADBN) /
- adaptive deep auto-encoder (ADAE) /
- Nash equilibrium
注释:

1) 本文责任编委王坤峰

HTML全文

相比于雷达探测方式, 红外探测具有被动接收、隐蔽性好、全天候工作、抗干扰能力强以及较好的烟尘雨雾穿透能力等优势.随着"全天候作战"、"精确打击"、"先敌发现、先敌开火、先敌摧毁"等现代战争需求的不断演变, 采用红外探测技术的红外搜索与跟踪系统(Infrared search and track system, IRST)、前视红外系统(Forward looking infrared system, FLIR)等被广泛应用于搜索、监视、侦察、预警、制导等军事领域.然而, 对大多数红外探测器而言, 一方面, 为了尽早地探测到目标, 以便留出尽量多的反应时间和作用距离, 往往要求探测距离尽量远.相对于数十千米的探测距离, 飞机、车辆等几十米到几米大小的目标在探测器像平面上所占的尺寸较小, 仅有几十、十几甚至几个像素.另一方面, 红外辐射在传输过程中受到大气的吸收、散射等衰减作用, 到达探测器的能量较微弱, 造成目标细节模糊、信噪比低, 甚至淹没在复杂的背景杂波中.此外, 红外探测器所在载体的运动、抖动及探测器自身的主动扫描、变焦等, 使得成像场景动态变化, 目标的大小、形状也不断变化, 还可能不时脱离和再次进入视场.因此, 对动态场景红外图像中的目标检测具有重要的军事价值, 但也面临极大的挑战.

红外图像的背景部分占大部分区域, 表现为连续分布, 而目标部分仅有少量像素, 表现为邻域不相关性, 且没有纹理等细节特征.利用红外序列图像进行背景建模, 将待检图像与背景图像做判别(或减除)操作以滤除背景杂波, 成为实现红外目标检测的有效方法之一.与可见光图像的背景减除所面临的挑战略有不同, 红外图像背景建模不受阴影的影响, 且光照变化的影响也转化为红外辐射强度变化的影响.

近年来, 对可见光图像等的背景建模方法主要有基于空域滤波的背景估计方法^[1-3]、基于像素值分布的背景建模方法^[4-9]、基于子空间表示的背景重建方法^[10-13]等. Cao等^[1]和Bae等^[2]分别设计了二维最小均方滤波器(Two-dimensional least mean square, TDLMS), 通过分析和统计图像邻域相关性信息, 预测图像背景; Kim^[3]针对海天交接等异构背景情况下的目标检测, 提出了采用双层背景去除滤波器实现目标信号增强及背景和水平线结构的去除. Stauffer等^[4]将每个像素值的概率模型化为多个高斯分布的混合, 利用高斯混合模型(Gaussian mixture model, GMM)实现图像背景建模, 但存在运算量大、收敛速度慢等局限性; Lee^[5]将全局静态保持因子替换为在每帧图像输入时为每个高斯函数选取自适应的学习率来提高收敛速度; Haines等^[6]采取单像素分布建模和概率正则化两步实现基于Dirichlet过程高斯混合模型的背景建模方法, 并通过模型的连续更新学习应对场景变化; Elgammal等^[7]将核函数引入到估计像素值分布的背景建模中, 利用最近几个样本中的像素值进行核密度估计(Kernel density estimation, KDE), 依据概率区分图像的前景和背景; Kim等^[8]通过训练为每个像素建立一个存储一个或多个码字(Codeword)的码书(Codebook)以表示背景状态; Barnich等^[9]采用为每个像素随机采样的策略构建背景估计模型, 提出一种称为视觉背景提取器(Visual background extractor, ViBe)的通用背景减除技术. Wang等^[10]采用序列Karhunen-Loeve算法实现增量的子空间学习, 从而实现自适应的背景建模以应对场景动态变化; Seo等^[11]提出了双向二维主成分分析技术(Two-directional two-dimensional principal component analysis, (2D)²PCA), 通过周期性地更新子空间表示实现场景自适应背景建模; He等^[12]利用随机的子采样数据估计出背景图像的低秩子空间, 提出了Grassmannian鲁棒自适应子空间追踪算法(Grassmannian robust adaptive subspace tracking algorithm, GRASTA); Zhou等^[13]利用连续序列图像的线性相关性构造低秩矩阵, 进而将运动目标检测转化为检测低秩矩阵中的离群点, 提出了低秩表示中检测邻近离群点算法(Detecting contiguous outliers in the low-rank representation, DECOLOR).

本文综合高斯混合模型和子空间表示两类图像背景建模方法的优势, 将压缩感知理论引入到基于高斯混合模型的背景建模过程中, 不再对红外图像中的每个像素建立高斯混合模型, 而是对红外图像中局部区域的压缩感知测量值建立高斯混合模型; 通过将红外序列图像逐帧网格化后, 为各局部子图建立压缩感知域高斯混合背景模型, 并在目标检测时只对可能含有目标的局部子图进行选择性稀疏重构, 通过对应局部子图的背景减除实现前景目标检测; 对于动态场景下相邻帧图像的坐标系统不一致问题, 采用投影变换模型估计相对运动参数, 在图像校正与配准的基础上建立背景模型.

1. 数学模型

1.1 压缩感知理论

压缩感知(Compressed sensing, CS)理论认为只要信号是稀疏的或在某个变换域上稀疏, 便能用一个与稀疏基不相关的观测矩阵将高维信号投影到一个低维空间上, 并且可以完整地重构出原始信号^[14].对图像的压缩感知过程就是将高维空间的图像数据向量化为${\pmb x}=[x_{1}, x_{2}, \cdots, x_{n}]^{\rm T}\in {\bf R}^{n}$, 向一个测量矩阵$\Phi \in {\bf R}^{m \times n}$ $(m\ll n)$进行投影, 得到低维空间的压缩感知测量向量${\mathit{\boldsymbol y}}=[y_{1}, y_{2}, \cdots, y_{m}]^{\rm T}\in {\bf R}^{m}$, 该过程可以表示为

$ {\mathit{\boldsymbol y}}=\Phi {\mathit{\boldsymbol x}} $

(1)

然而, 图像本身可能不是稀疏的, 但在许多稀疏基(傅里叶基、小波基等正交基或过完备的稀疏字典)上是可以被稀疏表示的.假设存在一组稀疏基$\Psi$ $=[{\mathit{\boldsymbol \psi}}_{1}$, ${\mathit{\boldsymbol \psi}}_{2}, \cdots , {\mathit{\boldsymbol \psi}}_{q}]\in {\bf R}^{n \times q}$能有效地对向量化图像数据${\mathit{\boldsymbol x}}$进行稀疏表示, 则有

$ \mathit{\boldsymbol x} = \sum\limits_{i = 1}^q {{{\mathit{\boldsymbol{\psi }}}_i}} {\theta _i} = \Psi \Theta $

(2)

其中, $\Theta=[\theta_{1}, \theta_{2}, \cdots, \theta_{q}]^{\rm T}\in {\bf R}^{q}$是原始信号在稀疏基$\Psi$上的稀疏系数.那么, 压缩感知的测量过程可以表示为

$ {\mathit{\boldsymbol y}}=\Phi\Psi\Theta=A\Theta $

(3)

其中, $A=\Phi\Psi$被称为感知矩阵.它要满足一定的约束等距性(Restricted isometry property, RIP)^[15]条件, 才能通过求解优化问题将原始信号从压缩感知信号中高概率的重构出来, 而感知矩阵的约束等距性的等价条件是测量矩阵$\Phi$与稀疏基$\Psi$不相关^[16].

随机投影(Random projection, RP)作为一种非自适应线性测量方式, 能将高维信号投影到低维空间上, 且保持可重构原始信号的足够信息.该过程无需获取数据的任何先验知识, 可以随机选择独立于数据的测量矩阵, 且无需随着数据的变化而改变, 已被广泛地应用于图像检索^[17]、数据压缩^[18]和纹理分类^[19-21]等领域.随机投影的理论依据主要是Johnson-Lindenstrauss引理^[22]:对于任意$0<\varepsilon<1$与正整数$d$, 当$m$为满足$m\geq$ $4(\varepsilon^{2}/2$ $-$ $\varepsilon^{3}/3)^{-1}\ln{d}$的正整数时, 对任意${\bf R}^{n}$中$d$个点构成的集合${ P}$, 存在$f$: ${\bf R}^{n} \rightarrow {\bf R}^{m}$, 使得任意$u$, $v$ $\in$ ${P}$有: $(1-\varepsilon)\|u-v\|^{2}\leq \|f(u)-f(v)\|^{2}\leq (1+$ $\varepsilon)\|u$ $-$ $v\|^{2}$.该引理表明, $n$维欧氏空间中的多个点组成的集合能够被投影到$m$维空间上, 且能保持这些点之间的距离基本不变.

由于高斯随机测量矩阵中的每一个元素服从独立同分布, 且与绝大多数正交稀疏基不相关, 因此, 本文选取高斯随机测量矩阵作为压缩感知随机投影过程的测量矩阵, 即

$ \Phi=[{\mathit{\boldsymbol \phi}}_{1}, {\mathit{\boldsymbol \phi}}_{2}, \cdots, {\mathit{\boldsymbol \phi}}_{m}]^{\rm T} $

(4)

其中, ${\mathit{\boldsymbol \phi}}_{i}\in {\bf R}^{n}$, 且${\mathit{\boldsymbol \phi}}_{i}$为$n$维正态分布${\rm N}(0, {\pmb I})$.

1.2 压缩感知域高斯混合模型

当变量$x$服从高斯分布时, 其概率密度函数定义为

$ {\rm N}(x;\mu, \sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp{\left[-\frac{ (x-\mu)^{2}}{2\sigma^{2}}\right]} $

(5)

其中, $\mu$是均值, $\sigma^{2}$是方差.然而, 高斯分布是一个单模态的分布, 不能对多模态的数据分布提供一个较好的近似.但是, 以概率论的中心极限定理为理论基础的高斯混合模型被认为是可以拟合任意形状的概率分布, 即将数据看作是从多个高斯分布中生成出来的.每个高斯混合模型由多个高斯分布组成, 这些高斯分布线性加在一起就组成了高斯混合模型的概率密度函数

$ p(x)=\sum\limits_{i=1}^{s}{p(i)p(x|i)}=\sum\limits_{i=1}^{s}{\omega_{i}{\rm N}(x;\mu_{i}, \sigma_{i})} $

(6)

其中, $s$是高斯分布的个数, $\omega_{i}$是第$i$个高斯分布的权值, $\mu_{i}$和$\sigma_{i}^{2}$分别是第$i$个高斯分布的均值和方差.一般而言, 高斯混合模型中高斯分布的个数取3 $\sim$ 5个^[4], 且假定相互独立.压缩感知测量值作为对高维数据向量的随机投影, 其概率分布必然也可以用高斯混合模型来拟合^[23].

传统的基于高斯混合模型的图像背景建模, 就是为每个像素点确定多个高斯分布的权值、均值和方差参数的过程^[24].然而, 该方法需要为每个像素建立多个高斯分布, 并在新图像输入时更新每个像素对应的每个高斯分布的参数值, 存在运算量大、收敛速度慢等局限性.本文采用低维空间的压缩感知测量向量${\mathit{\boldsymbol y}}=[y_{1}, y_{2}, \cdots, y_{m}]^{\rm T}$代替高维空间的数据向量${\pmb x}=[x_{1}, x_{2}, \cdots, x_{n}]^{\rm T}$, 并为每个测量值建立高斯混合模型, 能在保证背景建模效果的条件下显著地降低运算量.

当$t$时刻有新图像输入时, 先用高斯随机测量矩阵对向量化图像做压缩感知, 然后逐个分析测量值与$s$个高斯分布的匹配程度, 并按下述判别法则选择匹配的高斯分布

$ |y_{t}-\mu_{i, t-1}|<\xi \sigma_{i, t-1}, \quad i=1, 2, \cdots, s $

(7)

其中, $\xi$为一常数.当存在匹配的高斯分布时, 利用当前压缩感知测量值$y_{t}$对该匹配的高斯分布的均值和方差参数进行更新

$ \mu_{t}=(1-\beta) \mu_{t-1}+\beta y_{t} $

(8)

$ \sigma_{t}^{2}=(1-\beta) \sigma_{t-1}^{2}+\beta (y_{t}-\mu_{t})^{2} $

(9)

其中, $\beta \in (0, 1)$为均值和方差的学习率.同时, 对全部$s$个高斯分布的权值进行更新

$ \omega_{i, t}=(1- (-1)^{\tau}\alpha) \omega_{i, t-1} $

(10)

其中, $\alpha \in (0, 1)$为权值的学习率, $\tau \in \{0, 1\}$对于匹配的高斯分布取1, 不匹配的取0.若都不匹配, 则更新权值最小的高斯分布的均值和方差参数, 并对所有权值作归一化处理, 使得$\sum_{i=1}^{s}{\omega_{i}}=1$.

此外, 由于背景建模所用的数据是图像的压缩感知测量值而不是图像的像素灰度, 而通过随机投影得到的压缩感知测量值服从高斯分布, 于是采用高斯混合模型来建立图像背景模型在理论上是可行的.但是, Codebook算法通过为每个像素建立多个可能的取值范围来表示背景模型, ViBe算法通过随机采样对应像素周边的像素构成样本集来描述背景模型, 这些算法均利用背景模型来判定图像像素为背景还是前景, 而对图像压缩感知测量值的判定无效, 而且无法从这些算法建立的背景模型中恢复出背景图像, 因此, 这些算法不适用于以图像的压缩感知测量值代替图像的像素灰度来建立背景模型.

2. 局部图像的背景建模与选择性稀疏重构

2.1 网格化图像的局部背景建模

由于红外图像的背景往往表现为邻域相似的大面积连续分布, 那么在整幅图像上实现背景建模就忽视了大量可用邻域信息, 而且会因为维数过高而造成计算量大.在本文中, 利用网格将图像划分成若干个相同大小的局部子图, 然后对每个局部子图进行背景建模, 通过拼接得到整幅图像的背景模型.该方法不但能降低背景重构过程的计算量, 而且适用于采用并行计算的工程实现.

将一幅红外图像用矩阵${D}$表示, 那么将图像网格化成$r\times c$个局部子图的过程可以表示为

$ {D}= \begin{bmatrix} D_{0, 0} &D_{0, 1} &\cdots&D_{0, c-1} \\ D_{1, 0} &D_{1, 1} &\cdots&D_{1, c-1} \\ \vdots &\vdots &\ddots& \vdots \\ D_{r-1, 0}&D_{r-1, 1}&\cdots&D_{r-1, c-1} \\ \end{bmatrix} $

(11)

其中, $D_{i, j}$为第$i$行$j$列的局部子图.

局部图像的压缩感知域高斯混合背景建模过程如图 1所示.

图 1 局部图像的压缩感知域高斯混合背景建模过程示意图

Fig. 1 Diagram of local background modeling with Gaussian mixture model in compressed sensing domain

下载: 全尺寸图片幻灯片

利用序列图像对每个局部子图构建压缩感知域高斯混合背景模型时, 序列图像的相同位置的局部子图必须采用相同的测量矩阵, 不同位置的局部子图可以采用不同的测量矩阵.在本文中, 所有图像的所有局部子图均采用同一个高斯随机测量矩阵以简化算法复杂度.

2.2 基于子空间的选择性稀疏重构

为了尽可能完美地从背景模型中恢复出背景图像, 必须找到一组能使图像尽可能稀疏表示的稀疏基, 这也是实现压缩感知的理论基础.通常使用的完备正交基(例如傅里叶基、小波基)不含冗余、基底间线性独立.采用这种完备正交基的图像稀疏表示简单且唯一, 但往往不够稀疏.稀疏字典是一种由非正交基底组成的超完备的稀疏基, 能针对具体类型的图像自适应地选择原子, 使图像在该基上的表示尽可能稀疏.那么, 局部子图数据向量${\pmb x}$便可以表示成稀疏字典$\Psi=[{\mathit{\boldsymbol \psi}}_{1}, {\mathit{\boldsymbol \psi}}_{2}, \cdots , {\mathit{\boldsymbol \psi}}_{q}]\in {\bf R}^{n \times q}$ $(q\gg n)$的原子线性组合的形式, 对应的稀疏系数为$\Theta=$ $[\theta_{1}$, $\theta_{2}, \cdots, \theta_{q}]^{\rm T}\in {\bf R}^{q}$.

子空间学习是构造稀疏字典的有效方法之一.通过迭代地进行训练样本聚类和类内子空间学习的方法实现子空间辨识, 能得到较好的实现图像的尽可能稀疏表示的稀疏字典^[25].该方法包括子空间辨识(步骤1 $\sim$ 7)和子空间优化(步骤8 $\sim$ 12)两个阶段, 每个阶段都迭代的进行训练样本聚类和子空间学习, 具体实现步骤如下:

输入.归一化训练样本集合$Z \in {\bf R}^{n \times l}$, 稀疏度$k$, 容忍误差$\varepsilon_{1}$, $\varepsilon_{2}$, 样本数阈值$th$.

输出.稀疏字典$\Psi$.

步骤1.初始化计数器$t=0$、稀疏字典$\Psi =Z$.

步骤2.若训练样本集合$Z$非空, 则执行步骤3 $\sim$ 7, 否则跳转到步骤8.

步骤3. $t=t+1$, 从训练样本集合$Z$中取出第一个样本${\mathit{\boldsymbol x}}$, 并从$Z$中剔除该样本.

步骤4.采用正交最小二乘法从稀疏字典$\Psi$中找出最能表达${\mathit{\boldsymbol x}}$的前$k$个原子, 构成矩阵$G$.

步骤5.对$G$奇异值分解, 使得$U \Lambda V^{\rm T}=G$, 并由$U$中的前$k$个向量构成子空间$E_{t}$.

步骤6.由$Z$中用子空间$E_{t}$稀疏表示时误差小于容忍误差$\varepsilon_{1}$的训练样本与${\mathit{\boldsymbol x}}$构成聚类$C_{t}$, 并从$Z$中剔除这些样本.

步骤7.跳转到步骤2.

步骤8.统计样本数大于阈值$th$的聚类, 由对应的子空间构成优化阶段的初始子空间集合, 并重置训练样本集合$Z$.

步骤9.利用子空间集合对训练样本集合$Z$中的所有样本重新聚类.

步骤10.分别对各个聚类内训练样本构成的矩阵$Q$做奇异值分解, 使得, 并由$U$中的前$l$个向量构成新的子空间.

步骤11.若所有训练样本与其在子空间上的稀疏表示之间的误差之和大于容忍误差$\varepsilon_{2}$, 则执行步骤9 $\sim$ 11, 否则跳转到步骤12.

步骤12.由所有的子空间组合成稀疏字典$\Psi$.

一个通过子空间学习训练得到的红外图像稀疏字典示例如图 2所示.

图 2 通过子空间学习从训练样本生成的稀疏字典示例

Fig. 2 An example of sparse dictionary generated from training samples by subspace learning

下载: 全尺寸图片幻灯片

此外, 当大量新样本输入时, 事先训练好的稀疏字典可能无法较好地稀疏表示图像, 需要采用增量学习的方式在线更新稀疏字典.对新样本进行辨识, 若隶属于某个聚类, 则字典不更新; 否则, 构成一个新聚类, 并学习得到新的子空间加入到稀疏字典中.

由于采用对压缩感知测量值建立高斯混合背景模型, 那么从背景模型中恢复出背景图像, 就要对压缩感知测量值进行稀疏重构, 即从已知测量矩阵$\Phi$的$m$次非相干线性投影(局部子图的压缩感知测量向量)中重构出$n$ $(n \gg m)$维原始信号(局部子图的数据向量), 这本质上是一个病态求逆的问题^[26].首先, 利用重构算法求解感知矩阵$A$感知到的压缩感知测量向量${\mathit{\boldsymbol y}}$对应的尽量稀疏的稀疏系数$\Theta$.求解最小化$\ell_{0}$范数的贪婪算法是实现稀疏重构的有效方法之一, 即求解优化问题

$ \hat{\Theta}=\arg\min\limits_{\Theta}{\|\Theta\|_{0}}, \quad {\rm s.t.} \ {\mathit{\boldsymbol y}}=A\Theta $

(12)

其中, $\|\cdot\|_{0}$是向量的$\ell_{0}$范数, 即向量中非零元素的个数.然后, 利用训练得到的稀疏字典重构局部子图数据向量$\hat{\pmb x}$, 表示为

$ \hat{\pmb x}=\Psi\hat{\Theta} $

(13)

在本文中, 子空间追踪(Subspace pursuit, SP)算法^[27]被用来求解稀疏系数$\Theta$.该算法弥补了匹配追踪类算法一旦选定某原子就一直保持而不能"回溯", 可能陷入局部最优解的不足, 对于稀疏信号的重构效果接近于线性规划(Linear programming, LP)优化技术, 但处理速度较之更快.

由于采用网格化图像的局部背景建模, 那么背景的稀疏重构也是对局部子图的稀疏重构.在利用背景模型进行前景目标检测时, 如果待检图像局部子图的压缩感知测量值与背景模型的高斯混合分布相匹配, 即待检图像对应的局部子图不含有目标, 那么就不需要对该局部子图稀疏重构, 只需有选择性地对可能含有目标的局部子图稀疏重构, 之后由待检图像的局部子图$D_{i, j}$减除背景图像的局部子图$D_{i, j}^{b}$, 得到前景图像的局部子图$D_{i, j}^{t}$, 即

$ D_{i, j}^{t}= \begin{cases} D_{i, j}-D_{i, j}^{b},&\text{若$S_{i, j} \geq m\delta$} \\ {\bf 0},&\text{其他} \end{cases} $

(14)

其中, $S_{i, j}$表示第$i$行第$j$列局部子图的$m$个测量值中满足式(7)的个数, $\delta \in (0, 1]$为判定该局部子图含有目标的阈值系数.

3. 动态场景红外图像的背景建模策略与实现

3.1 运动参数估计及图像校正与配准

对于固定场景的背景建模, 直接将序列图像以相同的划分方式网格化, 并逐帧依次为每个局部子图建立背景模型.对于动态场景的背景建模, 由于场景变化造成图像坐标与物理场景坐标不一致, 不能直接进行网格化, 需要先估计图像间的运动参数, 然后校正图像坐标并向基准图像的网格进行精确配准.无论是固定场景的序列图像, 还是校正后的动态场景的序列图像, 局部背景建模过程都是操作配准了的对应网格的局部子图.本文通过提取红外图像轮廓上的角点特征, 采用投影变换模型估计相邻两帧图像间的相对运动参数, 实现相对于基准图像的图像校正与配准.

由于红外图像没有纹理、细节模糊、信噪比低, 采用传统的基于灰度信息的图像配准无法很好地估计出运动参数, 而直接在灰度图像上提取的特征点往往不准确, 造成匹配错误.因此, 采用在Canny边缘检测算子获得的图像轮廓上提取角点特征^[28], 能极大地提高相邻两帧图像间特征点对的匹配准确率.

所有轮廓曲线上的局部极大值被认为是候选角点.通过剔除部分虚假角点, 最终确定可以用于运动参数估计的特征点. 图 3给出了一帧红外图像及在其图像轮廓上提取的角点特征.

图 3 原红外图像及提取角点特征的图像轮廓

Fig. 3 Original infrared image and contour with corners

下载: 全尺寸图片幻灯片

利用获得的图像角点特征, 建立连续两帧图像间的特征点对应关系, 通过求解两个坐标系之间的单应性关系, 估计出图像间的相对运动参数.考虑到移动载体上的红外探测器存在平移、旋转、变焦、扫描等运动, 投影变换模型较之于仿射变换模型能更好地表达探测器的相对运动.对于给定两帧连续图像$I_{t-1}(x, y)$和$I_{t}(x, y)$, 估计图像间的相对运动参数的目的就是将图像$I_{t}(x, y)$进行校正, 使之像素坐标统一到图像$I_{t-1}(x, y)$的坐标系上.假设$(x, y)$和$(x{'}, y{'})$是图像$I_{t}(x, y)$校正前后像素点的坐标, 那么在投影变换模型下存在如下关系:

$ x'=\frac{h_{0}x+h_{1}y+h_{2}}{h_{6}x+h_{7}y+1}, \quad y'=\frac{h_{3}x+h_{4}y+h_{5}}{h_{6}x+h_{7}y+1} $

(15)

令$f=h_{6}x+h_{7}y+1$, 上述关系可写为矩阵形式

$ \begin{bmatrix} x{'} \\ y{'} \\ 1 \\ \end{bmatrix} = \frac{1}{f} \begin{bmatrix} h_{0}&h_{1}&h_{2} \\ h_{3}&h_{4}&h_{5} \\ h_{6}&h_{7}&1 \\ \end{bmatrix} \begin{bmatrix} x \\ y \\ 1 \\ \end{bmatrix} $

(16)

令${\mathit{\boldsymbol p}}_{t}=(x, y, 1)^{\rm T}$, ${\mathit{\boldsymbol p}}_{t-1}=(x{'}, y{'}, 1)^{\rm T}$, 则有

$ {\mathit{\boldsymbol p}}_{t-1}=H_{(t-1, t)}{\mathit{\boldsymbol p}}_{t} $

(17)

因此, 只要在图像$I_{t-1}(x, y)$和$I_{t}(x, y)$中找到至少4组相配对的角点特征, 就能利用RANSAC算法估计出投影变换模型中的8个相对运动参数^[29]. 图 4给出了相邻两帧图像及在叠加的图像轮廓上标注的配对的角点特征, 其中, 用低灰度值表示前一帧图像轮廓, 用高灰度值表示当前帧图像轮廓.

图 4 利用RANSAC算法匹配相邻两帧图像的角点特征

Fig. 4 Corner features matching between two frames by using RANSAC algorithm

下载: 全尺寸图片幻灯片

若以第1帧图像的坐标系为基准, 可以将后续的所有图像均通过相对几何校正, 统一像素坐标到基准坐标系上, 即有

$ {\mathit{\boldsymbol p}}_{1}=H_{(1, t)}{\mathit{\boldsymbol p}}_{t} $

(18)

其中,

$ H_{(1, t)}=H_{(1, 2)}H_{(2, 3)} \cdots H_{(t-2, t-1)}H_{(t-1, t)} $

(19)

然而, 由于累积误差的存在, 使得所有图像均以第1帧图像为基准并向其校正是不合适的.本文采用一定长度时域滑窗的方式, 以滑窗内的第1帧图像为相对基准图像, 将滑窗内的后续图像均向其进行几何校正.滑窗的长度可以根据红外探测器所在载体的运动速度来确定, 运动较慢, 可以选用较长的滑窗, 反之, 滑窗长度应设置为较短.

在图像的相对几何校正过程中, 校正后图像的像素坐标$(x', y')$可能不是整数, 且分布是不规则的, 会出现像素挤压、疏密不均等畸变现象, 因此需要对不规则的畸变图像通过灰度内插生成规则的栅格图像.本文采用间接法对畸变图像进行几何校正, 即从校正后图像的目标栅格坐标出发, 反算出其在校正前图像中的坐标, 通过双线性灰度插值计算校正后图像的灰度, 如图 5所示.

图 5 基于双线性灰度插值的畸变图像几何校正

Fig. 5 Geometric correction of distortion image based on bilinear interpolation

下载: 全尺寸图片幻灯片

双线性灰度插值即通过在两个方向上分别进行一次线性插值, 实现利用校正前图像的像素灰度得到校正后图像的像素灰度.对于校正后图像坐标为$(x, y)$的像素, 其灰度$f(x, y)$可以由校正前图像坐标为$(x_{1}, y_{1})$、$(x_{1}, y_{2})$、$(x_{2}, y_{1})$、$(x_{2}, y_{2})$四个像素的灰度插值得到, 即

$ f(x, y_{1}) \approx \frac{x_{2}-x}{x_{2}-x_{1}}f(x_{1}, y_{1}) + \frac{x-x_{1}}{x_{2}-x_{1}}f(x_{2}, y_{1}) $

(20)

$ f(x, y_{2}) \approx \frac{x_{2}-x}{x_{2}-x_{1}}f(x_{1}, y_{2}) + \frac{x-x_{1}}{x_{2}-x_{1}}f(x_{2}, y_{2}) $

(21)

$ f(x, y) \approx \frac{y_{2}-y}{y_{2}-y_{1}}f(x, y_{1}) + \frac{y-y_{1}}{y_{2}-y_{1}}f(x, y_{2}) $

(22)

最后, 将校正后图像向基准图像的网格进行精确配准, 对应网格的局部子图用于背景建模, 而没有充满局部网格区域的局部子图不能用于背景建模.

3.2 背景建模方案集成与算法实现

综合前述分析, 动态场景红外图像的压缩感知域高斯混合背景建模过程分为背景模型构建和选择性稀疏重构两部分.其中, 背景模型构建是在对红外序列图像进行投影变换模型下的运动参数估计及图像校正与配准的基础上, 对网格化图像的各局部子图向量化并进行压缩感知, 进而实现压缩感知测量值的高斯混合模型构建; 选择性稀疏重构是在分析待检图像各局部子图的压缩感知测量值是否与背景的高斯混合分布相匹配, 即判断各局部子图是否含有目标的基础上, 利用子空间学习训练得到的稀疏字典以子空间追踪法对可能含有目标的局部子图进行选择性稀疏重构.最后, 通过对待检图像与背景图像的逐个局部子图的减除操作实现前景目标的检测.因此, 动态场景红外图像的压缩感知域高斯混合背景建模及目标检测流程如图 6所示.

图 6 动态场景红外图像的压缩感知域高斯混合背景建模及目标检测流程图

Fig. 6 Flow chart of background modeling with Gaussian mixture model in compressed sensing domain and target detection of infrared image in dynamic scene

下载: 全尺寸图片幻灯片

在具体的应用场合中, 红外探测器获取的图像序列对应的是固定场景还是动态场景往往事先已知, 那么对于动态场景的判断可以忽略而采用人为设置; 而在无法预知是否为动态场景的情况下, 完全可以均视为动态场景, 即将固定场景作为动态场景的特例来处理, 同时能有效排除探测器抖动等带来的干扰.

采用背景建模方法进行红外序列图像中的前景目标检测, 最终是通过原图像与建模得到的背景图像的减除操作来实现, 因此, 建立的背景模型的好坏决定了前景目标检测效果的优劣.为了优化算法的性能, 本文提出的背景建模方法在前景目标检测过程中从两个方面不断地在线学习更新: 1)采用增量学习法不断更新稀疏字典, 以降低含有目标局部子图的重构误差; 2)将不含有目标的局部子图用于背景模型的不断更新, 使得背景模型能适应场景红外辐射强度受到环境温度影响带来的动态变化.

本文提出的背景建模方法既从图像校正后的精确配准和增量学习法稀疏字典两个方面考虑提高背景模型的重构精度, 又从局部子图的压缩感知和选择性稀疏重构两个方面考虑降低算法计算量.因此, 利用本文提出的压缩感知域高斯混合背景模型能高效地实现前景目标检测, 具体实现步骤如下:

输入.红外图像序列$I_{\rm seq}$, 滑窗长度$l$, 网格划分行列数$r$, $c$, 测量矩阵$\Phi$, 高斯分布个数$s$, 参数学习率$\alpha$, $\beta$, 最大累积重构误差$\varepsilon_{\max}$.

输出.前景图像序列$T_{\rm seq}$.

步骤1.初始化稀疏字典$\Psi=[\ ]$, 累积重构误差$\varepsilon_{\rm sum}=0$.

步骤2. For $i=1$ to ${\rm length}(I_{\rm seq})$

步骤3.取第$i$到$i+l-1$帧为待处理序列图像.

步骤4. If序列图像属于动态场景

步骤5.提取序列内各图像轮廓的角点特征.

步骤6.估计两两相邻帧间的相对运动参数.

步骤7.以第$i$帧图像为基准校正图像.

步骤8. End If.

步骤9. If $\Psi==[\;]$ or $\varepsilon_{\rm sum}>\varepsilon_{\max}$

步骤10.增量学习法更新稀疏字典$\Psi$.

步骤11.重置累积重构误差$\varepsilon_{\rm sum}=0$.

步骤12. End If.

步骤13.网格化待检(校正后)图像并精确配准.

步骤14.对所有局部子图向量化后压缩感知.

步骤15.对压缩感知测量值构建高斯混合模型.

步骤16. For $j=i$ to $i+l-1$

步骤17.判断第$i$帧待检(校正后)图像的各局部子图是否含有目标.

步骤18.若某局部子图含有目标, 稀疏重构该局部子图, 并将重构误差累积到$\varepsilon_{\rm sum}$.

步骤19.若某局部子图不含有目标, 更新该局部子图对应的高斯混合模型.

步骤20.对待检(校正后)图像与背景图像的逐个局部子图的减除操作得到前景目标图像.

步骤21. End For.

步骤22. $i=i+l$.

步骤23. End For.

4. 实验验证与比较分析

为了验证本文算法的性能, 采用两组固定场景的红外图像序列和两组动态场景的红外图像序列, 分别验证并分析本文算法在固定场景和动态场景条件下的背景建模效果和性能.其中, 固定场景的两组红外图像序列均取自CDnet2014数据集¹, 采用远红外探测器平视拍摄的公园里步行的人(Park)和湖边准备划船的人(Lakeside), 图像分辨率分别为352像素$\times$288像素和320像素$\times$ 240像素^[30].动态场景的两组红外图像序列均取自VIVID PETS2005数据集², 采用机载红外探测器俯视拍摄的公路上行驶的车辆(Pktest01, Pktest03), 图像分辨率均为320像素$\times$ 256像素^[31].

¹http://wordpress-jodoin.dmi.usherb.ca/

²http://vision.cse.psu.edu/data/vividEval/

对所有测试数据集, 将本文算法与GMM算法^[4]、KDE算法^[7]、Codebook算法^[8]、ViBe算法^[9]、GRASTA算法^[12]和DECOLOR算法^[13]等六个典型背景建模算法进行性能比较.所有算法的实验环境均为Intel Core i5-5200 U双核处理器, 2.2 GHz主频, 8 GB内存, Windows 10操作系统, 本文算法的开发平台为MATLAB R2012a.

为了更好地评价背景建模方法的性能, 对测试图像与背景图像做判别(或减除)操作后的前景目标图像进行二值化阈值分割, 以得到的掩膜图像为评价对象, 采用像素级分析方法, 统计掩膜图像中的前景目标像素和背景像素被正确和错误检测的个数.不妨以前景目标像素为正, 背景像素为负, 令被正确检测为前景目标像素的个数为$tp$, 被错误检测为前景目标像素的个数为$fp$; 被正确检测为背景像素的个数为$tn$, 被错误检测为背景像素的个数为$fn$.那么, 选用召回率Recall、精确率Precision及二者的调和平均值F-measure作为算法性能的评价指标^[32], 其中, 召回率表示被正确检测为前景目标像素的个数占所有前景目标像素的个数的比例, 精确率表示被正确检测为前景目标像素的个数占所有被检测为前景目标像素的个数的比例, 它们的计算公式分别为

$ {\rm Recall}=\frac{tp}{tp+fn} $

(23)

$ {\rm Precision}=\frac{tp}{tp+fp} $

(24)

$ \mbox{F-measure}=\frac{2 \times {\rm Recall} \times {\rm Precision}}{\rm Recall+Precision} $

(25)

4.1 固定场景的实验验证与比较分析

采用CDnet2014数据集中的两组固定场景(Park, Lakeside)的红外图像序列, 对六个典型背景建模算法和本文算法的性能进行验证.在本实验中, 从Park场景的图像序列中选取有Groundtruth的第250 $\sim$ 599帧, 共350帧图像作为本次实验的图像序列, 从Lakeside场景的图像序列中选取有Groundtruth的第1 001 $\sim$ 2 000帧, 共1 000帧图像作为本次实验的图像序列, 此外, 统计分析过程中, 将两个数据集的Groundtruth中被标记为unknown的像素看作背景像素.

在本实验中, GMM算法选用高斯分布个数为3, 均值和方差的学习率为0.1, 权值学习率为0.1, 背景的权值阈值为0.75; KDE算法选用Sobral在BGSLibrary^[33]中使用的参数; Codebook算法和ViBe算法选用作者提供的默认参数; GRASTA算法选用的训练图像帧数为20帧, 最大迭代次数为20; DECOLOR算法选用作者提供的默认参数; 本文算法选用高斯分布个数$s=3$, 均值和方差的学习率$\beta=0.2$, 权值学习率$\alpha=0.2$, 压缩感知率为0.5, 即$m=0.5n$, 重构稀疏度$k=0.5q$.此外, 对两组固定场景(Park, Lakeside)分别选用前30帧和20帧图像训练高斯混合模型的均值、方差和权值, 图像网格化划分的局部子图大小分别为32像素$ \times$ 32像素和32像素$ \times$ 24像素.

通过在两组固定场景图像序列下的实验验证, 统计了六个典型背景建模算法和本文算法的平均召回率和精确率, 结果如图 7所示.

图 7 固定场景图像序列下各算法的平均召回率和精确率

Fig. 7 The average recall and precision of different algorithms in fixed scene image sequences

下载: 全尺寸图片幻灯片

在Park场景中, 前景目标的行人的尺寸相对较大, 但部分区域的目标像素灰度值与背景像素灰度值很接近, 造成采用本文算法与六个典型算法得到的前景掩膜图像中前景目标像素的召回率普遍不高.即便DECOLOR算法和GMM算法的召回率相对较高, 但却有较低的精确率, 即这两个算法将大量像素归类为前景目标像素, 以牺牲精确率的方式换取相对较高的召回率.本文算法在保证较高的精确率的同时, 具有相对较高的召回率.在Lakeside场景中, 前景目标在背景中不显著, 且前景目标像素灰度值与背景像素灰度值很接近, 使得采用六个典型算法得到的前景掩膜图像中前景目标像素的召回率很低, 相对而言, 采用本文算法得到的前景掩膜图像中目标像素的召回率相对较高, 且精确率与六个典型算法的结果相差不大.

为了综合召回率和精确率两个指标来评价和比较本文算法与六个典型算法的性能, 统计计算了在两组固定场景图像序列下采用各算法得到的前景掩膜图像中前景目标像素的召回率和精确率的调和平均值F-measure, 如表 1所示.从表 1可以看出, 在Park场景中, 采用本文算法得到的前景掩膜图像的F-measure值仅比DECOLOR算法差, 这是由于DECOLOR算法将目标所在区域附近全部看作前景目标, 使得召回率接近于1, 而精确率却与其他算法相差不大.在Lakeside场景中, 本文算法能有效地检测出前景目标, 使得F-measure值具有显著的优势, 而六个典型算法没有完整检测出前景目标, 故F-measure值普遍较低.因此, 本文算法在两组固定场景图像序列下的召回率和精确率的调和平均值F-measure方面也表现优异.

表 1 固定场景图像序列下各算法的F-measure指标

Table 1 The F-measure index of different algorithms in fixed scene image sequences

	GMM	KDE	Codebook	ViBe	GRASTA	DECOLOR	Ours
CDnet2014 park	0.6429	0.3761	0.3379	0.5335	0.4645	0.8098	0.6607
CDnet2014 lakeside	0.2561	0.0185	0.1943	0.2	0.0238	0.224	0.7848

下载: 导出CSV

| 显示表格

直观起见, 分别从Park场景和Lakeside场景的红外图像序列中抽取六帧代表性图像, 给出了图像对应的Groundtruth和采用六个典型算法与本文算法得到的前景掩膜图像, 如图 8和图 9所示.从图 8和图 9可以看出, 在Park场景中, 各算法均能检测出前景目标, 其中, DECOLOR算法和GMM算法将大量的背景像素误认为是前景目标像素, 其余四个典型算法均有大量前景目标像素没被有效地检测出来.而本文算法不但能有效地检测出绝大多数的前景目标像素, 而且引入较少的虚警像素.在Lakeside场景中, 六个典型算法均有大量前景目标像素没被有效地检测出来, 而本文算法以较低的虚警率检测出了绝大多数的前景目标像素, 使得到的前景掩膜图像与Groundtruth非常接近.

图 8 Park场景代表性图像及各算法得到的前景掩膜图像

Fig. 8 Images of park scene and foreground masks obtained from different algorithms

下载: 全尺寸图片幻灯片

图 9 Lakeside场景代表性图像及各算法得到的前景掩膜图像

Fig. 9 Images of lakeside scene and foreground masks obtained from different algorithms

下载: 全尺寸图片幻灯片

此外, 为了分析本文算法处理固定场景红外图像序列的速度性能, 对算法执行压缩感知、模型构建、稀疏重构和背景减除环节处理Park场景和Lakeside场景图像序列中一帧图像的平均时间消耗进行了统计, 如表 2所示.同时, 对GMM算法在背景建模和前景像素判别两个环节处理一帧图像的平均时间消耗进行了统计, 其中, 对Park场景的背景建模和前景像素判别过程的平均时间消耗分别为5.0381 s和0.1482 s, 对Lakeside场景的背景建模和前景像素判别过程的平均时间消耗分别为3.4989 s和0.0891 s.不难看出, 本文采用压缩感知测量值建立高斯混合模型和选择性稀疏重构策略能显著减少运算量, 较之于逐个像素建模与判别的传统高斯混合模型策略, 本文算法在处理速度方面得到极大的提升.

表 2 处理固定场景中一帧红外图像的平均时间消耗(s)

Table 2 The average time consumption of each infrared image in fixed scenes (s)

	压缩感知	模型构建	稀疏重构	背景减除
CDnet2014 park	0.0065	0.1352	0.4938	0.0003
CDnet2014 lakeside	0.0043	0.0827	0.5594	0.0003

下载: 导出CSV

| 显示表格

实验结果表明, 对局部图像压缩感知测量值建立高斯混合模型的方法切实可行且非常高效, 在前景目标与背景灰度很接近的情况下依然具有较高的召回率, 体现出较高的灵敏度, 带来较强的目标检测能力.同时, 采用局部子图的选择性稀疏重构策略能显著减少虚警像素, 提高精确率, 在不含有目标的区域具有较强的抗背景扰动能力, 而在可能含有目标的局部区域以牺牲精确率为代价提高召回率.较之于六个典型算法, 本文算法建立的背景模型对红外图像序列中的前景目标检测具有显著的优势.

4.2 动态场景的实验验证与比较分析

采用VIVID PETS2005数据集中的两组动态场景(Pktest01, Pktest03)的红外图像序列, 对六个典型背景建模算法和本文算法进行验证.由于VIVID PETS2005数据集是面向图像序列中的对某个车辆目标的跟踪设计的, 而且不是逐帧给出目标所在区域范围, 而是以每10帧为一个关键帧的方式给出.因此, 在本实验中以每10帧取一帧的方式从Pktest01场景图像序列的1 460帧图像中选取146帧图像作为本次实验的图像序列, 从Pktest03场景图像序列的2 011帧图像中选取202帧图像作为本次实验的图像序列.此外, 采用人工标注的方式生成了Pktest01场景和Pktest03场景的本次实验用图像序列的Groundtruth.

在本实验中, GMM算法、KDE算法、Code- book算法和ViBe算法选用的参数均与固定场景实验中一致; GRASTA算法选用的训练图像帧数为10帧, 最大迭代次数为30; DECOLOR算法与本文算法均采用时域滑窗方式, 根据两组红外图像序列的场景变化快慢, 对Pktest01场景选用时域滑窗长度为5帧, 对Pktest03场景选用时域滑窗长度为10帧; 本文算法选用高斯分布个数$s=3$, 均值和方差的学习率$\beta=0.2$, 权值学习率$\alpha=0.2$, 压缩感知率为0.5, 即$m=0.5n$, 重构稀疏度$k=0.2q$.此外, 选用时域滑窗中的图像训练高斯混合模型的均值、方差和权值, 图像网格化划分的局部子图大小均为32像素$\times $32像素.

通过实验统计在两组动态场景图像序列下六个典型背景建模算法和本文算法的平均召回率和精确率, 如图 10所示.

图 10 动态场景图像序列下各算法的平均召回率和精确率

Fig. 10 The average recall and precision of different algorithms in dynamic scene image sequences

下载: 全尺寸图片幻灯片

由于GMM算法、KDE算法、Codebook算法和ViBe算法所实现的背景建模都是基于对序列图像中同一坐标位置像素的长时间观测, 对于动态场景的图像序列, 图像坐标系与场景坐标系的对应关系不断改变, 无法进行持续的背景建模, 以致于利用这些算法所建立的背景模型将大量的背景像素误认为是前景目标像素, 所以召回率较高而精确率较低.由于GRASTA算法以图像序列的低秩性为理论基础进行背景建模, 对于动态场景的图像序列, 得到的前景目标像素主要是由于运动引起的灰度变化较为显著的像素, 尤其是边缘像素, 而真正的前景目标像素的相对运动不明显, 故而不能被很好地检测出来. DECOLOR算法对动态场景的图像序列先执行对齐操作, 而后进行背景建模, 使得运动的目标像素大多能被检测出来, 但是, 该算法同样将大量虚警像素归类为前景目标像素, 在性能指标统计上表现为召回率较高而精确率不高.本文算法能适应动态场景的图像序列中的背景变化, 建立有效的背景模型, 通过背景减除来较好地检测出前景目标.

为了综合召回率和精确率两个指标来评价和比较本文算法与六个典型算法的性能, 统计计算了两组动态场景图像序列下各算法的召回率和精确率的调和平均值F-measure, 如表 3所示.从表 3可以看出, 由于GMM算法、KDE算法、Codebook算法、ViBe算法和GRASTA算法的精确率都很低, 使得F-measure值也很低. DECOLOR算法和本文算法能有效地检测出前景目标像素, 使得F-measure值相对较高.在Pktest01场景中, 本文算法的F-measure值略低于DECOLOR算法, 而在Pktest03场景中, 本文算法的F-measure值略高于DECOLOR算法.

表 3 动态场景图像序列下各算法的F-measure指标

Table 3 The F-measure index of different algorithms in dynamic scene image sequences

	GMM	KDE	Codebook	ViBe	GRASTA	DECOLOR	Ours
PETS2005 pktest01	0.0089	0.0052	0.0040	0.0086	0.0125	0.3927	0.3369
PETS2005 pktest03	0.0099	0.0086	0.0062	0.0123	0.0047	0.1929	0.2198

下载: 导出CSV

| 显示表格

直观起见, 分别从Pktest01场景和Pktest03场景的红外图像序列中抽取六帧代表性图像, 给出了图像对应的Groundtruth和六个典型算法与本文算法运算得到的前景掩膜图像, 如图 11和图 12所示.从图 11和图 12可以看出, GMM算法、KDE算法、Codebook算法、ViBe算法和GRASTA算法均由于没有考虑动态场景的情况, 没有对序列图像进行对齐或配准, 因而将大量的背景像素误认为是前景像素, 造成背景模型失效, 无法有效地检测出前景运动目标. DECOLOR算法和本文算法采用不同的策略对序列图像进行了对齐或配准, 故可以建立有效的背景模型并检测出前景目标.相对于DECOLOR算法, 本文算法不但能有效地检测出前景目标, 而且引入了较少的虚警像素.

图 11 Pktest01场景代表性图像及各算法得到的前景掩膜图像

Fig. 11 Images of Pktest01 scene and foreground masks obtained from different algorithms

下载: 全尺寸图片幻灯片

图 12 Pktest03场景代表性图像及各算法得到的前景掩膜图像

Fig. 12 Images of Pktest03 scene and foreground masks obtained from different algorithms

下载: 全尺寸图片幻灯片

此外, 为了比较分析本文算法和DECOLOR算法在处理动态场景红外图像序列时的速度性能, 对两个算法执行校正与配准、背景建模与重构过程处理Pktest01场景和Pktest03场景图像序列中一帧图像的平均时间消耗进行了统计, 如表 4所示.从表 4可以看出, 本文算法在背景建模与重构过程中的处理速度比DECOLOR算法略快, 但图像校正与配准过程中的处理速度慢于DECOLOR算法, 这与两个算法所采用的策略不同有关. DECOLOR算法虽然对图像对齐与配准较快, 但只能处理抖动或较小位移情况下的图像坐标系不一致等情形, 而本文算法的图像对齐与配准策略则不受此限制.

表 4 处理动态场景中一帧红外图像的平均时间消耗(s)

Table 4 The average time consumption of each infrared image in dynamic scenes (s)

	图像校正与配准		背景建模与重构
	DECOLOR	Ours	DECOLOR	Ours
PETS2005 pktest01	0.6610	1.4632	0.6053	0.5509
PETS2005 pktest03	0.7608	1.1273	0.6942	0.6454

下载: 导出CSV

| 显示表格

实验结果表明, 利用图像轮廓角点特征估计的相邻两帧图像间的相对运动参数能较好地反映探测器的真实运动, 对动态场景下红外图像序列的相对几何校正与配准较为准确, 利用配准之后的动态场景图像序列能像固定场景背景建模一样建立背景模型以有效地检测出前景目标, 有效地克服了成像场景动态变化带来的背景模型失效问题.但是, 不论在固定场景下还是动态场景下, 采用背景减除的方式, 对于在前景目标与背景灰度接近的区域, 前景孔洞现象难以避免.

5. 结论

本文提出了一种动态场景红外图像的压缩感知域高斯混合背景建模方法, 该方法采用对网格化图像的局部子图的压缩感知测量值建立高斯混合模型代替传统的对图像中的每个像素建立高斯混合模型, 既减少了背景建模过程的计算量, 又提高了所建立背景模型的鲁棒性.同时, 通过提取图像轮廓的角点特征, 估计相邻两帧图像在投影变换模型下的运动参数以对图像进行相对几何校正, 经配准后才进行背景建模, 较好地解决了由于探测器所在载体的运动、抖动或探测器自身主动扫描、变焦等引起成像场景动态变化而使背景模型失效的问题.此外, 采用稀疏字典的增量学习法不断更新和背景模型在检测过程中的不断更新, 提高了本文算法的在线学习能力和对背景红外辐射强度动态变化的适应能力.实验结果表明, 本文算法能为动态场景下的红外图像建立较好的背景模型, 实现高效的前景目标检测, 且召回率、精确率、F-measure等性能指标及处理速度均表现优异, 适用于绝大多数固定场景或动态场景下的红外图像目标检测应用, 但受制于基于图像轮廓角点特征的图像校正与配准, 对于背景单一的天空、海面等应用将不适用, 而在场景变化剧烈且重叠率低的目标检测应用中建立背景模型的意义不大.在下一步工作中, 将研究更有效的前景像素判别方法, 避免前景孔洞现象的出现, 以发挥压缩感知域高斯混合背景模型的更大优势.

本文责任编委王坤峰

图 1 E-REGAN结构原理图

Fig. 1 Structure and scheme of E-REGAN

下载: 全尺寸图片幻灯片

图 2 ARBM结构图

Fig. 2 Structure of ARBM

下载: 全尺寸图片幻灯片

图 3 ADAE结构原理图

Fig. 3 Structure and scheme of ADAE

下载: 全尺寸图片幻灯片

图 4 生成模型ADBN的训练RMSE

Fig. 4 RMSE curve of generative model ADBN

下载: 全尺寸图片幻灯片

图 5 E-REGAN的能量函数变化曲线

Fig. 5 Energy function curves of E-REGAN

下载: 全尺寸图片幻灯片

图 6 E-REGAN生成的样本图像

Fig. 6 Sample images generated by E-REGAN

下载: 全尺寸图片幻灯片

图 7 SS-E-REGAN生成的样本图像

Fig. 7 Sample images generated by SS-E-REGAN

下载: 全尺寸图片幻灯片

图 8 SN-E-REGAN生成的样本图像

Fig. 8 Sample images generated by SN-E-REGAN

下载: 全尺寸图片幻灯片

图 9 g-GAN生成的样本图像

Fig. 9 Sample images generated by g-GAN

下载: 全尺寸图片幻灯片

图 10 LS-GAN生成的样本图像

Fig. 10 Sample images generated by LS-GAN

下载: 全尺寸图片幻灯片

图 11 生成模型ADBN的训练RMSE

Fig. 11 RMSE curve of generative model ADBN

下载: 全尺寸图片幻灯片

图 12 E-REGAN的能量函数变化曲线

Fig. 12 Energy function curves of E-REGAN

下载: 全尺寸图片幻灯片

图 13 E-REGAN生成的样本图像

Fig. 13 Sample images generated by E-REGAN

下载: 全尺寸图片幻灯片

图 14 LS-GAN生成的样本图像

Fig. 14 Sample images generated by LS-GAN

下载: 全尺寸图片幻灯片

图 15 LR-GAN生成的样本图像

Fig. 15 Sample images generated by LR-GAN

下载: 全尺寸图片幻灯片

图 16 Bayesian GAN生成的样本图像

Fig. 16 Sample images generated by Bayesian

下载: 全尺寸图片幻灯片

表 1 MNIST数据集测试中ADBN的固有参数

Table 1 Fixed parameters of ADBN on MNIST dataset

$\eta_0$	$\tau$	$t$	$u$	$v$	$\lambda$	$\gamma $
0.1	200	2	1.5	0.7	0.02	0.01
$ \eta _0 $表示学习率的初始值

下载: 导出CSV

表 2 MNIST数据集实验结果对比

Table 2 Result comparison on MNIST dataset

方法	能量函数(RE)		分类正确率(%)	平均运行时间(s)
方法	均值	方差	分类正确率(%)	平均运行时间(s)
E-REGAN	0.0037	0.0790	92	58.62
SS-E-REGAN	0.0405	2.0618	84	56.94
SN-E-REGAN	0.1873	2.7724	82	60.31
标准GAN	–	–	79	87.23
LS-GAN^[27]	–	–	87	74.61
LR-GAN^[28]	–	–	90	71.36
Bayesian GAN^[29]	–	–	85	77.48
粗体表示最优值.

下载: 导出CSV

表 3 CIFAR-10数据集测试中ADBN的固有参数

Table 3 Fixed parameters of ADBN on CIFAR-10 dataset

$\eta_0$	$\tau$	$t$	$u$	$v$	$\lambda$	$\gamma $
0.1	300	2	1.7	0.5	0.05	0.02
$ \eta _0 $表示学习率的初始值.

下载: 导出CSV

表 4 CIFAR-10数据集实验结果对比

Table 4 Result comparison on CIFAR-10 dataset

方法	能量函数		测试误差		平均运行时间(s)
方法	均值	方差	均值	方差	平均运行时间(s)
E-REGAN	0.0048	0.0831	0.0160	0.0831	65.38
SS-E-REGAN	0.0473	2.2406	0.0431	2.2406	65.75
SN-E-REGAN	0.2097	2.8119	0.0633	2.8119	67.92
标准GAN	–	–	0.0802	1.9227	90.68
LS-GAN^[27]	–	–	0.0358	0.1076	78.24
LR-GAN^[28]	–	–	0.0263	0.1547	84.36
Bayesian GAN^[29]	–	–	0.0386	0.2037	86.19
粗体表示最优值.

下载: 导出CSV

参考文献(34)

[1]	Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial nets. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014. 2672-2680
[2]	Makhzani A, Shlens J, Jaitly N, Goodfellow I, Frey B. Adversarial autoencoders. arXiv preprint arXiv: 1511. 05644, 2015.
[3]	Mao X D, Li Q, Xie H R, Lau R Y K, Wang Z, Smolley S P. Least squares generative adversarial networks. arXiv preprint ArXiv: 1611. 04076, 2016.
[4]	Durugkar I, Gemp I, Mahadevan S. Generative multi-adversarial networks. arXiv preprint arXiv: 1611. 01673, 2016.
[5]	Huang X, Li Y X, Poursaeed O, Hopcroft J, Belongie1 S. Stacked generative adversarial networks. arXiv preprint arXiv: 1612. 04357, 2016.
[6]	Saito M, Matsumoto E, Saito S. Temporal generative adversarial nets with singular value clipping. In: Proceedings of the 2017 IEEE Conference on Computer Vision. Venice, Italy: ICCV, 2017. 2849-2858
[7]	Che T, Li Y R, Zhang R X, Hjelm R D, Li W J, Song Y Q, etal. Maximum-likelihood augmented discrete generative adversarial networks. arXiv preprint arXiv: 1702. 07983, 2017.
[8]	王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃.生成式对抗网络GAN的研究进展与展望.自动化学报, 2017, 43(3):321-332 http://www.aas.net.cn/CN/abstract/abstract19012.shtml Wang Kun-Feng, Gou Chao, Duan Yan-Jie, Lin Yi-Lun, Zheng Xin-Hu, Wang Fei-Yue. Generative adversarial networks:the state of the art and beyond. Acta Automatica Sinica, 2017, 43(3):321-332 http://www.aas.net.cn/CN/abstract/abstract19012.shtml
[9]	Arjovsky M, Chintala S, Bottou L. Wasserstein GAN. arXiv preprint arXiv: 1701. 07875, 2017.
[10]	Donahue J, Krähenbühl P, Darrell T. Adversarial feature learning. arXiv preprint arXiv: 1605. 09782, 2016.
[11]	LeCun Y, Huang F. Loss functions for discriminative training of energy-based models. In: Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics. Barbados: AIS, 2005. 206-213
[12]	乔俊飞, 潘广源, 韩红桂.一种连续型深度信念网的设计与应用.自动化学报, 2015, 41(12):2138-2146 http://www.aas.net.cn/CN/abstract/abstract18786.shtml Qiao Jun-Fei, Pan Guang-Yuan, Han Hong-Gui. Design and application of continuous deep belief network. Acta Automatica Sinica, 2015, 41(12):2138-2146 http://www.aas.net.cn/CN/abstract/abstract18786.shtml
[13]	乔俊飞, 王功明, 李晓理, 韩红桂, 柴伟.基于自适应学习率的深度信念网设计与应用.自动化学报, 2017, 43(8):1339-1349 http://www.aas.net.cn/CN/abstract/abstract19108.shtml Qiao Jun-Fei, Wang Gong-Ming, Li Xiao-Li, Han Hong-Gui, Chai Wei. Design and application of deep belief network with adaptive learning rate. Acta Automatica Sinica, 2017, 43(8):1339-1349 http://www.aas.net.cn/CN/abstract/abstract19108.shtml
[14]	Lopes N, Ribeiro B. Towards adaptive learning with improved convergence of deep belief networks on graphics processing units. Pattern Recognition, 2014, 47(1):114-127 doi: 10.1016/j.patcog.2013.06.029
[15]	王功明, 李文静, 乔俊飞.基于PLSR自适应深度信念网络的出水总磷预测.化工学报, 2017, 68(5):1987-1997 http://www.doc88.com/p-6922879556285.html Wang Gong-Ming, Li Wen-Jing, Qiao Jun-Fei. Prediction of effluent total phosphorus using PLSR-based adaptive deep belief network. CIESC Journal, 2017, 68(5):1987-1997 http://www.doc88.com/p-6922879556285.html
[16]	Hinton G E. Training products of experts by minimizing contrastive divergence. Neural Computation, 2002, 14(8):1771-1800 doi: 10.1162/089976602760128018
[17]	Le Roux N, Bengio Y. Representational power of restricted boltzmann machines and deep belief networks. Neural Computation, 2008, 20(6):1631-1649 doi: 10.1162/neco.2008.04-07-510
[18]	Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527-1554 doi: 10.1162/neco.2006.18.7.1527
[19]	Alain G, Bengio Y. What regularized auto-encoders learn from the data-generating distribution. The Journal of Machine Learning Research, 2014, 15(1):3563-3593 http://jmlr.csail.mit.edu/papers/volume15/alain14a/alain14a.pdf
[20]	Chan P P K, Lin Z, Hu X, Tsang E C C, Yeung D S. Sensitivity based robust learning for stacked autoencoder against evasion attack. Neurocomputing, 2017, 267:572-580 doi: 10.1016/j.neucom.2017.06.032
[21]	Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes. IEEE Transactions on Neural Networks, 2006, 17(4):879-892 doi: 10.1109/TNN.2006.875977
[22]	Leung F H F, Lam H K, Ling S H, Tam P K S. Tuning of the structure and parameters of a neural network using an improved genetic algorithm. IEEE Transactions on Neural networks, 2003, 14(1):79-88 doi: 10.1109/TNN.2002.804317
[23]	de la Rosa E, Yu W. Randomized algorithms for nonlinear system identification with deep learning modification. Information Sciences, 2016, 364-365:197-212 doi: 10.1016/j.ins.2015.09.048
[24]	Zhao J B, Mathieu M, LeCun Y. Energy-based generative adversarial network. arXiv preprint arXiv: 1609. 03126, 2016.
[25]	Larochelle H, Bengio Y, Louradour J, Lamblin P. Exploring strategies for training deep neural networks. The Journal of Machine Learning Research, 2009, 10:1-40 http://www.cs.toronto.edu/~larocheh/publications/jmlr-larochelle09a.pdf
[26]	Wang Y, Wang X G, Liu W Y. Unsupervised local deep feature for image recognition. Information Sciences, 2016, 351:67-75 doi: 10.1016/j.ins.2016.02.044
[27]	Qi G J. Loss-sensitive generative adversarial networks on lipschitz densities. arXiv preprint arXiv: 1701. 06264, 2017.
[28]	Yang J W, Kannan A, Batra D, Parikh D. LR-GAN: layered recursive generative adversarial networks for image generation. arXiv preprint arXiv: 1703. 01560, 2017.
[29]	Saatchi Y, Wilson A. Bayesian GAN. arXiv preprint arXiv: 1705. 09558, 2017.
[30]	Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R R. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv: 1207. 0580, 2012.
[31]	Xu B, Wang N Y, Chen T Q, Li M. Empirical evaluation of rectified activations in convolutional network. arXiv preprint arXiv: 1505. 00853, 2015.
[32]	Goroshin R, Bruna J, Tompson J, Eigen D, LeCun Y. Unsupervised learning of spatiotemporally coherent metrics. In: Proceedings of the 2015 IEEE Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 4086-4093
[33]	Metz L, Poole B, Pfau D, Sohl-Dickstein J. Unrolled generative adversarial networks. arXiv preprint arXiv: 1611. 02163, 2016.
[34]	Springenberg J T. Unsupervised and semi-supervised learning with categorical generative adversarial networks. arXiv preprint arXiv: 1511. 06390, 2015.

施引文献

期刊类型引用(15)

1.	焦枫媛，杨志秀，石韶杰，曹卫国. 基于生成对抗网络的低剂量CT图像降噪方法（英文）. Journal of Measurement Science and Instrumentation. 2024(04): 490-498 . 百度学术
2.	郭继峰，庞志奇，李星，杨帆，岳琪. 基于生成对抗网络的眼底图像生成方法. 计算机应用与软件. 2022(05): 197-203+252 . 百度学术
3.	刘厦，郝亚峰，仇梓峰，胡炎. 面向仓库巡逻的小样本目标识别方法综述. 无线电工程. 2022(08): 1402-1408 . 百度学术
4.	陈泓佑，陈帆，和红杰，朱翌明. 基于样本特征解码约束的GANs. 自动化学报. 2022(09): 2288-2300 . 本站查看
5.	王功明，乔俊飞，关丽娜，贾庆山. 深度信念网络研究现状与展望. 自动化学报. 2021(01): 35-49 . 本站查看
6.	方卫华，张慧，夏童童. 基于轻量化GANs的引水隧洞充水试验数据生成分析. 水利信息化. 2021(02): 34-39 . 百度学术
7.	陈宗航，胡海龙，姚剑敏，严群，林志贤. 基于改进生成对抗网络的单帧图像超分辨率重建. 液晶与显示. 2021(05): 705-712 . 百度学术
8.	陈泓佑，和红杰，陈帆，朱翌明. 基于子样本集构建的DCGANs训练方法. 自动化学报. 2021(04): 913-923 . 本站查看
9.	谢庆，杨天驰，裴少通，谢军，律方成. 基于多尺度协作模型的电气设备红外图像超分辨率故障辨识方法. 电工技术学报. 2021(21): 4608-4616 . 百度学术
10.	杨旺功，淮永建. 基于深度卷积生成对抗网络的花朵图像增强与分类. 计算机科学. 2020(06): 176-179 . 百度学术
11.	王冬冬，王力，姜敏，王可新，栾浩. 改进的生成对抗网络的图像超分辨率重建. 计算机工程与设计. 2020(07): 1981-1986 . 百度学术
12.	米恒，贾振堂. 基于改进生成式对抗网络的图像超分辨率重建. 计算机应用与软件. 2020(09): 139-145 . 百度学术
13.	程乐峰，余涛，张孝顺，殷林飞. 机器学习在能源与电力系统领域的应用和展望. 电力系统自动化. 2019(01): 15-43 . 百度学术
14.	杜振龙，沈海洋，宋国美，李晓丽. 基于改进CycleGAN的图像风格迁移. 光学精密工程. 2019(08): 1836-1844 . 百度学术
15.	许浩，郭卫斌. 带有双判别器的对抗性领域适应图像分类算法. 计算机工程与科学. 2019(09): 1656-1661 . 百度学术

其他类型引用(13)

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

一种能量函数意义下的生成式对抗网络

doi: 10.16383/j.aas.2018.c170600

作者简介:
王功明北京工业大学信息学部博士研究生.主要研究方向为深度学习, 神经网络结构设计与优化.E-mail:xiaowangqsd@163.com

王磊北京工业大学信息学部博士研究生.主要研究方向为神经网络结构设计与优化.E-mail:jade wanglei@163.com

通讯作者:
乔俊飞北京工业大学信息学部教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化.本文通信作者.E-mail:junfeq@bjut.edu.cn

计量

A Generative Adversarial Network Based on Energy Function

Corresponding author: QIAO Jun-Fei Professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, structure design and optimization of neural networks. Corresponding author of this paper

1. 数学模型

1.1 压缩感知理论

1.2 压缩感知域高斯混合模型

2. 局部图像的背景建模与选择性稀疏重构

2.1 网格化图像的局部背景建模

2.2 基于子空间的选择性稀疏重构

3. 动态场景红外图像的背景建模策略与实现

3.1 运动参数估计及图像校正与配准

3.2 背景建模方案集成与算法实现

4. 实验验证与比较分析

4.1 固定场景的实验验证与比较分析

4.2 动态场景的实验验证与比较分析

5. 结论

期刊类型引用(15)

其他类型引用(13)

计量

目录

1. 数学模型

1.1 压缩感知理论

1.2 压缩感知域高斯混合模型

2. 局部图像的背景建模与选择性稀疏重构

2.1 网格化图像的局部背景建模

2.2 基于子空间的选择性稀疏重构

3. 动态场景红外图像的背景建模策略与实现

3.1 运动参数估计及图像校正与配准

3.2 背景建模方案集成与算法实现

4. 实验验证与比较分析

4.1 固定场景的实验验证与比较分析

4.2 动态场景的实验验证与比较分析

5. 结论

留言板

一种能量函数意义下的生成式对抗网络

doi: 10.16383/j.aas.2018.c170600

通讯作者: 乔俊飞 北京工业大学信息学部教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化.本文通信作者.E-mail:junfeq@bjut.edu.cn

计量

出版历程

A Generative Adversarial Network Based on Energy Function

Corresponding author: QIAO Jun-Fei Professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, structure design and optimization of neural networks. Corresponding author of this paper

1. 数学模型

1.1 压缩感知理论

1.2 压缩感知域高斯混合模型

2. 局部图像的背景建模与选择性稀疏重构

2.1 网格化图像的局部背景建模

2.2 基于子空间的选择性稀疏重构

3. 动态场景红外图像的背景建模策略与实现

3.1 运动参数估计及图像校正与配准

3.2 背景建模方案集成与算法实现

4. 实验验证与比较分析

4.1 固定场景的实验验证与比较分析

4.2 动态场景的实验验证与比较分析

5. 结论

期刊类型引用(15)

其他类型引用(13)

计量

出版历程

目录

1. 数学模型

1.1 压缩感知理论

1.2 压缩感知域高斯混合模型

2. 局部图像的背景建模与选择性稀疏重构

2.1 网格化图像的局部背景建模

2.2 基于子空间的选择性稀疏重构

3. 动态场景红外图像的背景建模策略与实现

3.1 运动参数估计及图像校正与配准

3.2 背景建模方案集成与算法实现

4. 实验验证与比较分析

4.1 固定场景的实验验证与比较分析

4.2 动态场景的实验验证与比较分析

5. 结论

通讯作者:
乔俊飞北京工业大学信息学部教授.主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化.本文通信作者.E-mail:junfeq@bjut.edu.cn