Sea Surface Target Detection for RD Images of HFSWR Based on Optimized Error Self-adjustment Extreme Learning Machine
-
摘要: 高频地波雷达(High-frequency surface wave radar, HFSWR)在超视距舰船目标检测跟踪中有广泛应用.然而, HFSWR工作频段的电磁环境十分复杂, 舰船目标信号往往被淹没在各种噪声中.本文提出一种基于最优误差自校正极限学习机(Optimized error self-adjustment extreme learning machine, OES-ELM)的HFSWR海面目标识别算法.该算法利用二级级联分类策略, 可以显著提高目标的检测效率.首先利用灰度特征和线性分类器快速找出目标的潜在区域.然后利用Haar-like特征和OES-ELM分类器进一步辨识目标和海杂波.在OES-ELM中, 首先利用$L_{1/2}$正则算子裁剪隐层中的"微弱"神经元, 以得到隐层神经元的最优个数; 其次, 通过网络误差回传至隐含层使网络的隐层权值和输出层权值迭代更新至最优状态.实验结果表明:和标准ELM相比, 提出的OES-ELM网络具有更好的性能; 此外, 基于OES-ELM的HFSWR目标检测方法具有良好的实时性和目标检测性能.Abstract: High-frequency surface wave radar (HFSWR) has been widely applied in ship targets detection and tracking beyond the line-of-sight limitation. However, the detection background of HFSWR is completely complex, in which the ship targets usually polluted by all kinds of noises. In this paper, a novel ship target detection method based on optimized error self-adjustment extreme learning machine (OES-ELM) for RD images of HFSWR is presented. Through the application of two-stage cascade classification strategy, the proposed approach can impressively increase the detection efficiency in real time. Firstly, gray-scale feature and a linear classifier are adopted to obtain the target candidate areas. Then, Haar-like features and a optimized ELM are proposed to identify ship targets from precisely. In the proposed OES-ELM, the sparse solution of output weights is found by $L_{1/2}$ regularizer process, in which the optimal hidden neurons can be obtained by pruning the "weak" nodes. In addition, both the output and hidden weights are updated to optimal value by pulling back the output error to the hidden layer. Experimental results show that the proposed OES-ELM has better generalization performance. Furthermore, the proposed method has favorable real time and target detection performance.
-
Key words:
- High frequency surface wave radar (HFSWR) /
- extreme learning machine (ELM) /
- target detection /
- RD image
-
近几年, 高频地波雷达(High frequency surface wave radar, HFSWR)理论与技术发展迅速[1].与其他海事监测方式相比, HFSWR利用高频垂直极化电磁波沿海面绕射效应可实现超视距目标探测, 具有观测距离远, 覆盖面积大, 工作全天候等优点.然而, HFSWR自身存在一定缺陷, 处在高频段的雷达具有极其复杂的电磁波环境, 这将导致雷达回波中除具有有用信息外, 还含有海浪与电磁波谐振产生的海洋表面回波, 经电离层反射后被雷达接收而造成的电离层回波, 这些干扰回波对HFSWR目标检测产生严重影响, 因此, 如何从复杂环境中准确提取海面目标一直是HFSWR海事监控面临的一个难题.
在高频地波雷达海面目标检测方面, 国内外学者提出很多经典算法, 最经典的当属Conte等[2]提出的恒虚警率(Constant false-alarm rate, CFAR)算法, 该算法假设在均匀的Rayleigh分布的杂波背景下, 计算出参考单元的估计值, 再利用该估计值对和它独立同分布的检测单元的背景模型进行合理评价, 该检测算法在有斯特林起伏目标的检测环境下具有较好的识别水平.然而, 该算法的检测条件非常局限, 在杂波模型未知和背景复杂(尤其是杂波边缘复杂)的情况下, 检测效果并不理想, 此时算法的检测虚警率很高.在此基础上, Rohling等[3-4]提出了OS-CFAR算法, 该算法首先对参考单元内的参考值排序, 选取其中的某个参考值作为背景杂波功率的估计值, 该算法的优点在于:通过对参考值的排序, 可以有效避开"野值"对估计值的干扰, 该算法比经典CFAR算法具有更好的抗干扰能力, 且在杂波边缘也对点目标具有较好的目标识别效果. 2012年, 桂仁舟[5]提出了一种二维恒虚警算法, 该算法在一维CFAR算法的基础上, 针对距离-多普勒(Range doppler, RD)谱图中噪声和杂波随时间变化的特点, 于距离方向和多普勒频移方向分别进行一次CFAR检测, 对点目标具有较好的识别性能. 2014年, 梁建[6]在二维恒虚警算法上, 结合分段曲线拟合, 进一步做出改进, 提高了CFAR对高频地波雷达的检测性能.总之, 基于CFAR的目标检测算法可定量分析检测的结果, 应用十分广泛.但在强杂波和复杂背景噪声背景下, 海面目标点的信噪比会大大减弱, 从而造成CFAR方法检测性能大大下降.
在恒虚警率算法的基础上, 国内外学者提出了很多改进算法体系. Grosdidier等[7]提出了一种基于RD谱图形态成分分析的舰船点目标识别算法, 该算法结合稀疏表达技术, 利用点目标的形状和灰度分布特征进行目标检测. Jangal等[8-9]通过分析目标点和噪声的几何特征和能量差异, 提出了一种基于小波变换的RD谱图目标点识别算法. Li等[10]针对Jangal算法存在的问题, 提出了一种改进算法, 该算法在提高目标检测率的基础上, 显著降低了目标虚警率, 具有一定的普适性.除此之外, Wang等[11]提出了一种基于斜轴投影的空间盲滤波算法, 该算法利用目标点和海杂波在空域的回波差异, 能快速准确地从富含海杂波的处理环境中提取目标点信息. Zhang等[12]将逆相变(Reverse phase transition)的概念引入杜芬振子(Duffing oscillator)中, 提出了一个能显著提高目标点检测率的HFSWR目标检测算法. Dakovic等[13]结合目标点与其他干扰(杂波, 背景噪声)的时频差异, 提出了能多方位识别目标的HFSWR检测算法.然而, 这些算法只注重目标检测率和虚警率且有较高的算法复杂度, 实时性差.
通过上述分析, 可知现阶段RD谱图海面目标检测算法的主要问题有三个方面:首先是检测实时性差; 其次是目标检测率低; 最后, 这些算法中都或多或少存在人为设定的阈值, 如CFAR的检测门限, 小波变换的小波尺度, 稀疏表达中完备字典集的选取等, 这些根据经验选取的因素, 对算法的检测性能有极大的影响.因此, 本文从全新的机器学习角度, 提出一种自适应性强, 实时性好, 检测精度高的RD谱图海面目标识别算法.一方面, 为了提高算法的海面目标识别精度, 提出一种全新极限学习机算法网络:最优误差自校正极限学习机(Optimized error self-adjustment extreme learning machine, OES-ELM), 该网络能将RD谱图中被杂波干扰的"虚弱目标"识别出来.同时, 为了提高高频地波雷达RD谱目标检测的实时性能, 本文提出了一种基于两级级联分类器的目标识别策略, 该策略能从简至繁, 逐层将目标从RD谱中剥离出来.
由黄广斌教授提出的极限学习机(Extreme learning machine, ELM)网络, 具有训练速度快, 泛化性能好的特点, 在很多领域中应用广泛.然而, 该网络仍存在以下缺点: 1)隐层神经元随机确定的权值对网络的分类性能有很大的影响, 且隐层神经元个数无法通过一个有效算法计算获得.在相关文献[14-17]中人们虽然提出了一些关于此网络的优化算法, 但这类算法将确定隐层神经元个数的步骤转化为优化问题, 步骤繁琐, 有较高的时间成本. 2)在极限学习机网络的学习训练中, 正则系数起到重要作用, 需人们在分类识别前手动确定大小.然而当前却没有一种有效的参数选择方式, 大多情况下人们采用试错法的方式来选择正则系数的大小[18-19].
针对目前高频地波雷达检测方法存在的问题和标准ELM存在的问题, 本文贡献主要有以下两方面:
1) 本文提出一种改进极限学习机算法:最优误差自校正极限学习机(OES-ELM).该网络具有以下优点:首先, 该算法隐层权值矩阵不是随机确定, 而是通过输出层误差矩阵的反向回传矩阵更新获得, 因此该网络可以更好地学习训练集的内在知识, 达到更好的泛化性能.其次, OES-ELM网络提供了一种隐层神经元自适应确定算法, 且可用极少的隐层节点达到其他ELM网络的识别精度.最后, OES-ELM算法的正则系数对最终网络的分类性能并不敏感, 人们可以在训练前随机设定正则项数值大小.
2) 在工程上, 本文提出一种基于两级级联分类器的RD谱图海面目标识别算法, 第一级采用简单的线性分类器, 快速将背景成分从RD谱图中滤除, 提高算法的实时性; 第二级采用OES-ELM网络, 精准地将目标点从非背景成分中辨识出来, 保证目标检测的准确性.同时, 整个算法需人为设定的参数较少, 算法具有较好的自适应性.
本文第1节介绍高频地波雷达RD谱图目标检测算法的总体框架; 第2节给出基于灰度特征的一级线性分类器算法; 第3节介绍Haar-like高阶特征的提取过程; 第4节介绍提出的最优误差自校正极限学习机算法; 第5节阐述实验评估结果; 最后总结全文.
1. 海面目标检测算法总体框架
图 1是一幅经典高频地波雷达RD谱图, 其中不仅含有海面目标点, 同时还含有各种杂波和背景噪声.其中海杂波与地杂波在距离向上呈脊状结构; 电离层杂波在多普勒频移向上呈条形, 带状的形态特征; 目标点由于幅度局部占优并在处理过程中受窗函数作用, 在RD谱图中表现为具有一定幅度的孤立峰值点.因此, 在RD谱中, 海杂波、地杂波、电离层杂波和目标点的边缘形态具有显著差异.若从RD谱中选取一个大小合适的矩形窗口, 海杂波、地杂波在该窗口中为竖直条状, 电离层杂波在该窗口呈水平条状, 目标为孤立点.故而可首先用一种能描述图像点特征的算子来进行特征提取, 再运用分类器对其进行分类, 可以将目标点和其他干扰成分有效分离.
此外, 为了提高高频地波雷达RD谱目标检测的实时性能, 本文提出了一种基于两级级联分类器的目标识别策略.根据相关文献[20-21], 级联分类器可以在保证分类精度的前提下, 大大降低算法所需时间.本文结合OES-ELM网络和级联分类策略, 提出的目标检测算法如图 2所示.
本文提出的目标检测算法主要由两个分类器构成:一级分类器和二级分类器.前者是一个输入特征为灰度值的线性分类器, 主要负责目标点潜在区域的提取, 用以区分非背景成分(目标、杂波)和背景成分, 详情请见第2节; 后者为本文提出的OES-ELM分类器, 其输入特征为49维的Haar-like高阶特征, 主要任务是进行目标点的精确检测, 从非背景成分中区分目标点和非目标点, 该部分的详细情况见第3节和第4节.
2. 线性分类器
在一幅灰度RD谱图中, 通过观察可发现背景区域像素的能量强度比目标点和杂波低, 即RD谱图中较小的灰度值对应的像素点是背景成分; 较大的灰度值所属像素属于目标或杂波区域.因此, 可利用一个简单的线性分类器, 通过像素灰度值, 将RD谱图的背景区域和非背景区域分开, 提高算法的检测效率.
若训练集X中包含N个训练样本, 本文设计的线性分类器为:
$$ \begin{equation} h(x_i) = \begin{cases} 1, &g(x_i)\geq T\\ 0, &g(x_i)<T\\ \end{cases} \end{equation} $$ (1) 其中, $ T $是线性分类器的阈值, $ x_i $为第$ i $个训练样本, $ g(\cdot) $是训练样本在RD谱图的灰度值, $ h(\cdot) $是经分类器判定的类别, 阈值由以下几个步骤确定:
1) 获得每个训练样本的特征值(灰度值) $ t_i $, 并升序排序.
2) 对每个样本分配权重$ w_i $, 并分别计算出非背景样本和背景样本的加权和, 分别用$ T^+ $和$ T^- $表示:
$$ \begin{equation} \begin{split} &T^+ = \sum\limits_{i = 1}^{N_{\rm nb}}t_i\times w_i, \quad T^- = \sum\limits_{i = 1}^{N_{\rm b}}t_i\times w_i \end{split} \end{equation} $$ (2) 其中, $ N_{\rm nb} $是非背景样本个数, $ N_{\rm b} $是样本集中背景样本个数.
3) 对于已经排好序的特征值序列, 依次选取其中的一个特征值$ t_i $为阈值, 进行以下操作:
a) 计算特征$ t_i $前, 所有非背景样本和背景样本的加权和, 标记为$ S^{i+} $和$ S^{i-} $:
$$ \begin{equation} \begin{split} &S^{i+} = \sum\limits_{j = 1}^{n_{\rm nb}}t_j\times w_j, \quad S^{i-} = \sum\limits_{j = 1}^{n_{\rm b}}t_j\times w_j \end{split} \end{equation} $$ (3) 其中, $ n_{\rm nb} $是$ t_i $前非背景样本的个数, $ n_{\rm b} $是$ t_i $前背景样本的个数.
b) 计算此时分类器的权重误差, 即将阈值$ t_i $前非背景样本的加权和与$ t_i $后背景样本的加权和相加.
$$ \begin{equation} e_i = S^{i+}+({T^–}-S^{i-}) \end{equation} $$ (4) 4) 误差最小时的特征值$ t_i $就是算法求出的最佳阈值T.此时能最大限度的保证$ t_i $前的样本为背景, $ t_i $后的样本为非背景.通过式(5)确定此线性分类器的最佳阈值:
$$ \begin{equation} \begin{split} &\hat{i} = \arg \mathop{\min}_{i} \{S^{i+}+({T^–}-S^{i-})\} \\ &T = t_{\hat{i}} \end{split} \end{equation} $$ (5) 在高频地波雷达RD谱处理中, 目标点检测的原则是在保证最高检测率的前提下尽可能保证算法实时性.因此, 在本文RD谱目标检测算法中, 非背景样本的权值统一取值为1, 背景样本的权值统一设置为0.01, 这样选取的优点为:经线性分类器处理的RD谱图可充分保留其中的海面目标点.通过计算可获得背景样本加权和$ T^- $为514.73.
图 3 (a)给出了线性分类器的权重误差e在不同灰度值下的变化曲线, 其中横轴代表样本排序后的灰度值, 纵轴代表以此灰度值为阈值时该线性分类器的权重误差值. 图 3 (b)为以某一灰度值为阈值时, 该阈值前非背景样本的权重和, 该阈值后背景样本的权重和$ {T^–}-{S^-} $不同灰度值下的变化曲线.两者的和即为该线性分类器的权重误差.观察图 3 (a)可知, 阈值选取为161时(图 3 (a)圆圈所示), 训练获得的网络误差最小, 此时线性分类器的加权误差为43.99.
3. Haar-like特征
在RD谱图中, 目标点是一种具有一定幅值的孤立峰值点, 杂波分别在距离方向或多普勒方向变化缓慢.因此, 若在RD谱图上构建一个矩形窗口, 目标点在形态上类似于圆形, 而杂波为长条形.所以, 目标点和杂波在RD谱图上具有不同的几何特征.本文用Haar-like算子提取图像高阶特征, 以便进行目标点的精确检测.
Haar-like首先由Papageorgiou等[22]提出, 近几年, 大量学者将Haar-like特征应用到各种工程实践中[22-24], 目前常用的Haar-like特征主要有三类:线性特征、边缘特征、中心特征, 具体如图 4所示.
在本算法中, 用竖直方向中心特征(如图 4中3 (a)所示)构成Haar-like特征算子.
通过第2节设计的线性分类器, 可获得RD谱图的目标潜在区域(即图 5 (a)的黑色区域), 对该区域中的每个像素, 在原始RD谱图中分别生成以每个像素(称为参考像素)为中心的$ 7\times7 $大小的滑动窗口, 如图 5 (b)所示, 利用Haar-like特征算子可对该滑动窗口提取相应的高阶特征.
4. 最优误差自校正极限学习机
经第3节Haar-like高阶特征提取后, 需设计一个合适的神经网络, 将RD谱图中的海面目标从非背景区域中检测出来.
受子网络极限学习机的启发[25-28], 本文提出一种新的最优误差自校正极限学习机(OES-ELM)算法, 该网络训练过程主要分为两阶段, 初始化阶段和权值更新阶段.初始化阶段的目的是获得恰当的隐层特征映射空间(包括隐层权值和隐层神经元个数), 结合$ L_{1/2} $正则化找到合适的隐层结构.更新阶段目的是结合$ L_2 $正则化更新隐层权值, 使网络获得权值最小解, 提高网络的泛化性能.
4.1 初始化阶段
为了让OES-ELM网络获得能最佳表达输入数据的隐含层, 本文将神经网络隐层节点选取的过程同寻找最优化问题稀疏解的过程联系起来, 求得的最优稀疏解能使隐层特征数据间的冗余性最小.换句话说, 本文初始化阶段是使OES-ELM网络根据训练集的特性找到能更好表达不同类别样本的特征映射空间, 映射后的隐层能用合理的维度清晰地表达不同模式, 进而使训练得到的网络具有较低的复杂度.
具体来讲, 隐层节点个数的多少体现于与其连接神经元的权值是否为零, 若与某一神经元连接的所有权值均为零, 则该神经元可去掉, 该层的神经元个数就可减少, 而稀疏化求解过程就是在学习训练过程中找到尽可能多的零解. $ L_{1/2} $正则化具有求解容易, 稀疏性好的特点, 已经广泛应用于多种神经网络如支持向量机(Support vector machine, SVM) [29]、ELM [30-31]以及多种前馈神经网络中[32-33].因此, 在初始化阶段, 本文用$ L_{1/2} $正则化作为其网络正则项, 保证网络的稀疏性:
$$ \begin{equation} \hat{\beta} = \arg \mathop {\min}\limits_{\beta} \{||Y-H\beta||^2+\lambda||\beta||_{\frac{1}{2}}\} \end{equation} $$ (6) 算法首先会设置隐层神经元$ L $的个数, 且会是一个较大的值, 经式(6)训练后网络仍可能含大量权值微小的隐层神经元, 这些神经元对网络影响甚微却会提高网路的复杂度, 不利于保证网络的泛化性能.因此在采用$ L_{1/2} $正则化的基础上还需要采用一种神经元裁剪算法, 去掉这些"微弱"神经元, 增强网络鲁棒性.具体过程如下:
1) 对输出权值进行排序:
$$ \begin{equation} \overline{\beta}(\overline{\beta_1}\leq \overline{\beta_2}\leq \cdots \leq \overline{\beta_L}) \end{equation} $$ (7) 2) 前$ l $个神经元权值的系数比为:
$$ \begin{equation} \begin{split} &\lambda_l = \frac{\sum\limits_{i = 1}^{l}\overline{\beta_i}}{\sum\limits_{j = 1}^{L}\overline{\beta_j}}, \quad 1\leq l \leq L \end{split} \end{equation} $$ (8) 3) 设定阈值$ \lambda $, 裁剪的隐层神经元个数为$ \hat{l} $个, 必要隐层神经元个数$ L_{\rm opt} $为:
$$ \begin{equation} \begin{split} &\hat{l} = {\rm min}\{l|\lambda_l\leq \lambda\}\\ &L_{\rm opt} = L-\hat{l} \end{split} \end{equation} $$ (9) 通过以上三步, 可将隐层神经元中输出权值较小和权值为零的神经元有效去除, 在保证隐层网络稀疏性的同时提高网络泛化性能.
图 6为按照本文提出的初始化阶段算法进行隐层神经元个数自适应确定时, 神经元权值系数比随隐层神经元个数变化的变化曲线图.本文采用数据集BCW (Original)进行相关实验仿真, 该数据集输入为10维, 训练集有300个样本.由于此时输出层权值已经由小到大排序, 因此前期大量神经元的系数比为0或为很小的数值, 即为网络中的无用神经元或"微弱"神经元. 图 6横线为本文设定的阈值, 为0.01, 低于该阈值的神经元即可删去, 因此经该算法获得的隐层神经元个数为123个.
另外, 较小的隐层维度能有效提高网络的识别速度.由于此时隐层神经元已被裁剪, 所以为了保证网络隐层权值的合理性, 需要对此时的隐层权值进行更新.此时还剩$ L_{\rm opt} $个隐层神经元, 删去的神经元定义为: $ \{d_1, d_2, \cdots, d_{\hat{l}} \}$.
原来隐层第$ j $个神经元与输入层第$ i $个神经元的连接权值为$ w_{j, i}^{\rm old} $, 更新后的权值为$ w_{j, i}^{\rm new} $:
$$ \begin{equation} \begin{split} w_{j, i}^{\rm new} = &w_{j, i}^{\rm old}+\frac{1}{\hat{l}}\sum\limits_{t = 1}^{\hat{l}}w_{d_t}^{\rm old}, \\ &i = 1, 2, \cdots, n, \, j = 1, 2, \cdots, L_{\rm opt} \end{split} \end{equation} $$ (10) 原来隐层第$ j $个神经元的偏置为$ b_{j}^{\rm old} $, 更新后的偏置为$ b_{j}^{\rm new} $:
$$ \begin{equation} \begin{split} &b_{j}^{\rm new} = b_{j}^{\rm old}+\frac{1}{\hat{l}}\sum\limits_{t = 1}^{\hat{l}}b_{d_{t}}^{\rm old}, \quad j = 1, 2, \cdots, L_{\rm opt} \end{split} \end{equation} $$ (11) 此时隐层特征映射矩阵$ H^{\rm new} $为:
$$ \begin{equation} \left[ \begin{array}{ccc} g({\pmb{w}}_{1}^{\rm new}, b_{1}^{\rm new}, {\pmb{x}}_{1}) & \cdots & g({\pmb{w}}_{L_{\rm opt}}^{\rm new}, b_{L_{\rm opt}}^{\rm new}, {\pmb{x}}_{1})\\ \vdots& \vdots& \vdots\\ g({\pmb{w}}_{1}^{\rm new}, b_{1}^{\rm new}, {\pmb{x}}_{N}) & \cdots & g({\pmb{w}}_{L_{\rm opt}}^{\rm new}, b_{L_{\rm opt}}^{\rm new}, {\pmb{x}}_{N})\\ \end{array} \right] \end{equation} $$ (12) $ {\pmb{w}}_i^{\rm new} $为输入层连接隐层第$ i $个神经元构成的权值向量, $ {\boldsymbol{x}}_{i} $为第$ i $个样本的特征向量.初始化阶段最终获得合适的隐层神经元个数$ L_{\rm opt} $以及此隐层神经元下的隐层权值$ W_{\rm opt} $ ($ W_{\rm opt}\in {\textbf{R}}^{n\times\, L_{\rm opt}} $)和偏置$ {\pmb{b}}_{\rm opt} $ ($ b_{\rm opt}\in {\textbf{R}}^{L_{\rm opt}} $).
4.2 更新阶段
OES-ELM网络更新阶段的算法步骤如下:
1) 对于一含有$ N $个样本的训练集$ X $: $ \{({\pmb{x}}_i, {\pmb{t}}_i)\} $, $ 1\leq \, i\leq \, N $, $ {{\pmb{x}}_i}\in{\textbf{R}}^{n} $, $ {{\pmb{t}}_i}\in{\textbf{R}}^{m} $, $ X\in{\textbf{R}}^{N\times\, n} $, $ T\in{\textbf{R}}^{N\times\, m} $, 获得此时隐层参数($ \hat{a}_{f1} $, $ \hat{{\pmb{b}}}_{f1} $), 隐层的特征映射数据可以表达为:
$$ \begin{equation} \begin{split} &\hat{a}_{f1} = W_{\rm opt}, \, \hat{{\pmb{b}}}_{f1} = {\pmb{b}}_{\rm opt}, \, L = L_{\rm opt} \end{split} \end{equation} $$ (13) $$ \begin{equation} \begin{split} &{H}_{1} = g(X\cdot{\hat{a}_{f1}}+\hat{{\pmb{b}}}_{f1}), \, {H}_{1}\in\, {\textbf{R}}^{N\times\, L} \end{split} \end{equation} $$ (14) $$ \begin{equation} \begin{split} &\hat{a}_{f1}^{\rm T}\cdot \hat{a}_{f1} = {I}, \, (\hat{b}_{f1})^{\rm T}\cdot \hat{b}_{f1} = 1 \end{split} \end{equation} $$ (15) 2) 对于期望输出$ T $, 输出层权值为:
$$ \begin{equation} \hat{a}_{h1} = {H}_1^{-1}\cdot\, T, \ \ \hat{a}_{h1}\in{\textbf{R}}^{L\times\, m} \end{equation} $$ (16) 其中, $ {H}_1^{-1} = ({I}/C+{H}_1^{\rm T}{H}_1)^{-1}{H}_1^{\rm T} $, C是正则系数.
3) 获得此时的输出层误差矩阵$ {E}_{n-1} $, $ {E}_{n-1}\in{\textbf{R}}^{N\times\, m} $, 求出误差回传矩阵$ {P}_{n-1} $, 初始时$ n = 2 $.
$$ \begin{align} {E}_{n-1} = \, &{T}-{H}_{n-1}\cdot \hat{a}_{hn-1}\\ {P}_{n-1} = \, &{E}_{n-1}\cdot \left(\frac{I}{C}+(\hat{a}_{hn-1})^{\rm T}\cdot \hat{a}_{hn-1}\right)^{-1}\cdot\\& (\hat{a}_{hn-1})^{\rm T} \end{align} $$ (17) 4) 此时期望的隐层特征映射矩阵$ H_n $为:
$$ \begin{equation} {H}_{n} = {H}_{n-1}+{P}_{n-1} \end{equation} $$ (18) 5) 更新隐层权值和偏置:
$$ \begin{equation} \begin{split} &\hat{a}_{fn} = \left(\frac{I}{C}+{X}^{\rm T}{X}\right)^{-1}{X}^{\rm T}\cdot g^{-1}(u({H}_n))\\ &\hat{{\pmb{b}}}_{fn} = \frac{{\rm sum}({X}\cdot\hat{a}_{fn}-g^{-1}(u({H}_n)))}{N} \end{split} \end{equation} $$ (19) 6) 更新输出层权值:
$$ \begin{equation} \hat{a}_{hn} = [u^{-1}(g({X}\cdot\hat{a}_{fn}+\hat{{\pmb{b}}}_{fn}))]^{-1}\cdot {T} \end{equation} $$ (20) 7) $ n = n+1 $, 重复迭代步骤(3)~(6), 直至相邻迭代级间输出层误差趋于稳定, 即$ ||{E}_{n-1}||-||{E}_{n}||\leq \varepsilon $, $ \varepsilon $为任意小的正数.
为了验证本文更新阶段算法迭代对网络的影响, 采用开源数据集: BCW (Original)进行仿真.经初始化阶段确定隐层神经元个数为123后, 在权值更新阶段, 设定不同的迭代次数, 获得的网络训练集检测精确度如图 7所示.由图 7可知, 网络经过一次权值更新后, 训练集的识别精度就趋于稳定, 即网络误差趋于稳定.
4.3 OES-ELM网络的数学证明
下面证明本文提出的算法, 即经第4.2节的权值更新环节后, 相邻迭代级间误差会逐渐平稳.
引理1 [34].给定有界非定常分段连续激活函数$ g(\cdot) $, 式(21)成立:
$$ \begin{equation} \lim\limits_{(a, b) \to (a_0, b_0)}||g({X}\cdot a+b)-g({X}\cdot a_0+b_0)|| = 0 \end{equation} $$ (21) 定理1.给定隐层激活函数, $ N $个样本的样本集$ X:\, \{({\pmb{x}}_i, {\pmb{t}}_i)\} $, $ 1\leq \, i\leq \, N $, $ {\pmb{x}}_i\in{\textbf{R}}^n $, $ {\pmb{t}}_i\in{\textbf{R}}^m $, 对于任意输出T, 若权值满足式(22)和(23), 则$ ||{T}-(u^{-1}(g({X}\cdot\hat{a}_{fn-1}+\hat{{\pmb{b}}}_{fn-1}))\cdot\hat{a}_{hn-1})||-||{T}-(u^{-1}(g({X}\cdot \hat{a}_{fn}+\hat{{\pmb{b}}}_{fn}))\cdot\hat{a}_{hn})||\geq 0 $以概率1成立.
$$ \begin{equation} \begin{split} &\hat{a}_{fn} = \left(\frac{I}{C}+{X}^{\rm T}{X}\right)^{-1}{X}^{\rm T}\cdot\, g^{-1}(u({H}_n))\\ &\hat{{\pmb{b}}}_{fn} = \frac{{\rm sum}({X}\cdot\, \hat{a}_{fn}-g^{-1}(u({H}_n)))}{N} \end{split} \end{equation} $$ (22) $$ \begin{equation} \hat{a}_{hn} = g({X}\cdot\hat{a}_{fn}+\hat{{\pmb{b}}}_{fn})^{-1}\cdot {T} \end{equation} $$ (23) $$ \begin{equation} {H}_{n} = {H}_{n-1}+{P}_{n-1} \end{equation} $$ (24) 其中, $ ({I}/C+{X}^{\rm T}{X})^{-1}{X}^{\rm T} $是训练样本集的Moore-Penrose逆, C是正则系数, $ g(\cdot)^{-1} $是激活函数的逆函数, $ u $是归一化函数, $ u(x):R\rightarrow\, (0, 1] $将训练集从原数据范围映射到0到1之间, $ u^{-1} $是归一化函数的逆函数, 将训练集从0到1映射到原数据范围, $ H_n $是第$ n $次更新时期望特征空间映射矩阵, $ P_{n-1} $是第$ n $次迭代时的误差回传矩阵.
定理1表明, 随着迭代次数$ n $的累增, 网络相邻两次迭代间的输出误差呈缩小的趋势, 即网络经有限次权值迭代后, 实际输出和期望输出间的误差将趋于稳定.
证明. 我们将证明序列$ ||{T}-(u^{-1}(g({X}\cdot\hat{a}_{fn-1}+\hat{{\pmb{b}}}_{fn-1}))\cdot\hat{a}_{hn-1}) ||-||{T}-(u^{-1}(g({X}\cdot\hat{a}_{fn}+\hat{{\pmb{b}}}_{fn}))\cdot\hat{a}_{hn})|| $单调递减且收敛.
若$ {E}_{n-1} $是输出层误差矩阵, 则可得到误差回传矩阵$ {P}_{n-1} $:
$$ \begin{equation} {P}_{n-1} = {E}_{n-1}\cdot a_{hn-1}^{-1} \end{equation} $$ (25) 其中, $ {a}_{hn-1}^{-1} = ({I}/C+{a}_{hn-1}^{\rm T}\cdot{a}_{hn-1})^{-1}\cdot{a}_{hn-1}^{\rm T} $是输出权值矩阵的Moore-Penrose逆, 期望特征映射矩阵为:
$$ \begin{equation} {H}_n = {H}_{n-1}+{P}_{n-1} \end{equation} $$ (26) $ {H}_{n-1} $是第$ n-1 $次更新时的特征映射.令$ {\lambda}_n = {X}\cdot{a}_{fn} $, $ \lambda_n $满足:
$$ \begin{align} \begin{split} &g(\lambda_n) = u({H}_n) \\ &\lambda_n = g^{-1}(u({H}_n)) \end{split} \end{align} $$ (27) 若激活函数是sine函数, 则隐层权值矩阵:
$$ \begin{equation} \hat{{a}}_{fn} = {X}^{-1}{\rm arcsin}(u({H}_n)) \end{equation} $$ (28) 若激活函数是sigmoid函数, 则隐层权值矩阵为:
$$ \begin{equation} \hat{{a}}_{fn} = -{X}^{-1}\ln\left(\frac{1}{u({H}_n)}-1\right) \end{equation} $$ (29) 根据引理1:
$$ \begin{equation} \begin{split} ||u^{-1}&(g({X}\cdot\hat{{a}}_{fn}+\hat{{\pmb{b}}}_{fn}))-{H}_n||\geq \\ &\mathop {{\rm min}}_{a_{fn}, {\pmb{b}}_{fn}}||u^{-1}(g({X}\cdot{a}_{fn}+{\pmb{b}}_{fn})-{H}_n)|| = \\ &||u^{-1}(g({X}\cdot\hat{a}_{fn}+\hat{{\pmb{b}}}_{fn})-{H}_n)|| = ||\sigma_n|| \end{split} \end{equation} $$ (30) 令$ \hat{{H}_n} = u^{-1}(g({X}\cdot\hat{a}_{fn}+\hat{{\pmb{b}}}_{fn})) = {H}_n\pm\sigma_n $, 由本文易知: $ ||{P}_{n-1}||^2 $, $ ||{H}_{n-1}||^2 $, $ ||{H}_n||^2 $, $ ||\hat{{H}}_n||^2\geq ||\sigma_n||^2 $可得隐层残差$ \Delta_h $:
$$ \begin{align} \Delta_h = \, &||{H}_n-{H}_{n-1}||^2-||{H}_n-\hat{{H}}_n||^2 = \\ &||{H}_{n-1}||^2-2\langle{H}_{n-1}, {H}_{n}\rangle+\\&2\langle{H}_{n}, \hat{{H}}_{n-1}\rangle-||\hat{{H}_{n}}||^2 = ||{H}_{n-1}||^2-\\ &2\langle{H}_{n-1}, {H}_{n}\rangle+ 2\langle{H}_{n}, {H}_{n}\pm\sigma_n\rangle-\\ &||{H}_n\pm\sigma_n||^2 = ||{H}_{n-1}||^2-\\ &2\langle{H}_{n-1}, {H}_n\rangle+ 2||{H}_n||^2\pm 2\langle{H}_n, \sigma\rangle-\\ &({H}_n^2\pm2\langle{H}_n, \sigma_n\rangle+||\sigma_n||^2) = ||{H}_n||^2-\\ &2\langle{H}_{n-1}, {H}_n\rangle+ ||{H}_{n-1}||^2-||\sigma_n||^2 = \\ &||{H}_n-{H}_{n-1}||^2-||\sigma||^2 = \\&||{P}_n||^2-||\sigma_n||^2\geq 0 \end{align} $$ (31) 可得输出层残差:
$$ \begin{align} \Delta_o = \, &||{T}-{H}_{n-1}\cdot \hat{a}_{hn-1}||^2-||{T}-\hat{{H}_n}\cdot \hat{a}_{hn-1}||^2 = \\ &||{H}_n\cdot \hat{a}_{hn-1}-{H}_{n-1}\cdot \hat{a}_{hn-1}||^2-\\&||{H}_n\cdot \hat{a}_{hn-1}- \hat{{H}_n}\cdot\hat{a}_{hn-1}||^2 = \\ &||({H}_n-{H}_{n-1})\cdot \hat{a}_{hn-1}||^2-\\ &||({H}_n-\hat{{H}}_n)\cdot \hat{a}_{hn-1}||^2 \geq ||({H}_n-{H}_{n-1})||^2\cdot\\ & ||\hat{a}_{hn-1}||^2-||({H}_n- \hat{{H}}_n)||^2\cdot\\&||\hat{a}_{hn-1}||^2 = (||({H}_n- {H}_{n-1})||^2-\\ &||({H}_n-\hat{{H}}_n)||^2)\cdot \hat{a}_{hn-1}||^2 = \\ &(||{H}_n-{H}_{n-1}||^2-||\sigma||^2)\cdot ||\hat{a}_{hn-1}||^2\geq 0 \end{align} $$ (32) 式(32)可得结论: $ ||{T}-u^{-1}(g({X}\cdot\hat{a}_{fn-1}+\hat{{\pmb{b}}}_{fn-1}))\cdot\hat{a}_{hn-1}||\geq ||{T}-u^{-1}(g({X}\cdot\hat{a}_{fn}+\hat{{\pmb{b}}}_{fn}))\cdot\hat{a}_{hn-1}|| $, 通过上文分析, 可知$ \hat{a}_{hn} = (u^{-1}(g({X}\cdot\hat{a}_{fn}+\hat{{\pmb{b}}}_{fn})))^{-1} $是线性系统的最小二乘解, 故而:
$$ \begin{align} ||{T}&-u^{-1}(g({X}\cdot\hat{a}_{fn}+ \hat{{\pmb{b}}}_{fn}))\cdot\hat{a}_{hn-1}|| \geq \\ & \mathop {\rm min}_{a_{hn}} ||{T}-u^{-1}(g({X}\cdot\hat{a}_{fn}+ \hat{{\pmb{b}}}_{fn}))\cdot{a}_{hn}|| = \\ &||{T}-u^{-1}(g({X}\cdot\hat{a}_{fn}+ \hat{{\pmb{b}}}_{fn}))\cdot\hat{a}_{hn}|| \end{align} $$ (33) 通过式(32)~(33), 可得:
$$ \begin{align} ||{T}&-u^{-1}(g({X}\cdot\hat{a}_{fn-1}+ \hat{{\pmb{b}}}_{fn-1}))\cdot\hat{a}_{hn-1}|| \geq \\ & \mathop {\rm min}_{a_{hn}} ||{T}-u^{-1}(g({X}\cdot\hat{a}_{fn}+ \hat{{\pmb{b}}}_{fn}))\cdot{a}_{hn}|| = \\ &||{T}-u^{-1}(g({X}\cdot\hat{a}_{fn}+ \hat{{\pmb{b}}}_{fn}))\cdot\hat{a}_{hn}|| \end{align} $$ (34) 5. 实验结果与分析
为了验证OES-ELM网络的有效性及基于OES-ELM网络高频地波雷达目标识别的可行性, 本文选择多个经典数据集和雷达RD谱图像来进行实验.本文实验所采用的数据集为开源公共数据集, 在实验平台Intel i7-860 (2.8 GHz) CPU, 12 GB内存的硬件支持下, 利用MATLAB 2016b进行了相关仿真实验.在理论验证方面, 分别将OES-ELM网络和普通ELM网络, ES-ELM网络, OES-ELM($ L_1 $)网络进行对比. ES-ELM网络舍弃OES-ELM初始化阶段, 设定更新阶段权值随机赋值且隐层神经元数为$ 2m $ ($ m $为输出层维度); OES-ELM($ L_1 $)网络将原预处理阶段的$ L_{1/2} $正则子替换为$ L_1 $正则子, 更新阶段不变.通过大量实验验证, 经一次更新迭代所获得的OES-ELM网络就能达到较好的泛化性能, 因此实验部分OES-ELM、ES-ELM、OES-ELM($ L_1 $)均只进行一次权值迭代.
在第5.1节, 我们将OES-ELM网络和其他经典的神经网络算法进行对比, 验证该网络的可行性; 在算法应用方面, 在第5.2节, 我们设计了两组实验, 分别用高频地波雷达实测RD谱图像和仿真RD谱图像, 对本文提出的目标点检测算法进行评估, 并与经典RD谱目标检测算法(二维CFAR、自适应小波)进行对比, 验证本文算法的目标识别性能.
5.1 OES-ELM与其他神经网络算法性能对比
在这部分, 我们用大量回归(Regression)和分类(Classification)问题来检验OES-ELM网络的有效性.第5.1.1节主要介绍实验所处的环境信息, 第5.1.2节和第5.1.3节分别介绍4种网络在特定分类问题和回归问题中的识别性能.
5.1.1 实验环境设置
本文所用数据集的所有样本在测试前均合理分成两部分, 一部分为带有标签的训练集, 一部分为待识别的测试集, 所有输入数据均归一化到$ [-1, 1] $之间, 回归问题的输出归一化到[0, 1]之间.数据集的相关情况如表 1和表 2所示, 这些数据集均下载自加州大学数据库(UCI)和LIBSVM数据集(LIBSVM data sets).通过这几个数据集可以充分验证本文算法的有效性.
表 1 分类数据集的具体信息Table 1 The detail of classification datasets数据集 属性数 训练集 测试集 Hill-Valley 101 606 606 Iris 4 60 90 BCW(Original) 10 300 399 Covtype.binary 54 300 000 281 012 Wine 13 90 88 Gisette 5 000 6 000 1 000 Leukemia 7 129 38 34 表 2 回归数据集的具体信息Table 2 The detail of regression datasets数据集 属性数 训练集 测试集 Forest Fires 13 239 278 Wine Quality 12 2 898 2 000 Abalone 8 3 000 1 477 CPUsmall 12 5 000 4 192 Facebook Metrics 9 300 200 5.1.2 分类问题
在这部分, 对4种算法ELM、OES-ELM、OES-ELM、OES-ELM($ L_1 $)在7个分类数据集上进行对比, 每组实验都进行10次, 最终结果取平均值进行显示. 表 3展示不同算法在不同数据集下的识别性能, 其中$ Tr\_acc $为网络在该样本集的均方根误差, $ Te\_acc $为网络在测试集的测试结果.由于ELM网络隐层神经元个数的多少对最终识别性能有很大影响, 因此为了保证实验比较的公平性, ELM网络将进行多次测试以找到最佳隐层神经元个数.
表 3 不同网络在不同数据集下性能对比Table 3 Generalization performance comparision数据集 方法 Tr_acc Te_acc 神经元 Hill-Valley ELM 81.36 % 79.44 % 300 ES-ELM 81.36 % 98.94 % 4 (2m) OES-ELM($ L_1 $) 98.63 % 97.57 % 189 OES-ELM 97.36 % 98.66 % 184 Iris ELM 92.02 % 82.59 % 30 ES-ELM 89.16 % 89.17 % 6(2m) OES-ELM($ L_1 $) 92.23 % 89.16 % 23 OES-ELM 91.79 % 90.27 % 23 BCW (Original) ELM 92.66 % 87.41 % 300 ES-ELM 98.67 % 98.50 % 4(2m) OES-ELM($ L_1 $) 97.01 % 96.47 % 137 OES-ELM 98.37 % 98.96 % 123 Covtype. binary ELM 77.29% 79.28 % 500 ES-ELM 79.83 % 78.15 % 14(2m) OES-ELM($ L_1 $) 76.11 % 78.27 % 867 OES-ELM 79.94 % 78.41 % 899 Wine ELM 98.77 % 84.88 % 300 ES-ELM 99.44 % 98.86 % 6(2m) OES-ELM($ L_1 $) 95.59 % 98.40 % 42 OES-ELM 95.61 % 98.91 % 40 Gisette ELM 92.20 % 86.49 % 5 000 ES-ELM 95.68 % 84.77 % 4(2m) OES-ELM($ L_1 $) 97.99 % 96.09 % 1 355 OES-ELM 98.01 % 96.74 % 1 205 Leukemia ELM 71.60 % 74.36 % 5 000 ES-ELM 84.10 % 69.91 % 4(2m) OES-ELM($ L_1 $) 94.12 % 86.91 % 34 OES-ELM 93.89 % 87.14 % 34 由表 3分析可知, OES-ELM、ES-ELM、OES-ELM($ L_1 $)这三种网络在大部分数据集的分类识别中都具有较好的性能, 而ELM网络只在Covtype.binary数据集中有更好的表现.即:
1) 从横向来看, 在输入维度较小的数据集中, ES-ELM、OES-ELM和OES-ELM($ L_1 $)网络对训练集的分类效果均有不错表现, 且三者之间的分类效果差别不大.在输入维度较大的数据集中(如Gisette和Leukemia)、OES-ELM和OES-ELM($ L_1 $)网络的识别分类性能具有显著提升, 而ES-ELM网络的识别性能并不理想.分析原因为: ES-ELM网络隐层神经元个数为$ 2m $ ($ m $为输出层维数), 这种网络结构对高输入维度, 低输出维度的样本显得力不从心, 这种网络结构所获得的隐层特征映射矩阵并不能很好地刻画输入样本和输入数据.而OES-ELM网络灵活的算法结构可有效规避这一缺陷, 有效实现隐层神经元的灵活选取.
2) 从纵向分析, OES-ELM和OES-ELM($ L_1 $)网络对训练集的分类准确率$ Tr\_acc $相近, 而具有$ L_{1/2} $正则的OES-ELM网络在对测试集的识别效果上较好, 这进一步表明$ L_{1/2} $正则比$ L_1 $正则化所获得的解更稀疏, 更适合OES-ELM算法对隐层神经元个数的选取.
5.1.3 回归问题
ELM、OES-ELM和OES-ELM($ L_1 $)三种算法在这5个回归数据集的识别效果如表 4所示, 其中$ Tr\_RMSE $为算法在某一训练集下的均方误差, $ Te\_RMSE $为测试集的均方误差, 所有实验结果均为20次实验后的平均结果, 粗体表示性能较好的结果.由表 4分析可知, 在这5个数据集中, OES-ELM($ L_1 $)的识别效果虽然不错, 但和具有$ L_{1/2} $正则比的OES-ELM网络相比, 还是有一定的差距; ELM网络在几个有限的数据集中有较好识别性能.
表 4 不同网络在不同数据集下性能对比Table 4 Generalization performance comparision数据集 方法 $ Tr\_RMSE $ $ Te\_RMSE $ 神经元 Forest Fires ELM 0.1568 0.1958 200 OES-ELM($ L_1 $) 0.1467 0.1365 163 OES-ELM 0.1480 0.1374 161 Wine Quality ELM 0.2547 0.1799 200 OES-ELM($ L_1 $) 0.1863 0.1977 244 OES-ELM 0.1845 0.1921 168 Abalone ELM 0.0412 0.0816 200 OES-ELM($ L_1 $) 0.0601 0.0659 108 OES-ELM 0.0592 0.0647 115 CPUsmall ELM 0.2550 0.2497 500 OES-ELM($ L_1 $) 0.2235 0.2226 163 OES-ELM 0.2021 0.2217 159 Facebook Metrics ELM 0.3659 0.2185 200 OES-ELM($ L_1 $) 0.0350 0.0459 27 OES-ELM 0.0417 0.0458 27 表 5展示了OES-ELM网络和普通ELM网络在不同数据集, 正则系数下的性能比较, 表格中数据为20次实验$ Te\_RMSE $的平均结果.从表 5可以看出, 普通ELM网络的泛化性能对正则项$ C $高度敏感, $ C $的选取直接影响最终网络训练的好坏, 而OES-ELM网络的测试结果并不十分依赖于正则项$ C $的大小, 也就是说, 在网络训练开始前, 人们可以随机选取正则项$ C $的大小.
表 5 ELM和OES-ELM在不同正则系数下$ Te\_RMSE $比较Table 5 The comparision of ELM and OES-ELM with respect to $ Te\_RMSE $C Forest Fires Wine Quality Abalone CPUsmall Facebook Metrics ELM OES-ELM ELM OES-ELM ELM OES-ELM ELM OES-ELM ELM OES-ELM $ C = 2^{-2} $ 0.1920 0.1286 0.1534 0.2015 0.1065 0.0742 0.2338 0.2285 0.0956 0.0542 $ C = 2^{0} $ 0.1957 0.1204 0.2148 0.2159 0.1895 0.0638 0.2398 0.2227 0.1386 0.0499 $ C = 2^{2} $ 0.1491 0.1245 0.1649 0.1958 0.1099 0.0626 0.2345 0.2218 0.1477 0.0612 $ C = 2^{4} $ 0.2048 0.1367 0.2493 0.2226 0.2201 0.0628 0.2561 0.2214 0.1602 0.0418 综上所述, 本文提出的OES-ELM算法几乎在所有的数据集中均有较好的表现, 主要体现在: 1)网络泛化性能好; 2)正则项$ C $对网络性能并不敏感; 3)隐层神经元个数少且可根据数据集自适应获得.
5.2 高频地波雷达RD谱图海面目标识别效果
在第5.2.1节, 我们将介绍目标检测中用到的训练数据集和评估指标; 在第5.2.2节和第5.2.3节, 本文分别设计了两组实验, 以验证提出算法目标识别效果.
5.2.1 目标点检测的数据集和评估指标
鉴于本文提出的RD谱目标检测算法由两个独立的分类器(线性分类器和OES-ELM网络)构成, 我们用两个独立的数据集$ X_1 $和$ X_2 $作为两个分类器的训练集.用30幅实测RD谱图(大小: 256像素$ \times $ 256像素)生成数据集, 这些RD谱图中均包含所有种类的杂波和背景噪声, 且目标均为真实舰船目标点.
1) 对于线性分类器的训练集, 输入数据集$ X_1 $由RD谱图中所选定像素的灰度值构成, 每个样本的输入维度为一维, 期望输出$ Y_1 $则为所选像素是否是目标潜在区域, 输出两类.
2) 对于OES-ELM网络的训练集, 输入数据集$ X_2 $的每个样本的输入维度为49维, 由以参考像素为中心的7$ \times $7大小滑动窗口经Haar-like算子提取获得, 输出两类, $ Y_2 $为该像素是否为目标点.
本文主要采用目标点检测率$ P_d $, 虚警率$ P_f $, 目标漏检率$ M_r $, 错误率$ E_r $作为目标检测性能的评估指标, 具体定义如下:
$$ \begin{align*} & P_d = \frac{TP}{TP+FN}\times 100\, \% \\ & P_f = \frac{FP}{FP+TP}\times 100\, \% \end{align*} $$ $$ \begin{align} & M_r = 100\, \%-P_d \\ & E_r = P_f+M_r \end{align} $$ (35) $ TP $为检测到的真实目标点, $ FN $是未检测到的目标点, $ TP $+$ FN $是所有目标点个数, $ FP $是检测到的虚假目标点. 表 6展示了两个数据集的详细信息.
表 6 两个数据集的详细信息Table 6 The detail of two designed datasets数据集 样本数 输入 输出 维数 特征 维数 类别 $ X_1 $ 1 274 1 灰度值 2 是否背景 $ X_2 $ 576 49 Haar-like 2 是否目标 5.2.2 RD谱图目标点检测
本文先对实测RD谱进行处理, 验证该算法对HFSWR目标检测问题的实际效果.首先, 在算法训练阶段, 分别用数据集$ X_1 $和$ X_2 $训练该算法中的线性分类器$ C_1 $和OES-ELM网络$ C_2 $.在测试阶段, 先用训练好的网络$ C_1 $处理待测RD谱图$ I_0 $, 获得去掉背景, 只含目标潜在区域的RD图$ I_1 $; 之后用Haar-like算子对目标潜在区域提取高阶特征, 采用网络$ C_2 $获得只含目标点的RD图$ I_2 $, 最后经统计可获得RD谱图上所有的目标点信息.
为了验证本文提出算法对目标点的检测性能, 对20幅已知舰船位置的实测RD谱图像进行目标点检测实验, 经统计20幅RD谱图的目标点检测率$ P_d $为92 %, 虚警率$ P_f $低于6 %, 目标点漏检率$ M_r $和错误率$ E_r $分别为8 %和15 %. 图 8是这20幅图像中的两幅典型检测结果, 其中图 8 (a)和(b)是原始RD谱图像, 图 8 (c)和(d)是经线性分类器得到的目标潜在图像, 在这两幅图像中, 淡色区域为非目标的背景区域, 目标点一定位于亮色区域中, OES-ELM网络只考虑这些非背景区域, 图 8 (e)和(f)是最终目标检测图像.可以看出这两幅RD图中, 几乎所有目标点被识别出来, 同时也可一定程度识别被杂波干扰的海面目标点, 因此本文算法可从复杂区域中将目标区域检测出来.
5.2.3 目标点检测性能对比
这部分将对本文算法和文献[6]改进CFAR算法, 文献[10]自适应小波算法进行性能对比.在实际海域监测中, 由于监控海域面积太大, 因此目标点的具体位置和数量很困难, 即获得的可进行实验对比的RD图像十分有限, 尽管可以利用自动识别系统(AIS)的数据, 但对于一些未应用该系统的舰船, AIS是无法检测到.因此, 为了能进一步进行大量的对比实验, 我们在HFSWR实测谱数据中随机添加20~40 dB的仿真目标点数据, 以获得可用的仿真RD谱图.在本实验中, 选取200幅添加了仿真目标点的RD谱图作为实验所需测试集.
文献[10]提出的自适应小波算法, 首先用两个一维自适应小波算法分别去除电离层杂波和海杂波; 再通过模糊集增强算法对高频小波系数进行模糊处理, 达到增强目标信息, 抑制背景噪声的目的; 最后用阈值自适应分割以得到RD谱图中的海面目标点.
文献[6]提出的改进CFAR算法先利用曲线拟合做了削弱杂波和噪声的预处理, 再利用被测单元周围单元格的平均估计背景噪声, 并将得到的背景噪声与决定虚警概率大小的门限因子相乘作为判别检测单元是否为目标的检测门限.
表 7是三种算法对200幅RD谱图目标检测的实验性能对比, 本文分别利用Matlab对三种算法进行实验仿真, 在算法检测时间方面, 自适应小波算法仅统计从一维小波到自适应阈值分割所需时间; 改进CFAR算法统计从曲线拟合到最终检测结果所需时间; 本文提出的OES-ELM算法不计算网络训练时间, 仅统计RD谱图测试时间, 表 7的时间为200幅测试图像的平均处理时间.在本实验中, 本文算法的检测速度都要快于自适应小波和改进的CFAR算法.其原因为:本算法在第一个线性分类器就可以排除大量背景和噪声成分, 这些成分在后续算法中不被考虑, 故而可大幅度减少该算法的时间复杂度.同时, 本文提出的OES-ELM网络也在保证识别精度的基础上, 具有网络简单, 分类速度快的优点, 因此可以进一步减少目标点识别的时间需求.
表 7 三种算法的性能对比(时间:平均测试时间(秒))Table 7 The performance of These three algorithms (Time: Average testing time (second))方法 $ P_d $ $ P_f $ $ M_r $ $ E_r $ 时间 OES-ELM 92 % 6 % 8 % 14 % 3.65 改进CFAR 85 % 13 % 15 % 28 % 4.90 自适应小波 90 % 8 % 10 % 18 % 6.14 从表 7前4列可以看出, 相对于其他两种经典算法, 本文算法具有更好的目标点检测性能.目标点检测率$ P_d $分别比改进CFAR算法和自适应小波算法提高了7 %和2 %, 而虚警率$ P_f $、目标点漏检率$ M_r $和错误率$ E_r $也比这两种算法低, 其中, 本算法的错误率Er比两种算法分别低了14 %和4 %, 其原因为:本算法提取的Haar-like特征非常适合描述RD谱中的海面目标, 通过该算子可以准确刻画RD谱图中目标点和不同干扰间不同差异, 且具有较好的适应性.
6. 结论
本文从机器学习的角度, 提出了一种基于误差自校正极限学习机(OES-ELM)的高频地波雷达RD谱图海面目标识别算法.本文构造的基于灰度特征的线性分类器, 利用RD谱图背景像素点和目标、杂波像素点灰度值差异大的特性, 可以快速找出目标的潜在区域.基于最优误差自校正极限学习机(OES-ELM)的海面目标精确识别算法, 结合Haar-like算子对RD谱图提取的高阶纹理特征, 准确地把海面目标点从杂波中检测出来.本文提出的OES-ELM网络, 一方面通过$ L_{1/2} $正则化保证网络隐层特征映射矩阵的稀疏性, 另一方面, 又利用权值更新迭代使训练得到的网络的隐层和输出层权值均为最小二乘解, 确保网络的泛化性能实验结果表明: 1) OES-ELM网络的正则项对最终网路的分类性能并不敏感, 速度快且泛化性能好. 2)从机器学习角度, 提出一种RD谱图目标检测算法, 该算法基于OES-ELM和级联分类器理论, 能对高频地波雷达实时准确地进行目标点检测.
-
表 1 分类数据集的具体信息
Table 1 The detail of classification datasets
数据集 属性数 训练集 测试集 Hill-Valley 101 606 606 Iris 4 60 90 BCW(Original) 10 300 399 Covtype.binary 54 300 000 281 012 Wine 13 90 88 Gisette 5 000 6 000 1 000 Leukemia 7 129 38 34 表 2 回归数据集的具体信息
Table 2 The detail of regression datasets
数据集 属性数 训练集 测试集 Forest Fires 13 239 278 Wine Quality 12 2 898 2 000 Abalone 8 3 000 1 477 CPUsmall 12 5 000 4 192 Facebook Metrics 9 300 200 表 3 不同网络在不同数据集下性能对比
Table 3 Generalization performance comparision
数据集 方法 Tr_acc Te_acc 神经元 Hill-Valley ELM 81.36 % 79.44 % 300 ES-ELM 81.36 % 98.94 % 4 (2m) OES-ELM($ L_1 $) 98.63 % 97.57 % 189 OES-ELM 97.36 % 98.66 % 184 Iris ELM 92.02 % 82.59 % 30 ES-ELM 89.16 % 89.17 % 6(2m) OES-ELM($ L_1 $) 92.23 % 89.16 % 23 OES-ELM 91.79 % 90.27 % 23 BCW (Original) ELM 92.66 % 87.41 % 300 ES-ELM 98.67 % 98.50 % 4(2m) OES-ELM($ L_1 $) 97.01 % 96.47 % 137 OES-ELM 98.37 % 98.96 % 123 Covtype. binary ELM 77.29% 79.28 % 500 ES-ELM 79.83 % 78.15 % 14(2m) OES-ELM($ L_1 $) 76.11 % 78.27 % 867 OES-ELM 79.94 % 78.41 % 899 Wine ELM 98.77 % 84.88 % 300 ES-ELM 99.44 % 98.86 % 6(2m) OES-ELM($ L_1 $) 95.59 % 98.40 % 42 OES-ELM 95.61 % 98.91 % 40 Gisette ELM 92.20 % 86.49 % 5 000 ES-ELM 95.68 % 84.77 % 4(2m) OES-ELM($ L_1 $) 97.99 % 96.09 % 1 355 OES-ELM 98.01 % 96.74 % 1 205 Leukemia ELM 71.60 % 74.36 % 5 000 ES-ELM 84.10 % 69.91 % 4(2m) OES-ELM($ L_1 $) 94.12 % 86.91 % 34 OES-ELM 93.89 % 87.14 % 34 表 4 不同网络在不同数据集下性能对比
Table 4 Generalization performance comparision
数据集 方法 $ Tr\_RMSE $ $ Te\_RMSE $ 神经元 Forest Fires ELM 0.1568 0.1958 200 OES-ELM($ L_1 $) 0.1467 0.1365 163 OES-ELM 0.1480 0.1374 161 Wine Quality ELM 0.2547 0.1799 200 OES-ELM($ L_1 $) 0.1863 0.1977 244 OES-ELM 0.1845 0.1921 168 Abalone ELM 0.0412 0.0816 200 OES-ELM($ L_1 $) 0.0601 0.0659 108 OES-ELM 0.0592 0.0647 115 CPUsmall ELM 0.2550 0.2497 500 OES-ELM($ L_1 $) 0.2235 0.2226 163 OES-ELM 0.2021 0.2217 159 Facebook Metrics ELM 0.3659 0.2185 200 OES-ELM($ L_1 $) 0.0350 0.0459 27 OES-ELM 0.0417 0.0458 27 表 5 ELM和OES-ELM在不同正则系数下$ Te\_RMSE $比较
Table 5 The comparision of ELM and OES-ELM with respect to $ Te\_RMSE $
C Forest Fires Wine Quality Abalone CPUsmall Facebook Metrics ELM OES-ELM ELM OES-ELM ELM OES-ELM ELM OES-ELM ELM OES-ELM $ C = 2^{-2} $ 0.1920 0.1286 0.1534 0.2015 0.1065 0.0742 0.2338 0.2285 0.0956 0.0542 $ C = 2^{0} $ 0.1957 0.1204 0.2148 0.2159 0.1895 0.0638 0.2398 0.2227 0.1386 0.0499 $ C = 2^{2} $ 0.1491 0.1245 0.1649 0.1958 0.1099 0.0626 0.2345 0.2218 0.1477 0.0612 $ C = 2^{4} $ 0.2048 0.1367 0.2493 0.2226 0.2201 0.0628 0.2561 0.2214 0.1602 0.0418 表 6 两个数据集的详细信息
Table 6 The detail of two designed datasets
数据集 样本数 输入 输出 维数 特征 维数 类别 $ X_1 $ 1 274 1 灰度值 2 是否背景 $ X_2 $ 576 49 Haar-like 2 是否目标 表 7 三种算法的性能对比(时间:平均测试时间(秒))
Table 7 The performance of These three algorithms (Time: Average testing time (second))
方法 $ P_d $ $ P_f $ $ M_r $ $ E_r $ 时间 OES-ELM 92 % 6 % 8 % 14 % 3.65 改进CFAR 85 % 13 % 15 % 28 % 4.90 自适应小波 90 % 8 % 10 % 18 % 6.14 -
[1] Wait J R. Theory of HF ground wave backscatter from sea waves. Journal of Geophysical Research, 1966, 71(20): 4839-4842 doi: 10.1029/JZ071i020p04839 [2] Conte E, Di Bisceglie M, Lops M. Clutter-map CFAR detection for range-spread targets in non-Gaussian clutter. Ⅱ. Performance assessment. IEEE Transactions on Aerospace and Electronic Systems, 1997, 33(2): 444-455 doi: 10.1109/7.575879 [3] Rohling H. Radar CFAR thresholding in clutter and multiple target situations. IEEE Transactions on Aerospace and Electronic Systems, 1983, AES-19(4): 608-621 doi: 10.1109/TAES.1983.309350 [4] 何友, Rohling H.一种新的基于有序统计的恒虚警处理器.系统工程与电子技术, 1994, (4): 17-23 doi: 10.3321/j.issn:1001-506X.1994.04.003He You, Rohling H. A new CFAR processor based on ordered statistoc. Systems Engineering and Electronics, 1994, (4): 17-23 doi: 10.3321/j.issn:1001-506X.1994.04.003 [5] 桂任舟.利用二维恒虚警进行非均匀噪声背景下的目标检测.武汉大学学报(信息科学版), 2012, 37(3): 354-357 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201203025.htmGui Ren-Zhou. Detecting target located in nonstationary background based on two-dimensions constant false alarm rate. Geomatics and Information Science of Wuhan University, 2012, 37(3): 354-357 https://www.cnki.com.cn/Article/CJFDTOTAL-WHCH201203025.htm [6] 梁建.高频地波雷达目标二维CFAR检测及软件实现[硕士学位论文], 中国海洋大学, 中国, 2014.Liang Jian. Target CFAR Detection Method and Software Implementation with Two-dimension Data for HFSWR[Master thesis], Ocean University of China, China, 2014. [7] Grosdidier S, Baussard A. Ship detection based on morphological component analysis of high-frequency surface wave radar images. IET Radar, Sonar & Navigation, 2012, 6(9): 813-821 [8] Jangal F, Saillant S, Helier M. Wavelet contribution to remote sensing of the sea and target detection for a high-frequency surface wave radar. IEEE Geoscience and Remote Sensing Letters, 2008, 5(3): 552-556 doi: 10.1109/LGRS.2008.923211 [9] Jangal F, Saillant S, Helier M. Wavelets: a versatile tool for the high frequency surface wave radar. In: Proceedings of 2007 Radar Conference. Boston, USA: IEEE, 2007. 497-502 [10] Li Q Z, Zhang W D, Li M, Niu J, Wu Q M J. Automatic detection of ship targets based on wavelet transform for HF surface wavelet radar. IEEE Geoscience and Remote Sensing Letters, 2017, 14(5): 714-718 doi: 10.1109/LGRS.2017.2673806 [11] Wang Y M, Mao X P, Zhang J, Ji Y G. Ship target detection in sea clutter of HFSWR based on spatial blind filtering. In: Proceedings of IET International Radar Conference 2015. Hangzhou, China: IET, 2015. [12] Zhang L, Zeng L P, Li M, Wang H D. Weak target detection based on complex duffing oscillator for HFSWR. In: Proceedings of the 35th Chinese Control Conference (CCC). Chengdu, China: IEEE, 2016. 4982-4987 [13] Dakovic M, Thayaparan T, Stankovic L. Time-frequency-based detection of fast manoeuvring targets. IET Signal Processing, 2010, 4(3): 287-297 doi: 10.1049/iet-spr.2009.0078 [14] Liang N Y, Huang G B, Saratchandran P, Sundararajan N. A fast and accurate online sequential learning algorithm for feedforward networks. IEEE Transactions on Neural Networks, 2006, 17(6): 1411-1423 doi: 10.1109/TNN.2006.880583 [15] Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: theory and applications. Neurocomputing, 2007, 70(1-3): 489-501 [16] Huang G, Song S J, Gupta J N D, Wu C. Semi-supervised and unsupervised extreme learning machines. IEEE Transactions on Cybernetics, 2014, 44(12): 2405-2417 doi: 10.1109/TCYB.2014.2307349 [17] Bai Z, Huang G B, Wang D W, Wang H, Westover M B. Sparse extreme learning machine for classification. IEEE Transactions on Cybernetics, 2014, 44(10): 1858-1870 doi: 10.1109/TCYB.2014.2298235 [18] Bauer F, Lukas M A. Comparingparameter choice methods for regularization of ill-posed problems. Mathematics and Computers in Simulation, 2011, 81(9): 1795-1841 doi: 10.1016/j.matcom.2011.01.016 [19] Dienstfrey A, Hale P D. Colored noise and regularization parameter selection for waveform metrology. IEEE Transactions on Instrumentation and Measurement, 2014, 63(7): 1769-1778 doi: 10.1109/TIM.2013.2297631 [20] Kurzyński. On the multistage Bayes classifier. Pattern Recognition, 1988, 21(4): 355-365 doi: 10.1016/0031-3203(88)90049-0 [21] Giusti N, Sperduti A. Theoretical and experimental analysis of a two-stage system for classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 893-904 doi: 10.1109/TPAMI.2002.1017617 [22] Papageorgiou C P, Oren M, Poggio T. A general framework for object detection. In: Proceedings of the 6th International Conference on Computer Vision (IEEE Cat. No.98CH36271). Bombay, India: IEEE, 2002. 555-562 [23] Schwegmann C P, Kleynhans W, Salmon B P. Synthetic aperture radar ship detection using haar-like features. IEEE Geoscience and Remote Sensing Letters, 2017, 14(2): 154-158 doi: 10.1109/LGRS.2016.2631638 [24] Ma S Y, Bai L. A face detection algorithm based on Adaboost and new Haar-Like feature. In: Proceedings of the 7th IEEE International Conference on Software Engineering and Service Science (ICSESS). Beijing, China: IEEE, 2017. 651-654 [25] Yang Y M, Wu Q M J. Extreme learning machine with subnetwork hidden nodes for regression and classification. IEEE Transactions on Cybernetics, 2016, 46(12): 2885-2898 doi: 10.1109/TCYB.2015.2492468 [26] Yang Y M, Wang Y N, Yuan X F. Bidirectional extreme learning machine for regression problem and its learning effectiveness. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(9): 1498-1505 doi: 10.1109/TNNLS.2012.2202289 [27] Huang G B, Chen L. Convex incremental extreme learning machine. Neurocomputing, 2007, 70(16-18): 3056-3062 doi: 10.1016/j.neucom.2007.02.009 [28] Feng G R, Huang G B, Lin Q P, Gay R. Error minimized extreme learning machine with growth of hidden nodes and incremental learning. IEEE Transactions on Neural Networks, 2009, 20(8): 1352-1357 doi: 10.1109/TNN.2009.2024147 [29] Chen X, Peng Z, Jing W. Sparse kernel logistic regression based on $L_1/2$ regularization. Science China Information Sciences, 2013, 56(4): 1-16 [30] Qi A Z. Neural network optimization algorithm model combining L1/2 regularization and extreme learning machine. In: Proceedings of the 3rd International Workshop on Materials Engineering and Computer Sciences (IWMECS 2018). Jinan, China: Atlantis Press, 2018. [31] He B, Sun T, Yan T, et al. A pruning ensemble model of extreme learning machine with $L_1/2$ regularizer. Proceedings of ELM-2015 Volume 2: Theory, Algorithms and Applications (Ⅱ). Cham: Springer International Publishing, 2016. 1-19 [32] Liang Y, Chai H, Liu X Y, Xu Z B, Zhang H, Leung K S. Cancer survival analysis using semi-supervised learning method based on Cox and AFT models with $L_1/2$ regularization. BMC Medical Genomics, 2016, 9: Article No.11 [33] Yang D K, Liu Y. $L_1/2$ regularization learning for smoothing interval neural networks: algorithms and convergence analysis. Neurocomputing, 2018, 272: 122-129 doi: 10.1016/j.neucom.2017.06.061 [34] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892 doi: 10.1109/TNN.2006.875977 期刊类型引用(5)
1. 纪永刚,任继红,李发瑞,李桃利,王佳伟. 船载HFSWR船只目标多维样本库构建方案设计. 实验技术与管理. 2025(01): 19-27 . 百度学术
2. 王可,徐明亮,李亚飞,姜晓恒,鲁爱国,李鉴. 一种面向航空母舰甲板运动状态预估的鲁棒学习模型. 自动化学报. 2024(09): 1785-1793 . 本站查看
3. 邹伟东,夏元清. 基于压缩因子的宽度学习系统的虚拟机性能预测. 自动化学报. 2022(03): 724-734 . 本站查看
4. 刘洋,孙龙洋,韩怡,柴广卿,张国良. 基于OES-ELM的PCB板表面印线检测算法. 电脑知识与技术. 2022(36): 29-32+45 . 百度学术
5. 王美琪,贾思贤,陈恩利,杨绍普,刘鹏飞,戚壮. 基于SQPSO优化DELM的踏面磨耗测量模型. 摩擦学学报. 2021(01): 65-75 . 百度学术
其他类型引用(9)
-