2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

约束高斯分类网研究

王双成 高瑞 杜瑞杰

孔令智, 高迎彬, 李红增, 张华鹏. 一种快速的多个主成分并行提取算法. 自动化学报, 2017, 43(5): 835-842. doi: 10.16383/j.aas.2017.c160299
引用本文: 王双成, 高瑞, 杜瑞杰. 约束高斯分类网研究. 自动化学报, 2015, 41(12): 2164-2176. doi: 10.16383/j.aas.2015.c150106
KONG Ling-Zhi, GAO Ying-Bin, LI Hong-Zeng, ZHANG Hua-Peng. A Fast Algorithm That Extracts Multiple Principle Components in Parallel. ACTA AUTOMATICA SINICA, 2017, 43(5): 835-842. doi: 10.16383/j.aas.2017.c160299
Citation: WANG Shuang-Cheng, GAO Rui, DU Rui-Jie. Restricted Gaussian Classification Network. ACTA AUTOMATICA SINICA, 2015, 41(12): 2164-2176. doi: 10.16383/j.aas.2015.c150106

约束高斯分类网研究

doi: 10.16383/j.aas.2015.c150106
基金项目: 

国家自然科学基金(61272209),上海市自然科学基金(15ZR1429700),上海市教委科研创新项目(15ZZ099)资助

详细信息
    作者简介:

    高瑞上海财经大学数学与统计学院博士研究生. 上海立信会计学院数学与信息学院讲师. 2006 年获上海理工大学理学院硕士学位. 主要研究方向为机器学习和数据挖掘.E-mail: gaorui@lixin.edu.cn

    通讯作者:

    王双成上海立信会计学院数学与信息学院教授.2004 年获吉林大学通信工程学院博士学位.主要研究方向为人工智能, 机器学习和数据挖掘.本文通信作者.

Restricted Gaussian Classification Network

Funds: 

Supported by National Natural Science Foundation of China (61272209), Natural Science Foundation of Shanghai (15ZR1429 700), and Innovation Program of Shanghai Municipal Education Commission (15ZZ099)

  • 摘要: 针对基于一元高斯函数估计属性边缘密度的朴素贝叶斯分类器不能有效利 用属性之间的依赖信息和使用多元高斯函数估计属性联合密度的完全贝叶斯分类器 易于导致对数据的过度拟合而且高阶协方差矩阵的计算也非常困难等情况,在建立 属性联合密度分解与组合定理和属性条件密度计算定理的基础上,将朴素贝叶斯分类 器的属性选择、分类准确性标准和属性父结点的贪婪选择相结合,进行约束高斯 分类网学习与优化,并依据贝叶斯网络理论,对贝叶斯衍生分类器中属性为类提供 的信息构成进行分析.使用UCI数据库中连续属性分类数据进行实验,结果显示,经过 优化的约束高斯分类网具有良好的分类准确性.
  • 在现代信号处理和数据分析领域, 从高维输入信号中提取能够反映系统本质属性的信息是一件非常有意义的工作, 通常将能够完成此类工作的方法称为系统特征提取方法, 而主成分分析方法是应用比较广泛的一种系统特征提取方法.主成分分析主要是通过正交变换将高维的数据映射到低维空间, 从而达到数据压缩和系统特征提取的目的[1].在信号处理领域, 通常又将输入信号自相关矩阵最大特征值对应的特征向量称之为信号的主成分, 将由信号的多个主成分张成的子空间称为信号的主子空间, 而将能够实现对输入信号的主成分或主子空间进行提取的方法称为主成分分析方法[2].目前, 主成分分析方法已经广泛应用于图像处理[3]、故障诊断[4]、模式识别[5]等领域.

    采用神经网络方法来提取输入信号中的主成分是目前国内外的一个研究热点.因为相比传统的数值算法, 如EVD (Eigenvalue decomposition)和SVD (Singular value decomposition), 神经网络算法可以避免对输入信号自相关矩阵的计算, 而且能够处理非平稳的随机输入信号.自从Oja提出的第一个主成分分析神经网络算法以来[6], 学者们相继提出了很多主成分分析算法, 如NIC (Novel information criterion)算法[7]、ULA (Unified learning algorithm)算法[8]、UIC (Unified information criterion)算法[9]等.虽然这些算法已经在各个领域得到了广泛的应用.但是这些算法在应用范围上仍然存在一定的限制, 如Oja算法和ULA算法只能提取一个主成分; NIC算法和UIC算法只能进行主子空间跟踪, 不能提取多个主成分.而在某些信号处理领域需要对信号的多个主成分进行提取, 因此研究如何提取多个主成分就成为一件非常有意义的工作.

    目前为止, 学者们已经提出了一些多个主成分提取算法.根据主成分的获取方式不同, Ouyang等将现行算法分为串行算法和并行算法两类[10].串行算法首先采用单个主成分提取算法提取信号的第一个主成分, 然后采用压缩技术对采样信号进行处理, 消除信号中第一个主成分的影响, 而后依旧采用单个主成分提取算法来提取信号的第二个主成分; 重复上述步骤, 就可以实现多个主成分的提取.串行算法的缺点主要有以下4个方面: 1) 由于串行算法在每次提取过程中都需要用到全部的采样数据, 因此需要大量的存储器件; 2) 由于主成分的提取过程是顺序进行的, 因此会造成很大的提取时延; 3) 由于下一个主成分的提取依赖于当前主成分的提取结果, 因此当前主成分的提取误差会传播到下一次提取过程中, 当提取主成分的维数很大时, 串行算法会造成很大的误差累积; 4) 串行算法必须是信号全部采集完成后才能使用, 因此难以满足实时信号处理的要求.相比串行算法, 并行算法可以在一个算法迭代过程中实现多个主成分的同时提取, 因此可以避免串行算法的上述缺点.此外由于并行算法还具有很好的实时性, 因此引发了大量学者的研究.

    在文献[11]中, Oja等采用对神经网络输出进行加权的方式, 提出了第一个多个主成分并行提取算法; Ouyang等则是对NIC算法进行了加权改进, 提出了一种非对称结构的算法---WNIC (Weighted NIC)算法[10]; Tanaka等[12]对加权的Oja算法进行改进, 提出了一类更为一般化的多个主成分提取算法; 通过对正交投影子空间跟踪算法(Orthogonal projection approximation and subspace tracking, OPAST)进行适当改进, Bartelmaos等提出了一种可以并行提取多个主成分的PC-OPAST (Principal component-OPAST)算法[13], 仿真实验表明PC-OPAST算法的估计精度要高于WNIC算法; Li等通过对NIC算法进行了改进, 提出了一种具有对称结构的算法---MNIC (Modified NIC)算法[14];此后基于Givens空间旋转变换法, Thameri等[15-16]采用提出了4种不同类型的多个主成分并行提取算法(MED-GOPAST (Maximum error deviation-generalized OPAST)、IMED-GOPAST (Improved MED-generalized OPAST)、AS-GOPAST (Automatic selection-generalized OPAST)、H-GOPAST (Hybrid-generalized OPAST)).相比上述其他算法, Thameri等所提算法具有较低的计算复杂度.然而, 上述大多数并行提取算法都属于二阶算法, 算法的收敛速度较慢.为了进一步提升算法的收敛速度, 本文提出了一种新型的算法.

    本文的章节安排如下:第1节主要介绍本文中符号的命名规则和重要符号说明; 第2节根据现有的算法提出了一种新型的多个主成分提取算法; 第3节主要是对算法进行收敛性分析; 算法的自稳定性证明安排在第4节; 第5节是算法的数值仿真和实际应用; 第6节是本文的结论.

    为了规范符号使用, 这里对本文中符号的使用规则进行确定.在本文中, 矩阵用斜体大写字母表示(如 ${{R}}$ ); 而加粗的斜体小写字母则代表向量(如 ${{\pmb y}}$ ); 标量一般用不加粗的斜体小写字母表示(如 $\eta $ ).此外, 这里还给出了一些常用符号的含义:

    ${{R}}$ 向量的自相关矩阵

    ${{W}}$ 神经网络的权矩阵

    ${{A}}$ 加权矩阵

    $\eta $ 神经网络的学习因子

    $\alpha$ 遗忘因子

    $n$ 提取主成分的维数

    考虑满足如下多输入多输出关系的线性神经网络模型:

    $ \begin{equation} {{\pmb y}}(k)= {{{W}}^{\rm T}}(k){{\pmb x}}(k) \end{equation} $

    (1)

    其中, ${{\pmb y}}(k)\in\textbf{R}{^{r \times 1}}$ 是神经网络的输出, ${{W}}(k)\in \textbf{R} {^{n \times r}}$ 是神经网络的权矩阵, 输入信号 ${{\pmb x}}(k)\in {\textbf{R}^{n \times 1}}$ 是一个零均值的随机过程, 这里作为神经网络的输入, $n$ 代表输入向量的维数, $r$ 代表所需提取主成分的维数.

    令为输入信号的自相关矩阵, ${\lambda _i}$ 和分别为自相关矩阵 ${{R}}$ 的特征值和对应的特征向量.则根据矩阵理论的知识可得:矩阵 ${{R}}$ 是一个对称正定矩阵, 且其特征值均是非负的.对矩阵 ${{R}}$ 进行特征值分解得:

    $ \begin{equation} {{R}} = {{U\Lambda }}{{{U}}^{\rm T}} \end{equation} $

    (2)

    其中, 是由矩阵 ${{R}}$ 的特征向量构成的矩阵, 是由矩阵 ${{R}}$ 的特征值组成的对角矩阵.为了后续使用方便, 这里将特征值按照降序的方式进行排列, 即特征值满足如下方程:

    $ \begin{equation} {\lambda _1} > {\lambda _2} > \cdots > {\lambda _r} > \cdots > {\lambda _n} > 0 \end{equation} $

    (3)

    根据主成分的定义可知, 特征值所对应的特征向量称为矩阵 ${{R}}$ 的前 $r$ 主成分, 而通常将由这些主成分张成的空间称为信号的主子空间.而多个主成分提取算法的任务就是构造合适的神经网络权矩阵迭代更新方程, 使神经网络的权矩阵能够收敛到矩阵 ${{R}}$ 的前 $r$ 主成分.

    在文献[11]中, Oja等利用加权子空间法提出了多个主成分并行提取算法, 其算法形式为:

    $ \begin{align} {{W}}(k + 1)=& {{W}}(k)+ \eta [{{RW}}(k)- \nonumber\\ &{{W}}(k){{{W}}^{\rm T}}(k){{RW}}(k){{A}}] \end{align} $

    (4)

    其中, $\eta$ 是神经网络的学习因子且满足关系 $0< \eta <1$ , $A$ 是一个 $r \times r$ 维对角矩阵且其对角线元素为: .在式(4) 所描述的学习算法的约束下, 神经网络算法的权矩阵将收敛到信号自相关矩阵 ${{R}}$ 的前 $r$ 个主成分.然而算法(4) 存在收敛速度慢的问题, 为此本文提出了如下算法, 其算法形式为:

    $ \begin{align} {{W}}(k &+ 1) =\nonumber\\ &{{W}}(k)+ \eta {{W}}(k)[{({{{W}}^{\rm T}}(k){{W}}(k))^{-1}}- \nonumber\\ &{{I}}]+\eta ({{RW}}(k){{{W}}^{\rm T}}(k){{W}}(k){{{A}}^2} -\nonumber\\ &{{W}}(k){{A}}{{{W}}^{\rm T}}(k){{RW}}(k){{A}}) \end{align} $

    (5)

    其中矩阵 ${{A}}$ 同样为一个 $r \times r$ 维对角矩阵且其对角线元素为: ${a_1} > {a_2} > \cdots > {a_r} > 0$ , 这点是与算法(4) 一致的.式(5) 是一种全新的多个主成分提取算法.对比式(4) 和式(5) 可以发现, 式(5) 是一个非二阶的算法.根据文献[9]的结论, 非二阶算法可以在算法迭代过程中引入一个自适应的学习因子, 进而加速算法的收敛速度.因此式(5) 所描述的算法应具有较快的收敛速度, 这点将在稍后的仿真实验部分予以验证.

    在主成分分析神经网络算法领域, 通常将与学习因子相乘的项称为算法的学习步长[9].显然, 式(5) 中算法的学习步长由两部分构成.为了简便起见, 这里令矩阵和矩阵.如果令式(5) 中的加权矩阵 ${{A}} = {{I}}$ , 且省去算法的矩阵 $C$ , 则算法退化成为另外一种主成分分析算法---Chen算法[17].然而仅仅由矩阵 ${{B}}$ 构成学习步长时, 算法很容易发生边界不稳定现象.为此, 需要对神经网络的加权矩阵加以限制, 最常用的方法就是增加正交约束[9].这里采用了一个非二阶的权矩阵约束措施(即添加矩阵 $C$ ), 这一操作不仅可以解决算法的不稳定问题, 还可以提升算法的收敛速度.

    式(5) 所描述的算法只适用于自相关矩阵已知的情况, 而在实际使用时只能得到信号的观测值, 自相关矩阵通常是未知的且是需要实时估计的.这里给出自相关矩阵的估计公式:

    $ \begin{equation} {{\hat R}}(k)= \frac{{(k - 1)}}{k}\alpha {{\hat R}}(k - 1)+ \frac{{{{{\pmb x}}_k}{{\pmb x}}_k^{\rm T}}}{k} \end{equation} $

    (6)

    其中, $\alpha$ 为遗忘因子, 且满足 $0<\alpha <1$ .显然当时, 矩阵 ${{\hat R}}(k)\to {{R}}$ .因此式(5) 在实际使用时, 应首先使用式(6) 对自相关矩阵进行估计, 然后将估计得到的矩阵代入式(5), 即可以完成对输入信号多个主成分的提取.为方便使用, 这里将式(5) 所描述的算法记为FMPCE (Fast multiple principle components extraction algorithm)算法.

    本节将对所提算法在平稳点处的收敛特性进行分析, 相关结论由定理1给出.

    定理1. 当且仅当权矩阵 ${{W}} = {{P}}$ 时, 式(5) 所描述的FMPCE算法达到稳定状态, 其中 $P$ 是由矩阵 $R$ 的前 $r$ 个特征值对应的特征向量构成的矩阵, 即有.

    证明. 根据文献[18]的描述, 算法的学习步长通常为一个损失函数的梯度.通过对损失函数平稳点的分析就可以完成算法收敛性的分析.这里假设该损失函数为 $JW$ , 则该损失函数对于权矩阵 $W$ 的一阶微分可以表示为:

    $ \begin{align} \nabla J({{W}})&=\nonumber \\ &{{RW}}{{{W}}^{\rm T}}{{W}}{A^2} - {{WA}}{{{W}}^{\rm T}}{{RWA}}+ \nonumber\\ & {{W}}{({{{W}}^{\rm T}}{{W}})^{ - 1}} - {{W}} \end{align} $

    (7)

    如果权矩阵 ${{W}} = {{P}}$ , 则有

    $ \begin{align} \nabla J({{W}})&|_{W= P}=\nonumber\\& {{RP}}{{{P}}^{\rm T}}{{P}}{{{A}}^2} - {{PA}}{{{P}}^{\rm T}}{{RPA}}~+ \nonumber\\&{{P}}{({{{P}}^{\rm T}}{{P}})^{ - 1}} - {{P}}=\nonumber\\& {{P}}{{{\Lambda }}_r}{{{A}}^2} - {{PA}}{{{\Lambda }}_r}{{A}}= {{0}} \end{align} $

    (8)

    其中, 是由矩阵 $R$ 的前 $r$ 个特征值构成的对角矩阵.反之, 根据矩阵分析理论, 在平稳点处有 $\nabla J({{W}})= {{0}}$ , 即

    $ \begin{equation} \begin{split} &{{RW}}{{{W}}^{\rm T}}{{W}}{{{A}}^2} - {{WA}}{{{W}}^{\rm T}}{{RWA}} = \\ &~~~~~~~~~{{W}} - {{W}}{({{{W}}^{\rm T}}{{W}})^{ - 1}} \end{split} \end{equation} $

    (9)

    对上式两边左乘以 ${{{W}}^{\rm T}}$ , 可得

    $ \begin{equation} \begin{split} &{{{W}}^{\rm T}}{{RW}}{{{W}}^{\rm T}}{{W}}{{{A}}^2} - {{{W}}^{\rm T}}{{WA}}{{{W}}^{\rm T}}{{RWA}}=\\ & \quad\quad\quad\quad {{{W}}^{\rm T}}{{W}} - {{I}} \end{split} \end{equation} $

    (10)

    定义矩阵 ${{Q}} = {{{W}}^{\rm T}}{{W}} - {{I}}$ , 则矩阵 $Q$ 是一个对称矩阵, 由于权矩阵 $W$ 的任意性, 则有矩阵和分别是两个对称矩阵, 即有

    $ \begin{equation} {{{W}}^{\rm T}}{{RW}}{{{W}}^{\rm T}}{{W}}{{{A}}^2} = {{{A}}^2}{{{W}}^{\rm T}}{{W}}{{{W}}^{\rm T}}{{RW}} \end{equation} $

    (11)

    $ \begin{equation} {{{W}}^{\rm T}}{{WA}}{{{W}}^{\rm T}}{{RWA}} = {{A}}{{{W}}^{\rm T}}{{RWA}}{{{W}}^{\rm T}}{{W}} \end{equation} $

    (12)

    由于矩阵 ${{{W}}^{\rm T}}{{RW}}$ 和矩阵 $A$ 均是对称矩阵, 则根据上面两式可得 ${{{W}}^{\rm T}}{{W}} = {{I}}$ .也就是说, 在 $J({{W}})$ 的平稳点处权矩阵 $W$ 的各列向量之间是相互正交的.将其代入式(9) 可得, $J({{W}})$ 平稳点有:

    $ \begin{equation} {{RW}}{{{A}}^2} = {{WA}}{{{W}}^{\rm T}}{{RWA}} \end{equation} $

    (13)

    令是矩阵的特征值分解, 其中 $Q$ 是一个正交矩阵.将其代入式(13) 可得: ${{RP'}} = {{P'}}{{{\Lambda '}}_r}$ , 其中, .由于矩阵 ${{{\Lambda '}}_r}$ 是一个对角矩阵且 ${{P'}}$ 是一个列满秩矩阵, 则矩阵 ${{{\Lambda'}}_r}$ 和 ${{P'}}$ 必定等于矩阵 ${{{\Lambda }}_r}$ 和 ${{P}}$ .

    下面对加权矩阵 ${{A}}$ 的作用做进一步讨论.令和 ${{{R}}_y} = {{{W}}^{\rm T}}{{RW}}$ , 将其代入式(13) 并进行适当化简可得:

    $ \begin{equation} {{W}} = {{{R}}_{xy}}{({{A}}{{{R}}_y}{{{A}}^{ - 1}})^{ - 1}} \end{equation} $

    (14)

    矩阵的作用就是对矩阵 ${{{R}}_{xy}}$ 的各列向量施加Gram-Schmidt正交化操作[19].由于矩阵是一个非对称矩阵且矩阵的各元素可以写为:

    $ \begin{align} \begin{array}{l} {{A}}{{{R}}_y}{{{A}}^{ - 1}}=~~~~~\\ ~~~ \left[{\begin{array}{*{10}{c}} {{\rm E}\{ z_1^2\} }&{\dfrac{{{a_1}}}{{{a_2}}}z}&{\dfrac{{{a_1}}}{{{a_3}}}z}& \cdots &{\dfrac{{{a_1}}}{{{a_r}}}z}\\ {\dfrac{{{a_2}}}{{{a_1}}}z}&{{\rm E}\{ z_2^2\} }&{\dfrac{{{a_2}}}{{{a_3}}}z}& \cdots &{\dfrac{{{a_2}}}{{{a_r}}}z}\\ \vdots&\vdots&\vdots &\ddots&\vdots \\ {\dfrac{{{a_r}}}{{{a_1}}}z}&{\dfrac{{{a_2}}}{{{a_r}}}z}&{\dfrac{{{a_3}}}{{{a_r}}}z}& \cdots &{{\rm E}\{ z_r^2\} } \end{array}} \right] \end{array} \end{align} $

    (14)

    其中用 $z$ 来代表矩阵 ${{{R}}_y}$ 的元素.根据式(15) 可得矩阵 ${{{R}}_y}$ 的上三角部分的元素均是乘以一个大于1的数, 而下三角部分则是乘以一个小于1的数.通过使用第一列正交化 ${{R}}_{xy}$ 可以获得矩阵 ${{{R}}}$ 的第一个主成分, 通过第二列正交化 ${{R}}_{xy}$ 可以获得矩阵 ${{{R}}}$ 的第二个主成分, 依次类推.值得注意的是第二列中只有一个大于1的系数 ${{a}_{1}}/{{a}_{2}}$ , 而其他所有系数均是小于1.根据文献[20]可得, 系数 ${{a}_{1}}/{{a}_{2}}$ 可以避免后续操作对已经提取的主成分造成影响.上述分析表明, 可以通过合理的选择加权矩阵 ${{A}}$ , 使得算法最终将能够实现对矩阵 $R$ 的多个主成分的提取.

    自稳定性是指不论神经网络初始权矩阵如何选择, 神经网络权矩阵的模值均能收敛到一个常值, 而与初始权矩阵无关.在文献[21]中Möller指出:所有不具备自稳定性的神经网络算法都具有发散的可能性, 因此自稳定性已经成为了神经网络算法的一个必备特性.本节将对FMPCE算法的自稳定性进行分析证明.

    定理2. 如果输入信号是有界的且学习因子 $\eta$ 足够小, 则FMPCE算法的权矩阵模值将收敛到一个常值(该值等于提取主成分维数的均方根, 即 $\sqrt{r}$ ), 而与初始权矩阵的选择无关.

    证明. 根据式(5) 可得, 在 $k+1$ 时刻权矩阵的模值为:

    $ \begin{align*} \begin{array}{l} \left\| {{{W}}(k + 1)} \right\|_F^2=~~~~\\ ~~~~~~~~ {\rm tr}\left[{{{{W}}^{\rm T}}(k + 1){{W}}(k + 1)} \right]=\\~~~~~~~~ {\rm tr}\left\{ {\left[{{{W}} + \eta {{RW}}{{{W}}^{\rm T}}{{W}}{{{A}}^2}- \eta {{W}}-} \right.} \right.\\~~~~~~~~ {\left. {\eta {{WA}}{{{W}}^{\rm T}}{{RWA}} + \eta {{W}}{{({{{W}}^{\rm T}}{{W}})}^{-1}}} \right]^{\rm T}}\times\\~~~~~~~~ \left[{{{W}} + \eta {{W}}{{({{{W}}^{\rm T}}{{W}})}^{-1}}-\eta {{W}}} \right. + \\~~~~~~~~ \left. {\left. { \eta {{RW}}{{{W}}^{\rm T}}{{W}}{{{A}}^2}-\eta {{WA}}{{{W}}^{\rm T}}{{RWA}}} \right]} \right\}=\\~~~~~~~~ {\rm tr}\left\{ {{{{W}}^{\rm T}}{{W}} + 2\eta {{{W}}^{\rm T}}{{RW}}{{{W}}^{\rm T}}{{W}}{{{A}}^2}}- \right.\\~~~~~~~~ 2\eta {{{W}}^{\rm T}}{{WA}}{{{W}}^{\rm T}}{{RWA}} - 2\eta {{{W}}^{\rm T}}{{W}}+ \\~~~~~~~~ 2\eta {{{W}}^{\rm T}}{{W}}{({{{W}}^{\rm T}}{{W}})^{ - 1}} + o(\eta ) \approx\\~~~~~~~~ {\rm tr}\left\{ {{{{W}}^{\rm T}}{{W}}} \right\} + 2\eta {\rm tr}\left\{ {{{I}} - {{{W}}^{\rm T}}{{W}}} \right\} \end{array}\\[-6mm] \end{align*} $

    (16)

    在上式中为了书写方便, 而省略了第二个等号以后的迭代时刻符号 $k$ .由于学习因子足够小, 因此可以忽略有关学习因子的二阶项.对比前后两个时刻权矩阵模值的大小可得:

    $ \begin{equation} \begin{split} &\frac{{\left\| W(k + 1) \right\|_F^2}}{{\left\| {{{W}}(k)} \right\|_F^2}}=~~~~~~~~~~~~\\ &~~~~~~~~~~~~1+\frac{{ 2\eta {\rm tr}\left\{ {{{I}} - {{{W}}^{\rm T}}(k){{W}}(k)} \right\}}}{{{\rm tr}\left\{ {{{{W}}^{\rm T}}(k){{W}}(k)} \right\}}}=\\ &~~~~~~~~~~~~ 1 + 2\eta \frac{{r - \left\| {{{W}}(k)} \right\|_F^2}}{{\left\| {{{W}}(k)} \right\|_F^2}}~~~~~~\\ &~~~~~~~~~~~~ \left\{ {\begin{array}{*{20}{c}} { > 1}, &\mbox{若}&{\left\| {{{W}}(k)} \right\|_F^{} < \sqrt r }\\ { = 1}, &\mbox{若}&{\left\| {{{W}}(k)} \right\|_F^{} = \sqrt r }\\ { < 1}, &\mbox{若}&{\left\| {{{W}}(k)} \right\|_F^{} > \sqrt r } \end{array}} \right. \end{split} \end{equation} $

    (17)

    通过式(17) 可以发现, 无论 $k$ 时刻的权矩阵模值是否等于 $\sqrt r $ , 下一时刻 $k+1$ 的权矩阵模值都将趋于 $\sqrt r $ , 即在收敛时权矩阵模值将趋于一个常数.这一特性表明, 无论初始时刻的权矩阵模值如何选择, 将不会对算法的收敛结果造成任何影响, 即FMPCE算法具有自稳定性.

    本节将提供4个仿真实验来对所提算法的性能进行验证.第一个实验主要验证FMPCE算法提取信号中多个主成分的能力; 第二实验主要考察FMPCE算法的自稳定性; 第三个实验则是将FMPCE算法与一些现存的多个主成分提取算法进行比较; 第四个实验则是应用FMPCE算法进行图像压缩和重建并与一些现有算法进行比较.在整个实验过程中, 为了定量地对算法性能进行评价, 这里引入如下两个评价函数, 第一个是方向余弦(Direction cosine, DC):

    $ \begin{equation} {\rm DC}_i(k)= \frac{{\left| {{{\pmb w}}_i^{\rm T}(k){{{\pmb u}}_i}} \right|}}{{\left\| {{{\pmb w}_i}(k)} \right\| \cdot \left\| {{{{\pmb u}}_i}} \right\|}} \end{equation} $

    (18)

    其中, $i = 1, 2, \cdots, r$ 且 ${{{\pmb w}}_i}$ 代表权矩阵 $W$ 的第 $i$ 列, ${{{\pmb u}}_i}$ 则代表信号的第 $i$ 个主成分.从式(18) 可以得出:如果方向余弦曲线能够收敛到1, 神经网络算法的权矩阵必定已经收敛到信号主成分的方向.方向余弦衡量的是算法的估计精度, 而权向量模值则能够评价算法的收敛性.

    $ \begin{equation} {\rm{Nor}}{{\rm{m}}_i}{\rm{(}}k{\rm{)= }}\left\| {{{{\pmb w}}_i}(k)} \right\|, {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} i = 1, 2, \cdots, r \end{equation} $

    (19)

    本实验采用文献[10]中所使用的信号产生方法, 输入信号采用如下一阶滑动回归模型来产生:

    $ \begin{equation} x(k)= 0.75x(k - 1)+ e(k) \end{equation} $

    (20)

    该模型由一个均值为0方差为1的高斯白噪声 $e(k)$ 作为模型驱动输入.取该模型的10个不连续的输出构成神经网络的输入向量, 即 $n=10$ .接下来采用本文所提出的FMPCE算法对该输入信号的前3个主成分进行提取, 即 $r=3$ . FMPCE算法的初始化参数设置为:初始权矩阵为随机的, 学习因子 $\eta=0.1$ , 加权矩阵 ${{A}} ={\rm diag}\{3, 2, 1\}$ .图 1图 2分别给出了FMPCE算法的仿真结果, 在该图中, 所有学习曲线均是为100次独立实验的平均结果.

    图 1  FMPCE算法的方向余弦曲线
    Fig. 1  DC curves of FMPCE
    图 2  FMPCE算法的权向量模值曲线
    Fig. 2  Norm curves of FMPCE

    图 1中可以看出:大约经过1500次左右的迭代后, FMPCE算法的3条方向余弦曲线就都收敛到了1, 这就说明FMPCE算法的权矩阵已经收敛到了信号主成分的方向; 对照图 2可以看出, 经过30次迭代运算后, 权矩阵模值均已经收敛到1, 也就是说此时的FMPCE算法已经收敛.该仿真实验表明: FMPCE算法具备提取信号多个主成分的能力.

    本实验主要对FMPCE算法的自稳定性进行仿真验证.本实验同样采取式(20) 产生的输入信号. FMPCE算法的初始化参数设置为:学习因子 $\eta = 0.01$ , 加权矩阵, 初始化权矩阵为随机产生的且其模值被标准化为模值大于3, 等于3和小于3等情况.然后分别考察在这种不同初始权矩阵情况下, FMPCE算法的权矩阵模值收敛情况.

    图 3是经过100次独立仿真获得的FMPCE算法权矩阵模值曲线, 从图 3中可以看出:不论初始权矩阵如何选择, FMPCE算法收敛时权矩阵模值均等于 $\sqrt{3}$ , 这点是与定理2中的分析一致的.通过该实验可得: FMPCE算法具有自稳定性.

    图 3  不同初始条件下FMPCE算法的权矩阵模值曲线
    Fig. 3  Norm curves of FMPCE under different conditions

    本节将所提出的FMPCE算法与文献[14]中的MNIC算法和文献[15]中的MED-GOPAST算法进行对比.本实验中的输入信号同样由式(20) 产生, 这里分别采用这三种算法对该输入信号的前2个主成分进行提取, 即 $r=2$ .三种算法的初始化参数设置为:对MNIC算法和FMPCE算法而言, 加权矩阵 ${{A}} ={\rm diag}\{2, 1\}$ , 学习因子 $\eta = 0.15$ ; 对MED-GOPAST算法而言, 遗忘因子 $\alpha = 0.998$ .为了公平比较, 三种算法的初始化权矩阵均是随机产生的.三种算法对于该信号的提取结果如图 4图 5所示, 该结果是100次独立实验结果的平均值.

    图 4  三种算法提取第一个主成分的方向余弦曲线
    Fig. 4  DC curves of three algorithms for the 1st PC
    图 5  三种算法提取第二个主成分的方向余弦曲线
    Fig. 5  DC curves of three algorithms for the 2nd PC

    图 4图 5中可以看出:大约经历了200次左右的迭代运算后, FMPCE算法的方向余弦曲线就已经收敛到了1, 这一收敛速度要优于MED-GOPAST算法和MNIC算法.从上面两图的最后放大结果中还可以看出, 虽然三种算法均收敛到了单位1, 但是三种算法的最终收敛值并不相同:其中MNIC算法与单位1偏差最大, MED-GOPAST算法次之, 三种算法中FMPCE算法偏差最小.由于方向余弦可以表征算法的估计精度, 所以可以说在这三种算法中, FMPCE算法具有最好的估计精度.通过此实验可以得出结论: FMPCE算法不仅具有较快的收敛速度, 而且具有很高的估计精度.

    图像压缩一直是计算机图形图像学领域内的热点问题, 通过图像压缩技术可以减小图像数据中的冗余信息从而实现更加高效的格式存储和数据传输, 而基于主成分分析的压缩方法又是图像压缩领域内的一种常用方法[22].本小节将采用主成分分析方法对著名的Lena图像进行压缩和重构. Lena原始图像如图 6(a)所示, 该图像的分辨率512像素 $\times$ 512像素.这里将Lena图像分解为若干个8像素 $\times$ 8像素的不重叠小块并将这些小块按照从左到右从上到下的顺序排列, 就构成了一个64维的数据向量.将这些数据进行中心化处理后作为主成分分析算法的输入序列.然后分别采用FMPCE算法、MED-GOPAST算法和MNIC算法对Lena图像进行压缩后重建.

    图 6  原始的与重构后的Lena图像
    Fig. 6  Original and reconstituted Lena images

    三种算法的初始化参数设置方法与第5.3节相同, 这里不再重复.图 6(b) $\sim$ (d)分别给出了在重构维数为1, 4, 7三种不同情况下采用FMPCE算法对于Lena图像的重构结果, 表 1给出了在不同的重构维数下, 三种算法的重构误差.从图 6表 1中可以得出:利用FMPCE算法对Lena图像进行压缩重构可以获得较清晰的重构图像和较低的重构误差, 即可以利用FMPCE算法解决图像重构问题.对比三种不同算法的重构误差还可以发现, 在相同的重构维数下FMPCE算法具有最小的重构误差, 即FMPCE算法对提取的主成分具有最高的估计精度, 这点是与第5.3节中的结论一致的.

    表 1  不同重构维数下三种算法的重构误差
    Table 1  Reconstitution errors of the three algorithms with different reconstitution dimensions
    重构维数 1 4 7
    FMPCE 0.094 0.0837 0.0813
    MED-GOPAST 0.0959 0.0852 0.0846
    MNIC 0.1283 0.1015 0.0933
    下载: 导出CSV 
    | 显示表格

    本文首先对一些多个主成分提取并行算法进行了研究, 针对现有算法收敛速度慢的问题, 提出了一种新的具有较快收敛速度的非二阶算法, 该算法可以从输入信号中并行提取多个主成分; 然后采用平稳点分析法对所提算法的收敛性和自稳定性进行了证明; 最后通过仿真实验对所提算法的性能进行了验证.仿真结果表明:相比一些现有算法, 所提算法不仅收敛速度快而且估计精度较高.

  • [1] Wang Shuang-Cheng, Du Rui-Jie, Liu Ying. The learning and optimization of full Bayes classifiers with continuous attributes. Chinese Journal of Computers, 2012, 35(10): 2129 -2138(王双成, 杜瑞杰, 刘颖. 连续属性完全贝叶斯分类器的学习与优化. 计算机学报, 2012, 35(10): 2129-2138)
    [2] Wang S C, Xu G L, Du R J. Restricted Bayesian classification networks. Science China Information Sciences, 2013, 56(7): 1-15
    [3] Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers. Machine Learning, 1997, 29(2-3): 131-163
    [4] Jing Y S, Pavlović V, Rehg J M. Boosted Bayesian network classifiers. Machine Learning, 2008, 73(2): 155-184
    [5] Wang Zhong-Feng, Wang Zhi-Hai. An optimization algorithm of Bayesian network classifiers by derivatives of conditional log likelihood. Chinese Journal of Computers, 2012, 35(2): 364-374(王中锋, 王志海. 基于条件对数似然函数导数的贝叶斯网络分类器优化算法. 计算机学报, 2012, 35(2): 364-374)
    [6] Webb G I, Boughton J R, Zheng F, Ting K M, Salem H. Learning by extrapolation from marginal to full-multivariate probability distributions: decreasingly naive Bayesian classification. Machine Learning, 2012, 86(2): 233-272
    [7] Feng Yue-Jin, Zhang Feng-Bin. Max-relevance min-redundancy restrictive BAN classifier learning algorithm. Journal of Chongqing University, 2014, 37(6): 71-77(冯月进, 张凤斌. 最大相关最小冗余限定性贝叶斯网络分类器学习算法. 重庆大学学报, 2014, 37(6): 71-77)
    [8] López-Cruz P L, Larrañaga P, DeFelipe J, Bielza C. Bayesian network modeling of the consensus between experts: an application to neuron classification. International Journal of Approximate Reasoning, 2014, 55(1): 3-22
    [9] John G H, Langley P. Estimating continuous distributions in Bayesian classifiers. In: Proceedings of the 11th Conference on Uncertainty in Artificial Intelligence (UAI-1995). San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995. 338-345
    [10] Pérez A, Larrañaga P, Inza I. Supervised classification with conditional Gaussian networks: increasing the structure complexity from naive Bayes. International Journal of Approximate Reasoning, 2006, 43(1): 1-25
    [11] Pérez A, Larrañaga P, Inza I. Bayesian classifiers based on kernel density estimation: flexible classifiers. International Journal of Approximate Reasoning, 2009, 50(2): 341-362
    [12] Bounhas M, Mellouli K, Prade H, Serrurier M. Possibilistic classifiers for numerical data. Soft Computing, 2013, 17(5): 733-751
    [13] He Y L, Wang R, Kwong S, Wang X Z. Bayesian classifiers based on probability density estimation and their applications to simultaneous fault diagnosis. Information Sciences, 2014, 259(2): 252-268
    [14] Xia Zhan-Guo, Xia Shi-Xiong, Cai Shi-Yu, Wan Ling. Semi-supervised Gaussian process classification algorithm addressing the class imbalance. Journal on Communications, 2013, 34(5): 42-51(夏战国, 夏士雄, 蔡世玉, 万玲. 类不均衡的半监督高斯过程分类算法. 通信学报, 2013, 34(5): 42-51)
    [15] Liu G Q, Wu J X, Zhou S P. Probabilistic classifiers with a generalized Gaussian scale mixture prior. Pattern Recognition, 2013, 46(1): 332-345
    [16] Dong W Y, Zhou M C. Gaussian classifier-based evolutionary strategy for multimodal optimization. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(6): 1200-1216
    [17] Pavani S K, Gomez D D, Frangi A F. Gaussian weak classifiers based on co-occurring Haar-like features for face detection. Pattern Analysis and Applications, 2014, 17(2): 431439
    [18] Geiger D, Heckerman D. Learning Gaussian Networks. Technical Report MSR-TR-94-10, Microsoft Research, Advanced Technology Division, 1994.
    [19] Pearl J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. San Mateo, California, USA: Morgan Kaufmann Publishers Inc., 1988. 383-408
    [20] Shachter R D, Kenley C R. Gaussian influence diagrams. Management Science, 1989, 35(5): 527-550
    [21] Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection. In: Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI). San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995. 1137-1143
    [22] Quinlan J R. Induction of decision trees. Machine Learning, 1986, 1(1): 81-106
    [23] Wang Shuang-Cheng, Yuan Sen-Miao. Research on learning Bayesian networks structure with missing data. Journal of Software, 2004, 15(7): 1042-1048(王双成, 苑森淼. 具有丢失数据的贝叶斯网络结构学习研究. 软件学报, 2004, 15(7): 1042-1048)
    [24] Fayyad U M, Irani K B. Multi-interval discretization of continuous-valued attributes for classification learning. In: Proceedings of the 13th International Joint Conference on Artificial Intelligence. Chambery, France, 1993. 1022-1027
    [25] Demşar J. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 2006, 7(1): 1-30
  • 期刊类型引用(21)

    1. 李伟,邓志翔. 列车运行控制系统运营中的安全分析方法. 武汉冶金管理干部学院学报. 2023(02): 17-20 . 百度学术
    2. 张友鹏,魏智健,杨妮,张迪. 基于KPCA-SVM的S700K转辙机故障诊断方法. 安全与环境学报. 2023(09): 3089-3097 . 百度学术
    3. 欧阳鑫锋,孔令刚. 基于改进动态时间规整的道岔故障诊断方法. 现代信息科技. 2023(20): 136-139+143 . 百度学术
    4. Yong Chen,Christian Buerger,Miao Lin,Xudong Li,Volker Labenski,Haixia Jin,Hai Wang,Yang Liu,Tsuyoshi Ino,Harald Feifel,Tian Tan,Fangrong Chang. Left-turn-across-path-from-opposite-direction accidents in China:CIDAS accident study. Transportation Safety and Environment. 2023(04): 358-370 . 必应学术
    5. Yunting Zheng,Shaohua Chen,Zhiyong Tan,Yongkui Sun. Research on fault diagnosis of a railway point machine based on a multi-entropy feature extraction method and support vector machine. Transportation Safety and Environment. 2023(04): 338-346 . 必应学术
    6. 陈蕊. 基于电流曲线的道岔卡阻识别算法及实现. 自动化与仪表. 2022(04): 21-27 . 百度学术
    7. 池毅,陈光武. 基于一维卷积神经网络的实时道岔故障诊断. 计算机工程与应用. 2022(20): 293-299 . 百度学术
    8. 吴小雪,丁大伟,任莹莹,刘贺平. 二维FM系统的同时故障检测与控制. 自动化学报. 2021(01): 224-234 . 本站查看
    9. 李婉婉,李国宁. 基于GMM聚类和PNN的道岔故障诊断研究. 控制工程. 2021(03): 429-434 . 百度学术
    10. 郑云水,白邓宇,王妍. 基于相似度的道岔健康状态评估及故障检测方法研究. 铁道科学与工程学报. 2021(04): 877-884 . 百度学术
    11. 刘美容,刘津涛,何怡刚. 基于EMD复合多尺度熵的模拟电路故障诊断方法. 电子测量技术. 2021(04): 51-56 . 百度学术
    12. 李林,于颖. 智能继电保护回路故障监测全数字仿真研究. 计算机仿真. 2021(12): 460-464 . 百度学术
    13. 阮莹,梁利娟. 数字集成电路老化故障高精度预测方法仿真. 计算机仿真. 2020(02): 434-437 . 百度学术
    14. 高亚丽,陈光武. 基于改进FNN的道岔电路故障诊断方法. 科技创新与应用. 2020(15): 125-127 . 百度学术
    15. 孔令刚,焦相萌,陈光武,范多旺. 基于Mallat小波分解与改进GWO-SVM的道岔故障诊断. 铁道科学与工程学报. 2020(05): 1070-1079 . 百度学术
    16. 孔令刚,焦相萌,陈光武,范多旺. 基于多域特征提取与改进PSO-PNN的道岔故障诊断. 铁道科学与工程学报. 2020(06): 1327-1336 . 百度学术
    17. 杨菊花,于苡健,陈光武,司涌波,邢东峰. 基于CNN-GRU模型的道岔故障诊断算法研究. 铁道学报. 2020(07): 102-109 . 百度学术
    18. 姬文江,左元,黑新宏,高橋聖,中村英夫. 基于FastDTW的道岔故障智能诊断方法. 模式识别与人工智能. 2020(11): 1013-1022 . 百度学术
    19. Huidong Wang,Shifan He,Chengdong Li,Xiaohong Pan. Pythagorean Uncertain Linguistic Variable Hamy Mean Operator and Its Application to Multi-attribute Group Decision Making. IEEE/CAA Journal of Automatica Sinica. 2019(02): 527-539 . 必应学术
    20. 张友鹏,江雪莹,赵斌. 融合粗糙集与灰色模型的道岔故障预测. 铁道科学与工程学报. 2019(09): 2331-2338 . 百度学术
    21. 吴永成,阳长琼,何涛. 基于Fretchet距离与TWSVM的多机牵引道岔故障诊断研究. 铁道科学与工程学报. 2019(11): 2866-2872 . 百度学术

    其他类型引用(27)

  • 加载中
计量
  • 文章访问数:  1642
  • HTML全文浏览量:  43
  • PDF下载量:  1146
  • 被引次数: 48
出版历程
  • 收稿日期:  2015-03-11
  • 修回日期:  2015-09-06
  • 刊出日期:  2015-12-20

目录

/

返回文章
返回