2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

密度敏感鲁棒模糊核主成分分析算法

陶新民 常瑞 沈微 李晨曦 王若彤 刘艳超

陶新民, 常瑞, 沈微, 李晨曦, 王若彤, 刘艳超. 密度敏感鲁棒模糊核主成分分析算法. 自动化学报, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590
引用本文: 陶新民, 常瑞, 沈微, 李晨曦, 王若彤, 刘艳超. 密度敏感鲁棒模糊核主成分分析算法. 自动化学报, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590
TAO Xin-Min, CHANG Rui, SHEN Wei, LI Chen-Xi, WANG Ruo-Tong, LIU Yan-Chao. Density-sensitive Robust Fuzzy Kernel Principal Component Analysis Algorithm. ACTA AUTOMATICA SINICA, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590
Citation: TAO Xin-Min, CHANG Rui, SHEN Wei, LI Chen-Xi, WANG Ruo-Tong, LIU Yan-Chao. Density-sensitive Robust Fuzzy Kernel Principal Component Analysis Algorithm. ACTA AUTOMATICA SINICA, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590

密度敏感鲁棒模糊核主成分分析算法


DOI: 10.16383/j.aas.2018.c170590
详细信息
    作者简介:

    常瑞  东北林业大学工程技术学院硕士研究生.主要研究方向为模式识别与信号处理. E-mail: m15765549429@163.com

    沈微  东北林业大学工程技术学院讲师.主要研究方向为数据分析, 物流系统规划与管理咨询, 系统建模与优化. E-mail: Shenwei@nefu.edu.cn

    李晨曦  东北林业大学工程技术学院硕士研究生.主要研究方向为不均衡数据分类和故障诊断. E-mail: chenxili@nefu.edu.cn

    王若彤  东北林业大学工程技术学院硕士研究生.主要研究方向为人工智能和聚类分析. E-mail: celia wangrt@163.com

    刘艳超  东北林业大学工程技术学院硕士研究生.主要研究方向为物联网技术应用, 模式识别与信号处理. E-mail: liuyanchao@nefu.edu.cn

    通讯作者: 陶新民  东北林业大学工程技术学院教授. 2005年获哈尔滨工业大学博士学位.主要研究方向为智能信号处理, 软计算方法, 模式识别.本文通信作者. E-mail: taoxinmin@nefu.edu.cn
  • 本文责任编委 胡清华
  • 基金项目:

    中央高校基本科研业务费专项资金 2572017EB02

    中央高校基本科研业务费专项资金 2572017CB07

    东北林业大学双一流科研启动基金 411112438

    哈尔滨市科技局创新人才基金 2017RAXXJ018

    国家自然基金 31570547

Density-sensitive Robust Fuzzy Kernel Principal Component Analysis Algorithm

More Information
    Author Bio:

    CHANG Rui  Master student at the College of Engineering & Technology, Northeast Forestry University. Her research interest covers pattern recognition and signal processing

    SHEN Wei  Lecturer at the College of Engineering & Technology, Northeast Forestry University. His research interest covers data analysis, logistics system planning and management consulting, and system modeling and optimization

    LI Chen-Xi  Master student at the College of Engineering & Technology, Northeast Forestry University. Her research interest covers imbalanced data classification and fault diagnosis

    WANG Ruo-Tong  Master student at the College of Engineering & Technology, Northeast Forestry University. Her research interest covers artificial intelligence and cluster analysis

    LIU Yan-Chao  Master student at the College of Engineering & Technology, Northeast Forestry University. His research interest covers application of Internet of things technology, pattern recognition, and signal processing

    Corresponding author: TAO Xin-Min  Professor at the College of Engineering & Technology, Northeast Forestry University. He received his Ph. D. degree from Harbin Institute of Technology in 2005. His research interest covers intelligent signal processing, soft computing method, and pattern recognition. Corresponding author of this paper
  • Recommended by Associate Editor HU Qing-Hua
  • Fund Project:

    the Fundamental Research Funds for the Central Universities 2572017EB02

    the Fundamental Research Funds for the Central Universities 2572017CB07

    Two first-class scientific research foundation of Northeast Forestry University 411112438

    Innovative talent fund of Harbin science and technology Bureau 2017RAXXJ018

    National Natural Foundation of China 31570547

  • 摘要: 针对传统核主成分分析算法(Kernel principal component analysis, KPCA)对野性样本点敏感等缺陷, 提出一种密度敏感鲁棒模糊核主成分分析算法(Density-Sensitive robust fuzzy kernel principal component analysis, DRF-KPCA).该算法首先通过引入相对密度确定样本初始隶属度, 并构建出基于重构误差的隶属度确定方法, 同时采用最优梯度下降法实现隶属度的更新, 有效解决了传统核主成分分析算法对野性样本点敏感导致的主成分偏移等问题.最后, 通过简化重构误差的计算公式, 大大降低了算法的计算复杂度和运行时间.实验部分, 利用有野性样本点和无野性样本点的数据集对本文算法、KPCA及其他改进算法的主成分分析性能进行测试, 结果表明DRF-KPCA能有效消除野性样本点对主元分布的影响.此外, 试验通过分析参数对算法性能的影响给出了合理的参数取值建议.最后将本文算法与其他算法应用到分类问题中进行对比, 实验表明本文算法的分类性能较其他算法有显著提高.
    本文责任编委 胡清华
    Recommended by Associate Editor HU Qing-Hua
  • 图  1  传统PCA算法对有无野性样本点数据集的主成分分布图

    Fig.  1  The first principal component distribution using PCA algorithm on both the original data and the data with outliers

    图  2  不同KPCA算法的第一主元分布图

    Fig.  2  The first principal component of different KPCA algorithms

    图  3  不同KPCA算法的第二主元分布图

    Fig.  3  The second principal component of different KPCA algorithms

    图  4  三种算法的性能对比图

    Fig.  4  Comparison of the statistics results of E evaluation indicator of three algorithms

    图  5  模糊化系数(p)对算法性能的影响

    Fig.  5  Influence on the proposed algorithm performance of the fuzzy weight (p)

    图  6  不同正则化控制参数(σ2)对算法性能的影响

    Fig.  6  Influence on the proposed algorithm performance of the regularization parameters (σ2)

    图  7  不同密度控制权重(ω)对算法性能的影响

    Fig.  7  Influence on the proposed algorithm performance of the density control parameters (ω)

    图  8  不同平滑参数(s)对算法性能的影响

    Fig.  8  Influence on the proposed algorithm performance of the smooth parameters (s)

    图  9  不同算法对不同数据的性能比较

    Fig.  9  The performance comparison of different algorithms on different data

    图  10  不同算法对不同数据集的平均迭代时间比较

    Fig.  10  Comparison of average iteration time for different data sets by different algorithms

    图  11  不同算法对SMK-CAN-187高维数据的降维性能对比

    Fig.  11  Classification error rate of different algorithms with different reduced dimensions on SMK-CAN-187 dataset

    表  1  不同UCI数据的三种KPCA算法分类性能对比

    Table  1  Classification performance of three kinds of KPCA algorithm for different UCI datasets

    Dataset Class (N) : Dimension KPCA GMM-PCA RFK-PCA DRF-KPCA
    yeast 1 (463) : 2 (429) : 8 31.11±4.88 38.26±3.27 37.66±6.23 31.14±1.24
    1 (463) : 3 (244) : 8 23.94±3.22 30.24±4.21 26.79±5.15 24.01±0.98
    2 (429) : 3 (244) : 8 16.18±3.67 18.96±1.35 19.01±4.11 16.46±0.79
    letter H ((734) : R (758) : 16 10.67±2.15 9.17±3.66 7.16±2.35 5.48±0.07
    S (748) : Z (734) : 16 9.39±2.01 9.01±1.47 4.14 ± 1.97 2.13±0.09
    H (734) : O (753) : 16 10.74±2.46 12.01±3.53 9.45 ± 4.02 7.14±0.02
    german 1 (700: 2 (300) : 24 23.12±3.48 24.44±4.87 25.38±5.96 22.24±1.01
    haberman 1 (225) : 2 (81) : 3 17.46±3.16 17.32±2.55 16.73±4.98 15.12±0.49
    ionophere 1 (225) : -1 (126) : 34 8.33±2.13 8.03±2.98 7.57±3.19 5.37±0.07
    pima 1 (268) : 0 (500) : 8 25.71±4.01 29.63±4.76 31.88±6.23 25.33±1.11
    phoneme 1 (1 586) : 0 (3 818) : 5 11.12±2.16 10.06±2.93 9.67±3.98 7.21±0.12
    sonar 1 (111) : -1 (97) : 60 7.29±1.22 7.56±1.43 6.12 ± 2.79 5.32±0.02
    1 (1 528) : 2 (1 307) : 8 37.59±4.32 43.39±5.09 48.24±7.94 37.43±1.22
    abalone 1 (1 528) : 3 (1 342) : 8 23.69±3.12 23.33±2.78 24.18 ± 5.12 20.59±1.03
    2 (1307) : 3 (1 342) : 8 12.83±1.22 10.74±1.07 11.24 ± 3.01 9.11±0.22
    下载: 导出CSV
  • [1] 李春娜, 陈伟杰, 邵元海.鲁棒的稀疏Lp-模主成分分析.自动化学报, 2017, 43(1): 142-151 doi:  10.16383/j.aas.2017.c150512

    Li Chun-Na, Chen Wei-Jie, Shao Yuan-Hai. Robust sparse Lp-norm principal component analysis. Acta Automatica Sinica, 2017, 43(1): 142-151 doi:  10.16383/j.aas.2017.c150512
    [2] 张先鹏, 陈帆, 和红杰.结合多种特征的高分辨率遥感影像阴影检测.自动化学报, 2016, 42(2): 290-298 doi:  10.16383/j.aas.2016.c150196

    Zhang Xian-Peng, Chen Fan, He Hong-Jie. Shadow detection in high resolution remote sensing images using multiple features. Acta Automatica Sinica, 2016, 42(2): 290-298 doi:  10.16383/j.aas.2016.c150196
    [3] 董恩增, 魏魁祥, 于晓, 冯倩.一种融入PCA的LBP特征降维车型识别算法.计算机工程与科学, 2017, 39(2): 359-363 doi:  10.3969/j.issn.1007-130X.2017.02.021

    Dong En-Zeng, Wei Kui-Xiang, Yu Xiao, Feng Qian. A model recognition algorithm integrating PCA into LBP feature dimension reduction. Computer Engineering and Science, 2017, 39(2): 359-363 doi:  10.3969/j.issn.1007-130X.2017.02.021
    [4] Wan M, Shang W L, Zeng P. Double behavior characteristics for one-class classification anomaly detection in networked control systems. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 3011-3023 doi:  10.1109/TIFS.2017.2730581
    [5] Chen B J, Yang J H, Jeon B, Zhang X P. Kernel quaternion principal component analysis and its application in RGB-D object recognition. Neurocomputing, 2017, 266: 293-303 doi:  10.1016/j.neucom.2017.05.047
    [6] 赵孝礼, 赵荣珍.全局与局部判别信息融合的转子故障数据集降维方法研究.自动化学报, 2017, 43(4): 560-567 doi:  10.16383/j.aas.2017.c160317

    Zhao Xiao-Li, Zhao Rong-Zhen. A method of dimension reduction of rotor faults data set based on fusion of global and local discriminant information. Acta Automatica Sinica, 2017, 43(4): 560-567 doi:  10.16383/j.aas.2017.c160317
    [7] 吴枫, 仲妍, 吴泉源.基于增量核主成分分析的数据流在线分类框架.自动化学报, 2010, 36(4): 534-542 doi:  10.3724/SP.J.1004.2010.00534

    Wu Feng, Zhong Yan, Wu Quan-Yuan. Online classification framework for data stream based on incremental kernel principal component analysis. Acta Automatica Sinica, 2010, 36(4): 534-542 doi:  10.3724/SP.J.1004.2010.00534
    [8] 吴广宁, 袁海满, 高波, 李帅兵.基于特征评估与核主元分析的电力变压器故障诊断.高电压技术, 2017, 43(8): 2533-2540 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=gdyjs201708013

    Wu Guang-Ning, Yuan Hai-Man, Gao Bo, Li Shuai-Bing. Fault diagnosis of power transformer based on feature evaluation and kernel principal component analysis. High Voltage Engineering, 2017, 43(8): 2533-2540 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=gdyjs201708013
    [9] Huang J P, Yan X F. Quality relevant and independent two block monitoring based on mutual information and KPCA. IEEE Transactions on Industrial Electronics, 2017, 64(8): 6518-6527 doi:  10.1109/TIE.2017.2682012
    [10] Xie H B, Zhou P, Guo T R, Sivakumar B, Zhang X, Dokos S. Multiscale two-directional two-dimensional principal component analysis and its application to high-dimensional biomedical signal classification. IEEE Transactions on Biomedical Engineering, 2016, 63(7): 1416-1425 doi:  10.1109/TBME.2015.2436375
    [11] Xia J S, Falco N, Benediktsson J A, Du P J, Chanussot J. Hyperspectral image classification with rotation random forest via KPCA. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(4): 1601-1609 doi:  10.1109/JSTARS.2016.2636877
    [12] 阳同光, 桂卫华.基于KPCA与RVM感应电机故障诊断研究.电机与控制学报, 2016, 20(9): 89-95 http://d.old.wanfangdata.com.cn/Periodical/djykzxb201609013

    Yang Tong-Guang, Gui Wei-Hua. Research on fault diagnosis of induction motor based KPCA and RVM. Electric Machines and Control, 2016, 20(9): 89-95 http://d.old.wanfangdata.com.cn/Periodical/djykzxb201609013
    [13] Wu X, Nie L, Xu M. Robust fuzzy quality function deployment based on the mean-end-chain concept: service station evaluation problem for rail catering services. European Journal of Operational Research, 2017, 263(3): 974-995 doi:  10.1016/j.ejor.2017.05.036
    [14] Gao X K, Lee H M, Gao S P. A robust parameter design of wide band DGS filter for common-mode noise mitigation in high-speed electronics. IEEE Transactions on Electromagnetic Compatibility, 2017, 59(6): 1735-1740 doi:  10.1109/TEMC.2017.2710202
    [15] Choi S W, Park J H, Lee I B. Process monitoring using a Gaussian mixture model via principal component analysis and discriminant analysis. Computers & Chemical Engineering, 2004, 28(8): 1377-1387 http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=65dba41b16cab1ad18e6181b8673da19
    [16] Raveendran R, Huang B. Two layered mixture Bayesian probabilistic PCA for dynamic process monitoring. Journal of Process Control, 2017, 57: 148-163 doi:  10.1016/j.jprocont.2017.06.009
    [17] Huang S Y, Yen Y R, Eguchi S. Robust kernel principal component analysis. Neural Computation, 2009, 21(11): 3179-3213 doi:  10.1162/neco.2009.02-08-706
    [18] Huang H H, Yen Y R. An iterative algorithm for robust kernel principal component analysis. Neurocomputing, 2011, 74(18): 3921-3930 doi:  10.1016/j.neucom.2011.08.008
    [19] Heo G, Gader P, Frigui H. RKF-PCA: robust kernel fuzzy PCA. Neural Networks, 2009, 22(5-6): 642-650 doi:  10.1016/j.neunet.2009.06.013
    [20] 陶新民, 刘福荣, 刘玉, 童智靖.一种多尺度协同变异的粒子群优化算法.软件学报, 2012, 23(7): 1805-1815 http://d.old.wanfangdata.com.cn/Periodical/rjxb201207013

    Tao Xin-Min, Liu Fu-Rong, Liu Yu, Tong Zhi-Jing. Multi-scale cooperative mutation particle swarm optimization algorithm. Journal of Software, 2012, 23(7): 1805-1815 http://d.old.wanfangdata.com.cn/Periodical/rjxb201207013
    [21] 张航, 叶东毅.一种基于多正则化参数的矩阵分解推荐算法.计算机工程与应用, 2017, 53(3): 74-79 http://d.old.wanfangdata.com.cn/Periodical/jsjgcyyy201703014

    Zhang Hang, Ye Dong-Yi. Recommender algorithm based on matrix factorization with multiple regularization parameters. Computer Engineering and Application, 2017, 53(3): 74-79 http://d.old.wanfangdata.com.cn/Periodical/jsjgcyyy201703014
    [22] 陶新民, 徐晶, 杨立标, 刘玉.一种改进的粒子群和K均值混合聚类算法.电子与信息学报, 2010, 32(1): 92-97 http://d.old.wanfangdata.com.cn/Periodical/dzkxxk201001017

    Tao Xin-Min, Xu Jing, Yang Li-Biao, Liu Yu. Improved cluster algorithm based on K-means and particle swarm optimization. Journal of Electronics & Information Technology, 2010, 32(1): 92-97 http://d.old.wanfangdata.com.cn/Periodical/dzkxxk201001017
    [23] 程昊翔, 王坚.基于快速聚类分析的支持向量数据描述算法.控制与决策, 2016, 31(3): 551-554 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201603025

    Cheng Hao-Xiang, Wang Jian. Support vector data description based on fast clustering analysis. Control and Decision, 2016, 31(3): 551-554 http://d.old.wanfangdata.com.cn/Periodical/kzyjc201603025
    [24] 郑祺, 黄德才.基于引力相似度和相对密度的不确定数据流聚类.上海交通大学学报, 2016, 50(6): 873-878 http://d.old.wanfangdata.com.cn/Periodical/shjtdxxb201606010

    Zheng Qi, Huang De-Cai. Uncertain data stream clustering algorithm based on gravity similarity and relative density techniques. Journal of Shanghai Jiaotong University, 2016, 50(6): 873-878 http://d.old.wanfangdata.com.cn/Periodical/shjtdxxb201606010
    [25] Feature selection datasets[Online], availalde: http://featureselection.asu.edu/datasets.php, December 1, 2019
  • [1] 纪霞, 姚晟, 赵鹏. 相对邻域与剪枝策略优化的密度峰值聚类算法[J]. 自动化学报, 2020, 46(3): 562-575. doi: 10.16383/j.aas.c170612
    [2] 肖进胜, 朱力, 赵博强, 雷俊锋, 王莉. 基于主成分分析的分块视频噪声估计[J]. 自动化学报, 2018, 44(9): 1618-1625. doi: 10.16383/j.aas.2017.c160764
    [3] 尚林源, 田学民, 曹玉苹, 蔡连芳. 基于PLS交叉积矩阵非相似度分析的MPC性能监控与诊断[J]. 自动化学报, 2017, 43(2): 271-279. doi: 10.16383/j.aas.2017.c150782
    [4] 李春娜, 陈伟杰, 邵元海. 鲁棒的稀疏Lp-模主成分分析[J]. 自动化学报, 2017, 43(1): 142-151. doi: 10.16383/j.aas.2017.c150512
    [5] 孙文燕, 董恩清, 曹祝楼, 郑强. 一种基于模糊主动轮廓的鲁棒局部分割方法[J]. 自动化学报, 2017, 43(4): 611-621. doi: 10.16383/j.aas.2017.c160260
    [6] 李文涛, 高旻, 李华, 熊庆宇, 文俊浩, 凌斌. 一种基于流行度分类特征的托攻击检测算法[J]. 自动化学报, 2015, 41(9): 1563-1576. doi: 10.16383/j.aas.2015.c150040
    [7] 李娟, 王宇平. 基于样本密度和分类误差率的增量学习矢量量化算法研究[J]. 自动化学报, 2015, 41(6): 1187-1200. doi: 10.16383/j.aas.2015.c140311
    [8] 唐利明, 田学全, 黄大荣, 王晓峰. 结合FCMS与变分水平集的图像分割模型[J]. 自动化学报, 2014, 40(6): 1233-1248. doi: 10.3724/SP.J.1004.2014.01233
    [9] 霍东海, 杨丹, 张小洪, 洪明坚. 一种基于主成分分析的 Codebook 背景建模算法[J]. 自动化学报, 2012, 38(4): 591-600. doi: 10.3724/SP.J.1004.2012.00591
    [10] 李闻白, 刘明雍, 李虎雄, 陈学永. 基于单领航者相对位置测量的多AUV协同导航系统定位性能分析[J]. 自动化学报, 2011, 37(6): 724-736. doi: 10.3724/SP.J.1004.2011.00724
    [11] 吴枫, 仲妍, 吴泉源. 基于增量核主成分分析的数据流在线分类框架[J]. 自动化学报, 2010, 36(4): 534-542. doi: 10.3724/SP.J.1004.2010.00534
    [12] 刘开第, 庞彦军, 栗文国. 多指标决策中隶属度转换算法及其应用[J]. 自动化学报, 2009, 35(3): 315-319. doi: 10.3724/SP.J.1004.2009.00315
    [13] 郭武, 戴礼荣, 王仁华. 采用主成分分析的特征映射[J]. 自动化学报, 2008, 34(8): 876-879. doi: 10.3724/SP.J.1004.2008.00876
    [14] 宋枫溪, 张大鹏, 杨静宇, 高秀梅. 基于最大散度差鉴别准则的自适应分类算法[J]. 自动化学报, 2006, 32(4): 541-549.
    [15] 谢衍涛, 桑农, 张天序. 基于自适应隶属度函数的特征选择[J]. 自动化学报, 2006, 32(4): 496-503.
    [16] 王立威, 王潇, 常明, 封举富. 关于二维主成分分析方法的研究[J]. 自动化学报, 2005, 31(5): 782-787.
    [17] 杨竹青, 李勇, 胡德文. 独立成分分析方法综述[J]. 自动化学报, 2002, 28(5): 762-772.
    [18] 张恩勤, 施颂椒, 翁正新. 采用三角型隶属度函数的模糊系统的插值特性[J]. 自动化学报, 2001, 27(6): 784-790.
    [19] 王松, 夏绍玮. 基于误差模型的自适应鲁棒主成分分析[J]. 自动化学报, 1999, 25(4): 528-531.
  • 加载中
图(11) / 表(1)
计量
  • 文章访问数:  340
  • HTML全文浏览量:  135
  • PDF下载量:  46
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-10-19
  • 录用日期:  2018-01-29
  • 刊出日期:  2020-02-20

密度敏感鲁棒模糊核主成分分析算法

doi: 10.16383/j.aas.2018.c170590
    基金项目:

    中央高校基本科研业务费专项资金 2572017EB02

    中央高校基本科研业务费专项资金 2572017CB07

    东北林业大学双一流科研启动基金 411112438

    哈尔滨市科技局创新人才基金 2017RAXXJ018

    国家自然基金 31570547

    作者简介:

    常瑞  东北林业大学工程技术学院硕士研究生.主要研究方向为模式识别与信号处理. E-mail: m15765549429@163.com

    沈微  东北林业大学工程技术学院讲师.主要研究方向为数据分析, 物流系统规划与管理咨询, 系统建模与优化. E-mail: Shenwei@nefu.edu.cn

    李晨曦  东北林业大学工程技术学院硕士研究生.主要研究方向为不均衡数据分类和故障诊断. E-mail: chenxili@nefu.edu.cn

    王若彤  东北林业大学工程技术学院硕士研究生.主要研究方向为人工智能和聚类分析. E-mail: celia wangrt@163.com

    刘艳超  东北林业大学工程技术学院硕士研究生.主要研究方向为物联网技术应用, 模式识别与信号处理. E-mail: liuyanchao@nefu.edu.cn

    通讯作者: 陶新民  东北林业大学工程技术学院教授. 2005年获哈尔滨工业大学博士学位.主要研究方向为智能信号处理, 软计算方法, 模式识别.本文通信作者. E-mail: taoxinmin@nefu.edu.cn
  • 本文责任编委 胡清华

摘要: 针对传统核主成分分析算法(Kernel principal component analysis, KPCA)对野性样本点敏感等缺陷, 提出一种密度敏感鲁棒模糊核主成分分析算法(Density-Sensitive robust fuzzy kernel principal component analysis, DRF-KPCA).该算法首先通过引入相对密度确定样本初始隶属度, 并构建出基于重构误差的隶属度确定方法, 同时采用最优梯度下降法实现隶属度的更新, 有效解决了传统核主成分分析算法对野性样本点敏感导致的主成分偏移等问题.最后, 通过简化重构误差的计算公式, 大大降低了算法的计算复杂度和运行时间.实验部分, 利用有野性样本点和无野性样本点的数据集对本文算法、KPCA及其他改进算法的主成分分析性能进行测试, 结果表明DRF-KPCA能有效消除野性样本点对主元分布的影响.此外, 试验通过分析参数对算法性能的影响给出了合理的参数取值建议.最后将本文算法与其他算法应用到分类问题中进行对比, 实验表明本文算法的分类性能较其他算法有显著提高.

本文责任编委 胡清华

English Abstract

陶新民, 常瑞, 沈微, 李晨曦, 王若彤, 刘艳超. 密度敏感鲁棒模糊核主成分分析算法. 自动化学报, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590
引用本文: 陶新民, 常瑞, 沈微, 李晨曦, 王若彤, 刘艳超. 密度敏感鲁棒模糊核主成分分析算法. 自动化学报, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590
TAO Xin-Min, CHANG Rui, SHEN Wei, LI Chen-Xi, WANG Ruo-Tong, LIU Yan-Chao. Density-sensitive Robust Fuzzy Kernel Principal Component Analysis Algorithm. ACTA AUTOMATICA SINICA, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590
Citation: TAO Xin-Min, CHANG Rui, SHEN Wei, LI Chen-Xi, WANG Ruo-Tong, LIU Yan-Chao. Density-sensitive Robust Fuzzy Kernel Principal Component Analysis Algorithm. ACTA AUTOMATICA SINICA, 2020, 46(2): 358-372. doi: 10.16383/j.aas.2018.c170590
  • 主成分分析(Principle component analysis, PCA)作为一种基于统计学的降维和特征提取方法, 在图像分割、数据检测、人脸识别等领域取得了良好效果[1-3].该算法通过线性变换将高维空间数据投影至低维主元空间, 保留了原始数据的主要方差信息且彼此不相关, 同时具有比原始数据更加优越的性质[4].但是, PCA在处理非线性数据时存在一定的局限性.为了解决上述问题, Scholkopf提出了基于核的核主成分分析(Kernel principle component analysis, KPCA)[5]非线性算法.该算法是一种新的非线性数据降维方法, 它通过核函数将原有数据的非线性相关转为线性相关, 然后在映射后的核空间中进行主成分分析处理. KPCA算法有效解决了原始数据间的非线性相关问题[6-8], 在模式识别、故障分类、信号处理等领域得到了广泛应用[9-12].但是KPCA算法在处理分类问题过程中, 要求得到特征空间最大的方差, 没有充分考虑分类信息的最大化, 当存在野性样本点时, KPCA算法由于对数据的分布敏感性强, 导致分类结果并不理想[13-14].为了降低敏感性的影响增强算法的鲁棒性, 学者们提出了一些改进的算法[15-19].文献[15]中, Choi等通过混合高斯模型将数据分成几个簇并利用PCA算法对簇内数据建模, 有效解决处理非高斯分布数据时对野性样本点敏感的问题[16].文献[17]中, Huang等通过给野性样本点赋予较小的权值来消除其对KPCA的影响.文献[18]中, Huang等通过迭代方式对KPCA算法改进, 有效降低了算法计算复杂度.然而, 上述改进算法虽然在弱化野性样本点影响方面有较好的提升效果, 但在重构误差计算方面仍然存在缺陷.为解决此问题, Heo等[19]提出了一种鲁棒核模糊主成分分析(Robust fuzzy kernel principal component analysis, RFK-PCA)算法, 该方法主要通过引入模糊隶属度参数和迭代思想来弱化重构误差较大的野性样本点, 有效降低了野性样本点对算法性能的影响增强了算法鲁棒性.但算法仍存在对初始值敏感, 计算复杂及隶属度更新不是最优梯度方向等问题[20-22].

    鉴于此, 本文提出一种密度敏感鲁棒模糊核主成分分析算法.算法通过引入相对密度[23-24]确定样本初始隶属度并给出简化的基于最优梯度重构误差计算方法, 解决了RFK-PCA算法对初始值敏感易陷入局部极值解且模糊隶属度更新方向非最优梯度方向而导致分类性能提高不明显的问题, 同时也大大降低了算法运行时间和计算复杂度.为进一步提高算法的泛化能力和鲁棒性, 本文对算法中涉及到的参数进行了分析并给出相应的取值建议.实验最后, 通过将本文提出的算法同其他算法应用到分类问题进行性能比较, 结果表明本文提出算法的分类性能均优于其他算法.

    • 传统的PCA算法主要是以协方差矩阵为基础, 通过计算其特征值和特征向量得到主元分布.但是由于协方差矩阵是一个不稳健的估计量, 对野性样本点非常敏感, 因此当样本数据中存在野性样本点时, 由于野性样本点远离数据中心, 方差较大, 从而导致协方差矩阵发生变化, 随之影响主元的分布.为了测试传统PCA算法对野性样本点的敏感性, 本文做了如下对比实验.实验中首先随机选取均值为[0, 0], 方差为[10, 12]的250个服从正态分布的原始样本点, 第一主元分布结果如图 1 (a)所示.随后加入10个服从均值为$ [-40, 40] $, 方差为[2, 2]正态分布的野性样本点与10个服从均值为$ [40, -40] $, 方差为[2, 2]正态分布的野性样本点, 第一主元分布结果如图 1 (b)所示.通过图 1对比结果可知, PCA算法由于受野性样本点影响使正常样本点的主元成分偏向野性样本点的方向, 产生不合理的结果.

      图  1  传统PCA算法对有无野性样本点数据集的主成分分布图

      Figure 1.  The first principal component distribution using PCA algorithm on both the original data and the data with outliers

    • 为了解决传统PCA存在的上述缺陷, Heo等提出了一种鲁棒模糊PCA算法(Robust fuzzy principal component analysis, RFPCA)[19]. RFPCA算法通过给野性样本点赋予较小的隶属度来减弱其对主元分布的影响, 从而提高算法的稳定性.该算法的计算过程简单描述如下.

      定义1.计算模糊数据矩阵, 设集合$ \mathit{\boldsymbol{X}} = \{ \mathit{\boldsymbol{x}}_{1} $, $ \mathit{\boldsymbol{x}}_{2}, \cdots, \mathit{\boldsymbol{x}}_{\mathit{\boldsymbol{m}}} \} $, 其中$ \mathit{\boldsymbol{x}}_{{{i}}}\in {\bf{R}}^{n} $, 隶属度$ N = \{ \mu_{1}, \mu _{2} $, $ \cdots, \mu_{m} \} $, $ 0<\mu_{k}<1, k = 1, \cdots, m, $则模糊数据矩阵为:

      $$ \begin{align} &\begin{pmatrix} x_{11} &x_{21}& \cdots & x_{m1} \\ x_{12} &x_{22} &\cdots &x_{m2} \\ \cdots & \cdots &\ddots& \cdots \\ x_{1n}& x_{2n} &\cdots & x_{mn} \\ \end{pmatrix} \begin{pmatrix} \mu_{1} &0 &\cdots & 0 \\ 0& \mu_{2} &\cdots &0 \\ \cdots &\cdots& \ddots& \cdots \\ 0& 0& \cdots &\mu_{m} \\ \end{pmatrix} = \\ &\qquad \begin{pmatrix} {\mu_{1}x}_{11} &{\mu_{2}x}_{21}& \cdots & {\mu_{m}x}_{m1} \\ {\mu_{1}x}_{12} &{\mu_{2}x}_{22} &\cdots & \mu_{m}x_{m2} \\ \cdots & \cdots &\ddots& \cdots \\ \mu_{1}x_{1n} &{\mu_{2}x}_{2n} &\cdots & {\mu_{m}x}_{mn} \\ \end{pmatrix} \end{align} $$ (1)

      定义2.计算模糊均值, 设集合$ \mathit{\boldsymbol{X}} = \{ \mathit{\boldsymbol{x}}_{1}, \mathit{\boldsymbol{x}}_{2} $, $ \cdots, \mathit{\boldsymbol{x}}_{{m}} \} $, 隶属度$ N = \{ \mu_{1}, \mu_{2} $, $ \cdots, \mu_{m} \} $, 相应的模糊集合$ FS = \{ \mathit{\boldsymbol{X}}, N \} = \{ \mathit{\boldsymbol{x}}_{1}\mu _{1}, \mathit{\boldsymbol{x}}_{2}\mu_{2}, \cdots, {\mathit{\boldsymbol{x}}_{{m}}\mu }_{m} \} $, 则模糊均值为:

      $$ \begin{equation} \widetilde{\mathit{\boldsymbol{x}}} = \frac{\sum\limits_{k = 1}^m {\mu _{k}\mathit{\boldsymbol{x}}_{{k}}} }{\sum\limits_{k = 1}^m \mu_{k} } \end{equation} $$ (2)

      定义3.计算模糊协方差矩阵, 设集合$ \mathit{\boldsymbol{X}} = \{ \mathit{\boldsymbol{x}}_{1}, \mathit{\boldsymbol{x}}_{2}, \cdots, \mathit{\boldsymbol{x}}_{\mathit{\boldsymbol{m}}} \} $, 隶属度$ N = \{ \mu_{1}, \mu _{2}, \cdots, \mu_{m} \} $, 模糊均值$ \widetilde{\mathit{\boldsymbol{x}}} $, 则模糊协方差矩阵为:

      $$ \begin{equation} {\mathit{\boldsymbol{C}}} = \frac{\sum\limits_{k = 1}^m {\mu_{k} (\mathit{\boldsymbol{x}}_{{{k}}} - \widetilde{\mathit{\boldsymbol{x}}}) {(\mathit{\boldsymbol{x}}_{{{k}}} - \widetilde{\mathit{\boldsymbol{x}}})}^{\mathrm{T}}}}{\sum\limits_{k = 1}^m \mu_{k} } \end{equation} $$ (3)

      在文献[19]提出的鲁棒模糊主成分分析算法中, 隶属度目标函数定义为:

      $$ \begin{equation} J = \sum\limits_{k = 1}^m \mu_{k}e\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) + \sigma^{2}\sum\limits_{k = 1}^m {(\mu }_{k}\log\mu_{k}- \mu_{k}) \end{equation} $$ (4)

      重构误差的计算表达式为:

      $$ \begin{equation} e\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) = \left\| \mathit{\boldsymbol{x}}_{{{k}}}-{\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}\mathit{\boldsymbol{x}}_{{{k}}} \right\|^{2} \end{equation} $$ (5)

      $ {\mathit{\boldsymbol{V}}} $是由前$ q (q<n\ll m) $个最大特征值对应的特征向量构成. $ \sigma ^{2} $为正则化系数.

      对式(4)求偏导, 得到隶属度$ \mu_{k} $的表达式:

      $$ \begin{align} \frac{\partial J}{\partial \mu_{k}}& = e\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) +\sigma^{2} \log \mu_{k} = 0 \end{align} $$ (6)
      $$ \begin{align} \mu_{k}& = \exp \left( -\frac{e\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)}{\sigma^{2}} \right) \end{align} $$ (7)

      为了能处理不同数据集之间的非线性相关问题, 文献[19]在鲁棒模糊PCA的基础上进一步提出了鲁棒核模糊PCA算法(Robust fuzzy kernel principal component analysis, RFK-PCA).该算法的相关数学定义如下所述, 其中$ \Phi $为映射函数, 核函数为: $ K\left( \mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}} \right) = {{\Phi }^{\mathrm{T}}\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} {\Phi }(\mathit{\boldsymbol{x}}_{{{j}}}) $.具体推导过程详见文献[19].

      $$ \begin{align} {\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right) = \frac{\sum\limits_{k = 1}^m {\mu_{k}{\Phi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right)} }{\sum\limits_{k = 1}^m \mu_{k} } \end{align} $$ (8)
      $$ \begin{align} &{{\mathit{\boldsymbol{C}}}}_{{\Phi}} = \frac{1}{m}\sum\limits_{k = 1}^m \mu_{k}^{2}(\Phi \left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \!-\! {\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right)){{(\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)\!-\!{\Phi }( \widetilde{\mathit{\boldsymbol{x}}} )\!)}^{\mathrm{T}} \end{align} $$ (9)
      $$ \begin{align} &J = \sum\limits_{k = 1}^m \mu_{k}e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right)+ \sigma^{2}\sum\limits_{k = 1}^m {(\mu }_{k}\log\mu_{k}- \mu_{k}) \end{align} $$ (10)
      $$ \begin{align} & e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = \\ &\left\| \left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)-{\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right) \right)-{\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}\left( {\Phi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right)-{\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right) \right) \right\|^{2} = \\ &K\left( \mathit{\boldsymbol{x}}_{{{k}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)-\frac{2}{\rho }\sum\limits_{i = 1}^m {\mu_{i}K\left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)} +\\ & \frac{\sum\limits_{i, j = 1}^{{m}} {{\mu_{i}\mu }_{j}K \left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}} \right)} }{\rho^{2}}- 2\sum\limits_{i = 1}^k {{(\beta }^{i})}^{2} -2 \beta^{i} \gamma ^{i} +\left( \gamma^{{i}^{2}} \right) +\\ & \sum\limits_{s = 1}^q \sum\limits_{t = 1}^q \sum\limits_{i = 1}^m \sum\limits_{j = 1}^m {(\beta }^{s}\beta^{t} \!-\! 2\beta^{s}\gamma^{t}\!+\!\gamma^{s}\gamma^{t})\xi_{i}^{s}\xi _{j}^{t})K\left( \mathit{\boldsymbol{x}}_{i}, \mathit{\boldsymbol{x}}_{j} \right) \end{align} $$ (11)

      其中,

      $$ \begin{align} \rho & = \sum\limits_{i = 1}^m \mu_{i} \\ \beta^{j}& = \sum\limits_{i = 1}^m a_{i}^{j} \mu_{i}K\left( \mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)\\ \gamma^{s}& = \frac{1}{\rho }\sum\limits_{i = 1}^m \sum\limits_{j = 1}^m {a_{i}^{s}\mu_{i}\mu_{j}} K(\mathit{\boldsymbol{x}}_{i}, \mathit{\boldsymbol{x}}_{j})\\ \xi_{i}^{s}& = a_{i}^{s}\mu_{i} \end{align} $$ (12)
      $$ \begin{align} \mu_{k}& = \exp \left(-\frac{{e(\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right))}{\sigma^{2}} \right) \end{align} $$ (13)
    • 虽然文献[19]中提出的鲁棒核模糊PCA算法主成分提取精度优于传统KPCA算法, 但是该算法极易陷入局部极小解, 且因模糊隶属度的更新方向也非最优梯度方向, 使得算法分类性能的提升并不明显.此外, 由于该算法重构误差的计算公式较为复杂, 从而导致算法运行时间过长.针对以上问题, 本文在文献[19]的基础上提出了一种改进的密度敏感鲁棒模糊核主成分分析算法.

    • 由于文献[19]提出的鲁棒核模糊PCA算法本身属于局部最优迭代算法且初始隶属度设置为1, 从而导致算法易陷入局部极值解, 稳定性差.因此为解决算法对初始值敏感的问题, 本文通过相对密度来确定样本初始化隶属度.相对密度的计算方法如下.

      设$ \mathit{\boldsymbol{X}} = \left[\mathit{\boldsymbol{x}}_{1}, \mathit{\boldsymbol{x}}_{2}, \cdots, \mathit{\boldsymbol{x}}_{m} \right] $为给定的目标训练样本集, 其中$ m $代表训练样本的个数.对于其中的任意一个训练样本$ \mathit{\boldsymbol{x}}_{i} $, 其相对密度$ d_{i} $的定义如下.

      $$ \begin{equation} d_{i} = \exp \left( \omega \times \frac{\mathrm{Par}( \mathit{\boldsymbol{x}}_{i} )}{\varsigma } \right), \; \forall\: i = 1, 2, \cdots, m \end{equation} $$ (14)

      其中, $ \mathrm{Par}( \mathit{\boldsymbol{x}}_{i} ) = \frac{1}{m}\sum\nolimits_{j = 1}^m ( \frac{1}{\sqrt{\left( 2\pi \right)^{n}s}} ) \exp ( -\frac{1}{2s}\| \mathit{\boldsymbol{x}}_{i}-\mathit{\boldsymbol{x}}_{j} \|^{2}), \varsigma = \frac{1}{m}\sum\nolimits_{i = 1}^m {\mathrm{Par}\left( \mathit{\boldsymbol{x}}_{i} \right)} $, $ n $为输入数据的维度, $ \omega $为权重, $ s $是Parzen-window的平滑参数.若训练样本点$ \mathit{\boldsymbol{x}}_{i} $获取的相对密度值$ d_{i} $越大, 则表明$ \mathit{\boldsymbol{x}}_{i} $所处的区域越紧致.

    • RFK-PCA算法进行重构误差更新时, 所选取的更新方向非最优梯度方向从而导致性能提升不明显, 同时由于重构误差的计算公式十分复杂使得算法运行速度很慢, 为此, 本文通过构建简化的基于最优梯度下降方向的重构误差更新方法解决上述问题.具体算法如下.

      已知数据集$ \mathit{\boldsymbol{x}}_{1}, \mathit{\boldsymbol{x}}_{2}, \cdots, \mathit{\boldsymbol{x}}_{{{m}}} $, 其中, $ \mathit{\boldsymbol{x}}_{{{i}}} \in {\bf{R}}^{n}, i = 1, 2, \cdots, m $. Mercer核函数$ K\!:{\bf{R}}^{n}\times {\bf{R}}^{n}\to {\bf{R}} $, 根据Mercer定理, 存在映射$ \Phi\!: {\bf{R}}^{n}\to {\bf{R}}^{F} $, 使得$ K( \mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}} ) = {{\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)}^{\mathrm{T}}\Phi (\mathit{\boldsymbol{x}}_{{{j}}}) $.经$ {\Phi } $映射后的数据集为: $ {\Phi }( \mathit{\boldsymbol{x}}_{1} ), {\Phi }( \mathit{\boldsymbol{x}}_{2} ), \cdots, {\Phi }( \mathit{\boldsymbol{x}}_{{{m}}} ) $.

      在特征空间中, 对每一个样本赋予一个隶属度:

      $$ \begin{align} &\left\{ {\Phi }\left( \mathit{\boldsymbol{x}}_{1} \right), {\Phi}\left( \mathit{\boldsymbol{x}}_{2} \right), \cdots, {\Phi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right) \right\}\to \\ &\qquad \{\mu_{1}{\Phi }\left( \mathit{\boldsymbol{x}}_{1} \right), \mu _{2}{\Phi }\left( \mathit{\boldsymbol{x}}_{2} \right), \cdots, \mu _{m}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\} \end{align} $$ (15)

      协方差矩阵可以表示为:

      $$ \begin{align} {\mathit{\boldsymbol{C}}}& = \frac{1}{\sum\limits_{i = 1}^m \mu_{i}^{p}} \sum\limits_{{i = 1}}^{m} \mu_{i}^{p}\left(\Phi \left(\mathit{\boldsymbol{x}}_{{{i}}} \right)-\frac{1} {\sum\limits_{i = 1}^m \mu_{i}^{p} }\sum\limits_{i = 1}^m \mu_{i}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right) \right)\cdot\\ &\quad\; \left({\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)-\frac{1}{\sum\limits_{i = 1}^m \mu_{i}^{p} }\sum\limits_{i = 1}^m {\mu_{i}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} \right)^{\mathrm{T}} \end{align} $$ (16)

      其中, $ p $为模糊度系数.为了便于讨论, 令

      $$ \begin{equation} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right) = {\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)-\frac{1}{\sum\limits_{i = 1}^m \mu_{i}^{p} }\sum\limits_{i = 1}^m {\mu_{i}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right) } \end{equation} $$ (17)

      $ {\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right) $为映射后的$ {\bf{R}}^{F} $空间中去均值化后的样本.令$ \rho = \sum\limits_{i = 1}^m \mu_{i}^{p} $, 则协方差矩阵可表示为:

      $$ \begin{equation} {\mathit{\boldsymbol{C}}} = \frac{1}{\rho }\sum\limits_{i = 1}^m {{(\mu }_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)){{(\mu }_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right))}^{\mathrm{T}}} \end{equation} $$ (18)

      由于映射$ {\Phi } $是隐性的, $ \mathit{\boldsymbol{C}} $很难求解, 所以, 这里从另一个角度讨论$ \mathit{\boldsymbol{C}} $的特征向量, 设$ \mathit{\boldsymbol{v}} $是$ {\mathit{\boldsymbol{C}}} $的特征向量, $ {\lambda } $是对应$ \mathit{\boldsymbol{v}} $的特征值.即:

      $$ \begin{gather} \mathit{\boldsymbol{Cv}} = \lambda \mathit{\boldsymbol{v}} \end{gather} $$ (19)
      $$ \begin{gather} \mathit{\boldsymbol{v}} = \sum\limits_{i = 1}^m a_{i} \mu_{i}^{\frac{p}{2}} {\Psi }\left(\mathit{\boldsymbol{x}}_{{{i}}} \right) \end{gather} $$ (20)

      可以推出(推导过程详见附录):

      $$ \begin{equation} \rho \lambda \bar{\bm\alpha } = \bar{\bm K}\bar{\bm\alpha } \end{equation} $$ (21)

      其中, $ \bar{\bm K} $的表达式为:

      $$ \begin{align} \bar{\bm K} = \begin{bmatrix} \left(\mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right)\right)^ {\mathrm{T}} \mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right) & \left(\mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right)\right)^{\mathrm{T}} \mu _{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right) &\cdots & \left(\mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right)\right)^ {\mathrm{T}} \mu _{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\\ \left(\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right)\right)^{\mathrm{T}} \mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1}\right) & \left(\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right)\right)^{\mathrm{T}} \mu _{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right) & \cdots & \left(\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right)\right)^{\mathrm{T}} \mu _{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\\ \vdots &\vdots&\ddots&\vdots \\ \left(\mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\right)^{\mathrm{T}} \mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right) & \left(\mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\right)^{\mathrm{T}}\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right) & \cdots & \left(\mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\right)^{\mathrm{T}}\mu _{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right) \end{bmatrix} \end{align} $$ (22)
      $$ \begin{align} \bar{\bm K}_{i, j} = \left(\mu_{i}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)^{\mathrm{T}} \mu _{j}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) = \mu_{i}^{\frac{p}{2}}\mu_{j}^{\frac{p}{2}}\left({\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)^{\mathrm{T}} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) \end{align} $$ (23)

      令$ \widetilde{\mathit{\boldsymbol{K}}}_{ij} = ({{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}}\right))}^{\mathrm{T}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) $, 则可推出:

      $$ \begin{align} &\widetilde{\mathit{\boldsymbol{K}}}_{ij} = ({{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right))}^{\mathrm{T}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) = \\ &\left[ {\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)-\frac{1}{\sum\limits_{k = 1}^m \mu_{k}^{p} }\sum\limits_{k = 1}^m {\mu_{k}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)} \right]^{\mathrm{T}}\cdot\\ & \left[{\Phi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right)-\frac{1}{\sum\limits_{k = 1}^m \mu_{k}^{p} }\sum\limits_{k = 1}^m {\mu_{k}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)} \right] = \\ &K\left( \mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}} \right)-\frac{\sum\limits_{k = 1}^m {\mu_{k}^{p}K\left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)} }{\rho} -\\ &\frac{\sum\limits_{k = 1}^m {\mu_{k}^{p}K\left(\mathit{\boldsymbol{x}}_{{{k}}}, \mathit{\boldsymbol{x}}_{{{j}}} \right)} }{\rho }+ \frac{\sum\limits_{k = 1}^m {\sum\limits_{l = 1}^m \mu_{l}^{p} \mu_{k}^{p}K(\mathit{\boldsymbol{x}}_{{l}}, \mathit{\boldsymbol{x}}_{{{k}}})} }{\rho^{2}} \end{align} $$ (24)
      $$ \begin{align} \widetilde{\mathit{\boldsymbol{K}}}_{ij} = &\mathit{\boldsymbol{K}}_{{ij}} - \frac{1}{\rho} \sum\limits_{k = 1}^m \mu_{k}^{p} \mathit{\boldsymbol{K}}_{{ik}} - \frac{1}{\rho} \sum\limits_{k = 1}^m \mu_{k}^{p}\mathit{\boldsymbol{K}}_{{kj}}+\\ & \frac{1}{\rho^{2}} \sum\limits_{l, k = 1}^m \mu_{l}^{p} \mu_{k}^{p}K(\mathit{\boldsymbol{x}}_{{l}}, \mathit{\boldsymbol{x}}_{{{k}}}) \end{align} $$ (25)

      至此, 求出$ \bar{\mathit{\boldsymbol{K}}} $后根据式(21)即可求出特征向量.为了使协方差矩阵的特征向量$ \left\| \mathit{\boldsymbol{v}} \right\| = 1 $, 对其进行归一化处理:

      $$ \begin{align} \left\langle \mathit{\boldsymbol{v}}, \mathit{\boldsymbol{v}} \right\rangle = &\left( \sum\limits_{i = 1}^m a_{i} \mu_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right) \right)^{\mathrm{T}}\sum\limits_{j = 1}^m a_{j} \mu_{j}^{\frac{p}{2}}\mathrm{\Psi}\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) = \\ &\sum\limits_{i, j = 1}^m {a_{i}{\mu _{i}^{\frac{p}{2}}\mu_{j}^{\frac{p}{2}}a}_{j}} \langle{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right){\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\rangle = \\ &\sum\limits_{i, j = 1}^m {a_{i}a_{j}} \bar{K}\left( \mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}} \right) = \bar{\bm \alpha}^{\mathrm{T}}\bar{\mathit{\boldsymbol{K}}}\bar{\bm \alpha } = \\ &\bar{\bm \alpha}^{\mathrm{T}}\bar{ \lambda }\bar{\bm \alpha } = \bar{ \lambda }\left( \bar{\bm \alpha }, \bar{\bm \alpha } \right) = 1 \end{align} $$ (26)

      其中, $ \bar{\lambda } = \rho \lambda $是$ \bar{\mathit{\boldsymbol{K}}} $的特征值, 且需满足$ \bar{\lambda }_{1}\geq \bar{\lambda}_{2}\cdots \geq \bar{\lambda }_{n}\geq 0, n\ll m $证明过程详见附录.只要将取得的$ \bar{\bm \alpha } $除以对应的特征值$ \sqrt{\bar{\lambda }} $, 则得到的$ \mathit{\boldsymbol{v}} $就是归一化特征向量, 归一化的结果为$ {\bm a} $:

      $$ \begin{equation} {\bm a} = \frac{\bar{\bm a}}{\sqrt{\bar{\lambda }}} \end{equation} $$ (27)

      原有训练样本$ \mathit{\boldsymbol{x}}_{{{j}}} $在$ \mathit{\boldsymbol{v}} $上的投影坐标为:

      $$ \begin{align} \left( \mathit{\boldsymbol{v}}, {\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) \right) = &\sum\limits_{i = 1}^m a_{i} \mu_{i}^{\frac{p}{2}}\left( {\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right), {\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) \right) = \\ &\sum\limits_{i = 1}^m {a_{i}\mu_{i}^{\frac{p}{2}}\widetilde{\mathit{\boldsymbol{K}}}_{ij}} \end{align} $$ (28)

      新数据$ \mathit{\boldsymbol{t}}_{{{j}}} $在$ \mathit{\boldsymbol{v}} $上的投影坐标为:

      $$ \begin{align} \left( \mathit{\boldsymbol{v}}, {\Psi }\left( \mathit{\boldsymbol{t}}_{{{j}}} \right) \right) = &\sum\limits_{i = 1}^m a_{i} \mu_{i}^{\frac{p}{2}}\left( {\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right), {\Psi }\left( \mathit{\boldsymbol{t}}_{{{j}}} \right) \right) = \\ &\sum\limits_{i = 1}^m {a_{i}\mu_{i}^{\frac{p}{2}}\widetilde{\mathit{\boldsymbol{K}}}^{\mathit{\boldsymbol{test}}}_{ij}} \end{align} $$ (29)

      其中,

      $$ \begin{align} &\widetilde{\mathit{\boldsymbol{K}}}^{\mathit{\boldsymbol{test}}}_{{ij}} = {{\Psi }^{\mathrm{T}}\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Psi }\left( \mathit{\boldsymbol{t}}_{{{j}}} \right) = \\ &\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)-\frac{1}{\sum\limits_{k = 1}^m \mu_{k}^{p} }\sum\limits_{k = 1}^m {\mu_{k}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)} \right)^{\mathrm{T}} \cdot\\ & \left( {\Phi }\left( \mathit{\boldsymbol{t}}_{{{j}}} \right)-\frac{1}{\sum\limits_{k = 1}^m \mu_{k}^{p} }\sum\limits_{k = 1}^m {\mu_{k}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)} \right) = \\ &{{\Phi }^{\mathrm{T}}\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Phi }\left( \mathit{\boldsymbol{t}}_{{{j}}} \right)-\frac{1}{\rho }\sum\limits_{k = 1}^m {\mu_{k}^{p}K\left( \mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)}- \\ & \frac{\sum\limits_{k = 1}^m {\mu_{k}^{p}K\left( \mathit{\boldsymbol{x}}_{{{k}}}, \mathit{\boldsymbol{t}}_{{{j}}} \right)} }{\rho}+\frac{\sum\limits_{k = 1}^m {{\sum\limits_{l = 1}^m \mu_{l}^{p} }\mu _{k}^{p}K(\mathit{\boldsymbol{x}}_{{l}}, \mathit{\boldsymbol{x}}_{{{k}}})} }{\rho ^{2}} \end{align} $$ (30)

      本文算法中隶属度优化目标函数定义为:

      $$ \begin{align} \min J& = \sum\limits_{k = 1}^m {\mu_{k}e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right)+\sigma^{2}\sum\limits_{k = 1}^m {{(\mu }_{k}\log \mu_{k}-} } \mu_{k}) \end{align} $$ (31)

      对隶属度的目标函数求偏导:

      $$ \begin{equation} \frac{\partial J}{\partial \mu_{k}} = e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right)+\sigma^{2}\log \mu_{k} = 0 \end{equation} $$ (32)

      则有:

      $$ \begin{equation} \mu_{k} = \exp \left( -\frac{e\left( {\Phi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right) \right)}{\sigma^{2}} \right) \end{equation} $$ (33)

      重构误差的计算公式为:

      $$ \begin{align} & e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = \\ &\qquad \left\| \left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}}\right)-{\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right) \right)- {\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}} ({\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)-{\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right)) \right\|^{2} \end{align} $$ (34)

      其中, $ {\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right) = {\left(\sum\nolimits_{i = 1}^m \mu_{i}^{p}\right)^{-1}}\sum\nolimits_{i = 1}^m {\mu_{i}^{p}{\Phi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} $, $ {\mathit{\boldsymbol{V}}} $是由前$ q (q<n\ll m) $个最大特征值对应的特征向量构成. $ {\mathit{\boldsymbol{V}}} = \left( \mathit{\boldsymbol{v}}^{1}, \mathit{\boldsymbol{v}}^{2}, \cdots, \mathit{\boldsymbol{v}}^{{q}}\right), \mathit{\boldsymbol{v}}^{{{j}}} = \sum\nolimits_{i = 1}^m a_{i}^{j} \mu _{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right), j = 1, 2, \cdots, q $.推导过程详见附录.其中$ \sigma ^{2} $为正则化控制参数. $ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) $越小, 则表示估计值与真实值越接近, 隶属度就越大, 否则, $ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) $越大, 越偏离真实值, 可能是离散点, 隶属度就越小.

      设$ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) $为特征空间中的重构误差, 通过转换核函数的方式计算得到:

      $$ \begin{align} & e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = K\left(\mathit{\boldsymbol{x}}_{{{k}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)- \frac{2}{\rho} \sum\limits_{i = 1}^{{m}} \mu_{i}^{p}K\left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{k}}}\right)+\\ &\quad \frac{\sum\limits_{i, j = 1}^{{m}} {{\mu_{i}^{p}\mu }_{j}^{p}K\left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}} \right)} }{\rho^{2}} - 2(\left( \beta^{1} \right)^{2}+\cdots +\left( \beta^{q} \right)^{2})+\\ &\quad \sum\limits_{s = 1}^q \sum\limits_{t = 1}^q \sum\limits_{i = 1}^m \sum\limits_{j = 1}^m a_{i}^{s} {{a_{j}^{t}\beta }^{s}\beta^{t}\mu}_{i}^{\frac{p}{2}}\mu_{j}^{\frac{p}{2}}{{\Psi ^{\mathrm{T}}}\left(\mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{j}}} \right) \end{align} $$ (35)

      其中,

      $$ \begin{align} \beta^{j} = &\sum\limits_{i = 1}^m a_{i}^{j} \mu _{i}^{\frac{p}{2}}{{\Psi }^{\mathrm{T}} \left(\mathit{\boldsymbol{x}}_{{{i}}} \right)} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) = \\ &\sum\limits_{i = 1}^m a_{i}^{j} \mu_{i}^{\frac{p}{2}}\widetilde{\bm K}_{ik}, j = 1, 2, \cdots, q \end{align} $$ (36)

      详细推导过程见附录.

    • 本文提出的密度敏感鲁棒模糊核主成分分析算法的具体流程如下:

      1) 设置算法参数:核函数$ K $及参数, 模糊度系数$ p $, 保留维度$ q $, 正则化控制参数$ \sigma ^{2} $, 停止条件最大迭代次数$ t_{\max} $, 隶属度阈值$ \varepsilon $等;

      2) 通过Parzen-window算法求出相对密度$ d_{i} $, 并赋值给初始化隶属度$ U_{0} = [d_{1}, d_{2}, \cdots, d_{m}] $, 当$ t = 0 $, 利用上述推导公式计算出的$ \mathit{\boldsymbol{K}}, \widetilde{\mathit{\boldsymbol{K}}} $得到特征值和特征向量$ \mathit{\boldsymbol{v}}^{1}_{t}, \mathit{\boldsymbol{v}}^{2}_{{t}}, \cdots, \mathit{\boldsymbol{v}}^{{q}}_{{t}} $;

      3) 令$ t = t+1 $, 根据上述得到的结果计算重构误差并计算新的隶属度$ U_{t} = [u_{1}^{t}, u_{2}^{t}, \cdots, u_{m}^{t}] $;

      4) 如果$ \left| u_{i}^{t-1}-u_{i}^{t} \right|<\varepsilon {\rm{\; 或\; }}t>t_{\max} $, 则停止, 否则转向步骤3.

    • 由上述分析可知, 算法的复杂度主要取决于单个样本的重构误差$ {e}\left({\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) $的计算, 其中$ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) $的计算量又取决于乘法次数, 因此本文主要通过分析$ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{k} \right) \right) $公式中的乘法次数来讨论算法复杂度.根据式(35), 其中第一个部分乘法次数为: $ {\rm O}\left( 1 \right)+{\rm O}\left( m \right)+{\rm O}(m^{2}) $, 第二个部分乘法次数(其中包括投影系数$ \beta $的计算)为: $ {\rm O}\left( q \right)+{\rm O}\left( m \right)\mathrm{, } $第三部分的乘法次数为: $ {\rm O}(q^{2}m^{2}) $.因此在忽略其他项, 只考虑$ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{k} \right) \right) $计算量的前提下, 算法的总体乘法次数为: $ t_{\rm stop}\times m\times ({\rm O}\left( q^{2}m^{2} \right)+{\rm O}\left( m^{2} \right)+{\rm O}\left( m \right)+{\rm O}\left( q \right)+1) $, 其中$ t_{\rm stop} $为算法的停止迭代时的次数.而由RFK-PCA算法重构误差更新式(11)可以推出, 其中二次平方项第一个部分乘法次数为: $ {\rm O}\left( 1 \right)+{\rm O}\left( m \right)+{\rm O}(m^{2}) $, 第二个部分乘法次数(其中包括投影系数$ \beta $的计算)为: $ 3\times {\rm O}\left( q \right)+{\rm O}\left( m \right)+{\rm O}(m^{2}), $第三部分的乘法次数为: $ 3\times {\rm O}(q^{2}m^{2}) $.因此在忽略其他项, 只考虑$ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{k} \right) \right) $计算量的前提下, 算法的总体乘法次数为: $ t_{stop}\times m\times (3\times {\rm O}\left( q^{2}m^{2} \right)+2\times {\rm O}\left( m^{2} \right)+2\times {\rm O}\left( m \right)+3\times {\rm O}\left( q \right)+1) $.其中$ t_{\rm stop} $为算法的停止迭代时的次数.不难看出, 本文提出的改进后的DRF-KPCA算法复杂度远远小于RFK-PCA算法.

    • 为了测试本文所提出的密度敏感鲁棒模糊核主成分分析算法的性能, 实验部分分别利用仿真数据集和UCI数据集, 对传统KPCA、RFK-PCA算法及本文提出的DRF-KPCA算法的性能进行分析对比.实验环境: Windows 7操作系统, CPU: Intel i7, 3.4 GB处理器, 仿真软件为MATLAB 2010b.

    • 为了验证本文提出的DRF-KPCA算法在解决野性样本点敏感问题和降低计算复杂度等方面的优势, 进行了下列对比实验.其中原始实验数据由均值为$ (0.5, 0) $, $ (0, 0.65) $, $ (-0.5, -0.25) $, 方差为$ (0.1, 0.1) $的三个高斯分布分别随机产生的30个数据构成, 共90个样本点集合, 另外10个野性数据点由均值为$ (-1, 2) $, 方差为$ (0.2, 0.2) $的高斯分布随机产生.实验部分首先利用KPCA算法对无野性样本点的数据集进行主成分分析, 然后利用RFK-PCA算法和DRF-KPCA算法对加入野性样本点的数据集进行主成分分析, 实验结果如图 2图 3所示(图 2 (a)图 3 (a)为无野性样本点的主元分布, 为了便于显示, 图中人为加入了野性样本点, 以便对比).本文算法的参数设置如下:核函数为高斯核, 核参数为1, 算法的迭代最大次数为2 000次, 阈值为$ \varepsilon \mathrm = 1\times 10^{-14} $.正则化控制参数为$ \sigma ^{2} = 0.3 $.本文算法的模糊系数$ p = 1 $, 特征向量的个数$ q = 1 $, 密度控制权重为$ \omega = 2 $, 平滑参数为$ s = 10 $.

      图  2  不同KPCA算法的第一主元分布图

      Figure 2.  The first principal component of different KPCA algorithms

      图  3  不同KPCA算法的第二主元分布图

      Figure 3.  The second principal component of different KPCA algorithms

      通过实验结果可以发现, 本文提出的密度敏感鲁棒模糊核主成分分析算法得到的主成分分布近似于无野性样本点数据影响下的主成分分布结果.而RFK-PCA算法得到的主成分分布受野性样本点影响有所偏离.这是由于RFK-PCA算法受隶属度初始值以及隶属度更新方向的影响陷入了局部最优解.而本文提出的DRF-KPCA算法通过基于相对密度初始隶属度确定方法以及基于最优梯度下降方向隶属度更新公式的作用有效解决了传统算法易陷入局部极值解的问题.

      为了定量评价算法得到的主元成分的精度, 实验部分采用两个主元成分间夹角加权和来表示误差.根据式(27), 经过$ \mathit{\boldsymbol{a}}_{{{i}}} = {{\bar{\bm a}}_{{{i}}}}/{\sqrt{\bar{\lambda }}} $处理后, 得到的特征向量$ \left\| {\bm v} \right\| = 1 $是单位向量, 因此两个特征向量的夹角为:

      $$ \begin{align} \cos &\left( \mathit{\boldsymbol{v}}_{C}^{a}, \mathit{\boldsymbol{v}}_{N}^{b} \right) = \mathit{\boldsymbol{v}}_{C}^{a}\cdot \mathit{\boldsymbol{v}}_{N}^{b} = \\ &\left(\sum\limits_{i = 1}^{m_{1}} a_{i} \mu_{i}^{\frac{p^{1}}{2}}{\Psi}\left( \mathit{\boldsymbol{x}}_{i}\right)\right) \left(\sum\limits_{j = 1}^{m_{2}} a_{j} \mu _{j}^{\frac{p^{2}}{2}} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right) = \\ &\sum\limits_{i = 1}^{m_{1}} \sum\limits_{j = 1}^{m_{2}} {{a_{i}\mu}_{i}^{\frac{p^{1}}{2}}{a_{j} \mu}_{j}^{\frac{p^{2}}{2}}{{\Psi }^{\mathrm{T}}}\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) \end{align} $$ (37)

      由上述公式可知, $ p^{1} $是KPCA算法模糊度, $ p^{2} $是DRF-KPCA和RFK-PCA算法模糊度.其中$ m_{1} $是不含噪声的样本总数, $ m_{2} $是含噪声的样本总数.令$ p^{1} = 2, \mu _{i} = 1, i = 1, 2, \cdots, m_{1} $, 则鲁棒模糊核主成分等于传统KPCA算法.

      式(37)可以进一步写成:

      $$ \begin{align} \sum\limits_{i = 1}^{m_{1}} &\sum\limits_{j = 1}^{m_{2}} {{a_{i}\mu}_{i}^{\frac{p^{1}}{2}}{a_{j}\mu}_{j}^{\frac{p^{2}}{2}}{{\Psi }^{\mathrm{T}}}\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} {\Psi }\left(\mathit{\boldsymbol{x}}_{{{j}}} \right) = \\ &\sum\limits_{i = 1}^{m_{1}} \sum\limits_{j = 1}^{m_{2}} {a_{i}{a_{j}\mu}_{j}^{\frac{p^{2}}{2}}{{\Psi }^{\mathrm{T}}\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)}} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right) = \\ &\sum\limits_{i = 1}^{m_{1}} \sum\limits_{j = 1}^{m_{2}} {a_{i}{a_{j}\mu}_{j}^{\frac{p^{2}}{2}}\widetilde{\mathit{\boldsymbol{K}}}_{ij}} \end{align} $$ (38)

      则两个主元成分间的夹角可表示为:

      $$ \begin{equation} \theta (\mathit{\boldsymbol{v}}_{C}^{a}, \mathit{\boldsymbol{v}}_{N}^{b}) = {\mathrm{arccos}}\left(\sum\limits_{i = 1}^{m_{1}} \sum\limits_{j = 1}^{m_{2}}{a_{i}{a_{j}\mu }_{j}^{\frac{p^{2}}{2}}\widetilde{\mathit{\boldsymbol{K}}}_{ij}} \right) \end{equation} $$ (39)

      定义错误率:

      $$ \begin{equation} E = \sum\limits_{i = 1}^q \lambda_{C}^{i} \theta \left( \mathit{\boldsymbol{v}}_{C}^{i}, \mathit{\boldsymbol{v}}_{N}^{i} \right) \end{equation} $$ (40)

      其中, $ q $为预先设定共同保留的特征向量的个数. $ {{\lambda}_{C}^{i}, \mathit{\boldsymbol{v}}}_{C}^{i} $为KPCA算法在无噪声样本点下得到的第$ i $个特征值和特征向量. $ \mathit{\boldsymbol{v}}_{N}^{i} $是比较算法(KPCA, DRF-KPCA或RFK-PCA)在噪声样本点下得到的第$ i $个特征向量.

      为了定量地比较上述不同算法的性能, 本文采用错误率$ E $作为性能评测指标.为消除随机影响, 每种算法运行200次取其平均值, 实验数据同上.其中无野性样本点情况下KPCA算法得到的第一主成分与存在野性样本点情况下KPCA算法得到了第一主成分之间的夹角为$ {{65.4123}}^{\circ} $, 第二主成分之间的夹角为$ {{78.5457}}^{\circ} $.换成弧度制表示分别为1.1417和1.3709, 两夹角之间的加权错误率$ E $为26.5794.为了对比分析, 利用本文提出的DRF-KPCA算法进行上述实验, 结果如下:无野性样本点情况下KPCA算法得到了第一主成分与存在野性样本点情况下DRF-KPCA得到的第一主成分之间的夹角为$ {{8.007}}^{\circ} $, 第二主成分之间的夹角为$ {{8.0478}}^{\circ} $.换成弧度制表示分别为0.1397和0.1405, 两夹角之间的加权错误率$ E $为3.0298.通过以上结果可以明显看出, 本文提出的DRF-KPCA算法的错误率比KPCA的错误率小很多.该实验结果也定量地说明了本文提出的DRF-KPCA算法在存在野性样本点情况下得到的主元成分更接近真实值.

      为了验证本文提出的敏感密度鲁棒模糊主成分分析算法的稳定性和鲁棒性, 实验部分通过盒线图来对比分析KPCA、RFK-PCA和DRF-KPCA三种算法实验结果的统计分布情况, 结果如图 4所示.通过实验结果对比可以发现, RFK-PCA算法产生的异常值较多且波动较大.该实验结果进一步验证了RFK-PCA受隶属度初始值及更新公式影响易陷入局部极值解从而导致算法不稳定.从统计特征来看, 本文提出的DRF-KPCA算法得到的数据集分布情况更加集中, 离散点少, 偏差小, 这是由于本文提出的算法通过相对密度初始隶属度确定方法以及改造隶属度更新公式有效解决了易陷入局部最优解的问题, 使得算法更加稳定, 能有效消除野性样本点对算法性能的影响.

      图  4  三种算法的性能对比图

      Figure 4.  Comparison of the statistics results of E evaluation indicator of three algorithms

    • 为了测试模糊化系数$ p $在不同取值情况下对本文提出的DRF-KPCA算法的性能影响, 设置了如下实验, 实验过程中通过在$ [0, \; \; 5] $之间改变模糊化系数$ p $的值来观察本文算法的错误率均值变化, 实验数据同上, 结果如图 5所示.其中本文算法的参数设置如下:核函数为高斯核, 核参数为1, 算法的迭代最大次数为2 000次, 正则化控制参数为$ \sigma ^{2} = 0.3 $, 控制权重为$ \omega = 2 $, 平滑参数为$ {s = 10} $.预先设定共同保留的特征向量个数$ q = 2 $, 重构误差$ e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) $的计算以第一主成分为例.

      图  5  模糊化系数(p)对算法性能的影响

      Figure 5.  Influence on the proposed algorithm performance of the fuzzy weight (p)

      图 5的实验结果可以明显看出, 模糊化系数选取在[0.5, 1]之间时, 算法性能达到最佳.当模糊化系数选取过小时, 则初始隶属度被赋值为1, 相当于原始的KPCA方法, 去噪能力差, 效果不明显.当模糊系数过大时, 则导致算法只和部分大的模糊隶属度的样本点有关, 从而忽略无噪声数据中模糊隶属度值较小的其他样本点, 将其当作野性点处理, 导致学习后的主成分无法代表真实的原始结构信息.

    • 为了测试正则化控制参数$ \sigma ^{2} $在不同取值情况下对本文提出的DRF-KPCA算法的性能影响, 设置了如下实验, 实验过程中通过在[0, 10]之间改变正则化控制参数$ \sigma ^{2} $的值来观察本文算法的错误率均值变化, 实验数据同上.实验参数设置如下:模糊化系数$ p = 1 $, 其他参数设置同上, 测试结果如图 6所示.

      图  6  不同正则化控制参数(σ2)对算法性能的影响

      Figure 6.  Influence on the proposed algorithm performance of the regularization parameters (σ2)

      图 6的实验结果可以看出, 当正则化系数的范围在$ [0.3, \; \; 0.5] $之间时, 算法的性能达到最佳.由式(33)可知, 当正则化系数$ \sigma ^{2} $较小的时候, $ \mu _{k} $的取值较大, 会拉大正常样本点与野性样本点之间的模糊隶属值差距.当正则化系数$ \sigma ^{2} $较大时, 初始隶属度趋近于1, 近似于原始KPCA算法.

    • 为了测试不同密度控制权重($ \omega ) $在不同取值情况下对本文提出的DRF-KPCA算法的性能影响, 设置了如下实验, 实验过程中通过在$ [0, \; \; 10] $之间改变不同密度控制权重($ \omega ) $的值来观察本文算法的错误率均值变化, 参数设置如下:模糊化系数$ p = 1 $, 正则化控制参数$ \sigma^{2} = 0.3 $, PARZEN平滑参数为$ \mathrm{s = 10} $, 其他参数设置同上, 结果如图 7所示.从实验结果可以看出密度控制权重对算法性能的影响不大.

      图  7  不同密度控制权重(ω)对算法性能的影响

      Figure 7.  Influence on the proposed algorithm performance of the density control parameters (ω)

    • 为了测试平滑参数($ s) $在不同取值情况下对本文提出的DRF-KPCA算法的性能影响, 设置了如下实验, 实验过程中通过在$ [0, \; \; 10] $之间改变不同平滑参数($ s) $的值来观察本文算法的错误率均值变化, 参数设置如下:模糊化系数$ p = 1 $, 正则化控制参数为$ \sigma ^{2} = 0.3 $, 密度控制权重$ \omega = 1 $, 其他参数设置同上, 测试结果如图 8所示.

      图  8  不同平滑参数(s)对算法性能的影响

      Figure 8.  Influence on the proposed algorithm performance of the smooth parameters (s)

      图 78的实验结果可以看出密度控制权重(放大倍数)以及平滑参数都是为了放大样本密度间的比例, 但由于得到的密度只是作为了初始$ U_{0} $参数, 且进行了最大最小归一化处理, 同时在迭代的过程中会被不同样本重构错误的差异值再次修正, 因此通过实验结果和以上分析可知两个参数对算法性能的影响并不大.

    • 为了验证本文算法提取主成分的准确性, 实验数据采用UCI数据集中的iris和seed两个经典数据集, 并同GMM-PCA (Gaussian mixture modol)算法、KPCA算法和RFK-PCA算法进行对比.为了能体现野性噪声数据的影响, 分别以Iris数据集中的Iris-setosa, Iris-Versicolour, Iris- Virginica数据作为无噪声数据集, 其中野性样本由其他两个类别数据中随机抽取的数据构成, 因iris数据集中三种类别数据的方差分布不同, 因此根据方差大小, 三种类别数据中野性样本点的个数分别设置为原始无噪声数据集大小的10 %, 20 %, 30 %. Seed数据集中野性样本的个数统一设置为每个类别无噪声数据集大小的30 %.其中评价指标中的主成分坐标轴个数$ q = 2 $.实验部分首先利用KPCA算法对无野性样本点数据集进行分析, 然后提取前两个主成分以及相对应的特征值.接着利用KPCA算法、GMM-PCA算法、RFK-PCA算法和本文DRF-KPCA算法对含噪声的数据集进行分析, 其中算法参数设置如下:混合高斯模型个数设置为3, 核函数为高斯核, 核参数为$ \sigma = 1, $算法的迭代最大次数2 000次, 阈值为$ \varepsilon = 1\times 10^{-14} $.正则化控制参数为$ \sigma ^{2} = 0.3 $, 本文算法的模糊系数为$ p = 1 $, 密度控制权重为$ \omega = 1 $, 平滑参数为$ s = 7 $.为了消除随机影响每个算法运行100次得到统计结果如图 9所示.

      图  9  不同算法对不同数据的性能比较

      Figure 9.  The performance comparison of different algorithms on different data

      由上图中的实验结果可知, 本文提出的密度敏感鲁棒模糊核主成分分析算法对6种不同的数据集进行主成分提取, 得到的结果最接近于无噪声数据影响下的KPCA得到的主成分坐标轴.其中$ E $指标均值与方差分别为setosa: 1.306 ($ 3.264\times 10^{-5} $), Versicolour: 4.718 (0.075), Virginica: 11.266 (0.779), Seed-Class1: 16.479 (1.031), Seed-Class2: 7.734 (0.032), Seed-Class3: 11.266 (0.779).因此可以说本文提出的算法在提取主成分精度和稳定性上均优于其他算法.这是由于本文算法采用的最优梯度下降方向实现模糊隶属度的更新, 同时利用密度敏感初始值确定方法解决了RFK-PCA算法对初始解敏感导致易早熟收敛的问题, 大大提高了算法的稳定性.为了比较本文提出的DRF-KPCA算法和RFK-PCA算法的运行效率, 这里统计了算法的平均迭代时间并进行了对比分析, 实验结果如图 10所示, 不难看出本文算法的运行时间远远低于RFK-PCA算法, 这是由于本文算法重构误差的计算公式较RFK-PCA算法大大简化且更加合理所致.

      图  10  不同算法对不同数据集的平均迭代时间比较

      Figure 10.  Comparison of average iteration time for different data sets by different algorithms

    • 为了验证本文提出的密度敏感鲁棒模糊核主成分分析算法特征提取能力, 采用难分的9种不同UCI数据集进行分类性能对比分析.其中分类器采用的是Fisher线性鉴别分类器, 分类性能指标为错分率, 核函数为高斯核, 核参数采用交差验证法确定.为了便于比较, 降维后的特征维度统一设定为50, 其中本文算法和RFK-PCA算法的参数设置如下:算法的最大迭代次数2 000次, 阈值$ \varepsilon = 1\times 10^{-14} $.正则化控制参数为$ \sigma ^{2} = 0.3 $, 本文算法的模糊系数为$ p = 0.5 $, 密度控制权重为$ \omega = 1 $, 平滑参数为$ s = 7 $.实验结果采用10次交叉验证获取, 结果如表 1所示, 其中加黑数字表示为针对同一数据集三种算法比较的最优结果.从表中可以发现, 除了yeast数据集外, 经本文算法降维后的分类性能均优于其他三种降维方法, 其中除了abalone数据集中1 : 2两类数据分类结果性能的提升不明显之外, 其他数据集的分类性能提升较为显著, 这也说明经本文提出的算法降维后的特征空间更有利于不同类别数据间的区分.至于yeast和abalone中的1和2类数据集, 主要原因是由于原始数据结构的复杂性且不同类别数据间有大量的重叠, 导致经传统KPCA算法降维后特征空间的分类性能较差, 再加上数据集中无明显野性噪声点, 从而导致经改进后的算法降维后数据分类性能没能实现提升甚至出现下降.另外从表中的方差数据对比可知, RFK-PCA算法的方差分布较大, 相比而言本文算法的方差很小, 这也进一步说明了本文算法具有较好的稳定性.相比而言, RFK-PCA算法因极易陷入局部极小解, 且模糊隶属度的更新方向也非最优梯度方向, 导致分类性能提升并不明显.通过实验结果可以看出, 除了yeast数据集外, RFK-PCA算法在pima, german, abalone的1和2类以及1和3类数据的分类性能甚至低于传统KPCA算法.

      表 1  不同UCI数据的三种KPCA算法分类性能对比

      Table 1.  Classification performance of three kinds of KPCA algorithm for different UCI datasets

      Dataset Class (N) : Dimension KPCA GMM-PCA RFK-PCA DRF-KPCA
      yeast 1 (463) : 2 (429) : 8 31.11±4.88 38.26±3.27 37.66±6.23 31.14±1.24
      1 (463) : 3 (244) : 8 23.94±3.22 30.24±4.21 26.79±5.15 24.01±0.98
      2 (429) : 3 (244) : 8 16.18±3.67 18.96±1.35 19.01±4.11 16.46±0.79
      letter H ((734) : R (758) : 16 10.67±2.15 9.17±3.66 7.16±2.35 5.48±0.07
      S (748) : Z (734) : 16 9.39±2.01 9.01±1.47 4.14 ± 1.97 2.13±0.09
      H (734) : O (753) : 16 10.74±2.46 12.01±3.53 9.45 ± 4.02 7.14±0.02
      german 1 (700: 2 (300) : 24 23.12±3.48 24.44±4.87 25.38±5.96 22.24±1.01
      haberman 1 (225) : 2 (81) : 3 17.46±3.16 17.32±2.55 16.73±4.98 15.12±0.49
      ionophere 1 (225) : -1 (126) : 34 8.33±2.13 8.03±2.98 7.57±3.19 5.37±0.07
      pima 1 (268) : 0 (500) : 8 25.71±4.01 29.63±4.76 31.88±6.23 25.33±1.11
      phoneme 1 (1 586) : 0 (3 818) : 5 11.12±2.16 10.06±2.93 9.67±3.98 7.21±0.12
      sonar 1 (111) : -1 (97) : 60 7.29±1.22 7.56±1.43 6.12 ± 2.79 5.32±0.02
      1 (1 528) : 2 (1 307) : 8 37.59±4.32 43.39±5.09 48.24±7.94 37.43±1.22
      abalone 1 (1 528) : 3 (1 342) : 8 23.69±3.12 23.33±2.78 24.18 ± 5.12 20.59±1.03
      2 (1307) : 3 (1 342) : 8 12.83±1.22 10.74±1.07 11.24 ± 3.01 9.11±0.22
    • 为了验证本文提出的密度敏感鲁棒模糊核主成分分析算法对高维特征数据的降维性能, 实验数据采用来自ASU[25]的特征选择数据仓库的数据集SMK-CAN-187, 其中包括2类, 187个实例, 维度数为19 993.为了验证本文算法对不同维度降维性能的鲁棒性, 这里采用70到140的不同维度进行实验, 结果通过10次交叉验证策略获取.实验结果如图 11所示.从图中不难发现本文算法对不同维度降维后的分类性能均优于其他分类算法.每一个算法的分类性能均在140维达到最优, 由此可以说明在这个分类实例中, 降维后的较高维特征空间更有利于数据的区分.其中本文算法的分类性能在140维时达到最优, 分类错误率为20.017 %, 相比GMM-PCA算法、KPCA算法、和RFK-PCA算法分别降低了4.083 %, 3.106 %, 1.772 %.实验结果也进一步说明了本文算法在高维数据集的降维性能上也优于其他两种算法且具有较好的鲁棒性.

      图  11  不同算法对SMK-CAN-187高维数据的降维性能对比

      Figure 11.  Classification error rate of different algorithms with different reduced dimensions on SMK-CAN-187 dataset

    • 为解决传统KPCA算法对野性样本点敏感的缺陷, 本文提出了一种密度敏感鲁棒模糊核主成分分析算法, 结合实验得到如下结论:

      1) 为解决传统PCA算法对初始值敏感问题, 本文通过引入相对密度来获取样本初始隶属度, 同时采用最优梯度下降方向实现隶属度的更新.实验部分通过和KPCA、GMM-PCA、RFK-PCA算法进行对比, 结果表明本文算法能有效解决传统算法对野性点敏感导致主元成分偏移问题且具有较好的稳定性.

      2) 为进一步提高算法的运行效率, 本文算法对重构误差的计算公式进行简化, 理论分析和实验结果表明本文算法的计算复杂度及运行时间都远远低于RFK-PCA算法.

      3) 为考察模糊化系数$ p $、正则化控制参数$ \sigma^{2} $、密度控制权重$ \omega $和平滑参数$ s $对算法性能的影响, 本文利用不同参数进行了性能对比分析, 结果发现, 模糊化系数选取在[0.5, 1]之间比较好, 正则化系数的范围在$ [0.3, 0.5] $之间的时候比较好, 密度控制权重和平滑参数由于只作为初始$ \mathit{\boldsymbol{U}}_{0} $参数, 且在迭代的过程中会被不同样本重构错误的差异值修正, 因此对算法的性能影响很小.实验部分通过与其他KPCA算法对比发现, 本文提出的算法在分类性能上均优于其他算法.

    • 设$ \mathit{\boldsymbol{v}} $是$ {\mathit{\boldsymbol{C}}} $的特征向量, $ {\lambda} $是对应$ \mathit{\boldsymbol{v}} $的特征值.则:

      $$ \begin{gather} \mathit{\boldsymbol{Cv}} = \lambda \mathit{\boldsymbol{v}} \end{gather} $$ (A1)
      $$ \begin{gather} \frac{1}{\rho }\sum\limits_{i = 1}^m {\left(\mu _{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)\left(\mu_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)^{\mathrm{T}}} \mathit{\boldsymbol{v}} = \lambda \mathit{\boldsymbol{v}} \end{gather} $$ (A2)

      可以推出:

      $$ \begin{align} \mathit{\boldsymbol{v}} = &\frac{1}{\lambda \rho }\sum\limits_{i = 1}^m \left(\mu _{i}^{\frac{p}{2}} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)\left(\mu _{i}^{\frac{p}{2}} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)^{\mathrm{T}} \mathit{\boldsymbol{v}} = \\ &\sum\limits_{i = 1}^m \mu_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\left(\frac{1}{\lambda \rho }\left(\mu _{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)^{\mathrm{T}} \mathit{\boldsymbol{v}}\right) \end{align} $$ (A3)

      $ {(\mu_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right))}^{\mathrm{T}}\mathit{\boldsymbol{v}} $是个标量, 即存在$ a_{i}, i = 1, 2, \cdots $, $ m, a_{i} = \frac{1}{\lambda \rho }({\mu_{i}^{\frac{p}{2}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{i}}} \right))}^{\mathrm{T}}\mathit{\boldsymbol{v}} $因此:

      $$ \begin{equation} \mathit{\boldsymbol{v}} = \sum\limits_{i = 1}^m a_{i} \mu_{i}^{\frac{p}{2}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{i}}} \right) \end{equation} $$ (A4)

      这样便得到$ {\mathit{\boldsymbol{C}}} $的特征向量的性质, 即$ \mathit{\boldsymbol{v}} = \{\mu_{1}^{\frac{p}{2}}{\Psi}\left( \mathit{\boldsymbol{x}}_{1} \right), $ $ \mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right), \cdots, \mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\} $张成的.

      因为$ \mathit{\boldsymbol{Cv}} = \lambda \mathit{\boldsymbol{v}} $, 所以

      $$ \begin{equation} {\left(\mu_{k}^{\frac{p}{2}}{\Psi}(\mathit{\boldsymbol{x}}_{{{k}}})\right)}^{\mathrm{T}} \mathit{\boldsymbol{Cv}} = \lambda {\left(\mu_{k}^{\frac{p}{2}}{\Psi }(\mathit{\boldsymbol{x}}_{{{k}}})\right)}^{\mathrm{T}}\mathit{\boldsymbol{v}} \end{equation} $$ (A5)

      把$ \mathit{\boldsymbol{v}} = \sum\limits_{i = 1}^m a_{i} \mu_{i}^{\frac{p}{2}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{i}}} \right) $代入得:

      右式:

      $$ \begin{align} &\lambda \left( \mu_{k}^{\frac{p}{2}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right) \right)^{\mathrm{T}}\mathit{\boldsymbol{v}} = \lambda \sum\limits_{i = 1}^m {a_{i} \left( \mu _{k}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)\right)^{\mathrm{T}}\mu_{i}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} = \\ &\qquad \lambda \begin{bmatrix} {\left(\mu_{k}^{\frac{p}{2}}{\Psi}(\mathit{\boldsymbol{x}}_{{{k}}})\right)}^{\mathrm{T}}\mu_{1}^ {\frac{p}{2}}{\Psi }( \mathit{\boldsymbol{x}}_{1} ) & \left( \mu_{k}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{k}}} \right)\right)^{\mathrm{T}}\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right) &\cdots &{\left(\mu_{k}^{\frac{p}{2}}{\Psi}(\mathit{\boldsymbol{x}}_{{{k}}})\right)}^{\mathrm{T}} \mu_{m}^{\frac{p}{2}}{\Psi}\left( \mathit{\boldsymbol{x}}_{{{m}}} \right) \end{bmatrix} \begin{bmatrix} a_{1}\\ a_{2}\\ \vdots \\ a_{m}\\ \end{bmatrix} \end{align} $$ (A6)

      左式:

      $$ \begin{align} \left( \mu_{k}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right)^{\mathrm{T}}\mathit{\boldsymbol{Cv}} = &\frac{1}{\rho }\sum\limits_{i = 1}^m a_{i}\left( \mu _{k}^{\frac{p}{2}} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right)^{\mathrm{T}} \left( \sum\limits_{j = 1}^m {\mu _{j}^{\frac{p}{2}}\left({\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right)\left(\mu_{j}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right)^{\mathrm{T}}} \right) \cdot \mu_{i}^{\frac{p}{2}}{\Psi }( \mathit{\boldsymbol{x}}_{{{i}}}) = \\ &\frac{1}{\rho}\begin{bmatrix} \left( \mu_{k}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right)^{\mathrm{T}}\left( \sum\limits_{j = 1}^m {\mu _{j}^{\frac{p}{2}}\left({\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right) \left(\mu_{j}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right)^ {\mathrm{T}}} \right)\mu_{1}^{\frac{p}{2}}{\Psi } ( \mathit{\boldsymbol{x}}_{1}) \\ \vdots \\ \left( \mu_{k}^{\frac{p}{2}}{\Psi }( \mathit{\boldsymbol{x}}_{{{k}}}) \right)^ {\mathrm{T}}\left( \sum\limits_{j = 1}^m {\mu _{j}^{\frac{p}{2}}\left({\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right)\left(\mu_{j}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right)^{\mathrm{T}}} \right) \mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right)\\ \left( \mu_{k}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right)^{\mathrm{T}} \left( \sum\limits_{j = 1}^m {\mu _{j}^{\frac{p}{2}}\left({\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right)\left(\mu_{j}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)\right)^{\mathrm{T}}} \right) \mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right) \\ \end{bmatrix}^{\mathrm{T}} \cdot \begin{bmatrix} a_{1}\\ a_{2}\\ \vdots \\ a_{m}\\ \end{bmatrix} \end{align} $$ (A7)

      注意$ k = 1, 2, \cdots, m $都满足上式, 用矩阵表达上述等式.

      $$ \begin{gather} \lambda \bar{\mathit{\boldsymbol{K}}}\bar{\bm \alpha } = \frac{1}{\rho }\bar{\mathit{\boldsymbol{K}}}^{2}\bar{\bm\alpha} \end{gather} $$ (A8)
      $$ \begin{gather} \rho \lambda \bar{\bm\alpha} = \bar{\mathit{\boldsymbol{K}}}\bar{\bm \alpha } \end{gather} $$ (A9)
      $$ \begin{equation} \bar{\mathit{\boldsymbol{K}}} = \begin{bmatrix} \left(\mu_{1}^{\frac{p}{2}}{\Psi }( \mathit{\boldsymbol{x}}_{1} )\right)^ {\mathrm{T}}\mu_{1}^{\frac{p}{2}}{\Psi }( \mathit{\boldsymbol{x}}_{1} ) & \left(\mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right)\right)^ {\mathrm{T}}\mu _{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right) & \cdots & \left(\mu_{1}^{\frac{p}{2}}{\Psi }(\mathit{\boldsymbol{x}}_{1} )\right)^ {\mathrm{T}}\mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\\ \left(\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right)\right)^ {\mathrm{T}}\mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right) & \left(\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right)\right)^{\mathrm{T}} \mu _{2}^{\frac{p}{2}}{\Psi }( \mathit{\boldsymbol{x}}_{2} ) & \cdots & \left(\mu_{2}^{\frac{p}{2}}{\Psi }\left(\mathit{\boldsymbol{x}}_{2} \right)\right)^{\mathrm{T}} \mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\\ \vdots & \vdots& \ddots& \vdots \\ \left(\mu_{m}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\right)^{\mathrm{T}} \mu_{1}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right)& \left(\mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\right)^{\mathrm{T}}\mu_{2}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right) & \cdots & \left(\mu_{m}^{\frac{p}{2}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{m}}} \right)\right)^{\mathrm{T}}\mu_{m}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right) \end{bmatrix} \end{equation} $$ (A10)
      $$ \begin{align} \bar{\mathit{\boldsymbol{K}}}_{i, j} = &\left(\mu_{i}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)^{\mathrm{T}}\mu _{j}^{\frac{p}{2}}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right) = \\ &\mu_{i}^{\frac{p}{2}}\mu_{j}^{\frac{p}{2}}\left({\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)\right)^{\mathrm{T}} {\Psi }\left(\mathit{\boldsymbol{x}}_{{{j}}} \right) \end{align} $$ (A11)

      证明.  $ \rho \lambda \bar{\bm \alpha } = \bar{\mathit{\boldsymbol{K}}}\bar{\bm\alpha } $的特征值$ \bar{\lambda } = \rho \lambda $满足$ \bar{\lambda }_{1} \geq \bar{\lambda }_{2}\cdots \geq \bar{\lambda}_{n} \geq 0, n\ll m $.

      要证明特征值$ \bar{\lambda }\geq 0 $, 只需证明$ \bar{\mathit{\boldsymbol{K}}} $为半正定矩阵.

      $$ \begin{equation} \bar{\mathit{\boldsymbol{K}}} = \mathit{\boldsymbol{U}}^{{\frac{p}{2}}}\widetilde{K}\mathit{\boldsymbol{U}}^{{\frac{p}{2}}} \end{equation} $$ (A12)

      其中$ \mathit{\boldsymbol{U}} $为对角元素为$ u_{i}^{\frac{p}{2}}, i = 1, 2, \cdots, m $, 隶属度矩阵:

      $$ \begin{equation} \mathit{\boldsymbol{U}}^{\frac{p}{2}} = \begin{pmatrix} u_{1}^{\frac{p}{2}} & \cdots & 0\\ \vdots & \ddots & \vdots \\ 0 & \cdots & u_{m}^{\frac{p}{2}}\\ \end{pmatrix} \end{equation} $$ (A13)

      对于任意的非零向量$ \mathit{\boldsymbol{z}} $:

      $$ \begin{align} \mathit{\boldsymbol{z}}^{{\rm{T}}}\widetilde{\mathit{\boldsymbol{K}}}\mathit{\boldsymbol{z}} = &\mathit{\boldsymbol{z}}^{\mathrm{T}}\left( {\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right), \mathrm{\Psi}\left( \mathit{\boldsymbol{x}}_{2} \right), \cdots, \mathrm{\Psi}\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\right)^{\mathrm{T}}\cdot\\ & \left({\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right), \mathrm{\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right), \cdots, \mathrm{\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right)\right)\mathit{\boldsymbol{z}} = \\ &({\left( {\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right), {\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right), \cdots, {\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}}\right)\right)\mathit{\boldsymbol{z}})}^{\mathrm{T}}\cdot\\ & \left( \left( {\Psi }\left( \mathit{\boldsymbol{x}}_{1} \right), {\Psi }\left( \mathit{\boldsymbol{x}}_{2} \right), \cdots, {\Psi }\left( \mathit{\boldsymbol{x}}_{{{m}}} \right) \right)\mathit{\boldsymbol{z}} \right) \geq 0 \end{align} $$ (A14)

      因此$ \widetilde{K} $是半正定矩阵.

      $$ \begin{align} &\bar{\mathit{\boldsymbol{K}}} = \mathit{\boldsymbol{U}}^{{\frac{p}{2}}}\widetilde{K}\mathit{\boldsymbol{U}}^{{\frac{p}{2}}} \end{align} $$ (A15)
      $$ \begin{align} &\mathit{\boldsymbol{z}}^{{\rm{T}}}\bar{\mathit{\boldsymbol{K}}} \mathit{\boldsymbol{z}} = \mathit{\boldsymbol{z}}^{{\rm{T}}}\mathit{\boldsymbol{U}}^{\frac{p}{2}}\widetilde{K}\mathit{\boldsymbol{U}}^{\frac{p}{2}} \mathit{\boldsymbol{z}} = \\ &\qquad\left( \mathit{\boldsymbol{z}}\mathit{\boldsymbol{U}}^{\frac{\mathit{\boldsymbol{p}}}{2}} \right)^{{\rm{T}}}\widetilde{K}\left(\mathit{\boldsymbol{U}}^{\frac{\mathit{\boldsymbol{p}}}{2}}\mathit{\boldsymbol{z}}\right) = \mathit{\boldsymbol{z}}'^{{\rm{T}}}\widetilde{K}\mathit{\boldsymbol{z}}' \end{align} $$ (A16)

      令$ \mathit{\boldsymbol{z}}' = \mathit{\boldsymbol{z}} \mathit{\boldsymbol{U}}^{\frac{{p}}{2}} $, 可见$ \bar{\mathit{\boldsymbol{K}}} $为半正定矩阵, $ \bar{\lambda}_{i} \geq 0, i = 1, 2, \cdots, n $.

      $$ \begin{align} &e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = \\ &\qquad \| \left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)-{\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right) \right) - {\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}({\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)- {\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right)) \|^{2} \end{align} $$ (A17)
      $$ \begin{align} &e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = \left\| {\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)-{\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right) \right\|^{2} \end{align} $$ (A18)

      其中,

      $$ \begin{align} &{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right) = {\Phi}\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)-{\Phi }\left( \widetilde{\mathit{\boldsymbol{x}}} \right) = \\ &\qquad\Phi \left( \mathit{\boldsymbol{x}}_{{{i}}} \right) - \frac{1}{\sum\limits_{i = 1}^m \mu_{i}^{p}}\sum\limits_{i = 1}^m {\mu_{i}^{p}{\Phi }\left(\mathit{\boldsymbol{x}}_{{{i}}} \right)} \\ &e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = \Psi \left( \mathit{\boldsymbol{x}}_{{{k}}} \right)\!\cdot\! {\Psi } \left( \mathit{\boldsymbol{x}}_{{{k}}} \right)\!-\!2{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \cdot {\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}}\right)+\\ &\qquad\left({\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi}\left(\mathit{\boldsymbol{x}}_{{{k}}}\right)\right) \cdot\left({\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right)\right)\!\! \end{align} $$ (A19)
      $$ \begin{align} &{\Psi }( \mathit{\boldsymbol{x}}_{{{k}}} )\cdot {\Psi}\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) = \left({\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right)\right)^{\mathrm{T}} {\Psi } \left(\mathit{\boldsymbol{x}}_{{{k}}} \right) = \\ &\qquad K\left( \mathit{\boldsymbol{x}}_{{{k}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)-\frac{2}{\rho } \sum\limits_{i = 1}^m \mu_{i}^{p}K\left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right)+\\ &\qquad \frac{\sum\limits_{i, j = 1}^m {{\mu_{i}^{p}\mu}_{j}^{p}K(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}})} }{\rho^{2}} \end{align} $$ (A20)
      $$ \begin{align} &{\Psi }^{\mathrm{T}}( \mathit{\boldsymbol{x}}_{{{k}}} )\cdot {\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) = {{\Psi }^ {\mathrm{T}}\left( \mathit{\boldsymbol{x}}_{{{k}}}\right)}{\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right) = \\ &\left( {\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) \cdot \left( {\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = ( \beta^{1} )^{2}+\cdots +\left( \beta^{q} \right)^{2} \end{align} $$ (A21)
      $$ \begin{align} &\left({\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right) \right)\cdot \left({\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right) \right) = \\ &\qquad(\sum\limits_{j = 1}^q {\sum\limits_{i = 1}^m a_{i}^{j} {\beta^{j}\mu}_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} )\cdot (\sum\limits_{j = 1}^q {\sum\limits_{i = 1}^m a_{i}^{j} {\beta^{j}\mu}_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} ) = \\ &\qquad\sum\limits_{s = 1}^q \sum\limits_{t = 1}^q {\sum\limits_{i = 1}^m\sum\limits_{j = 1}^m a_{i}^{s} {{a_{j}^{t}\beta }^{s}\beta^{t}\mu}_{i}^{\frac{p}{2}}\mu_{j}^{\frac{p}{2}}{{\Psi }^{\mathrm{T}}\left(\mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{j}}} \right)} \end{align} $$ (A22)

      其中,

      $$ \begin{align} {\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) = &\begin{bmatrix} \sum\limits_{i = 1}^m a_{i}^{1} \mu_{i}^{\frac{p}{2}}{{\Psi }^{\mathrm{T}}\left(\mathit{\boldsymbol{x}}_{{{i}}} \right)}\\ \vdots \\ \sum\limits_{i = 1}^m a_{i}^{q} \mu_{i}^{\frac{p}{2}}{{\Psi }^{\mathrm{T}}\left(\mathit{\boldsymbol{x}}_{{{i}}} \right)}\\ \end{bmatrix} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right) = \\ &\begin{bmatrix} \sum\limits_{i = 1}^m a_{i}^{1} \mu_{i}^{\frac{p}{2}}{{\Psi }^{\mathrm{T}}\left(\mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right)\\ \vdots \\ \sum\limits_{i = 1}^m a_{i}^{q} \mu_{i}^{\frac{p}{2}}{{\Psi }^{\mathrm{T}}\left(\mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right)\\ \end{bmatrix} = \begin{bmatrix} \beta^{1}\\ \vdots \\ \beta^{q}\\ \end{bmatrix} \end{align} $$ (A23)

      其中,

      $$ \begin{align} \mathit{\boldsymbol{\beta}}^{j} = &\sum\limits_{i = 1}^m a_{i}^{j} \mu _{i}^{\frac{p}{2}} {{\Psi }^{\mathrm{T}}\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{k}}} \right) = \\ &\sum\limits_{i = 1}^m a_{i}^{j} \mu _{i}^{\frac{p}{2}}\widetilde{\bm K}_{ik}, j = 1, 2, \cdots, q \end{align} $$ (A24)

      其中,

      $$ \begin{align} &{\mathit{\boldsymbol{V}}}{\mathit{\boldsymbol{V}}}^{\mathrm{T}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}}\right) = \left(\mathit{\boldsymbol{v}}^{1}, \mathit{\boldsymbol{v}}^{2}, \cdots, \mathit{\boldsymbol{v}}^{{q}} \right) \begin{bmatrix} \mathit{\boldsymbol{\beta}}^{1}\\ \bf{\vdots }\\ \mathit{\boldsymbol{\beta}}^{{q}}\\ \end{bmatrix} = \\ &\qquad\sum\limits_{j = 1}^{{q}} \mathit{\boldsymbol{v}}^{{{j}}} \mathit{\boldsymbol{\beta}}^{{{j}}} = \sum\limits_{j = 1}^q {\sum\limits_{i = 1}^m a_{i}^{j} \mu_{i}^{\frac{p}{2}}{\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} \mathit{\boldsymbol{\beta}}^{{{j}}} = \\ &\qquad\sum\limits_{j = 1}^q {\sum\limits_{i = 1}^m {a}_{{{i}}}^{{{j}}} {{\beta}^{{{j}}}\mu}_{i}^{\frac{p}{2}} {\Psi }\left( \mathit{\boldsymbol{x}}_{{{i}}} \right)} \end{align} $$ (A25)

      推出

      $$ \begin{align} & e\left( {\Phi }\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)\right) = \mathit{\boldsymbol{K}}\left(\mathit{\boldsymbol{x}}_{{{k}}}, \mathit{\boldsymbol{x}}_{{{k}}} \right) - \frac{2}{\rho} \sum\limits_{i = 1}^{{m}} \mu_{i}^{p}\mathit{\boldsymbol{K}}\left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{k}}}\right) +\\ &\qquad \frac{\sum\limits_{i, j = 1}^{{m}} {{\mu_{i}^{p}\mu }_{j}^{p} \mathit{\boldsymbol{K}}\left(\mathit{\boldsymbol{x}}_{{{i}}}, \mathit{\boldsymbol{x}}_{{{j}}} \right)}}{{ {{ {\rho}}} }^{2}}- 2(\left( \mathit{\boldsymbol{\beta}}^{1} \right)^{2} +\cdots + \left( \mathit{\boldsymbol{\beta}}^{{q}} \right)^{2})+\\ &\qquad \sum\limits_{s = 1}^q \sum\limits_{t = 1}^q {\sum\limits_{i = 1}^m \sum\limits_{j = 1}^m a_{i}^{s} {{a_{j}^{t}\beta }^{s} \beta^{t}\mu }_{i}^{\frac{p}{2}}\mu_{j}^{\frac{p}{2}}{{\Psi }^{\mathrm{T}} \left( \mathit{\boldsymbol{x}}_{{{i}}} \right)}{\Psi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)} \end{align} $$ (A26)

      鲁棒核主成分$ {\bm \beta}_{{{i}}}, i=1, 2, \cdots, n $的方差为其对应的$ \bar{\mathit{\boldsymbol{K}}} $特征值, 即:

      $$ \begin{equation} \mathrm{var}\left( {\bm \beta}_{{{i}}} \right) = \lambda_{i}, \; \; i = 1, 2, \cdots, n \end{equation} $$ (A27)

      证明.对于$ i = 1, 2, \cdots, n $,

      $$ \begin{align} &\mathrm{var}\left( {\bm \beta}_{{{i}}}\right) = \mathrm{var}\left(\mathit{\boldsymbol{v}}_{{{i}}}^{{\rm{T}}}{\Psi }\left( \mathit{\boldsymbol{x}} \right) \right) = \\ &\qquad\frac{\sum\limits_{{k = 1}}^{{m}}{{\mu}_{{{k}}}^{\mathit{\boldsymbol{p}}} \left(\left(\mathit{\boldsymbol{v}}_{{{i}}}^{{\rm{T}}}{\Psi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right) \right) \left(\mathit{\boldsymbol{v}}_{{{i}}}^{{\rm{T}}}{\Psi } \left(\mathit{\boldsymbol{x}}_{{{k}}} \right) \right)^{{\rm{T}}}\right)}} {\sum\limits_{{k = 1}}^{{m}} {\mu}_{{{k}}}^{{p}} } = \\ &\qquad\mathit{\boldsymbol{v}}_{{{i}}}^{{\rm{T}}}{\mathit{\boldsymbol{C}}}\mathit{\boldsymbol{v}}_{{{i}}} = \mathit{\boldsymbol{v}}_{{{i}}}^{{\rm{T}}}{\lambda}_{{{i}}}\mathit{\boldsymbol{v}}_{{{i}}} = {\lambda}_{{{i}}} \end{align} $$ (A28)

      因$ \mathit{\boldsymbol{v}}_{{{i}}}^{{\rm{T}}}{\Psi }\left(\mathit{\boldsymbol{x}} \right) $的模糊均值为零

      $$ \begin{align} &\frac{\sum\limits_{j = 1}^m {{\mu }_{j}^{p}\left(\mathit{\boldsymbol{v}}_{{{i}}}^{\mathrm{T}}\left( {\Phi }\left(\mathit{\boldsymbol{x}}_{{{j}}} \right)-\frac{1}{\sum\limits_{k = 1}^m \mu _{k}^{p} }\sum\limits_{k = 1}^m {\mu_{k}^{p}{\Phi }\left(\mathit{\boldsymbol{x}}_{{{k}}} \right)} \right) \right)}}{\sum\limits_{j = 1}^m {\mu_{j}^{p}{\Phi }\left(\mathit{\boldsymbol{x}}_{{{j}}} \right)}} = \\ &\qquad\frac{\mathit{\boldsymbol{v}}_{{{i}}}^{\mathrm{T}} \left( \left({(\sum\limits_{j = 1}^m {{\Phi } \left( \mathit{\boldsymbol{x}}_{{{j}}} \right)}} \mu _{j}^{p}-\sum\limits_{k = 1}^m {\mu_{k}^{p}{\Phi}\left( \mathit{\boldsymbol{x}}_{{{k}}} \right)} \right) \right)}{\sum\limits_{j = 1}^m {\mu_{j}^{p}{\Phi }\left(\mathit{\boldsymbol{x}}_{{{j}}} \right)} } = 0 \end{align} $$ (A29)

      且$ \mathit{\boldsymbol{v}}_{{{i}}}^{\mathrm{T}}{\Psi }\left( \mathit{\boldsymbol{x}} \right) $为标量.

参考文献 (25)

目录

    /

    返回文章
    返回