2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于核自适应滤波器的时间序列在线预测研究综述

韩敏 马俊珠 任伟杰 钟凯

韩敏, 马俊珠, 任伟杰, 钟凯. 基于核自适应滤波器的时间序列在线预测研究综述. 自动化学报, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051
引用本文: 韩敏, 马俊珠, 任伟杰, 钟凯. 基于核自适应滤波器的时间序列在线预测研究综述. 自动化学报, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051
Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051
Citation: Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051

基于核自适应滤波器的时间序列在线预测研究综述


DOI: 10.16383/j.aas.c190051
详细信息
    作者简介:

    大连理工大学电子信息与电气工程学部教授. 主要研究方向为模式识别, 复杂系统建模及时间序列预测. 本文通信作者.E-mail: minhan@dlut.edu.cn

    大连理工大学电子信息与电气工程学部硕士研究生. 主要研究方向为时间序列在线建模, 预测.E-mail: majunzhu@mail.dlut.edu.cn

    大连理工大学电子信息与电气工程学部博士研究生. 主要研究方向为时间序列分析和特征选择.E-mail: renweijie@mail.dlut.edu.cn

    大连理工大学电子信息与电气工程学部博士研究生. 主要研究方向为工业过程监控, 故障诊断.E-mail: zhongkai0402@mail. dlut.edu.cn

  • 基金项目:  国家自然科学基金(61773087)资助

A Survey of Time Series Online Prediction based on Kernel Adaptive Filters

More Information
  • Fund Project:  Supported by National Natural Science Foundation of China (61773087)
  • 摘要: 核自适应滤波器是时间序列在线预测的重点研究领域之一, 本文对核自适应滤波器的最新进展及未来研究方向进行了分析和总结. 基于核自适应滤波器的时间序列在线预测方法, 能较好的解决预测、跟踪问题. 本文首先概述了三类核自适应滤波器的基本模型, 包括核最小均方算法, 核递归最小二乘算法和核仿射投影算法. 在此基础上, 从核自适应滤波器在线预测的内容和机理入手, 综述基于核自适应滤波器的时间序列在线预测方法. 最后, 本文将介绍这一领域潜在的研究方向和发展趋势, 并展望未来的挑战.
  • 图  1  从输入空间到特征空间的非线性映射f(·)

    Fig.  1  Nonlinear mapping f(·) from input space to feature space

    图  2  KAF方法分类框图

    Fig.  2  Classification diagram of the KAF method

    表  1  不同KAF方法的时间序列在线预测特性对比结果

    Table  1  Comparison of online prediction characteristics of time series of different KAF methods

    算法类型 预测效率 预测精度 收敛速度 特点
    KLMS[19] 较高 较低 较慢 泛化能力和正则化特性
    KRLS[20] 较低 较高 较快 白化处理, 收敛速度较快
    KAPA[21] 考虑多个样本, 降低梯度噪声
    下载: 导出CSV

    表  2  每次迭代过程涉及的计算复杂度比较

    Table  2  Comparison of computational complexity involved in each iteration

    核自适应滤
    波器类型
    在线稀
    疏类型
    计算复杂度
    KLMS[19] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L^2}} \right) $
    在线VQ ${\rm O}\left( {{L}} \right)$
    SF 更新$ {\omega} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
    更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
    KRLS[20] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
    在线VQ ${\rm O}\left( {{L}} \right)$
    更新$ {P}\left( i \right) $ ${\rm O}\left( {{L^2}} \right)$
    ALD 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L^2}} \right)$(${\rm O}\left( {{L^2}} \right)$
    假如字典改变)
    更新ALD ${\rm O}\left( {{L^2}} \right)$
    更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
    SW 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
    假如字典改变)
    更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
    更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
    FB 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
    假如字典改变)
    更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
    更新$ {{\hat K}_n}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
    MF 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
    更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
    更新${D}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
    CC 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
    假如字典改变)
    更新$ {e}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
    更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
    KAPA[21] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
    在线VQ ${\rm O}\left( {{L}} \right)$
    更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
    HC 更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
    更新$ {\bf{\zeta }}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
    下载: 导出CSV
  • [1] 1 Gan M, Chen C L P, Li H X, Chen L. Gradient radial basis function based varying-coefficient autoregressive model for nonlinear and nonstationary time series. IEEE Signal Processing Letter, 2015, 22(7): 809−812 doi:  10.1109/LSP.2014.2369415
    [2] 2 Schamberg G, Ba D, Coleman T P. A Modularized Efficient Framework for Non-Markov Time Series Estimation. IEEE Transactions on Signal Processing, 2018, 66(12): 3140−3154 doi:  10.1109/TSP.2018.2793870
    [3] 3 Gonzalez J P, San Roque A M, Perez E A. Forecasting functional time series with a new Hilbertian ARMAX model: Application to electricity price forecasting. IEEE Transactions on Power Systems, 2018, 33(1): 545−556 doi:  10.1109/TPWRS.2017.2700287
    [4] 4 Rahman M M, Islam M M, Murase K, and Yao X. Layered ensemble architecture for time series forecasting. IEEE Transactions on Cybernetics, 2016, 46(1): 270−283 doi:  10.1109/TCYB.2015.2401038
    [5] 5 Zhu J, Chen N, Peng W. Estimation of Bearing Remaining Useful Life Based on Multiscale Convolutional Neural Network. IEEE Transactions on Industrial Electronics, 2019, 66(4): 3208−3216 doi:  10.1109/TIE.2018.2844856
    [6] 6 Chang F J, Chen P A, Lu Y R, Huang E, Chang K Y. Real-time multi-step-ahead water level forecasting by recurrent neural networks for urban flood control. Journal of Hydrology, 2014, 517: 836−846 doi:  10.1016/j.jhydrol.2014.06.013
    [7] Vapnik V. The nature of statistical learning theory. Springer Science & Business Media, 2013
    [8] 8 Girosi F, Jones M, Poggio T. Regularization theory and neural networks architectures. Neural Computation, 1995, 7(2): 219−269 doi:  10.1162/neco.1995.7.2.219
    [9] 9 Platt J. A resource-allocating network for function interpolation. Neural Computation, 1991, 3(2): 213−225 doi:  10.1162/neco.1991.3.2.213
    [10] 10 Huang G B, Saratchandran P, Sundararajan N. A generalized growing and pruning RBF (GGAP-RBF) neural network for function approximation. IEEE Transactions on Neural Networks, 2005, 16(1): 57−67 doi:  10.1109/TNN.2004.836241
    [11] 11 Suykens J A K, Vandewalle J. Least squares support vector machine classifiers. Neural Processing Letters, 1999, 9(3): 293−300 doi:  10.1023/A:1018628609742
    [12] Scholkopf B, Smola A J. Learning with kernels: support vector machines, regularization, optimization, and beyond. MIT Press, 2001
    [13] Liu W F, Principe J C, Haykin S. Kernel adaptive filtering: a comprehensive introduction. John Wiley & Sons, 2011
    [14] 14 Scholkopf B, Smola A, Muller K R. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 1998, 10(5): 1299−1319 doi:  10.1162/089976698300017467
    [15] 15 Feng D Z, Bao Z, Jiao L C. Total least mean squares algorithm. IEEE Transactions on Signal Processing, 1998, 46(8): 2212−2130
    [16] 16 Henon M. A two-dimensional mapping with a strange attractor. The Theory of Chaotic Attractors. Springer, New York, NY, 1976: 94−102
    [17] 17 Kivinen J, Smola A J, Williamson R C. Online learning with kernels. IEEE Transactions on Signal Processing, 2004, 52(8): 2165−2176 doi:  10.1109/TSP.2004.830991
    [18] 18 Richard C, Bermudez J C M, Honeine P. Online prediction of time series data with kernels. IEEE Transactions on Signal Processing, 2009, 57(3): 1058−1067 doi:  10.1109/TSP.2008.2009895
    [19] 19 Liu W, Pokharel P P, Principe J C. The kernel least-mean-square algorithm. IEEE Transactions on Signal Processing, 2008, 56(2): 543−554 doi:  10.1109/TSP.2007.907881
    [20] 20 Engel Y, Mannor S, Meir R. The kernel recursive least squares algorithm. IEEE Transactions on Signal Processing, 2004, 52(8): 2275−2285 doi:  10.1109/TSP.2004.830985
    [21] 21 Liu W, Principe J C. Kernel affine projection algorithms. EURASIP Journal on Advances in Signal Processing, 2008, 2008(1): 784292 doi:  10.1155/2008/784292
    [22] 22 Chen B, Zhao S, Zhu P, et al. Quantized kernel least mean square algorithm. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(1): 22−32 doi:  10.1109/TNNLS.2011.2178446
    [23] 23 Zhao J, Liao X, Wang S, Principe J C. Kernel least mean square with single feedback. IEEE Signal Processing Letters, 2015, 22(7): 953−957 doi:  10.1109/LSP.2014.2377726
    [24] 24 Zheng Y, Wang S, Feng J, Chi K. A modified quantized kernel least mean square algorithm for prediction of chaotic time series. Digital Signal Processing, 2016, 48: 130−136 doi:  10.1016/j.dsp.2015.09.015
    [25] 25 Liu Y, Sun C, Jiang S. A Kernel Least Mean Square Algorithm Based on Randomized Feature Networks. Applied Sciences, 2018, 8(3): 458 doi:  10.3390/app8030458
    [26] Van Vaerenbergh S, Via J, Santamaria I. A sliding-window kernel RLS algorithm and its application to nonlinear channel identification. In: Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toulouse, France: IEEE, 2006. 5: V-V
    [27] 27 Liu W, Park I, Wang Y, Principe J C. Extended kernel recursive least squares algorithm. IEEE Transactions on Signal Processing, 2009, 57(10): 3801−3814 doi:  10.1109/TSP.2009.2022007
    [28] Van Vaerenbergh S, Santamaria I, Liu W, Principe J C. Fixed-budget kernel recursive least-squares. In: Proceeding of IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). Dallas, TX, USA: IEEE, 2010. 1882−1885
    [29] 29 Van Vaerenbergh S, Lazaro-Gredilla M, Santamaria I. Kernel recursive least-squares tracker for time-varying regression. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(8): 1313−1326 doi:  10.1109/TNNLS.2012.2200500
    [30] 30 Chen B, Zhao S, Zhu P, Principe J C. Quantized kernel recursive least squares algorithm. IEEE Transactions on Neural Networks and Learning Systems, 2013, 29(4): 1484−1491
    [31] 31 Wang S, Wang W, Duan S, Wang L. Kernel Recursive Least Squares With Multiple Feedback and Its Convergence Analysis. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2017, 66(10): 1237−1241
    [32] Zhang S, Han M, Wang J, Wang D. Multivariate time series online prediction based on adaptive normalized sparse kernel recursive least squares algorithm. In: Proceeding of 2017 Seventh International Conference on Information Science and Technology (ICIST). Da Nang, Vietnam: IEEE, 2017. 38−44.
    [33] Ogunfunmi T, Paul T. On the complex kernel-based adaptive filter. In: Proceeding of IEEE International Symposium on Circuits and Systems (ISCS). Rio de Janeiro, Brazil: IEEE, 2011. 1263−1266
    [34] Gil-Cacho J M, van Waterschoot T, Moonen M, Soren Holdt Jensen. Nonlinear acoustic echo cancellation based on a parallel-cascade kernel affine projection algorithm. In: Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto, Japan: IEEE, 2012. 33−36
    [35] Yang X, Hua Q, Zhao J, Chen B. Hybrid affine projection algorithm. In: Proceeding of International Conference on Control Automation Robotics & Vision (CARV). Marina Bay Sands, Singapore: 2014. 964−968
    [36] Ren X, Yu Q, Chen B, Zheng N, Ren P. A reconfigurable parallel FPGA accelerator for the kernel affine projection algorithm. In: Proceeding of IEEE International Conference on Digital Signal Processing (DSP). Singapore: IEEE, 2015. 906−910
    [37] Singh A, Ahuja N, Moulin P. Online learning with kernels: Overcoming the growing sum problem. In: Proceeding of IEEE International Workshop on Machine Learning for Signal Processing (MLSP). Santander, Spain: IEEE, 2012. 1−6
    [38] 38 Haykin S S. Adaptive filter theory. Pearson Education India, 2008
    [39] 39 Zhao S, Chen B, Zhu P, Principe J C. Fixed budget quantized kernel least-mean-square algorithm. Signal Processing, 2013, 93(9): 2759−2770 doi:  10.1016/j.sigpro.2013.02.012
    [40] Rzepka D. Fixed-budget kernel least mean squares. In: Proceeding of IEEE 17th Conference on Emerging Technologies & Factory Automation (ETFA). Krakow, Poland: IEEE, 2012. 1−4
    [41] 41 Fan H, Song Q. A linear recurrent kernel online learning algorithm with sparse updates. Neural Networks, 2014, 50: 142−153 doi:  10.1016/j.neunet.2013.11.011
    [42] 42 Liu W, Park I, Principe J C. An information theoretic approach of designing sparse kernel adaptive filters. IEEE Transactions on Neural Networks, 2009, 20(12): 1950−1961 doi:  10.1109/TNN.2009.2033676
    [43] 43 Ma W, Duan J, Man W, Chen B. Robust kernel adaptive filters based on mean p-power error for noisy chaotic time series prediction. Engineering Applications of Artificial Intelligence, 2017, 58: 101−110 doi:  10.1016/j.engappai.2016.11.010
    [44] 44 Chen B, Xing L, Zhao H, Principe J C. Generalized correntropy for robust adaptive filtering. IEEE Transactions on Signal Processing, 2016, 64(13): 3376−3387 doi:  10.1109/TSP.2016.2539127
    [45] 45 Chen B, Wang J, Zhao H, Principe J C. Convergence of a fixed-point algorithm under maximum correntropy criterion. IEEE Signal Processing Letters, 2015, 22(10): 1723−1727 doi:  10.1109/LSP.2015.2428713
    [46] 46 Chen B, Zhao S, Zhu P, et al. Mean square convergence analysis for kernel least mean square algorithm. Signal Processing, 2012, 92(11): 2624−2632 doi:  10.1016/j.sigpro.2012.04.007
    [47] 47 Gao W, Chen J, Richard C, Hang J. Online dictionary learning for kernel LMS. IEEE Transactions on Signal Processing, 2014, 62(11): 2765−2777 doi:  10.1109/TSP.2014.2318132
    [48] Han M, Wang Y. Nonlinear time series online prediction using reservoir Kalman filter. In: Proceeding of IEEE International Joint Conference on Neural Networks (IJCNN). Atlanta, GA, USA: IEEE, 2009. 1090−1094
    [49] 49 Zhou H, Huang J, Lu F, ThiaKirubarajan. Echo state kernel recursive least squares algorithm for machine condition prediction. Mechanical Systems and Signal Processing, 2018, 111: 68−86 doi:  10.1016/j.ymssp.2018.03.047
    [50] Wang X, Han M. Multivariate time series prediction based on multiple kernel extreme learning machine. In: Proceeding of IEEE International Joint Conference on Neural Networks (IJCNN). Beijing, China: IEEE, 2014. 198−201
    [51] Xu M, Zhang S, Han M. Multivariate time series modeling and prediction based on reservoir independent components. In: Proceeding of IEEE Sixth International Conference on Intelligent Control and Information Processing (ICICIP). Wuhan, China: IEEE, 2015. 325−330
    [52] 52 Han M, Zhang S, Xu M, Qiu T, Wang N. Multivariate Chaotic Time Series Online Prediction Based on Improved Kernel Recursive Least Squares Algorithm. IEEE Transactions on Cybernetics, 2018(99): 1−13
    [53] 53 Han M, Ren W, Xu M, Qiu T. Nonuniform State Space Reconstruction for Multivariate Chaotic Time Series. IEEE Transactions on Cybernetics, 2018(99): 1−11
    [54] 韩敏, 任伟杰, 许美玲. 一种基于L1范数正则化的回声状态网络. 自动化学报, 2014, 40(11): 2428−2435

    54 Han Min, Ren Wei-Jie, Xu Mei-Ling. An improved echo state network via L1-norm regularization. Acta Automatica Sinica, 2014, 40(11): 2428−2435
    [55] 唐舟进, 任峰, 彭涛, 王文博. 基于迭代误差补偿的混沌时间序列最小二乘支持向量机预测算法. 物理学报, 2014, 63(5): 1−10

    55 Tang Zhou-Jin, Ren Feng, Peng Tao, Wang Wen-Bo. A least square support vector machine prediction algorithm for chaotic time series based on the iterative error correction. Acta Physica Sinica, 2014, 63(5): 1−10
    [56] 刘畅, 郎劲. 基于混核LSSVM的批特征功率预测方法. 自动化学报, 2018, 42(3): 252−264

    56 Liu Chang, Lang Jin. Wind Power Prediction Method Based on Hybrid Kernel LSSVM with Batch Feature. Acta Automatica Sinica, 2018, 42(3): 252−264
    [57] 梅英, 谭冠政, 刘振焘, 武鹤. 基于大脑情感学习模型和自适应遗传算法的混沌时间序列预测. 物理学报, 2018, 67(8): 80502−80502

    57 Mei Ying, Tan Guan-Zheng, Liu Zhen-Tao, Wu He. Chaotic time series prediction based on brain emotional learning model and self-adaptive genetic algorithm. Acta Physica Sinica, 2018, 67(8): 80502−80502
    [58] 杨臻明, 岳继光, 王晓保, 萧蕴诗. 基于独立成分分析的含噪声时间序列预测. 控制与决策, 2013, 28(4): 501−505

    58 Yang Zhen-Ming, Yue Ji-Guang, Wang Xiao-Bao, Xiao Yun-Shi. Noisy time series prediction using independent component analysis. Control and Decision, 2013, 28(4): 501−505
    [59] 宋晓祥, 郭艳, 李宁, 余东平. 基于稀疏贝叶斯学习的协同进化时间序列缺失数据预测算法. 计算机科学, 2018, 46(7): 1−7 doi:  10.11896/j.issn.1002-137X.2018.07.001

    59 Song Xiao-Xiang, Guo Yan, Li Ning, Yu Dong-Ping. Missing data prediction algorithm based on sparse Bayesion learning in coevolving time series. Computer Science, 2018, 46(7): 1−7 doi:  10.11896/j.issn.1002-137X.2018.07.001
    [60] 宋晓样, 郭艳, 李宁, 王萌. 基于压缩感知的时间序列缺失数据预测算法. 计算机科学, 2019, 46(06): 35−40

    60 Song Xiao-Xiang, Guo Yan, Li Ning, Wang Meng. Missing Data Prediction Based on Compressive Sensing in Time Series. Computer Science, 2019, 46(06): 35−40
    [61] 61 Paul T K, Ogunfunmi T. On the Convergence Behavior of the Affine Projection Algorithm for Adaptive Filters. IEEE Transactions on Circuits and Systems, 2011, 58(8): 1813−1826 doi:  10.1109/TCSI.2011.2106091
    [62] 62 Slavakis K, Theodoridis S, Yamada I. Online kernel-based classification using adaptive projection algorithms. IEEE Transactions on Signal Processing, 2008, 56(7): 2781−2796 doi:  10.1109/TSP.2008.917376
    [63] 63 Yukawa M. Multikernel adaptive filtering. IEEE Transactions on Signal Processing, 2012, 60(9): 4672−4682 doi:  10.1109/TSP.2012.2200889
    [64] 张帆. Adaline神经网络随机逼近LMS算法的仿真研究. 电子设计工程, 2009, 17(9): 88−90 doi:  10.3969/j.issn.1674-6236.2009.09.034

    64 Zhang Fan. Simulation study of stochastic approximation LMS algorithm of Adaline neural network. Electronic Design Engineering, 2009, 17(9): 88−90 doi:  10.3969/j.issn.1674-6236.2009.09.034
    [65] 65 Han M, Zhong K, Qiu T, Han B. Interval type-2 fuzzy neural networks for chaotic time series prediction: a concise overview. IEEE Transactions on Cybernetics, 2018, 49(7): 2720−2731
    [66] 李海林, 梁叶. 基于动态时间弯曲的股票时间序列联动性研究. 数据采集与处理, 2016, 31(1): 117−129

    66 Li Hai-Lin, Liang Ye. Co-movement research of stock timeseries bsed on dynamic time warping. Data Acquisition and Processing, 2016, 31(1): 117−129
    [67] 67 Li H. Piecewise aggregate representations and lower-bound distance functions for multivariate time series. Physica A: Statistical Mechanics and its Applications, 2015, 427: 10−25 doi:  10.1016/j.physa.2015.01.063
    [68] 韩敏, 王亚楠. 基于Kalman滤波的储备池多元时间序列在线预报器. 自动化学报, 2010, 36(1): 169−173 doi:  10.3724/SP.J.1004.2010.00169

    68 Han Min, Wang Ya-Nan. Multivariate time series online predictor with Kalman filter trained reservoir. Acta Automatica Sinica, 2010, 36(1): 169−173 doi:  10.3724/SP.J.1004.2010.00169
    [69] 69 Aghabozorgi S, Teh Y W. Stock market co-movement assessment using a three-phase clustering method. Expert Systems with Applications, 2014, 41(4): 1301−1314 doi:  10.1016/j.eswa.2013.08.028
    [70] 70 Jeon S, Hong B, Chang V. Pattern graph tracking-based stock price prediction using big data. Future Generation Computer Systems, 2018, 80: 171−187 doi:  10.1016/j.future.2017.02.010
    [71] 万校基, 李海林. 基于特征表示的金融多元时间序列数据分析. 统计与决策, 2015, 44(23): 151−155

    71 Wan Xiao-Ji, Li Hai-Lin. Financial multivariate time series data analysis based on feature representation. Statistics and Decision, 2015, 44(23): 151−155
    [72] 72 Lu L, Zhao H, Chen B. Time series prediction using kernel adaptive filter with least mean absolute third loss function. Nonlinear Dynamics, 2017, 90(2): 999−1013 doi:  10.1007/s11071-017-3707-7
    [73] Lu L, Zhao H, Chen B. KLMAT: a kernel least mean absolute third algorithm. arXiv preprint, arXiv: 1603.03564, 2016
    [74] Anava O, Hazan E, Mannor S, Ohad Shamir. Online learning for time series prediction. In: Proceeding of Conference on Learning Theory. 2013. 172−184
    [75] 75 Santos J D A, Barreto G A. An outlier-robust kernel RLS algorithm for nonlinear system identification. Nonlinear Dynamics, 2017, 90(3): 1707−1726 doi:  10.1007/s11071-017-3760-2
    [76] 76 Hong Y S T. Dynamic nonlinear state-space model with a neural network via improved sequential learning algorithm for an online real-time hydrological modeling. Journal of Hydrology, 2012, 468: 11−21
    [77] 77 Chen B, Liang J, Zheng N, Principe J C. Kernel least mean square with adaptive kernel size. Neurocomputing, 2016, 191: 95−106 doi:  10.1016/j.neucom.2016.01.004
    [78] Song Q. Time Series Prediction Based on Online Learning. In: Proceeding of IEEE 14th International Conference on Machine Learning and Applications (ICMLA). Miami, FL, USA: IEEE, 2015. 857-864
    [79] 79 Tuia D, Munoz-Mari J, Rojo-Alvarez J L, Manel Martinez R, Gustavo C V. Explicit recursive and adaptive filtering in reproducing kernel Hilbert spaces. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(7): 1413−1419 doi:  10.1109/TNNLS.2013.2293871
    [80] 80 Wang S, Zheng Y, Duan S, Wang L, Tan H. Quantized kernel maximum correntropy and its mean square convergence analysis. Digital Signal Processing, 2017, 63: 164−176 doi:  10.1016/j.dsp.2017.01.010
    [81] Constantin I, Lengelle R. Performance analysis of kernel adaptive filters based on RLS algorithm. In: Proceeding of IEEE 25th International Conference on Microelectronics (ICM). bEIRUT, lEBANON: IEEE, 2013. 1−4
    [82] Van Vaerenbergh S, Santamaria I, Lazaro-Gredilla M. Estimation of the forgetting factor in kernel recursive least squares. In: Proceeding of IEEE International Workshop on Machine Learning for Signal Processing (MLSP). sANTANDER, sPAIN: IEEE, 2012. 1−6
    [83] 83 Crammer K, Dekel O, Keshet J, Shalev-Shwartz S, Singer Y. Online passive-aggressive algorithms. Journal of Machine Learning Research, 2006, 7(Mar): 551−585
    [84] 84 Mairal J, Bach F, Ponce J, Sapiro G. Online learning for matrix factorization and sparse coding. Journal of Machine Learning Research, 2010, 11(Jan): 19−60
    [85] 85 Guan N, Tao D, Luo Z, Yuan B. Online nonnegative matrix factorization with robust stochastic approximation. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(7): 1087−1099 doi:  10.1109/TNNLS.2012.2197827
    [86] 86 Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 2011, 12(Jul): 2121−2159
    [87] 87 Zhao P, Hoi S C H, Jin R. Double updating online learning. Journal of Machine Learning Research, 2011, 12(May): 1587−1615
    [88] 88 Wang Z, Crammer K, Vucetic S. Breaking the curse of kernelization: Budgeted stochastic gradient descent for large-scale svm training. Journal of Machine Learning Research, 2012, 13(Oct): 3103−3131
    [89] 89 Le T, Nguyen T D, Nguyen V, Phung D. Approximation vector machines for large-scale online learning. The Journal of Machine Learning Research, 2017, 18(1): 3962−4016
    [90] 90 Hoi S C H, Wang J, Zhao P. Libol: A library for online learning algorithms. The Journal of Machine Learning Research, 2014, 15(1): 495−499
    [91] Bottou L, Cun Y L. Large scale online learning. In: Proceeding of Advances in neural information processing systems(NIPS). Vancouver, British, Columbia, 2004. 217−224
    [92] 92 Dieuleveut A, Flammarion N, Bach F. Harder, better, faster, stronger convergence rates for least-squares regression. The Journal of Machine Learning Research, 2017, 18(1): 3520−3570
    [93] 93 Lin J, Zhou D X. Online learning algorithms can converge comparably fast as batch learning. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2367−2378 doi:  10.1109/TNNLS.2017.2677970
    [94] 94 Flores A, de Lamare R C. Set-membership adaptive kernel NLMS algorithms: Design and analysis. Signal Processing, 2019, 154: 1−14 doi:  10.1016/j.sigpro.2018.07.007
    [95] 95 Liu Y, Sun C, Jiang S. Kernel filtered-x LMS algorithm for active noise control system with nonlinear primary path. Circuits, Systems, and Signal Processing, 2018: 1−19
    [96] 96 Lei Y, Shi L, Guo Z C. Convergence of unregularized online learning algorithms. The Journal of Machine Learning Research, 2017, 18(1): 6269−6301
    [97] 97 Ma Y, Zheng T. Stabilized sparse online learning for sparse data. The Journal of Machine Learning Research, 2017, 18(1): 4773−4808
    [98] Wada T, Fukumori K, Tanaka T. Dictionary learning for gaussian kernel adaptive filtering with variablekernel center and width. In: Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada: IEEE, 2018. 2766−2770
    [99] 99 Wang S, Dang L, Chen B, Ling C, Wang L, Duan S. Kernel online learning algorithm with scale adaptation. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2018, 65(11): 1788−1792 doi:  10.1109/TCSII.2017.2765523
    [100] Ohnishi M, Yukawa M. Online nonlinear estimation via iterative L2-space projections: reproducing kernel of subspace. arXiv preprint arXiv: 1712.04573, 2017
    [101] Shin B S, Yukawa M, Cavalcante R L G, Dekorsy A. Distributed adaptive learning with multiple kernels in diffusion networks. arXiv preprint arXiv: 1801.07087, 2018
  • [1] 马跃峰, 梁循, 周小平. 一种基于全局代表点的快速最小二乘支持向量机稀疏化算法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150720
    [2] 王琴, 沈远彤. 基于压缩感知的多尺度最小二乘支持向量机[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150296
    [3] 陶剑文, 王士同. 核分布一致局部领域适应学习[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.01295
    [4] 陶剑文, 王士同. 领域适应核支持向量机[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00797
    [5] 孙明轩, 毕宏博. 学习辨识:最小二乘算法及其重复一致性[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00698
    [6] 吴枫, 仲妍, 吴泉源. 基于增量核主成分分析的数据流在线分类框架[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00534
    [7] 李妍, 毛志忠, 王琰. 基于偏差补偿递推最小二乘的Hammerstein-Wiener模型辨识[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00163
    [8] 吴秀永, 徐科, 徐金梧. 基于Gabor小波和核保局投影算法的表面缺陷自动识别方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00438
    [9] 王雪松, 田西兰, 程玉虎, 易建强. 基于协同最小二乘支持向量机的Q学习[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00214
    [10] 徐东彬, 黄磊, 刘昌平. 自适应核密度估计运动检测方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00379
    [11] 王永忠, 梁彦, 赵春晖, 潘泉. 基于多特征自适应融合的核跟踪方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00393
    [12] 郝燕玲, 王众. 基于SNN核的景象匹配算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.01475
    [13] 颜学峰. 基于径基函数-加权偏最小二乘回归的干点软测量[J]. 自动化学报, doi: 10.1360/aas-007-0193
    [14] 李丽娟, 苏宏业, 褚健. 基于在线最小二乘支持向量机的广义预测控制[J]. 自动化学报, doi: 10.1360/aas-007-1182
    [15] 许建化, 张学工, 李衍达. 最小平方误差算法的正则化核形式[J]. 自动化学报
    [16] 赵龙, 陈哲. 新型联邦最小二乘滤波算法及应用[J]. 自动化学报
    [17] 李松涛, 张长水, 荣钢, 边肇祺, Dongming Zhao. 一种基于最小二乘估计的深度图像曲面拟合方法[J]. 自动化学报
    [18] 王晓, 韩崇昭, 万百五. 两种新的有效的非线性系统最小二乘辨识算法[J]. 自动化学报
    [19] 罗贵明. 基于最小二乘算法的最优适应控制器[J]. 自动化学报
    [20] 孟晓风, 王行仁, 黄俊钦. 最小二乘估计的HOUSEHOLDER变换快速递推算法[J]. 自动化学报
  • 加载中
图(2) / 表(2)
计量
  • 文章访问数:  399
  • HTML全文浏览量:  317
  • PDF下载量:  46
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-01-21
  • 录用日期:  2019-09-24
  • 网络出版日期:  2020-01-02

基于核自适应滤波器的时间序列在线预测研究综述

doi: 10.16383/j.aas.c190051
    基金项目:  国家自然科学基金(61773087)资助
    作者简介:

    大连理工大学电子信息与电气工程学部教授. 主要研究方向为模式识别, 复杂系统建模及时间序列预测. 本文通信作者.E-mail: minhan@dlut.edu.cn

    大连理工大学电子信息与电气工程学部硕士研究生. 主要研究方向为时间序列在线建模, 预测.E-mail: majunzhu@mail.dlut.edu.cn

    大连理工大学电子信息与电气工程学部博士研究生. 主要研究方向为时间序列分析和特征选择.E-mail: renweijie@mail.dlut.edu.cn

    大连理工大学电子信息与电气工程学部博士研究生. 主要研究方向为工业过程监控, 故障诊断.E-mail: zhongkai0402@mail. dlut.edu.cn

摘要: 核自适应滤波器是时间序列在线预测的重点研究领域之一, 本文对核自适应滤波器的最新进展及未来研究方向进行了分析和总结. 基于核自适应滤波器的时间序列在线预测方法, 能较好的解决预测、跟踪问题. 本文首先概述了三类核自适应滤波器的基本模型, 包括核最小均方算法, 核递归最小二乘算法和核仿射投影算法. 在此基础上, 从核自适应滤波器在线预测的内容和机理入手, 综述基于核自适应滤波器的时间序列在线预测方法. 最后, 本文将介绍这一领域潜在的研究方向和发展趋势, 并展望未来的挑战.

English Abstract

韩敏, 马俊珠, 任伟杰, 钟凯. 基于核自适应滤波器的时间序列在线预测研究综述. 自动化学报, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051
引用本文: 韩敏, 马俊珠, 任伟杰, 钟凯. 基于核自适应滤波器的时间序列在线预测研究综述. 自动化学报, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051
Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051
Citation: Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1−17. doi: 10.16383/j.aas.c190051
  • 气象、水文、金融、医学以及工程等领域, 其数据多以时间序列的形式进行存储. 时间序列是某种变量或统计指标的数值随时间排序所形成的序列集合, 其中既含有全部变量的历史信息, 又含有参与系统动态演化的变量信息, 例如在气象数据中, 温度、湿度、风速、风向、气压、降雨量、日照时数、紫外线强度的变化等. 从时间序列数据的历史信息中预测未来的变化, 以提前做好防护措施, 对保障人类生命财产安全具有重要意义[1-6].

    近年来, 随着对时间序列研究的深入化, 传统的线性自适应滤波算法[7], 例如最小均方(least mean squares, LMS)算法, 递归最小二乘(recursive least squares, RLS)算法等都不满足预测要求. LMS 收敛过程缓慢, 步长与收敛速度、失调之间也存在矛盾. RLS具有计算复杂度较高、所需存储量较大的缺陷. 同时, 它们的应用实时性也较差, 在处理非线性、非平稳、高复杂性等问题时效果并不理想. 所以对非线性、非平稳、复杂系统的研究已经引起了许多国内外专家学者的广泛关注, 并取得了一定的研究成果.

    对于上述问题, 出现的建模方法主要包括: 人工神经网络(artificial neural networks, ANN)[8-10]、支持向量机(support vector machines, SVM)[11]、核自适应滤波器(kernel adaptive filter, KAF)[12,13]以及一些其它非线性方法. ANN和SVM都属于离线方法, 不满足在线实时性要求. 而KAF是指线性自适应滤波器在核空间(kernel space, KS)的扩展[14,15], 该过程满足在线预测要求, 对复杂时间序列预测具有实时输出的特点. 其中“核技巧”操作不需被显式地知道训练样本在特征空间内的映射[16], 它直接通过核函数计算来完成特征空间的内积计算, 整个计算过程被简化, 该映射过程如图1.

    图  1  从输入空间到特征空间的非线性映射f(·)

    Figure 1.  Nonlinear mapping f(·) from input space to feature space

    目前, 国内外学者使用最多的是高斯核函数. 核函数是先将输入数据映射到高维空间, 再在高维空间进行线性操作.该过程对解决非线性问题具有明显的优势[17,18]. 随着对核函数[15-18]研究的深入, 学者们相继提出了应用于时间序列的计算复杂度较低、跟踪时变能力较强的KAF在线预测算法.

    近年来, 由于时间序列组成的非线性系统越来越复杂, 简单的离线预测已经不能满足用户的要求. 对于上述问题, 多种时间序列在线预测方法相继出现. 目前, 时间序列在线预测方法主要分为以下几类: 重新建模方法、动态神经网络方法、在线支持向量回归方法、递归贝叶斯估计方法和KAF方法.

    KAF使用核方法实现非线性传递函数. 在KAF中, 信号被映射到高维线性特征空间, 并且非线性函数被近似为核的总和, 其域是特征空间. 如果这是在再生核希尔伯特空间(Reproducing kernel Hilbert space, RKHS) 中完成的, 则核方法可以是非线性函数的通用逼近器. 内核方法具有凸损函数的优点, 同时没有局部最小值[13]. 近年来, 随着环境的不断复杂化, 其预测、跟踪问题也日趋复杂化. 在线预测作为一种实时预测、跟踪时变的有效方法, 在时间序列预测方面展现出较好的能效结果, 并满足用户的实时监测与控制的要求[19-21]. 基于KAF 的在线预测方法在许多实际应用领域中都已展现出较好的预测性能, 其中主要包括三类, 核最小均方(kernel least mean squares, KLMS)[19]算法, 核递归最小二乘(kernel recursive least squares, KRLS)[20]算法和核仿射投影算法(kernel affine projection algorithm, KAPA)[21]. 在此基础上, 许多学者也提出相应的改进算法, 根据KAF的发展进程, KAF在线预测模型的研究进展具体如图2 所示, 它详细的概括了文章的整体研究脉络.

    图  2  KAF方法分类框图

    Figure 2.  Classification diagram of the KAF method

    然而, KAF方法在时间序列在线预测过程中还存在以下的问题: 随着新样本的加入, 系统所占用的内存不断增加(主要表现为核矩阵维度的增加), 计算复杂度会随样本量的增加而增长. 针对该问题, 学者们对以上三类KAF方法进行了相应的改进[22-36].在一定程度上, 在线预测帮助研究者实现了对非线性、非平稳、复杂时间序列系统的实时预测, 对进一步将要发生的变化做出更科学、合理的决策.

    本文的贡献主要集中在: 总结基于KAF的时间序列在线预测研究进展, 重点介绍基于KAF的时间序列在线预测方法, 主要包括KLMS, KRLS和KAPA三类, 在本文还介绍了这一研究领域的研究趋势和发展延伸, 并展望未来的挑战, 即充分理解基于KAF的时间序列在线预测的发展趋势, 以供进一步研究.

    • 对于KLMS中存在的计算复杂度和核矩阵的增长问题, 文献[22]提出一种量化核最小均方(quantization kernel least mean square, QKLMS)算法, 其量化操作限制了核函数维数的无限增长, 基本思想是通过量化操作压缩输入数据, 而不像其他稀疏化方法那样直接丢弃冗余数据. 文献[23] 提出了单反馈核最小均方((single feedback kernel least mean square, SF-KLMS)算法, 它使用单个延迟输出以循环方式更新权重, 过去信息的使用也显著加快了收敛速度. 文献[24] 提出了改进的量化核最小均方(modification quantization kernel least mean square, M-QKLMS)算法, 它在使用预测误差的同时还用梯度下降方法来更新滤波器系数. 不同于QKLMS 只考虑预测误差, M-QKLMS 采用新的训练数据和预测误差来调整字典中最接近中心的系数. 文献[25]提出了一种基于随机特征网络的KLMS算法(kernel least mean square base on random feature networks, KLMS-RFN), 它与理论上隐式地将输入映射到无限维空间高斯核相反, 随机特征映射是将样本输入到相对低维的特征空间, 并使变换后的样本与使用移位不变内核的特征空间中近似等效.

      KAF作为在线预测模型, 已经在时间序列预测领域展现出较好的性能[18]. 以下将详细说明基于KLMS及其改进方法的时间序列在线预测机理.

    • 目前, 对于复杂难预测环境, LMS与核方法结合的应用方式随之出现. 2008年, Liu等将LMS嵌入KS提出KLMS[19]. KLMS是指在RKHS中进行的自适应过程, 它结合核技巧和LMS来实现样本到样本的更新[37].

      对于一个有限的训练数据集, KLMS可通过未知映射将输入样本由低维的原始空间映射到高维特征空间, 再在高维特征空间执行简单的线性计算. 其中涉及步进参数的预设置, 主要有两种方法实现: 1) 根据经验设置步进参. 2) 随着新样本的到来, 自适应更新权重$ {{w}}\left( i \right) $ 的同时实时改变步进参数.

      $$ \begin{array}{l} {{w}}\left( i \right) = {{w}}\left( {i - 1} \right) + \mu {{e}}\left( i \right){{\varphi}} \left( i \right) \end{array} $$ (1)

      其中, $ \mu $是步进参数. $ {{e}}\left( i \right) $表示预测误差, $ {{\varphi}} \left( i \right) $表示在特征空间映射后的输入样本.

      $$ \begin{array}{l} {{e}}\left( i \right) = {{d}}\left( i \right) - {{w}}{\left( {i - 1} \right)^{\rm{T}}}{{\varphi}} \left( i \right) \end{array} $$ (2)

      其中, $ {{d}}\left( i \right) = {{\varphi}} {\left( i \right)^{\rm{T}}}w\left( i \right) $.

      上述过程在增加较少运算量的情况下加快了模型收敛速度, 可较快跟踪到自适应参数, 减少训练序列的预处理时间, 从而提高自适应参数的利用效率. 通过以上过程, 得到KLMS模型的预测输出$ {{y}}\left( i \right) $.

      $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^i {{{{\alpha}} _j}\left( i \right)k\left( {{{u}}\left( i \right),{{u}}\left( j \right)} \right)} \end{array} $$ (3)

      其中, $ {{{\alpha}} _j}\left( i \right) = \eta {{e}}\left( j \right) $, $ \eta $ 表示学习率. $ k\left( { \cdot , \cdot } \right) $表示核函数, 该计算过程也被称为核技巧.

      总的来说, KAF在时间序列预测中是一个记忆强化操作. 同时KAF还属于在线操作范畴, 它通过使用之前的样本和预测误差来逐步构造出KAF的输出.

      随着KLMS不断应用于时间序列预测, 其预测也出现了许多亟待解决的问题[38]. 随着预测样本的不断增多, 预测过程中出现计算复杂度较大的问题, 即随着新样本的不断到来, 核矩阵维数不断增大, 模型内存消耗也不断增大, 从而出现预测时间长、效率低、精度低等问题. 对于上述问题, 本章第2节到第5节对给出的多种解决方案进行详细说明.

    • 2012年Chen等在KLMS的基础上提出矢量量化(vector quantization, VQ)操作, 得到量化核最小均方算法. VQ 方法不同于近似依赖准则(approximate linear dependence, ALD)[20], 惊奇准则(surprise criterion, SC), 固定预算准则(fixed budget, FB)[39,40] 和新奇准则(novel criterion, NC)等稀疏方法. VQ 作为稀疏[41,42]的一种替代方法, 其基本思想是矢量量化并以此压缩输入或特征空间, 用以遏制自适应滤波器中高斯核结构的增长. QKLMS 中权重$ {{\Omega}} \left( i \right) $ 的更新过程如下所示:

      $$ \begin{array}{l} {{\Omega}} \left( i \right) = {{\Omega}} \left( {i - 1} \right) + {{\eta}} e\left( i \right)Q\left[ {{{\varphi}} \left( i \right)} \right] \end{array} $$ (4)

      其中, $ Q\left[ \cdot \right] $是量化算子. 与稀疏方法不同, VQ操作是使用“冗余”数据来更新最接近中心的系数, 该过程提高了数据的利用效率[22].

      QKLMS的预测输出$ {{y}}\left( i \right) $如下式所示:

      $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^{size\left( {C\left( {i - 1} \right)} \right)} {{{{\alpha}} _j}\left( i \right)k\left( {{{{C}}_j}\left( {i - 1} \right),{{u}}\left( i \right)} \right)} \end{array} $$ (5)

      其中, $ {{{C}}_j}\left( \cdot \right) $表示字典$ {{C}} $中的第$ j $个元素.

      QKLMS已经应用于短时混沌时间序列预测[22]. 同时VQ利用“冗余”数据来更新最接近的中心系数, 以产生更紧凑的网络, 最终在时间序列在线预测上得到更高的预测精度和预测效率.

    • 前述的KLMS和QKLMS都是前馈网络, 2015年Zhao等首次提出具有单反馈结构的单反馈核最小均方(SF-KLMS)算法. 在SF-KLMS中只有一个延迟输出被用于以循环方式更新权重, 过去信息的使用显著地加快了模型的收敛速度. SF-KLMS 具有更紧凑、更高效的循环结构.

      在SF-KLMS中包含两个权重更新过程: 1) 前馈权重$ {{w}}\left( i \right) $; 2) 反馈权重$ \gamma \left( i \right) $.

      $$ \begin{split} {{w}}\left( {i + 1} \right) =& {{w}}\left( i \right){\rm{ + }}\frac{{{\eta _w}\left( i \right)}}{{{\rho _w}\left( i \right)}}e\left( i \right){{k}}\left( i \right) {\rm{ + }}\\[-5pt] &\frac{{{\eta _w}\left( i \right)}}{{{\rho _w}\left( i \right)}}e\left( i \right){\beta _w}\left( i \right)\gamma \left( i \right){{{D}}_w}\left( {i - 1} \right) \end{split} $$ (6)
      $$ \begin{split} \gamma \left( {i + 1} \right) =& \gamma \left( i \right){\rm{ + }}\frac{{{\eta _\gamma }\left( i \right)}}{{{\rho _\gamma }\left( i \right)}}e\left( i \right)y\left( {i - 1} \right)+ \\[-3pt] &\frac{{{\eta _\gamma }\left( i \right)}}{{{\rho _\gamma }\left( i \right)}}e\left( i \right){\beta _\gamma }\left( i \right)\gamma \left( i \right){D_\gamma }\left( {i - 1} \right) \end{split}$$ (7)

      其中, $ {\eta _w} $$ {\eta _w} $是学习率, $ {\rho _w} $$ {\rho _\gamma } $ 是归一化参数, $ {\beta _w} $$ {\beta _\gamma } $是调整最新梯度信息的参数, ${{{D}}_w}\left( i \right) = {{k}}\left( i \right) + $$ {\beta _w}\left( i \right)\gamma \left( i \right){{{D}}_w}\left( {i - 1} \right) $是当前梯度信息, ${D_\gamma }\left( i \right){\rm{ = }} $$ y\left( {i - 1} \right) + {\beta _\gamma }\left( i \right)\gamma \left( i \right){D_\gamma }\left( {i - 1} \right) $.

      SF-KLMS具有以下优势: 1) SF-KLMS利用延迟输出的先前梯度信息$ {{{D}}_w}\left( {i - 1} \right) $ 来更新当前梯度$ {{{D}}_w}\left( i \right) $; 2) 与无反馈的KAF(如KLMS)和含多反馈的KAF(如LRKOL)相比, SF-KLMS具有更紧凑的结构, 更快的收敛速度和更好的预测性能.

      根据上述分析, 得到SF-KLMS模型的输出$ {{y}}\left( i \right) $.

      $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{l = 1}^m {k\left( {{{u}}\left( i \right),{{u}}\left( {{C_l}} \right)} \right){w_l} + \gamma \left( i \right)y\left( {i - 1} \right)} \end{array} $$ (8)

      其中, $ {{u}}\left( {{C_l}} \right) $表示字典的第$ l $个信号.

      在短时时间序列预测中, 调节因子$ {\beta _w} $被设置成较小值, 而$ {\beta _\gamma } $ 可被设置为相对较大的值用以提高反馈的效果[43].

    • KAF在线预测算法已经在解决复杂系统的预测、跟踪方面展现出强大的能力. 改进的量化核最小均方(M-QKLMS)算法于2016年被Zheng等提出, 该方法是在QKLMS方法的基础上进行的改进[24]. M-QKLMS 采用梯度下降方法来更新核自适应滤波器系数, 不同于QKLMS只考虑预测误差, 该方法还采用新训练数据与预测误差来共同调整字典最接近中心的系数.

      计算新样本与现存字典之间的距离.

      $$ \begin{array}{l} \begin{array}{l} dis\left( {{{u}}\left( i \right),D\left( {i - 1} \right)} \right)=\\ \mathop {\min }\limits_{1 \text{≤} l \text{≤} \left( {D\left( {i - 1} \right)} \right)} \left\| {{{u}}\left( i \right) - {D_l}\left( {i - 1} \right)} \right\| > \gamma \end{array} \end{array} $$ (9)

      其中, $ \gamma $是量化参数. 如果$ dis\left( {{{u}}\left( i \right),D\left( {i - 1} \right)} \right) \text{≤} \gamma $, 那么权重矩阵为$ {{w}}_{{l^ * }}\left( i \right) = {{\bf{{{w}}}}_{{l^ * }}}\left( {i - 1} \right) + \eta \kappa ( {D_{{l^ * }}}\left( {i - 1} \right),$${{u}}\left( i \right) )e\left( i \right) $. 否则, 权重矩阵为$ {{w}}\left( i \right) = [ {{w}}\left( {i - 1} \right),$$\eta e\left( i \right) ] $.

      根据上述判断结果, 得到输出$ {{y}}\left( i \right) $.

      $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^i {{{{w}}_j}\left( {i - 1} \right)k\left( {{{{D}}_j}\left( {i - 1} \right),{{u}}\left( i \right)} \right)} \end{array} $$ (10)

      M-QKLMS先执行VQ操作, 再利用梯度下降方法与预测误差共同作用, 从而有效地降低网络结构复杂度. 该过程提高了历史信息的利用效率[24]. 总之, M-QKLMS利用新训练数据隐藏的信息, 达到了更好的预测精度.

    • 为了在非静态环境中构建在线KAF, Liu等于2018年提出了基于随机特征网络的核最小均方算法[25]. KLMS-RFN与将输入映射到高维特征空间的高斯核相比, 随机特征映射变换是将样本输入到相对低维的特征空间, 其中变换后的样本近似等于在特征空间中使用一个移位不变核, 如下所示:

      $$ \begin{array}{l} {{k}} \left( {{{{x}}_1},{{{x}}_2}} \right) = \left\langle {\Phi \left( {{{{x}}_1}} \right),\Phi \left( {{{{x}}_2}} \right)} \right\rangle \approx \varphi {\left( {{{{x}}_1}} \right)^{\rm T}}\varphi \left( {{{{x}}_2}} \right) \end{array} $$ (11)

      其中, $ \varphi \left( {{x}} \right):{\rm{R}^m} \to {\rm{R}^M} $, 表示特征映射后的输入矩阵.

      然后, KLMS-RFN模型的预测过程可总结为: (1)计算随机傅立叶特征向量$ \varphi \left( {{{x}}\left( n \right)} \right) $

      $$ \begin{array}{l} \varphi \left( {{{x}}\left( n \right)} \right) = {\left[ \begin{array}{l} \cos \left( {{{w}}_1^{\rm{T}}{{{x}}_n}} \right)\\ \cdot \cdot \cdot \\ \cos \left( {{{w}}_M^{\rm{T}}{{{x}}_n}} \right)\\ \sin \left( {{{w}}_1^{\rm{T}}{{{x}}_n}} \right)\\ \cdot \cdot \cdot \\ \sin \left( {{{w}}_M^{\rm{T}}{{{x}}_n}} \right) \end{array} \right]^{\rm{T}}} \end{array} $$ (12)

      (2)得到自适应滤波器的输出$ {{y}}\left( n \right) $

      $$ \begin{array}{l} {{y}}\left( n \right) = {{{w}}^{\rm T}}\left( {n - 1} \right)\varphi \left( {{{x}}\left( n \right)} \right) \end{array} $$ (13)

      (3)得到权重更新矩阵$ {{w}}\left( n \right) $

      $$ \begin{array}{l} {{w}}\left( n \right) = {{w}}\left( {n - 1} \right){\rm{ + }}\eta e\left( n \right)\varphi \left( {{{x}}\left( n \right)} \right) \end{array} $$ (14)

      其中, $ e\left( n \right) = d\left( n \right) - y\left( n \right) $表示预测误差.

      KLMS-RFN不需要存储重要样本, 可节省大量存储成本. 当所选样本较多时, KLMS-RFN的计算复杂度明显低于核矩阵的计算复杂度. 此外, KLMS-RFN还可以约束不断增长的权重网络的结构, 同时更新样本来跟踪输入的特征变化. 该模型已经在时间序列得到应用, 明显的提高了模型在非平稳环境下的预测性能[25].

    • 通过对KLMS及其改进模型的说明, 就降低核矩阵维数、提高历史信息的利用效率方面来说, 可以看出KAF在时间序列在线预测领域已得到广泛的应用[44-46]. 在本章节, 主要讨论基于KLMS在时间序列在线预测中出现的核矩阵计算量大, “冗余”信息利用效率低等问题的解决方法. 针对上述问题, 通过VQ来提高历史信息的利用效率, 并在此基础上采用预测误差来自适应更新滤波器结构, 降低核矩阵的维数.

      KLMS是在高维特征空间中推导的, 它使用随机梯度方法解决最小二乘问题, 从Hadamard意义上来讲, KLMS不需要明确的正则化. KLMS及相应的改进模型已经在复杂时间序列中得到广泛的应用[19,22,24,47]. KAF在一定程度上缩短了预测时间, 简化了核矩阵的计算步骤, 降低了计算复杂度, 也通过使用“冗余”样本, 提高了信息的利用效率, 提高了时间序列在线预测精度.

    • 对于KRLS建模中出现的在线样本量和核矩阵维数的限制问题, 文献[26]提出滑动窗口核递归最小二乘方法(sliding window kernel recursive least squares, SW-KRLS), 它只选取固定长度的序列样本进行计算, 从而降低核矩阵维度. 文献[27] 提出扩展核递归最小二乘(extended kernel recursive least squares, EX-KRLS)算法, 该方法可以在KS内表达状态空间模型, 还可以利用状态空间模型动态表示在时变环境条件下的时间序列的变化趋势. 文献[28]提出固定预算核递归最小二乘(fixed budget kernel recursive least squares, FB-KRLS)算法, 它只选取固定数量样本, 且保留相关性较强的数据样本进行计算, 抛弃相关性弱的数据样本, 该过程不仅降低了核矩阵的维度, 而且提高了预测精度. 文献[29] 提出核递归最小二乘跟踪(kernel recursive least squares with tracker, KRLS-T)算法, 包括遗忘因子原则和数值稳定的方式, 它固定了内存量和每一个时间步长的计算, 限制了核矩阵的维数, 并以自然的方式结合正则化, 从而跟踪每次预测的时变特性. 与文献[22]类似, 文献[30]提出了量化核递归最小二乘(quantization kernel recursive least squares, QKRLS)算法, 其基本思想也是通过量化操作压缩输入数据, 限制核矩阵维数, 该方法将“冗余”数据利用起来, 用以提高预测精度. 文献[31] 提出了多反馈核递归最小二乘(multi-feedback kernel recursive least squares, MF-KRLS)算法, 它是利用多个先前输出来递归更新结构参数, 具有跟踪时变的特性. 文献[32] 提出自适应归一化稀疏核递归最小二乘(adaptive normalized sparse kernel recursive least squares, ANS-KRLS)算法, 它结合一致性准则、ALD 和动态自适应调整来限制核矩阵维数, 同时提高了预测精度.

      目前, KRLS已经广泛应用于数据挖掘、机器学习等领域[20]. KRLS将输入样本通过Mercer 核映射到高维特征空间, 然后在高维特征空间中利用矩阵反演引理执行线性回归, 从而在线的解决复杂时间序列预测问题[48-57]. 以下将详细说明基于KRLS及其改进方法的时间序列在线预测机理.

    • KRLS利用矩阵反演引理简化核矩阵的求逆过程, 目的在于简化计算, 并降低存储要求、提高预测效率. 目前, KRLS 已经在复杂时间序列预测中展现出较好的预测性能[20], 它能够以在线的形式实时处理样本序列.

      KRLS模型的ALD阈值是根据经验获得, 太大或太小都会降低预测精度[20]. 当样本进入KRLS模型后, 计算该样本与当前字典在特征空间的线性扩展距离$ \delta \left( i \right) $, 如果大于$ \nu $, 那么该样本满足要求被加入字典进行预测. 反之, 如果小于$ \nu $, 那么该数据样本被移除, 这保证了核矩阵维数的有限性.

      $$ \begin{array}{l} \delta \left( i \right) = {\left\| {\displaystyle\sum\limits_{k = 1}^{i - 1} {\alpha \left( k \right)\varphi \left( {{{x}}\left( k \right)} \right) - \varphi \left( {{{x}}\left( i \right)} \right)} } \right\|^2} > \nu \end{array} $$ (15)

      其中, $ \nu $是设置的ALD阈值.

      根据以上过程, 得到权重矩阵$ {{w}}\left( i \right) $.

      $$ \begin{split} {{w}}\left( i \right) =&{\left[ {\lambda {{I}} + \Phi {{\left( i \right)}^{\rm{T}}}\Phi \left( i \right)} \right]^{ - 1}}\Phi \left( i \right){{d}}\left( i \right) = \Phi \left( i \right)\\ &{\left[ {\lambda {{I}} + \Phi {{\left( i \right)}^{\rm{T}}}\Phi \left( i \right)} \right]^{ - 1}}{{d}}\left( i \right) \end{split} $$ (16)

      其中, $ \lambda $是正则化参数, $ {{\Phi}} \left( i \right) $表示特征空间映射后的输入矩阵, $ {{I}} $表示单位矩阵, $ d\left( i \right) $表示期望输出. 该过程使用矩阵反演引理.

      再将$ w\left( i \right) $代入输出模型, 得到输出结果$ f\left( {{{{u}}_ * }} \right) $.

      $$ \begin{array}{l} f\left( {{{{u}}_ * }} \right) = \displaystyle\sum\limits_{j = 1}^i {{{{\alpha}} _j}\left( i \right)k\left( {{{u}}\left( j \right),{{{u}}_ * }} \right)} \end{array} $$ (17)

      根据上述过程对预测结果进行分析[48-51], 得到复杂系统下一步的发展趋势及实时信息, 最终做出更科学的决策.

      与第2章的KLMS相比, 就收敛速度而言, KRLS模型比KLMS模型小一个数量级, 但是这种性能的改善是以增加计算复杂度为代价的. 所以, 如何改善预测模型的计算复杂度?本章第2节到第8节对给出的多种改进方法进行详细说明.

    • 滑动窗口核递归最小二乘方法[26]是Van Vaerenbergh等于2006年提出. SW-KRLS是结合滑动窗和传统L2范数正则化得到的. SW-KRLS中滑动窗对核矩阵维数的要求是固定而非限制, 是始终保持字典的维度不变. L2范数正则化则是改进了模型的泛化能力. 该方法多用于无记忆非线性系统, 并在时变环境、跟踪突变问题上体现出较好的预测性能. 在SW方法中, 选定窗口$ n $, 得到正则化核矩阵$ {{{K}}_n} $.

      $$ \begin{array}{l} {{{K}}_n} = {{\tilde{ X}}_n}{\tilde{ X}}_n^{\rm{T}} + c{{I}} \end{array} $$ (18)

      其中, $ c $是正则化参数, $ {{I}} $表示单位矩阵, 观测矩阵被表示为$ {{{X}}_n} = {\left[ {{X_n},{X_{n - 1}}, \cdot \cdot \cdot ,{X_{n - N + 1}}} \right]^{\rm{T}}} $. 当处于在线环境时, 核矩阵的维数取决于观测值$ N $.

      如何保持核矩阵维度固定不变?对于新到来样本, 核矩阵添加新行和新列通过公式(20)实现, 核矩阵移除最旧行和列可通过公式(19)实现.

      $$ \begin{array}{l} {{{K}}^{ - 1}} = \left[ {\begin{array}{*{20}{c}} {{{{A}}^{ - 1}}\left( {{{I}} + {{b}}{{{b}}^{\rm{T}}}{{{A}}^{ - 1\rm{H}}}g} \right)}&{ - {{{A}}^{ - 1}}{{b}}g}\\ { - {{\left( {{{{A}}^{ - 1}}{{b}}} \right)}^T}g}&g \end{array}} \right]\\[-18pt] \end{array} $$ (19)
      $$ \begin{array}{l} {{{D}}^{ - 1}} = {{G}} - {{f}}{{{f}}^{\rm{T}}}/e \end{array}\qquad\qquad\qquad\qquad \quad$$ (20)

      其中, $ {{A}} $是非奇异矩阵, $ g = {\left( {d - {{{b}}^{\rm{T}}}{{{A}}^{ - 1}}{{b}}} \right)^{ - 1}} $, $ {{K}} $是添加新行和列后的矩阵, $ {{D}} $是移除最旧行和列后的矩阵, $ {{{b}}^{\rm{T}}}{{f}}{\rm{ + }}dg = 1 $.

      根据以上过程, 得到系数矩阵$ {{{\alpha}} _n} $.

      $$ \begin{array}{l} {{{\alpha}} _n} = {{K}}_n^{ - 1}{{{y}}_n} \end{array} $$ (21)

      其中, $ {{y}}\left( n \right) = \left[ {{y_n},{y_{n - 1}}, \cdot \cdot \cdot ,{y_{n - N + 1}}} \right] $表示观测向量, $ {{K}}_n^{ - 1} = \left( {{{K}} + c{{I}}} \right) $.

      SW-KRLS采用正则化解决了过拟合问题, 并结合滑动窗口(sliding window, SW)和矩阵反演引理来解决计算复杂度的限制问题, 不仅节省了内存空间, 简化了计算, 也提高了预测精度[26].

    • 2009年Liu等又提出了在RKHS中的扩展递归最小二乘算法的核化形式, 即扩展核递归最小二乘算法[27]. EX-KRLS在RKHS中首次实现了一般线性状态模型.

      EX-KRLS使用显式状态转移和卡尔曼滤波器来学习内核回归权向量, 也通过样本数据完成在线学习[27]. 当$ {{A}} = \alpha {{I}} $时, 得到的状态转换模型(22)与观测模型(23).

      $$ \begin{array}{l} {{x}}\left( {i + 1} \right) = \alpha {{x}}\left( i \right) + {{n}}\left( i \right) \end{array} $$ (22)
      $$ \begin{array}{l} {{d}}\left( i \right) = {{\varphi}} {\left( i \right)^{\rm{T}}}{{x}}\left( i \right) + {{v}}\left( i \right) \end{array} $$ (23)

      其中, $ {{\varphi}} \left( i \right) \in {{F}} $代替$ {{u}}\left( i \right) \in {{U}} $, $ \alpha $是一个升降参数, 既可放大也可衰减.

      EX-KRLS具有明确的状态转移过程, 且可以提高KRLS的跟踪能力[27], 其跟踪模型如(24).

      $$ \begin{array}{l} {{a}}\left( i \right) = \left[ {\begin{array}{*{20}{c}} {{{a}}\left( {i - 1} \right) - {{z}}\left( i \right){{r}}{{\left( i \right)}^{ - 1}}e\left( i \right)}\\ {{{r}}{{\left( i \right)}^{ - 1}}e\left( i \right)} \end{array}} \right] \end{array} $$ (24)

      其中, $ {{r}}\left( i \right) = \lambda {\rm{ + }}{{\varphi}} {\left( i \right)^{\rm{T}}}{{\varphi}} \left( i \right) - {{z}}{\left( i \right)^{\rm{T}}}{{k}}\left( i \right) $, $ \lambda $ 是用以控制初始状态向量的正则化参数, $ {{z}}\left( i \right) $表示非奇异矩阵, $ {{k}}\left( i \right) $表示核矩阵, $ e\left( i \right) $ 是预测误差, $ {{a}}\left( i \right) $是系数矩阵, 它们都是根据样本点不断地自适应更新. 所以, EX-KRLS适合于慢衰落、状态变化小的非线性系统建模.

    • 对于计算复杂度较大问题, 固定预算核递归最小二乘方法于2010年被Van Vaerenbergh等提出[28]. 其中FB准则在限制内存的同时, 不仅减少预测时间, 还提高历史信息的利用效率.

      FB准则是Dekel等在2006年提出的. 在预测时间序列样本时, 随着新样本的加入, 直到字典达到预设阈值M之前, FB 准则不起作用. 当样本达到M+1时, 核矩阵如(25), FB作用, 抛弃最不重要、不相关的数据如(26), 期间字典大小始终为M, 即当新样本满足条件时, 就删除最不相关的数据. 反之, 新样本如果不满足条件, 那么新样本就不被允许加入字典, 即字典保持原来的状态不变. 该过程不仅限制了输入数据的维数, 也提高了数据利用效率.

      $$ \begin{array}{l} {\hat{ K}}_n^{ - 1} = \left[ {\begin{array}{*{20}{c}} {{{K}}_{n - 1}^{ - 1} + g{{e}}{{{e}}^{\rm{T}}}}&{ - g{{e}}}\\ { - g{{{e}}^{\rm{T}}}}&g \end{array}} \right] \end{array}\qquad\qquad $$ (25)
      $$ \begin{array}{l} {\hat{ K}}_n^{ - 1} = \left[ {\begin{array}{*{20}{c}} e&{{{{f}}^{\rm{T}}}}\\ {{f}}&{{G}} \end{array}} \right] \Rightarrow {{K}}_n^{ - 1} = {{G}} - {{f}}{{{f}}^{\rm{T}}}/e \end{array} $$ (26)

      其中, $ {{\hat{ K}}_n} $表示添加新行和列的核矩阵, $ {{e}} = {{K}}_{n - 1}^{ - 1}{{b}} $, $ g = {\left( {d - {{{b}}^T}e} \right)^{ - 1}} $, $ {{{b}}^{\rm{T}}}{{f}}{\rm{ + }}dg = 1 $, $ {{{K}}_n} $ 表示移除任意行和列的核矩阵.

      为保持核矩阵维度不变, FB准则中的抛弃计算如下所示:

      $$ \begin{array}{l} d\left( {{{{x}}_i},{y_i}} \right) = \left| {{{{\alpha}} _i}} \right|/{\left[ {{\hat{ K}}_n^{ - 1}} \right]_{i,i}} \end{array} $$ (27)

      根据上述抛弃准则, FB-KRLS模型可以有效地跟踪时变序列的信息[28]. FB-KRLS 主要应用于非线性系统识别问题. 它不仅能够保持内存不变, 抛弃最不重要的样本点, 提高信息利用效率, 而且其标签更新过程也表现出模型的跟踪时变特性, 更拓宽了FB-KRLS的应用范围[28].

    • 不同于SW-KRLS、EX-KRLS和FB-KRLS, 核递归最小二乘跟踪[29]是引入贝叶斯框架, 在统一现有的KRLS 理论下, 提出的“遗忘”的概念, 即通过明确方式处理复杂的时间序列数据. 为保证最优性能, 需要确定核参数、正则化参数, 以及在非平稳环境中的遗忘因子.

      由于KRLS-T等价于特定时空协方差的高斯过程(Gaussian processing, GP)回归模型, 所以可通过GP 超参数估计来确定KRLS-T 的所有参数. 采用潜在函数边缘化的方法, 用超参数表示观测数据的概率[29].

      $$\begin{split} \log p\left( {{y}|\delta ,\sigma ,\varepsilon } \right) =& - \frac{1}{2}{{{y}}^{\rm{T}}}{\left( {{{\Lambda}} \circ {{K}} + {\sigma ^2}{{I}}} \right)^{ - 1}}{{y}}\\ &- \frac{1}{2}\left| {{{\Lambda}} \circ {{K}} + {\sigma ^2}{{I}}} \right| - \frac{n}{2}\log \left( {2 \text{π} } \right) \end{split} $$ (28)

      其中, $ \circ $表示Hadamard乘积, $ {{\Lambda}} $是一个对角矩阵, 它的第$ j $个对角元素值为$ {\lambda ^{\frac{{\left| j \right|}}{2}}} $, $ \lambda \in \left( {0,1} \right] $.

      在KRLS-T中, 需要存储和更新三个变量: 1) 字典中与基对应的当前预测均值$ {{{\mu}} _t} $; 2) 表示先验值的核逆矩阵$ {{{Q}}_t} = {{K}}_t^{ - 1} $; 3) 相应的预测方差$ {{\Sigma} _t} $它可以捕获后验协方差.

      $$\begin{array}{l} {{{\mu}} _{_t}} = \dfrac{{{y_t}k\left( {{{{x}}_t},{{{x}}_t}} \right)}}{{\sigma _n^2 + k\left( {{{{x}}_t},{{{x}}_t}} \right)}}n \end{array}\qquad\quad$$
      $${{K}}_t^{ - 1} = {{{Q}}_t} = k\left( {{{{x}}_i},{{{x}}_j}} \right) + \varepsilon {\delta _{ij}}$$
      $${{{h}}_{t + 1}} = \sum {_t} {{{q}}_{t + 1}}\qquad\qquad\quad$$

      其中, $ {{{q}}_{t + 1}} = {{{Q}}_t}{{{k}}_{t + 1}} $, $ \varepsilon $是遗忘因子且$ \varepsilon \in \left( {0,1} \right) $, $ {\sigma ^2} $是超参数, $ \delta $是正则化参数.

      因为KRLS-T不能提供对过去时刻的预测, 仅保留与当前时刻相关的小部分样本, 所以对短期时间序列预测有更好的预测效果. 同时这样的预测机制极大降低了计算成本[29].

    • Chen等于2013年又将VQ应用到KRLS模型, 它是以递归形式被推导得到量化核递归最小二乘算法[30]. QKRLS也是将输入空间量化分配, 其基本思想也是使用较小数据集来表示整个输入数据的信息, 从而提高预测精度[23,30].

      VQ具有多种优势: 1) 计算简单; 2) 量化的大小比较容易选择; 3) 冗余数据可以很容易的被利用, 用以提高预测性能.

      首先在线VQ需要设置量化尺码$ \varepsilon $, 然后计算$ {{u}}\left( i \right) $$ {{C}}\left( {i - 1} \right) $之间的距离.

      $$ \begin{array}{l} dis\left( {{{u}}\left( i \right),{{C}}\left( {i - 1} \right)} \right) = \left\| {{{u}}\left( i \right) - {{{C}}_{{j^ * }}}\left( {i - 1} \right)} \right\| \end{array} $$ (29)

      其中, $ {j^ * } = \mathop {\arg \min }\limits_{1 \text{≤} j \text{≤} \left| {{\bf{{{C}}}}\left( {i - 1} \right)} \right|} \left\| {{{u}}\left( i \right) - {{{C}}_j}\left( {i - 1} \right)} \right\| $, $ {{{C}}_j}\left( {i - 1} \right) $表示$ {{C}}\left( {i - 1} \right) $的第$ j $个元素.

      当新样本$ {{u}}\left( i \right) $进入预测模型时, 如果$ dis ( {{u}}\left( i \right),$$ {{C}}\left( {i - 1} \right)) $不大于$ \varepsilon $, 此时的量化码本保持不变, 用公式(30)更新权重系数矩阵. 如果$dis ( {{u}}\left( i \right), $$ {{C}}\left( {i - 1} \right)) $小于$ \varepsilon $, 那么新样本被加入到量化码本$ {{C}}\left( \cdot \right) $中, 用公式(31)更新权重系数.

      $$ \begin{split} {{\tilde{ \alpha}} ^ * }\left( i \right) =& {{\tilde{ \alpha}} ^ * }\left( {i - 1} \right) + \\ &\frac{{{{{P}}_{{j^ * }}}\left( {i - 1} \right)\left[ {{{y}}\left( i \right) - {{{\tilde{ K}}}_{{j^ * }}}{{\left( {i - 1} \right)}^{\rm{T}}}{{{\tilde{ \alpha}} }^ * }\left( {i - 1} \right)} \right]}}{{1 + {{{\tilde{ K}}}_{{j^ * }}}{{\left( {i - 1} \right)}^{\rm{T}}}{{{P}}_{{j^ * }}}\left( {i - 1} \right)}} \end{split} $$ (30)
      $$ \begin{array}{l} {{\tilde{ \alpha}} ^ * }\left( i \right) = \left[ {\begin{array}{*{20}{c}} {{{{\tilde{ \alpha}} }^ * }\left( {i - 1} \right) - {{{z}}_\Lambda }\left( i \right){{r}}{{\left( i \right)}^{ - 1}}{{e}}\left( i \right)}\\ {r{{\left( i \right)}^{ - 1}}{{e}}\left( i \right)} \end{array}} \right] \end{array}\quad $$ (31)

      其中, $ {{{z}}_\Lambda }\left( i \right) = {{P}}\left( {i - 1} \right){{\Lambda}} \left( {i - 1} \right){{h}}\left( i \right) $, $ {{e}}\left( i \right) = {{y}}\left( i \right) -$$ {{h}}{\left( i \right)^{\rm{T}}}{{\tilde{ \alpha}} ^ * }\left( {i \!-\! 1} \right) ,$ $ {{z}}\left( i \right) \!=\! {{P}}{\left( {i \!-\! 1} \right)^{\rm{T}}}{{h}}\left( i \right), $ $ {{r}}\left( i \right) \!=\! \gamma \!+\! {{\kappa}} ( {{u}}\left( i \right),$${{u}}\left( i \right) ) - {{h}}{\left( i \right)^{\rm{T}}}{{{z}}_\Lambda }\left( i \right) $.

      QKRLS在预测时间序列时, 除了能够保持期望性能, 在产生紧凑模型方面也非常有效[30]. 计算复杂度和预测精度之间的折衷也可以通过改变量化码本的大小进行简单、有效地控制.

    • 近年来, 大多数KAF都是无反馈结构的预测模型[26-30]. 在1.3节, SF-KLMS首次将反馈结构引入KAF模型. 随后Wang等在2017年提出了具有反馈结构的多反馈核递归最小二乘算法[31]. MF-KRLS 是将延迟输出与最近的输入结合来估计最近输出的过程.

      在MF-KRLS结构中, 它的前馈系数(feed forward coefficient, FFC)和反馈系数(feedback coefficient, FBC)利用最速下降法进行更新. 同时MF-KRLS采用多个先前的输出以递归的形式更新结构参数. FFC和FBC都采用最速下降法进行在线更新.

      $$ \begin{array}{l} {{\alpha}} \left( {i + 1} \right) = \left[ {\begin{array}{*{20}{c}} {{{\alpha}} \left( i \right)}\\ 0 \end{array}} \right] + \dfrac{{{\eta _\alpha }\left( i \right)}}{{{\rho _\alpha }\left( i \right)}}{{{D}}_\alpha }\left( i \right){{e}}\left( i \right) \end{array} $$ (32)
      $$ \begin{array}{l} {{\lambda}} \left( {i + 1} \right) = \left[ {\begin{array}{*{20}{c}} {{{\lambda}} \left( i \right)}\\ 0 \end{array}} \right] + \dfrac{{{\eta _\lambda }\left( i \right)}}{{{\rho _\lambda }\left( i \right)}}{{{D}}_\lambda }\left( i \right){{e}}\left( i \right) \end{array} $$ (33)

      其中, $ {\mu _\alpha }\left( i \right) = {\eta _\alpha }\left( i \right)/{\rho _\alpha }\left( i \right) $表示FFC的步进参数, $ {\mu _\lambda }\left( i \right) = {\eta _\lambda }\left( i \right)/{\rho _\lambda }\left( i \right) $表示FBC的步进参数. ${{{D}}_\alpha }\left( i \right) = $$ \partial {{y}}\left( i \right)/\partial {{\alpha}} \left( i \right) $, $ {{{D}}_\lambda }\left( i \right) = \partial {{y}}\left( i \right)/\partial {{\lambda}} \left( i \right) $.

      根据上述分析, 在时变环境中, MF-KRLS具有较好的自适应更新调整能力, 在估计精度和收敛速率上也得到改善[31].

      将FFC和FBC带入输出模型得到$ {{y}}\left( i \right) $.

      $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^i {k\left( {{{u}}\left( i \right),{{u}}\left( {{C_j}} \right)} \right){{\alpha}} \left( j \right) + {{\lambda}} \left( j \right){{y}}\left( {i - 1} \right)}\end{array} $$ (34)

      在MF-KRLS的时间序列在线预测应用中, 其前馈和反馈结构的有效结合不仅提高了KRLS的滤波精度, 还加快了收敛速度[31].

    • 随着在线稀疏方法的不断发展, Han等于2018年提出自适应归一化稀疏核递归最小二乘方法[32], 该方法已经在多元混沌时间序列在线预测方面得到较好的预测性能.

      ANS-KRLS是结合动态调整策略和一致性准则(coherence criterion, CC), 并基于KRLS得到的改进模型. 在ANS-KRLS中, 一致性准则不仅可以减少核矩阵维度, 还可以降低模型的计算复杂度. 动态调整策略在时变环境中具有自适应调整权值的能力.

      首先, 动态调整过程权重系数$ {\tilde{ \alpha}} \left( i \right) $的更新过程如下所示:

      $$ \begin{split} {\tilde{ \alpha}} \left( i \right) =& {\tilde{ \alpha}} \left( {i - 1} \right) + \\ &\frac{{{{q}}\left( i \right){{{\tilde{ K}}}^{ - 1}}\left( i \right)\left( {{{y}}\left( i \right) - {\tilde{ k}}_{i - 1}^{\rm{T}}\left( {{{x}}\left( i \right)} \right){\tilde{ \alpha}} \left( {i - 1} \right)} \right)}}{{\varepsilon + {{\left\| {{\tilde{ k}}_{i - 1}^{\rm{T}}\left( {{\bf{{{x}}}}\left( i \right)} \right)} \right\|}^2}}} \end{split} $$ (35)

      其中, $ {{q}}\left( i \right) = \dfrac{{{{q}}\left( i \right){{\alpha}} \left( i \right)}}{{1 + {{\alpha}} {{\left( i \right)}^{\rm{T}}}{{q}}\left( i \right){{\alpha}} \left( i \right)}} $, $ {{q}}\left( i \right) $是正则自相关矩阵, $ \varepsilon $ 用以避免误调的发生.

      其次, 一致性稀疏准则如下式所示:

      $$ \begin{array}{l} \mu = \mathop {\max }\limits_{j = 1,2, \cdot \cdot \cdot ,i - 1} \left| {k\left( {{{x}}\left( i \right),{{x}}\left( j \right)} \right)} \right| \end{array} $$ (36)

      其中,当$ \mathop {\max }\limits_{j = 1,2, \cdot \cdot \cdot ,i - 1} \left| {k\left( {{{x}}\left( i \right),{{x}}\left( j \right)} \right)} \right| \text{≤} {\mu _0} $, $ {{x}}\left( j \right) $ 被加入字典. 否则, 字典保持不变, 且$ \mu \in \left( {0,1} \right) $.

      当新样本到来时, 如果$ {{x}}\left( j \right) $不满足公式(15)且公式(36)不大于$ {\mu _0} $ 时, 新样本$ {{x}}\left( j \right) $被加入字典, 权重系数根据公式(37)进行更新. 如果$ {{x}}\left( j \right) $不满足公式(15), 或公式(36)大于$ {\mu _0} $时, 字典大小保持不变, 此时根据公式(35)更新权重系数.

      $$ \begin{split} \begin{array}{l} {\tilde{ \alpha}} \left( i \right) = \dfrac{1}{{\delta \left( i \right)}}\\ \quad \left[ {\begin{array}{*{20}{c}} {{\tilde{ \alpha}} \left( {i \!-\! 1} \right) \!-\! {\tilde{ \alpha}} \left( i \right)\left( {{{y}}\left( i \right) \!- \!{\tilde{ k}}_{i \!-\! 1}^{\rm{T}}\left( {{{x}}\left( i \right)} \right){\tilde{ \alpha}} \left( {i - 1} \right)} \right)}\\ {\left( {{{y}}\left( i \right) \!-\! {\tilde{ k}}_{i \!-\! 1}^{\rm{T}}\left( {{{x}}\left( i \right)} \right){\tilde{ \alpha}} \left( {i \!-\! 1} \right)} \right)} \end{array}} \right] \end{array} \end{split} $$ (37)

      其中, $ \delta \left( i \right) $表示ALD阈值.

      总之, ANS-KRLS在时间序列在线预测可通过上述稀疏过程降低计算复杂度. ANS-KRLS还具有在线操作和在时变环境中自适应调整的能力. 所以, ANS-KRLS在提高预测精度和效率方面更具优势[32].

    • 通过以上对KRLS及其改进模型的介绍, 就基于KRLS时间序列在线预测方法中改进的KAF模型而言, SW-KRLS、FB-KRLS、QKRLS和ANS-KRLS是以不同类型的“稀疏”方式来简化核矩阵维数, 从而降低计算复杂度、提高预测精度. EX-KRLS、KRLS-T 除了降低计算复杂度和提升预测精度外, 在跟踪时变方面也展现出优越的性能. 而MF-KRLS是以添加反馈结构的形式来提高模型的预测精度.

      KRLS改进方法的自相关矩阵在后期运算时会出现秩亏的现象, 引入正则化可以解决秩亏的问题. 和第1 章的KLMS模型相比, KRLS的不同之处在于需要明确的正则化. 但该正则化过程也存在以下问题: 随着数据样本的增加, 正则化的效率会开始缓慢地减弱.

      从以上分析可知, 基于KAF的时间序列在线预测在降低计算复杂度、提高预测精度和效率, 以及在跟踪时变方面都展现出较好的优势[58-60].

    • 对于KAPA建模中出现的计算复杂度和核矩阵维数限制问题, 文献[33]提出了归一化复合核仿射投影算法(normalized composite kernel affine projection algorithm, NC-KAPA). 文献[34]提出并行滑动窗口核仿射投影算法(parallel sliding window kernel affine projection algorithm, PSW-KAPA)和级联滑动窗口核仿射投影算法(cascade sliding window kernel affine projection algorithm, CSW-KAPA). 文献[35]首次将多核引入APA 中, 提出混合核仿射投影算法(kernel hybrid affine projection algorithm, KHAPA), 它将最大相关熵准则与均方误差策略结合来改进KAPA. 文献[36]提出了量化核仿射投影算法(quantization kernel affine projection algorithm, QKAPA), 它将矢量量化操作应用于KAPA 来提高预测精度.

      KAPA是Liu等在2008年提出的, 它是由核技巧与(affine projection algorithm, APA)[61] 结合产生的非线性扩展方法[21,62]. KAPA使用随机梯度法解决最小二乘问题, 该非线性扩展已经在时间序列在线预测领域得到广泛应用[21]. 以下将详细说明基于KAPA 及其改进方法的时间序列在线预测机理.

    • KAPA通过类似KLMS的方法将APA扩展到RKHS中, 除了样本数量以外, 还存在另外两个自由度: 1) 代价函数的正则化; 2) Newton更新方法. 文献[21]通过输入相关矩阵的特征值扩展来解决梯度下降法收敛速度慢的问题.

      根据不同的参数设置得到不同KAPA, 从而组成KAPA族. 1) 根据梯度下降法得到KAPA-1的权重矩阵$ {{{w}}_1}\left( i \right) $.

      $$ \begin{array}{l} {{{w}}_1}\left( i \right) = {{w}}\left( {i - 1} \right) + \eta {{\Phi}} \left( i \right)\left[ {{{d}}\left( i \right) - {{{\Phi}} ^{\rm{T}}}\left( i \right){{w}}\left( {i - 1} \right)} \right] \end{array} $$ (38)

      其中, $ \eta $表示学习率, $ d\left( i \right) $表示期望输出.

      2) 根据Newton法得到KAPA-2的权重矩阵$ {{{w}}_2}\left( i \right) $.

      $$ \begin{split} {{{w}}_2}\left( i \right) =& {{w}}\left( {i - 1} \right) + \eta {{\Phi}} \left( i \right){\left[ {{{{\Phi}} ^{\rm{T}}}\left( i \right){{\Phi}} \left( i \right){\rm{ + }}\varepsilon {{I}}} \right]^{ - 1}}\times \\ & \left[ {{{d}}\left( i \right) - {{{\Phi}} ^{\rm{T}}}\left( i \right){{w}}\left( {i - 1} \right)} \right] \end{split} $$ (39)

      其中, $ {{\Phi}} \left( i \right) = \left[ {\varphi \left( {i - K + 1} \right), \cdot \cdot \cdot ,\varphi \left( i \right)} \right] $, $ \varepsilon $ 是正则化参数.

      3) 再给定正则化代价函数, 根据随机梯度下降法可得到KAPA-3的权重矩阵$ {{{w}}_3}\left( i \right) $.

      $$ \begin{split} {{{w}}_3}\left( i \right) = &\left( {1 - \lambda \eta } \right){{w}}\left( {i - 1} \right) +\\ & \eta {{\Phi}} \left( i \right)\left[ {{{d}}\left( i \right) - {{{\Phi}} ^{\rm{T}}}\left( i \right){{w}}\left( {i - 1} \right)} \right] \end{split} $$ (40)

      4) 相应地, 再根据Newton法得到KAPA-4的权重矩阵$ {{{w}}_4}\left( i \right) $.

      $$ \begin{split} {{{w}}_4}\left( i \right) =& \left( {1 - \eta } \right){{w}}\left( {i - 1} \right) +\\ & \eta {{\Phi}} \left( i \right){\left[ {{{{\Phi}} ^{\rm{T}}}\left( i \right){{\Phi}} \left( i \right){\rm{ + }}\lambda {{I}}} \right]^{ - 1}}{{d}}\left( i \right) \end{split} $$ (41)

      其中, $ \lambda $也是正则化参数, 当传统风险最小化病态时, 通常是约束解的范数$\mathop {\min }\limits_w E{\left| {{{d}} - {{{w}}^{\rm{T}}}{{\varphi}} \left( i \right)} \right|^2} + $$ \lambda {\left\| {{w}} \right\|^2} $, 得到(40). 与KAPA-1 不同, KAPA-3添加了尺度因子$ \left( {1 - \lambda \eta } \right) $用于对先前数据强加“遗忘”机制, 并使该部分数据的影响呈指数下降趋势.

      上述的四种变换中, 前三种都需要误差信息来更新网络, 计算量较大. 而KAPA-4不需要, 因为它只需对一个 阶的矩阵求逆. 总之, KAPA算法的性能已经在时间序列、信道均衡方面得到体现[21,62].

    • 近年来, KLMS和KRLS及其改进模型的研究都集中在单核形式. Ogunfunmi等在2011年首次将复合核应用于APA 模型, 得到归一化复合核仿射投影算法[33]. 该算法适用于复杂数据的实时非线性建模.

      在NC-KAPA中, 使用复杂核函数$ \kappa \left( {{{z}},{{w}}} \right) $.

      $$ \begin{array}{l} \kappa \left( {{{z}},{{w}}} \right) = \exp \left( { - \sigma \displaystyle\sum\limits_{i = 1}^N {{{\left( {{{{z}}_i} - {{w}}_i^ * } \right)}^2}} } \right) \end{array} $$ (42)

      其中, $ {{z}},{{w}} \in {C^N} $, $ \sigma $是影响转换映射的核参数.

      定义$ {{{X}}_{ap}}\left( i \right) = \left[ {{{\Phi}} \left( {{{z}}\left( {i - K + 1} \right)} \right) \cdot \cdot \cdot {{\Phi}} \left( {{{z}}\left( i \right)} \right)} \right] $, 得到权重矩阵$ {{w}}\left( i \right) $.

      $$\begin{split} {{w}}\left( i \right) =& {{w}}\left( {i - 1} \right) + \mu {{{X}}_{ap}}\left( i \right) \times \\ &{\left[ {{{X}}_{_{ap}}^{\rm{T}}\left( i \right){{{X}}_{ap}}\left( i \right){\rm{ + }}\varepsilon {{I}}} \right]^{ - 1}}{{e}}_{ap}^ * \left( i \right) \end{split}$$

      其中, $ {{{\lambda}} _{ap}}\left( i \right) = {\left( {{{X}}_{_{ap}}^{\rm{T}}\left( i \right){{{X}}_{ap}}\left( i \right)} \right)^{ - 1}}{{e}}_{ap}^ * \left( i \right) $, $ \varepsilon $正平滑因子, $ {{{e}}_{ap}} = {\left( {{{X}}_{_{ap}}^{\rm{T}}\left( i \right){{{X}}_{ap}}\left( i \right){{{\lambda}} _{ap}}\left( i \right)} \right)^ * } $, $ \mu $的选择需考虑稳定性、收敛速度和失调.

      NC-KAPA算法在理论上推导并扩展了复杂RKHS的Wirtinger演算, 最终还得到APA的梯度MSE代价函数. 该算法更适用于对收敛速率要求较高的高维复杂的混沌时间序列的在线预测[33].

    • 由上节Ogunfunmi等提出的NC-KAPA可知, KAF的发展已经由单核研究逐渐过渡到多核研究[63]. 2012年Gil-Cacho等提出并行和级联滑动窗口核仿射投影算法[34]. 该类算法由线性核和高斯核的加权和组成. 机理是分离线性和非线性子问题.

      PSW-KAPA的并行配置在KAPA-3中可直接应用得到核矩阵$ {{{k}}_{wsk}} $.

      $$ \begin{array}{l} {{{k}}_{wsk}}\left( {i,j} \right) = \alpha {{{k}}_L}\left( {i,j} \right) + \beta {{{k}}_G}\left( {i,j} \right) \end{array} $$ (43)

      其中, $ {{k}}\left( {i,j} \right) = \exp \left( { - \kappa {{\left\| {{{X}}\left( i \right) - {{X}}\left( j \right)} \right\|}^2}} \right) $, $ \kappa $是高斯核参数, $ \alpha < 1 $, $ \beta {\rm{ = 1 - }}\alpha $.

      CSW-KAPA中的级联结构由以下2个步骤组成: 1) 独立执行标准线性归一化最小均方算法(normalized least mean square, NLMS), 存储滤波器输出. 2) 将存储的NLMS输出用作SW-KAPA 的输入. 得到基于PSW-KAPA和CSW-KAPA 的预测输出$ {\hat{ y}}\left( i \right) $.

      $$ \begin{array}{l} {\hat{ y}}\left( i \right) = {{\hat{ h}}^{\rm{T}}}\left( i \right){{X}}\left( i \right) \end{array} $$ (44)

      其中, $ {\hat{ h}}\left( i \right) $是NLMS的权重向量.

      与KAPA相比, PSW-KAPA和CSW-KAPA降低了计算复杂度. 与线性NLMS相比, 它提高了预测性能. PSW-KAPA和CSW-KAPA 中核函数的分离、加权和过程都在滑动窗口方法中执行. 当对其施加不同的“遗忘”机制时, 它又转化为更灵活的正则化形式, 进一步提高时间序列的预测性能[34].

    • 2014年Yang等提出了核混合仿射投影算法[35]. KHAPA将混合准则(hybrid criteria, HC)应用于APA 中, 并将得到的HAPA映射到RKHS. HC是均方误差和最大相关熵准则(maximum correlation entropy, MCC)的混合.

      HC是从最小裁剪平方(least trimmed squares, LTS)估计的角度避免异常值的过度影响. 在LTS中, 数据通过排序的方式被分为两类: 正常数据集和异常值数据集, 且异常值数据被完全丢弃. HC不是单纯地丢弃这些数据, 而是对大数据采用鲁棒MCC 准则. KHAPA就是利用上述准则来进一步提高预测性能[35].

      HC准则不仅避免了异常值的过度影响, 还充分利用了异常值, 从而获得更好的性能. 定义HC如(45), 并将HC 应用于KAPA模型, 用$ {f_i} $表示它的学习映射.

      $$ \begin{split} {{{W}}_{HC}} = &\arg \min {{{J}}_{HC}} = \arg \min \\ &\left( {\sum\limits_{i = 1}^M {{{e}}_{_{j\left( i \right)}}^2} - \sum\limits_{i = M + 1}^N {{{e}}\exp \left( { - \frac{{{{e}}_{_{j\left( i \right)}}^2}}{{2{\sigma ^2}}}} \right)} } \right) \end{split} $$ (45)
      $$ \begin{array}{l} {f_i} = {f_{i - 1}} + \eta {K_i}{\xi _i} \end{array} $$ (46)

      其中, $ {{{K}}_i} = \left[ {\kappa \left( {{x_{i{\rm{ - }}L{\rm{ + }}j\left( 1 \right)}}, \cdot } \right), \cdot \cdot \cdot ,\kappa \left( {{x_{i{\rm{ - }}L{\rm{ + }}j\left( L \right)}}, \cdot } \right)} \right], $$ {\xi _i} = \left[ {{{{e}}_{i - L + j\left( i \right)}},{{{e}}_{i - L + j\left( {i + 1} \right)}}\exp \left( { - \dfrac{{{{e}}_{_{{e_{i - L + j\left( {i + 1} \right)}}}}^2}}{{2{\sigma ^2}}}} \right)} \right] $ $ \left( {i = 1, \cdot \cdot \cdot ,M} \right) $, $ \eta $是学习率.

      HC充分利用了数据, 避免了异常值数据集的不恰当影响. 所以KHAPA在时间序列预测过程中提高了数据的利用效率, 同时也得到了更准确的预测结果[35].

    • 2015年Ren等提出量化核仿射投影算法[36]. QKAPA和QKLMS、QKRLS算法相似, QKAPA是在KAPA 模型上加入VQ 用以约束网络, 并进一步减小计算负担和内存占用.

      在QKAPA中, 计算$ dis\left( {{{{x}}_i},{{C}}\left( {n,i - 1} \right)} \right) $如公式(47), 如果它小于$ {\varepsilon _X} $, 此时$ {x_i} $是“冗余”的, 然后字典保持不变, 权重系数根据(48)更新. 否则, $ {x_i} $不是“冗余”的, 加入字典, 此时权重系数跟据(49)更新.

      $$ \begin{array}{l} dis\left( {{{{x}}_i},{{C}}\left( {n,i - 1} \right)} \right) = \min \left( {\left\| {{{{x}}_i} - {{{C}}_j}\left( {n,i - 1} \right)} \right\|} \right) \end{array} $$ (47)

      其中, $ 1 \text{≤} j \text{≤} size\left( {{{C}}\left( {n,i - 1} \right)} \right) $.

      $$ \begin{array}{l} {{{\alpha}} _{{j^ * }}}\left( {n,i} \right) = {{{\alpha}} _{{j^ * }}}\left( {n,i - 1} \right) + \eta {{e}}\left( {n,i} \right) \end{array} $$ (48)

      其中, $ {j^ * } = \mathop {\arg \min }\limits_{1 \text{≤} j \text{≤} size\left( {C\left( {n,i - 1} \right)} \right)} \left\| {{{{x}}_i} - {{{C}}_j}\left( {n,i - 1} \right)} \right\| $, $ {{e}}\left( {n,i} \right) = {{{d}}_n} - f\left( {n,i} \right) $.

      $$ \begin{array}{l} {{\alpha}} \left( {n,i} \right) = \left\{ {{{\alpha}} \left( {n,i - 1} \right),\eta {{e}}\left( {n,i} \right)} \right\} \end{array} $$ (49)

      根据上述更新过程, 得到QKAPA模型的预测输出$ f\left( {n,i} \right) $.

      $$ \begin{array}{l} f\left( {n,i} \right) \!=\! \displaystyle\sum\limits_{j = 1}^{size\left( {C\left( {n,i - 1} \right)} \right)} \!\!\!\!{{\alpha _j}\left( {n,i - 1} \right)\kappa \left( {{x_i},{C_j}\left( {n,i - 1} \right)} \right)} \end{array} $$ (50)

      其中, $ \kappa \left( { \cdot , \cdot } \right) $表示核函数.

      由于时间序列都是复杂的, 且包含未知噪声. QKAPA模型在预测中不仅减小了梯度噪声, 而且约束了网络规模, 提高了“冗余”数据的利用效率, 进一步减小了计算负担和存储占用, 明显加快了运算速度, 提高了预测性能[36].

    • 通过以上对KAPA及其改进模型的说明, 就基于KAPA的改进模型来说, PSW-KAPA、CSW-KAPA[34]和NC-KAPA[33]以投影次梯度的方式简化了预测模型. QKAPA[36]和KAPHA[35]分别通过VQ 和HC 稀疏方式降低了计算复杂度, 并提升了预测精度. KAPA及其改进模型都在RKHS中应用随机梯度法解决最小二乘问题. 同KLMS或KRLS相比, KAPA能提供灵活的在线非线性滤波器计算方法. 根据实际预测需求, 还可在应用性能与计算复杂度之间选择平衡点, 以达到最优结果.

      KAPA的通用形式是基于自适应投影次梯度法被推导. 通过投影映射测度完成分类, 再通过正交投影实现稀疏化, 还可以通过斜投影解决在线存储需求和自适应跟踪能力[32]. 此外, KAPA也为径向基函数(如NN)、正则化提供了理论认识基础.

      在性能方面, KAPA介于KLMS和KRLS之间, KAPA的性能可以通过窗口长度$ K $调整, 同时窗口长度 也控制计算复杂度. 而且大部分时间序列都呈现非线性、非平稳、复杂的特点, 通常的离线算法不能满足在线实时性要求. 所以基于KAF的时间序列在线预测方法在降低计算复杂度、提高预测精度和效率方面都展现出独特的优势[32-36].

      总的来说, 基于KAF的3类在线预测方法已经在多元混沌时间序列中得到较好的预测性能[12,13]. 其中, 模型中部分参数的设置也起着关键的作用, 比如步进参数$ \mu \in \left( {0,1} \right) $, 学习率$ \eta \in \left( {0,1} \right) $等, 它们的选取对模型的预测效果有较大的影响. 一般情况下, 步进参数和学习率都会选取$ \left( {0.5,1} \right) $之间的值, 这样可以得到较好的性能结果[19-36]. 同样的, 正则化参数$ \lambda $, 调整参数$ \beta $等参数的选取也会影响实验结果[29], 比如正则化参数$ \lambda $可以根据高斯过程回归的标准超参数估计来进行选取[17,29], 此时得到的$ \lambda $更适合模型的后续预测. 所以, 参数的恰当选择可以有效地反映模型的某些性能[41,42,61,81], 这里不再赘述.

    • 目前, 动态神经网络(dynamic neural network, DNN)、支持向量回归(support vector regression, SVR)、KAF等方法已经应用于复杂时间序列预测[8-10]. DNN与SVR都是离线操作, 前者在更新过程中涉及大量计算, 后者适用于小样本预测与跟踪[13]. 而KAF不仅具有较低的计算复杂度和简单的递归更新形式, 而且满足在线预测的要求, 因此受到许多学者的青睐[11-13]. Frieb 和Harrison 根据“核化”思想提出ADALINE[64], 该方法基于所有的训练数据并采用确定性梯度法得到. Kivinen等提出NORMA, 该方法直接对正则化代价函数进行微分获取随机梯度[21]. Engal等使用矩阵求逆引理研究了KRLS[20]. Liu等研究了具有正则化特性的KLMS[19]. Liu 和Principe, Ogunfunmi 和Paul, Ren 和Yu 等从不同的角度研究了KAPA[21,65].

      根据KLMS、KRLS和KAPA三类模型在时间序列中的预测效率、预测精度、收敛速度以及相应的特点, 三类典型KAF方法在时间序列在线预测中的性能对比结果如表1所示. 由表可知, 与KLMS和KAPA相比, KRLS 的预测效率较低, 但在收敛速度和预测精度方面更具优势. 所以, 我们可以得到以下结论: (1) 在实际应用中, 如果将预测效率放在首位而不追求收敛速度, 那么KLMS模型可以得到较好的结果; (2) 如果以提高目标预测精度为目的, 同时要求较快的收敛速度, KRLS模型无疑成为最佳选择; (3) 如果预测目标中包含多种噪声, KAPA 模型更具优势.

      表 1  不同KAF方法的时间序列在线预测特性对比结果

      Table 1.  Comparison of online prediction characteristics of time series of different KAF methods

      算法类型 预测效率 预测精度 收敛速度 特点
      KLMS[19] 较高 较低 较慢 泛化能力和正则化特性
      KRLS[20] 较低 较高 较快 白化处理, 收敛速度较快
      KAPA[21] 考虑多个样本, 降低梯度噪声

      目前, 大多数时间序列都表现出非线性、非平稳、复杂难预测的特点, 所以对其进行合理的预测具有十分重要的意义. 例如, 从气象数据的历史信息预测未来天气变化[1,2]. 从水文数据的历史信息预测水资源的变化趋势, 并作出合理的控制及调配[3,4]. 根据医学上的不同症状序列进行提前预测并做好预防, 降低发病几率等[5,6]. 复杂系统中包含着许多相关的有用信息, 而且随着时间的推移, 其中包含的信息量也在不断增加. 随着信息技术的发展, 时间序列的数据量和应用也随之快速增长.

      如何实现复杂时间序列的实时预测, 并跟踪其将要发生的变化, 是诸多研究领域非常关注的问题. 文献[54-56]在LSSVM的基础上添加过滤窗、迭代误差补偿和组合核函数的形式对复杂时间序列进行预测. 文献[58]采用卡尔曼滤波在高频金融时间序列进行预测. 文献[59,60]采用自适应遗传算法和基于大脑情感学习模型预测时间序列. 对于含噪声和数据缺失的时间序列来说, 文献[58-60]给出了很好地解决方案. 但是, 传统的数据预测方法集中于建模检验预测、自适应预测等, 难以实时预测数据将要发生的变化. 现有的真实数据本身较复杂, 在实际应用中会出现计算时间长、效率低、存储空间占用量大、预测精度低、跟踪能力差等问题.

      因此, 通常需要对复杂时间序列进行稀疏选择来降低核矩阵维度, 然后再进行更为有效地预测与跟踪. 综上所述, 用KAF模型对复杂难预测系统进行在线预测、跟踪具有十分重要的意义[52-54].

      KAF通过分析现有时间序列的有效信息, 能较好的反映当前时间序列的潜在特征. 然后再根据所得特征跟踪时变信息, 并进行相关分析总结, 以提醒相应部门对于将要到来的各种变化做出科学的决策[66-70].

      KAF是人工智能领域中常用于时滞时变预测的技术, 它采用滤波的形式解决预测中出现的问题[37,38], 并能够有效地增强预测模型的泛化性能与自适应跟踪能力. 总的来说, KAF在处理非线性系统时, 随着新样本的不断到来, 模型不断地迭代更新. 就已提出的KAF模型来说, 不同的在线预测模型对应不同的计算复杂度. 原始核矩阵的计算的复杂度为$ O\left( {{L^3}} \right) $, 当采用ALD准则时, 其计算复杂度为$ O\left( {{L^2}} \right) $. 对于不同的稀疏方法得到的KAF模型, 其复杂度也不同. 表2给出了三类KAF模型在每次迭代过程涉及的计算复杂度(其中, $ L $ 表示样本长度, $ K $表示字典大小). 从表2可以看出: 首先, 表述的8种在线稀疏方法都在不同程度上降低了核矩阵的维度, 即降低了模型的计算复杂度. 其次, 由于SW, FB和CC准则在预测过程中都需要固定字典的大小(K远小于L), 所以它们在降低核矩阵维度、模型内存占用和计算复杂度上都表现出较大优势. 最后, SF, MF和HC不仅在降低模型计算复杂度上出较大贡献, 而且在对有效利用历史信息上也具优势(主要是反馈信息的有效利用).

      表 2  每次迭代过程涉及的计算复杂度比较

      Table 2.  Comparison of computational complexity involved in each iteration

      核自适应滤
      波器类型
      在线稀
      疏类型
      计算复杂度
      KLMS[19] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L^2}} \right) $
      在线VQ ${\rm O}\left( {{L}} \right)$
      SF 更新$ {\omega} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
      更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
      KRLS[20] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
      在线VQ ${\rm O}\left( {{L}} \right)$
      更新$ {P}\left( i \right) $ ${\rm O}\left( {{L^2}} \right)$
      ALD 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L^2}} \right)$(${\rm O}\left( {{L^2}} \right)$
      假如字典改变)
      更新ALD ${\rm O}\left( {{L^2}} \right)$
      更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
      SW 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
      假如字典改变)
      更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
      更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
      FB 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
      假如字典改变)
      更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
      更新$ {{\hat K}_n}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
      MF 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
      更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
      更新${D}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
      CC 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
      假如字典改变)
      更新$ {e}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
      更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
      KAPA[21] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
      在线VQ ${\rm O}\left( {{L}} \right)$
      更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
      HC 更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
      更新$ {\bf{\zeta }}\left( i \right) $ ${\rm O}\left( {{L}} \right)$

      由于KAF具有自适应更新能力, 因此常用于复杂时间序列预测. 基于KLMS的随机行为分析, 如文献[77] 在LMS的基础上采用核在线技术提出顺序优化方法, 并采用随机梯度法顺序更新权重, 分析网络流量序列的行为特征, 从而实现网络流量序列的在线预测. 基于KRLS的在线异常检测, 如文献[55]通过迭代误差补偿弥补SVM的误差特性, 从而减少冗余信息的残差干扰, 最终达到异常检测的效果. 基于KAPA的在线时间序列分类等[56], 如文献[36]在KAPA的基础上添加可重构的FPGA加速器, 该过程减小了梯度噪声, 在处理数据路径和处理单元数量方面具有突出的优势. 总之, KAF通用的非线性建模能力对复杂时间序列预测更具优势.

      所以, 根据KAF的特殊思想, 许多学者已经将KAF应用于时间在线序列预测[66,67]. 由于环境变化不断加剧, 时间序列包含的噪声也不断复杂化, 传统的线性模型并不适应非线性、复杂系统的剧烈变化, 所以KAF在线模型在数据挖掘处理噪声方面也展现出较好的结果[67]. 文献[72,73] 是以在线形式将KAF 应用于含噪声的时间序列, 过滤冗余噪声信息, 从而实现平滑太阳黑子数量时间序列的预测. KAF还通过最小平均绝对第三损失函数来滤除噪声, 从而得到更好的预测性能. 文献[74] 在时间序列上执行在线学习, 使用遗憾最小化技术解决在噪声条件下的最小假设问题, 为执行有效地在线学习过程剔除干扰项. 文献[75]结合奇异鲁棒策略和KRLS来解决非线性系统识别问题. 文献[76] 采用序贯在线学习方法预测水文时间序列(包括气温、水位、风速、总发电量等), 由于水文数据包含噪声, 所以该方法在滤除噪声方面具有更好的特性. 文献[78]通过“核技巧”以循环在线训练的方式来执行学习过程, 该过程在循环损失函数中涉及自动更新权重的正则化项, 在提升泛化能力的同时执行在线学习. 文献[79] 将KAF以递归的形式应用于脑电和自适应天线阵列过程, 该过程排除了脑电和天线阵列的噪声信号. 文献[80] 将VQ和MC准则应用于KAF模型, 它在处理异常值和脉冲噪声方面更具特色. 文献[81,82] 基于贝叶斯框架建立“遗忘”机制, 它能很好地处理带噪的脑电信号, 衰落和突变信道的跟踪.

      此外, 文献[83]推导和分析了用于二元和多元分类、回归和预测的算法, 它们的更新步骤都是基于简单约束优化问题的分析解决方案. 文献[84,85]提出采用矩阵分解或负矩阵分解的降维方式来实现在线稀疏学习, 它已经广泛应用于图像处理和模式识别. 文献[86]提出子梯度方法动态地结合早期迭代中观察到的数据几何知识, 以执行更具信息性的基于梯度的在线学习过程. 文献[87]介绍了在线凸优化, 在线分类, 在线批量转换以及在线预测过程的约束限制问题. 文献[88,89]提出预算方法实现对核的约束, 从而推导出以预算随机梯度下降和近似逼近的方式来适应大规模SVM预测. 文献[90]提出一个用于大规模在线分类任务的高效且可扩展的在线学习算法库. 文献[91]讨论了在线预测和批处理在使用有限计算资源的过程中渐进地提供最佳的泛化性能的有效方法. 文献[92]介绍了基于LS回归的收敛率问题, 该方法通过对初始条件和Hessian矩阵的假设进行分析, 并最终实现平均加速正则梯度下降. 文献[93]研究了与凸损失函数相关的RKHS中的在线学习算法.

      就预期的超额泛化误差而言, 它们可以作为基于内核的批量学习算法快速收敛. 从而实现对学习序列规范的预期值和在线学习算法的精确误差分解的敏锐估计.

      文献[94]提出KNLMS方法, 它使用自适应步长加速学习, 并在收敛速度和稳态之间提供合适的折中. 文献[95]提出具有非线性主路径的有源噪声控制系统的KxLMS方法, 主要用于改进在参考噪声与多个窄带信号和附加高斯白噪声混合时的预测性能. 文献[96]研究了在RKHS中没有正则化条件时在线梯度下降法的收敛性, 以收敛期望中的超泛化误差. 文献[97]提出了改进的在线随机梯度下降法, 由于特征稀疏性的异质性, 该方法用于解决收敛速度慢和方差大的问题. 文献[98]建立了高斯核参数的自适应更新方法并应用于KAF, 该方法的更新规则与L1正则化一同作用来避免预测中的过拟合和维数高问题. 文献[99]提出尺度自适应在线学习方法, 通过评估核函数和系数向量之间的内积实现KAF. 文献[100]提出了基于L2 空间迭代投影的新型在线非线性函数学习、估计方法. 文献[101]提出了一种由节点网络进行非线性函数分布式学习的自适应方案, 基于多个RKHS的笛卡尔积度量, 证明了方法的全面收敛性.

      综上所述, KAF在时间序列预测领域已经得到了广泛的应用[96-101]. 由KAF的改进模型可以看出, 其计算复杂度被明显降低, 内存空间的占用也明显减小, 相应的预测效率和预测精度也显著提高. 同时, 对于含噪声和缺失值的时间序列还具有特殊的滤除噪声和补差性能[58,59].

    • KAF的研究在近年来受到了越来越广泛的关注, 诸多学者对KAF学习机理和应用进行了全面的研究. KLMS、KRLS和KAPA奠定了LMS、RLS和APA在核空间应用的基础. 近年来对KAF的研究已经取得了一定的进展, 并广泛应用于时间序列在线预测, 如气象领域的温度、湿度、风速、风向、日照时数、气压等实时性预测, 水文领域的水位、水温、流量、凝结度等预测, 金融领域的股票联动性和股指期货套期保值预测, 医疗领域的心电、脑电数据异常检测, 交通领域的车流量、密度预测等. 本文首先对KAF的学习方法和发展现状进行了详细综述, 探讨了KLMS, KRLS和KAPA的基本原理, 以及其改进模型在提高时间序列在线预测精度和预测效率, 跟踪时变特性和如何利用有效数据信息等方面的机理, 同时将KLMS、KRLS和KAPA 作为KAF在线预测的研究基础, 分析在线稀疏策略在具有时变特性的非线性系统上的预测精度和预测效率的提高, 接着结合其在线稀疏过程对计算复杂度进行分析, 最后总结KAF模型在时间序列预测、数据挖掘噪声处理、性能补差、性能估计等方面的实际应用. 然而随着研究的不断深入, 仍存在着一些值得研究和关注的问题:

      1) KAF在线预测方法中包含KLMS, KRLS, KAPA等多种模型, 对于不同的模型所对应的预测领域存在较大差异. 例如, KLMS模型多用于非线性系统建模, 即在非线性时间序列预测、信道均衡领域获得较好的性能. KRLS模型多用于慢衰落和状态变化很小的非线性时间序列跟踪领域. KAPA模型多用于时间序列预测、非线性信道均衡和非线性滤除噪声等领域. 所以, 不同的模型可能对应不同领域及不同的问题, 这是当前研究的一个重点. 同时如何对预测模型进行正则化, 提高模型的泛化能力也是一个研究重点.

      2) KAF在线预测方法对复杂时间序列预测具有更好的跟踪性能, 通过建模过程中的动态更新机制, 使在线预测过程能够实时反映核矩阵权重更新和系数矩阵更新, 最终得到的预测模型具有自适应实时更新能力. 然而KAF在预测样本时, 随着新样本的不断加入, 核矩阵维数不断增加, 其计算复杂度也随之增大(线性关系), 同时内存消耗(占用量)也增大, 相应的降低了计算效率. 对于上述问题, 有学者已经提出了ALD、NC、SC、HC等多种在线稀疏方法来解决此类问题. 因此, 在预测模型中如何对输入样本进行在线稀疏已经成为继续深入研究KAF的方向之一.

      3) 在时间序列在线预测过程中, 随着ALD、NC、SC、HC等多种在线稀疏方法加入预测模型, 一些“冗余”的数据被剔除, 在这个过程中也会伴随数据利用效率的降低, 即剔除的数据可能包含有效的历史信息, 如何判断稀疏后的样本序列是否包含有效信息也是需要研究的重点. 所以, 在加入在线稀疏方法时如何保持稀疏后数据的“有效性”也是KAF在线预测未来研究的重要方向之一.

      4) 目前, 随着单核自适应滤波器研究的深入, 多核自适应滤波器也不断地发展. 大多数多核算法是将两个相同类型的核函数应用于预测模型, 或者将两种不同的核函数的加权和应用于预测模型, 此类方法已经取得了较好的预测结果. 由于核函数表示的是一种将输入(数据)空间非线性映射到高维(隐藏)特征空间的过程, 该过程是隐式的、未知的. 所以在选用单核函数或多核函数的过程中, 不同的选择得到的预测结果大相径庭, 其预测性能也存在较大差异. 所以, 如何在复杂的非线性预测系统中选择合适的核函数及其参数, 也是KAF在线预测的研究热点之一.

参考文献 (101)

目录

    /

    返回文章
    返回