2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于鲁棒加权模糊聚类的污水处理过程监测方法

张瑞垚 周平

张瑞垚, 周平. 基于鲁棒加权模糊聚类的污水处理过程监测方法. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392
引用本文: 张瑞垚, 周平. 基于鲁棒加权模糊聚类的污水处理过程监测方法. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392
Zhang Rui-Yao, Zhou Ping. Robust weighted fuzzy clustering for sewage treatment process monitoring. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392
Citation: Zhang Rui-Yao, Zhou Ping. Robust weighted fuzzy clustering for sewage treatment process monitoring. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392

基于鲁棒加权模糊聚类的污水处理过程监测方法


DOI: 10.16383/j.aas.c200392
详细信息
    作者简介:

    东北大学硕士研究生. 于2018年获得东北大学学士学位. 主要研究方向为数据驱动质量监测. E-mail: 1598921837@qq.com

    东北大学教授. 分别于2003年, 2006年, 2013年获得东北大学学士学位、硕士学位和博士学位. 主要研究方向为工业过程运行反馈控制、数据驱动建模与控制等. 本文通信作者. E-mail: zhouping@mail.neu.edu.cn

  • 基金项目:  国家自然科学基金项目(61890934, 61790572, 61991400), 辽宁省'兴辽英才计划'项目(XLYC1907132), 中央高校基本科研业务费项目(N180802003)

Robust Weighted Fuzzy Clustering for Sewage Treatment Process Monitoring

More Information
  • Fund Project:  Supported by National Natural Science Foundation of China (61890934, 61890930, 61790572, 61991400), Liaoning Revitalization Talents Program (XLYC1907132), and Fundamental Research Funds for the Central Universities (N180802003)
  • 摘要: 针对非线性强、先验故障知识少、异常工况识别难的污水处理过程监测问题, 提出一种基于鲁棒加权模糊c均值(RoW-FCM)聚类与核偏最小二乘(KPLS)的过程监测方法. 首先, 针对污水处理过程的高维非线性耦合特性, 采用KPLS对高维输入变量进行降维; 其次, 针对传统基于最近邻分配的模糊c均值(FCM)算法对离群点敏感以及存在聚类不平衡簇的问题, 提出充分考虑样本间相互关系的RoW-FCM聚类算法. 通过引入可能性划分矩阵作为权值参数实现不同样本数据的区分加权, 提高了离群点数据聚类的鲁棒性, 同时引入聚类大小控制参数解决不平衡簇的问题. 进一步将RoW-FCM算法对KPLS降维后的得分矩阵进行聚类, 利用聚类得到的隶属度矩阵实现异常工况的检测; 最后, 建立隶属度矩阵与过程变量的回归模型, 并利用得到的变量贡献矩阵描述变量对各个簇的解释程度, 实现异常工况的识别. 数值仿真以及污水处理过程数据实验表明所提方法具有更好的鲁棒性能, 在异常工况检测和识别上具有较好的效果.
  • 图  1  污水处理工艺流程示意图

    Fig.  1  Schematic diagram of sewage treatment process

    图  2  所提监测算法建模策略

    Fig.  2  The proposed monitoring algorithm modeling strategy

    图  3  仿真实验数据及聚类效果图

    Fig.  3  Simulation experiment data and clustering effect diagram

    图  4  不平衡簇测试数据集A(左)与离群点数据集B(右)

    Fig.  4  Unbalanced cluster test data set A (left) and outlier data set B (right)

    图  5  FCM、PCM、PFCM、RoW-FCM聚类效果图

    Fig.  5  FCM、PCM、PFCM、RoW-FCM clustering effect diagram

    图  6  FCM、PCM、PFCM、RoW-FCM聚类效果图

    Fig.  6  FCM、PCM、PFCM、RoW-FCM clustering effect diagram

    图  7  FCM隶属度矩阵

    Fig.  7  FCM membership matrix

    图  8  PCM可能性矩阵

    Fig.  8  PCM possibility matrix

    图  9  PFCM隶属度矩阵

    Fig.  9  PFCM membership matrix

    图  10  RoW-FCM隶属度矩阵

    Fig.  10  RoW-FCM membership matrix

    图  11  异常工况识别结果

    Fig.  11  Recognition results of abnormal conditions

    表  2  FCM、PCM、PFCM、RoW-FCM聚类参数

    Table  2  FCM, PCM, PFCM, RoW-FCM clustering parameters

    FCM PCM PFCM RoW-FCM
    $U_1^{\rm T}$ $U_2^{\rm T}$ $W_1^{\rm T}$ $W_2^{\rm T}$ $U_1^{\rm T}$ $U_2^{\rm T}$ $W_1^{\rm T}$ $W_2^{\rm T}$ $U_1^{\rm T}$ $U_2^{\rm T}$ $W_1^{\rm T}$ $W_2^{\rm T}$
    1 0.973 0.027 0.799 0.798 0.021 0.979 0.026 0.547 0.991 0.009 0.833 0.999
    2 0.991 0.009 0.859 0.858 0.010 0.989 0.032 0.755 0.989 0.011 0.839 0.999
    3 0.995 0.005 0.861 0.860 0.002 0.998 0.032 0.940 1.00 0.000 1.000 1.000
    4 0.967 0.033 0.848 0.848 0.026 0.975 0.032 0.555 0.989 0.011 0.834 0.999
    5 0.988 0.012 0.916 0.916 0.013 0.987 0.042 0.770 0.986 0.014 0.840 0.998
    6 0.012 0.988 0.916 0.917 0.987 0.013 0.770 0.042 0.012 0.988 0.999 0.861
    7 0.009 0.991 0.859 0.860 0.989 0.011 0.755 0.032 0.011 0.989 0.999 0.835
    8 0.005 0.995 0.861 0.862 0.998 0.002 0.940 0.032 0.000 0.999 1.000 0.998
    9 0.033 0.967 0.848 0.849 0.975 0.026 0.555 0.032 0.011 0.989 0.999 0.835
    10 0.027 0.973 0.799 0.800 0.979 0.021 0.547 0.026 0.010 0.990 0.999 0.811
    11 0.500 0.500 0.997 0.997 0.500 0.500 0.125 0.125 0.069 0.931 0.985 0.274
    12 0.500 0.500 0.632 0.632 0.500 0.500 0.026 0.026 0.997 0.004 0.060 0.999
    聚类中心 v1=(-3.616, 0.383) v1=(0.001, 0.369) v1=(-3.736, 0.240) v1=(-3.989, 0.010)
    v2=(3.616, 0.384) v2=(0.007, 0.369) v2=(3.736, 0.240) v2=(3.910, 0.000)
    偏移距离 r1=0.543 r1=4.016 r1=0.357 r1=0.010
    r2=0.543 r2=4.010 r2=0.357 r2=0.090
    下载: 导出CSV

    表  3  影响污水处理过程出水水质的主要过程变量

    Table  3  The main process variables that affect the effluent quality of the sewage treatment process

    编号 符号 变量物理含义 编号 符号 变量物理含义
    1 Qin 进水流量 15 SS,3 反应池3易生物降解有机底物量
    2 SNH,in 进水氨浓度 16 SALK,3 反应池3池碱度
    3 XBH,1 反应池1活性异养菌生物量 17 XBH,4 反应池4活性异养菌生物量
    4 SNO,1 反应池1硝氮浓度 18 XBA,4 反应池4活性自养菌生物量
    5 SS,1 反应池1易生物降解有机底物量 19 SO,4 反应池4溶解氧浓度
    6 SALK,1 反应池1池碱度 20 SNH,4 反应池4氨氮浓度
    7 XBH,2 反应池2活性异养菌生物量 21 SS,4 反应池4易生物降解有机底物量
    8 SNO,2 反应池2硝氮浓度 22 SALK,4 反应池4池碱度
    9 SS,2 反应池2易生物降解有机底物量 23 XBH,5 反应池5活性异养菌生物量
    10 SALK,2 反应池2池碱度 24 XBA,5 反应池5活性自养菌生物量
    11 XBH,3 反应池3活性异养菌生物量 25 SO,5 反应池5溶解氧浓度
    12 XBA,3 反应池3活性自养菌生物量 26 SNH,5 反应池5氨氮浓度
    13 SO,3 反应池3溶解氧浓度 27 SS,5 反应池5易生物降解有机底物量
    14 SNH,3 反应池3氨氮浓度 28 SALK,5 反应池5池碱度
    下载: 导出CSV

    表  4  不同算法的聚类准确度与迭代次数

    Table  4  Clustering accuracy and number of iterations of different algorithms

    工况类型 聚类正确率 聚类收敛迭代次数
    (收敛精度10^-5, 30次仿真)
    FCM PCM PFCM RoW-FCM FCM PCM PFCM RoW-FCM
    正常工况 92.3% 80.8% 93.9% 97.5% 45.1 14 29.1 23.6
    异常工况1 75.0% 6.3% 76.3% 96.0%
    异常工况2 80.3% 3.5% 77.5% 97.0%
    下载: 导出CSV

    表  5  异常工况识别结果表(其中加粗的数值表示与异常工况关联变量的贡献值)

    Table  5  Abnormal condition recognition result table (the bolded value indicates the contribution value of the variable associated with the abnormal condition)

    编号 正常工况 异常工况1 异常工况2 编号 正常工况 异常工况1 异常工况2
    1 0.133 0.339 0.528 15 0.254 0.465 0.281
    2 0.150 0.321 0.530 16 0.297 0.255 0.448
    3 0.454 0.481 0.065 17 0.450 0.464 0.086
    4 0.453 0.395 0.152 18 0.354, 0.424 0.223
    5 0.093 0.577 0.331 19 0.238 0.260 0.503
    6 0.305 0.247 0.448 20 0.124, 0.352 0.524
    7 0.456 0.477 0.067 21 0.236 0.482 0.283
    8 0.010 0.307 0.683 22 0.281 0.245 0.475
    9 0.241 0.473 0.286 23 0.446 0.458 0.096
    10 0.361 0.290 0.349 24 0.352 0.418 0.230
    11 0.453 0.471 0.076 25 0.052 0.310 0.639
    12 0.353 0.429 0.218 26 0.118 0.314 0.568
    13 0.255 0.167 0.578 27 0.229 0.482 0.289
    14 0.208 0.425 0.367 28 0.291 0.259 0.450
    下载: 导出CSV
  • [1] 蒙西, 乔俊飞, 韩红桂. 基于类脑模块化神经网络的污水处理过程关键出水参数软测量. 自动化学报, 2019, 45(5): 906−919 doi:  10.16383/j.aas.2018.c170497

    MENG Xi, QIAO Jun-Fei, HAN Hong-Gui. Soft Measurement of Key Effluent Parameters in Wastewater Treatment Process Using Brain-like Modular Neural Networks. ACTA AUTOMATICA SINICA, 2019, 45(5): 906−919 doi:  10.16383/j.aas.2018.c170497
    [2] 乔俊飞, 韩改堂, 周红标. 基于知识的污水生化处理过程智能优化方法. 自动化学报, 2017, 43(6): 1038−1046

    Qiao Jun-Fei, Han Gai-Tang, Zhou Hong-Biao. Knowledge-based intelligent optimal control for wastewater biochemical treatment Process. Acta Automatica Sinica, 2017, 43(6): 1038−1046
    [3] 张帅, 周平. 污水处理过程递推双线性子空间建模及无模型自适应控制. 自动化学报, DOI: 10.16383/j.aas.c190514

    Zhang Shuai, Zhou Ping. Recursive bilinear subspace modeling and model-free adaptive control of wastewater treatment. Acta Automatica Sinica, DOI: 10.16383/j.aas.c190514.
    [4] Cheng T, Dairi A, Harrou F, Sun Y and Leiknes T. Monitoring influent conditions of wastewater treatment plants by nonlinear data-based techniques. IEEE Access, 2019, 7: 108827−108837 doi:  10.1109/ACCESS.2019.2933616
    [5] Han Hong-Gui, Qiao Jun-Fei. Hierarchical neural network modeling approach to predict sludge volume index of wastewater treatment process. IEEE Transactions on Control Systems Technology, 2013, 21(6): 2423−2431 doi:  10.1109/TCST.2012.2228861
    [6] 韩红桂, 伍小龙, 张璐, 乔俊飞. 城市污水处理过程异常工况识别和抑制研究. 自动化学报, 2018, 44(11): 1971−1984

    Han Hong-Gui, Wu Xiao-Long, Zhang Lu, Qiao Jun-Fei. Identification and suppression of abnormal conditions in municipal wastewater treatment process. Acta Automatica Sinica, 2018, 44(11): 1971−1984
    [7] Liu Hong-Bin, Zhang Hao, Zhang Yu-Cheng, Zhang Feng-Shan and Huang Ming-Zhi. Modeling of wastewater treatment processes using dynamic Bayesian networks based on fuzzy PLS. IEEE Access, 2020, 8: 92129−92140
    [8] Fuente M J, Vega P. Neural networks applied to fault detection of a biotechnological process. Engineering Applications of Artificial Intelligence, 1999, 12(5): 569−584 doi:  10.1016/S0952-1976(99)00028-7
    [9] 范昕炜, 杜树新, 吴铁军. 粗SVM分类方法及其在污水处理过程中的应用. 控制与决策, 2004, (05): 573−576 doi:  10.3321/j.issn:1001-0920.2004.05.022

    Fan Xin-Wei, Du Shu-Xin, Wu Tie-Jun. Rough support vector machine and its application to wastewater treatment processes. Control and Decision, 2004, (05): 573−576 doi:  10.3321/j.issn:1001-0920.2004.05.022
    [10] 刘乙奇, 李艳, 孙宗海, 黄道平. 面向污水处理过程因子分析故障诊断方法的研究. 控制工程, 2015, 22(3): 447−451

    Liu Yi-Qi, Li Yan, Sun Zong-Hai, Huang Dao-Ping. Research on fault diagnosis of wastewater treatment process based on factor analysis. Control Engineering of China, 2015, 22(3): 447−451
    [11] 慈嘉伟, 罗健旭. 基于加权模糊聚类的污水处理过程故障检测. 华东理工大学学报(自然科学版), 2018, 44(04): 504−510

    Ci Jia-Wei, Luo Jian-Xu. Fault detection in sewage treatment process based on weighted fuzzy clustering algorithm. Journal of East China University of Science and Technology(Natural Science Edition), 2018, 44(04): 504−510
    [12] 康韦晓. 基于马氏距离的PFCM算法的非线性系统故障诊断方法. [Master dissertation], 哈尔滨工业大学, 2016

    Kang Wei-Xiao. Fault diagnosis method for nonlinear system based on PFCM algorithm with Mahalanobis distance. [Master dissertation], Harbin Institute of Technology, 2013
    [13] Teppola P, Minkkinen P. Possibilistic and fuzzy c-means clustering for process monitoring in an activated sludge waste-water treatment plant. Journal of Chemometrics, 1999, 13(3-4): 445−459 doi:  10.1002/(SICI)1099-128X(199905/08)13:3/4<445::AID-CEM557>3.0.CO;2-W
    [14] Qin S J. Statistical process monitoring: basics and beyond. Journal of Chemometrics, 2003, 17(8-9): 480−502 doi:  10.1002/cem.800
    [15] Zhou P, Zhang R Y, Xie J, Liu J P, Wang H, Chai T Y. Data-driven monitoring and diagnosing of abnormal furnace conditions in blast furnace ironmaking: an integrated PCA-ICA method. IEEE Transactions on Industrial Electronics, 2020 doi:  10.1109/TIE.2020.2967708
    [16] Dunia R, Qin S J, Edgar T F, McAvoy T J. Identification of faulty sensors using principal component analysis. AICHE Journal, 2010, 42(10): 2797−2812
    [17] Choi S W, Lee C, Lee J M, Park J H, Lee I B. Fault detection and identification of nonlinear processes based on kernel PCA. Chemometrics & Intelligent Laboratory Systems, 2005, 75(1): 55−67
    [18] Xu H B, Chen G H, Wang X H. Fault identification of bearings based on bispectrum distribution of ARMA model and FCM method. Journal of South China University of Technology, 2012, 40(7): 78−82+89
    [19] Khormali, A O, Shoorehdeli, M A. Gas turbine fault detection and identification by using fuzzy clustering methods, 2014 Second RSI/ISM International Conference on Robotics and Mechatronics. Tehran, Iran: 2014. 070−075
    [20] Bezdek J C, Ehrlich R, Full W. FCM: The fuzzy c-means clustering algorithm. Computers & Geosciences, 1984, 10(2): 191−203
    [21] Krishnapuram R, Keller J M. A possibilistic approach to clustering. IEEE Transactions on Fuzzy Systems, 1993, 1(2): 98−110 doi:  10.1109/91.227387
    [22] Zhang X, Pan W, Wu Z, Chen J, Mao Y, Wu R. Robust Image Segmentation Using Fuzzy C-Means Clustering With Spatial Information Based on Total Generalized Variation. IEEE Access, 2020, 8: 95681−95697 doi:  10.1109/ACCESS.2020.2995660
    [23] Krinidis S, Chatzis V. A robust fuzzy local information c-means clustering algorithm. IEEE Transactions on Image Processing, 2010, 19(5): 1328−1337 doi:  10.1109/TIP.2010.2040763
    [24] Barni M, Capellini V, Mecocci A. Comments on a possibilistic approach to clustering. IEEE Transactions on Fuzzy Systems, 1996, 4(3): 393−396 doi:  10.1109/91.531780
    [25] Timm H, Borgelt C, Döring C, Kruse R. An extension to possibilistic fuzzy cluster analysis. Fuzzy Sets and Systems, 2004, 147(1): 3−16 doi:  10.1016/j.fss.2003.11.009
    [26] Pal N R, Pal K, Keller J M, Bezdek J C. A possibilistic fuzzy c-means clustering algorithm. IEEE Transactions on Fuzzy Systems, 2005, 13(4): 517−530 doi:  10.1109/TFUZZ.2004.840099
    [27] Miyamoto S, Ichihashi H, Honda K. Algorithms for Fuzzy Clustering-Methods in c-Means Clustering with Applications. Berlin: Springer-Verlag, 2008
    [28] Komazaki Y, Miyamoto S. Variables for controlling cluster sizes on fuzzy c-means. Modeling Decisions for Artificial Intelligence. Springer Berlin Heidelberg, 2013
    [29] Qiao Junfei, Zhang Wei, Han Honggui. Self-organizing fuzzy control for dissolved oxygen concentration using fuzzy neural network1. Journal of Intelligent & Fuzzy Systems, 2016, 30(6): 3411−3
    [30] Garcia-Alvarez D, Fuente M J, Vega P, Sainz G. Fault detection and diagnosis using multivariate statistical techniques in a wastewater treatment plant. IFAC Proceedings Volumes, 2009, 42(11): 952−957 doi:  10.3182/20090712-4-TR-2008.00156
  • [1] 杨翠丽, 武战红, 韩红桂, 乔俊飞. 城市污水处理过程优化设定方法研究进展[J]. 自动化学报, doi: 10.16383/j.aas.c200294
    [2] 乔俊飞, 丁海旭, 李文静. 基于WTFMC算法的递归模糊神经网络结构设计[J]. 自动化学报, doi: 10.16383/j.aas.c180847
    [3] 周平, 刘记平, 梁梦圆, 张瑞垚. 基于KPLS鲁棒重构误差的高炉燃料比监测与异常识别[J]. 自动化学报, doi: 10.16383/j.aas.c180579
    [4] 蒙西, 乔俊飞, 韩红桂. 基于类脑模块化神经网络的污水处理过程关键出水参数软测量[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170497
    [5] 韩红桂, 伍小龙, 张璐, 乔俊飞. 城市污水处理过程异常工况识别和抑制研究[J]. 自动化学报, doi: 10.16383/j.aas.2018.c180439
    [6] 栗三一, 乔俊飞, 李文静, 顾锞. 污水处理决策优化控制[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170257
    [7] 乔俊飞, 韩改堂, 周红标. 基于知识的污水生化处理过程智能优化方法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c170088
    [8] 马跃峰, 梁循, 周小平. 一种基于全局代表点的快速最小二乘支持向量机稀疏化算法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150720
    [9] 汤健, 柴天佑, 余文, 赵立杰. 在线KPLS建模方法及在磨机负荷参数集成建模中的应用[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.00471
    [10] 乔俊飞, 薄迎春, 韩广. 基于ESN的多指标DHP控制策略在污水处理过程中的应用[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.01146
    [11] 孙明轩, 毕宏博. 学习辨识:最小二乘算法及其重复一致性[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.00698
    [12] 常玉清, 王姝, 谭帅, 王福利, 杨洁. 基于多时段MPCA模型的间歇过程监测方法研究[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.01312
    [13] 赵春晖, 王福利, 姚远, 高福荣. 基于时段的间歇过程统计建模、在线监测及质量预报[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00366
    [14] 张颖伟, 周宏, 秦泗钊. 基于多块核主元分析的复杂过程的分散故障诊断[J]. 自动化学报, doi: 10.3724/SP.J.1004.2010.00593
    [15] 颜学峰. 基于径基函数-加权偏最小二乘回归的干点软测量[J]. 自动化学报, doi: 10.1360/aas-007-0193
    [16] 陆宁云, 王福利, 高福荣, 王姝. 间歇过程的统计建模与在线监测[J]. 自动化学报
    [17] 赵龙, 陈哲. 新型联邦最小二乘滤波算法及应用[J]. 自动化学报
    [18] 王晓, 韩崇昭, 万百五. 两种新的有效的非线性系统最小二乘辨识算法[J]. 自动化学报
    [19] 罗贵明. 基于最小二乘算法的最优适应控制器[J]. 自动化学报
    [20] 孟晓风, 王行仁, 黄俊钦. 最小二乘估计的HOUSEHOLDER变换快速递推算法[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  2
  • HTML全文浏览量:  2
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-06-09
  • 录用日期:  2020-09-07

基于鲁棒加权模糊聚类的污水处理过程监测方法

doi: 10.16383/j.aas.c200392
    基金项目:  国家自然科学基金项目(61890934, 61790572, 61991400), 辽宁省'兴辽英才计划'项目(XLYC1907132), 中央高校基本科研业务费项目(N180802003)
    作者简介:

    东北大学硕士研究生. 于2018年获得东北大学学士学位. 主要研究方向为数据驱动质量监测. E-mail: 1598921837@qq.com

    东北大学教授. 分别于2003年, 2006年, 2013年获得东北大学学士学位、硕士学位和博士学位. 主要研究方向为工业过程运行反馈控制、数据驱动建模与控制等. 本文通信作者. E-mail: zhouping@mail.neu.edu.cn

摘要: 针对非线性强、先验故障知识少、异常工况识别难的污水处理过程监测问题, 提出一种基于鲁棒加权模糊c均值(RoW-FCM)聚类与核偏最小二乘(KPLS)的过程监测方法. 首先, 针对污水处理过程的高维非线性耦合特性, 采用KPLS对高维输入变量进行降维; 其次, 针对传统基于最近邻分配的模糊c均值(FCM)算法对离群点敏感以及存在聚类不平衡簇的问题, 提出充分考虑样本间相互关系的RoW-FCM聚类算法. 通过引入可能性划分矩阵作为权值参数实现不同样本数据的区分加权, 提高了离群点数据聚类的鲁棒性, 同时引入聚类大小控制参数解决不平衡簇的问题. 进一步将RoW-FCM算法对KPLS降维后的得分矩阵进行聚类, 利用聚类得到的隶属度矩阵实现异常工况的检测; 最后, 建立隶属度矩阵与过程变量的回归模型, 并利用得到的变量贡献矩阵描述变量对各个簇的解释程度, 实现异常工况的识别. 数值仿真以及污水处理过程数据实验表明所提方法具有更好的鲁棒性能, 在异常工况检测和识别上具有较好的效果.

English Abstract

张瑞垚, 周平. 基于鲁棒加权模糊聚类的污水处理过程监测方法. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392
引用本文: 张瑞垚, 周平. 基于鲁棒加权模糊聚类的污水处理过程监测方法. 自动化学报, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392
Zhang Rui-Yao, Zhou Ping. Robust weighted fuzzy clustering for sewage treatment process monitoring. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392
Citation: Zhang Rui-Yao, Zhou Ping. Robust weighted fuzzy clustering for sewage treatment process monitoring. Acta Automatica Sinica, 2020, 46(x): 1−13. doi: 10.16383/j.aas.c200392
  • 污水处理工业在我国水资源可持续发展中占据重要一环. 目前, 应用最广泛的污水处理工艺是活性污泥法[1]. 如图1所示, 活性污泥法污水处理工艺流程通常按照处理程度分为一级处理(预处理)、二级处理(生化处理)和三级处理(深度处理)[2]. 原污水首先经过格栅拦截较大的悬浮物或漂浮杂质后进入沉砂池, 沉砂池将密度较大的无机悬浮物从污水中分离, 然后进入初沉池. 完成一级处理的污水经初沉池出水, 并与回流的二沉池沉淀污泥按一定比例混合进入曝气池. 曝气池分为缺氧区和好氧区. 在缺氧区中, 内循环回流的硝态氮在异养菌无氧呼吸作用下被还原为氮气; 在好氧区中, 氨氮在自养菌有氧呼吸作用下发生硝化反应, 有机物被进一步降解. 随后污水经曝气池出水进入二沉池, 将澄清水与活性污泥进行固液分离. 分离后, 澄清水排入受纳水体或经过物理、化学等技术进一步去除污染物后实现中水回用. 二沉池除回流污泥外的沉淀污泥与初沉池的污泥混合, 经过浓缩、消化、脱水等工艺后做最终处置及回收利用[2-4].

    图  1  污水处理工艺流程示意图

    Figure 1.  Schematic diagram of sewage treatment process

    污水处理的根本目的是将城市生活、工业生产等产生的污水经过上述污水处理的各道工序后达到国家规定的出水指标. 目前, 污水处理出水质量指标主要包括生化需氧量(BOD)、化学需氧量(COD)、总悬浮物 (TSS)、总磷(TP)、氨氮等. 在污水处理过程中, 由于进水流量、进水组分、污染物种类、天气变化等都是被动接受, 微生物种群、溶解氧浓度、污水pH值等多种因素对微生物的生命活动都会产生巨大的影响, 因此保持污水处理厂的长期稳定运行十分困难[4, 5]. 由于污水处理时常处于非平稳状态运行, 因此容易引发异常工况的发生. 如果不能及时监测到污水处理过程异常工况, 导致不能正确的判断且没有采取有效措施加以调整纠正, 会导致出水水质不达标、污水处理能力降低, 甚至会引发污水处理过程的崩溃, 导致不可逆的事故发生, 使得运行成本大大增加并且造成环境污染. 所以, 通过建立有效的监测方法来监测污水处理过程, 对异常工况做出准确判断, 并及时准确的采取有效措施, 对保证污水处理过程安全稳定顺行以及出水水质的达标尤其重要.

    由于污水处理过程是一个多变量、强耦合、大时滞、高度非线性的复杂动态非平稳生化反应过程[5], 机理模型很难完全考虑污水处理全流程的运行状态. 大部分机理模型都是基于局部过程建立的, 因此在描述污水处理过程特性时具有很大的局限性[6, 7], 这就促进了数据驱动尤其是基于机器学习与多元统计分析的过程监测与故障诊断方法在污水处理过程中的应用[5]. 文献[8]提出了一种基于在线估计技术和反向传播神经网络的故障检测和诊断方法, 不仅具有鲁棒性, 而且能够避免阈值问题, 显示出较好的应用可靠性. 文献[9]提出的粗集支持向量机(SVM)分类方法降低了样本属性并保留一定的冗余性, 对污水处理过程运行状态的监测实验验证了该方法的有效性. 文献[10]针对主元分析对于噪声和不确定信息描述能力不足的问题, 提出了因子分析故障诊断方法, 在污水仿真基准模型的验证表明该方法能够降低传统主元分析(PCA)方法的故障误报率, 对不确定信息具有较好的描述能力. 近年来, 由于污水处理数据缺少分类标识, 且先验知识匮乏, 因此模糊聚类技术在污水处理过程监测中得到了越来越多的应用. 模糊聚类是一种无监督分类技术, 本身具有捕获数据非线性结构的能力, 可以充分挖掘污水处理过程的数据信息, 通过建立模糊相似关系对过程进行监测和诊断[11]. 文献[12]针对采样数据维度过高的问题, 采用了PCA和可能性模糊c均值(PFCM)聚类相结合的方法, 在TE过程仿真实验中取得较好效果. 但是PCA是一种线性降维技术, 对于污水处理这样的高维非线性系统, 其实际应用效果会有很大局限性. 文献[13]提出了偏最小二乘(PLS)、可能性聚类(PCM)与FCM的组合方法, 并给出了一种递归原型更新算法. PLS算法的使用抑制了与输出数据无关的噪声和变化, 促进了PCM和FCM的应用, 使其更容易找到簇和相应的原型, 但聚类算法FCM对离群点敏感, 因此其监测效果易受离群点影响, 鲁棒性差. 当监测到异常工况发生时, 需要及时识别出导致异常工况发生的异常变量. 目前, 贡献图方法是最为普遍的故障识别方法[14]. Miller等[15]提出了基于PCA的贡献图方法, 用于辨识与故障相关的关键变量. Dunia等[16]提出了基于重构和平方预测误差(SPE)的方法, 即利用重构SPE与实际SPE的比值进行故障辨识. 文献[17]提出了一种基于核主成分分析(KPCA)的方法, 特别是在鲁棒重构误差的基础上, 提出了一种新的故障识别方法. 其基本思路是当重构的变量是故障变量时, 此变量的故障指标会比非故障变量的指标值偏小. 如今, 基于模糊聚类的故障识别方法的研究也得到越来越多专家学者的研究. 文献[18]提出了一种基于自回归滑动平均模型双谱分布特征与模糊c均值聚类分析的故障识别方法, 该方法通过FCM聚类构造类模板和最小距离模板的分类器, 实现了滚动轴承的故障识别. 文献[19]将模糊c均值算法和Gustafson-Kessel聚类算法用于燃气轮机故障的故障检测和识别, 仿真结果表明模糊聚类方法具有可接受的故障识别性能.

    综上, 本文针对非平稳污水处理工业过程的非线性强、先验故障知识少、异常工况识别难等问题, 提出了一种基于RoW-FCM与KPLS的新型过程监测方法. 首先, 采用KPLS算法对污水处理过程的高维输入过程变量进行降维, 同时解决了污水处理数据的非线性问题; 其次, 采用RoW-FCM聚类算法对通过KPLS算法降维得到的得分矩阵聚类, 通过聚类得到的隶属度矩阵进行污水处理过程异常工况检测分析; 再次, 建立隶属度矩阵与样本数据变量之间的回归模型, 通过解得的变量贡献矩阵进行异常工况识别; 最后, 对所提RoW-FCM算法进行数值仿真验证, 并基于污水处理过程数据进行实验验证和对比分析.

    • 提出的基于RoW-FCM聚类与KPLS的污水处理过程监测方法如图2所示, 主要包括高维数据降维、异常工况检测与异常工况识别三个部分.

      图  2  所提监测算法建模策略

      Figure 2.  The proposed monitoring algorithm modeling strategy

      1)高维数据降维: 污水处理过程相应过程运行性能与出水水质的变量较多, 具有高维特性, 而且变量之间存在着很强的关联耦合特性. 如果把全部变量都用于模型的建立, 不仅会加大计算复杂度, 而且会由于冗余信息干扰影响建模与监测的性能, 因此需要对输入变量数据进行降维. 为此, 采用非线性的KPLS方法对高维数据进行降维. 首先将标准化后的过程变量投影到高维特征空间, 然后在高维特征空间建立过程变量与质量变量的PLS模型, 并采用交叉验证法确定主元数, 得到得分矩阵, 也即原始高维变量经过降维处理后的低维变量.

      2)异常工况检测: 针对常规FCM算法对于离群点敏感, 建立RoW-FCM聚类算法, 通过引入了权值参数对不同质量的样本数据的区分加权, 改善了聚类对离群点的鲁棒性, 同时引入聚类大小控制参数解决了不平衡簇问题. 由于传统基于欧氏距离的FCM算法是根据最近邻分配, 即对于球形数据集以外的如椭圆形类数据集不能有效聚类, 因此采用马氏距离, 可以充分考虑样本之间的相互关系. 将所提改进聚类算法对得分矩阵聚类, 得到隶属度矩阵, 通过所得隶属度矩阵对污水处理过程进行异常工况检测.

      3)异常工况识别: 为了识别导致异常工况的主导变量, 考虑变量对过程异常工况的解释程度. 基于此, 通过建立隶属度矩阵与过程变量的回归模型, 得到变量隶属度矩阵, 利用变量贡献矩阵描述变量对各个簇的解释程度, 即变量对各类工况的解释程度, 从而达到对异常工况识别的目的.

    • 图1所示活性污泥污水处理过程的输入变量矩阵为 $X = {[{{{x}}_1},{{{x}}_2}, \cdots ,{{{x}}_n}]^{\rm{T}}} \in {{\bf{R}}^{n \times {m_1}}}$ , 出水质量变量矩阵为 $Y = {[{{{y}}_1},{{{y}}_2}, \cdots ,{{{y}}_n}]^{\rm{T}}} \in $ ${{\bf{R}}^{n \times l}}$ , 式中 $n$ 为样本数, ${m_1}$ 为过程变量数, $l$ 为质量变量数. 将输入过程变量 $\left\{ {{{{x}}_i}} \right\}_{i = 1}^n$ 通过非线性变换 $\phi $ 映射到高维特征空间 ${\bf{F}}$ , 如下所示:

      $$\phi :{{{x}}_i} \in {{\bf{R}}^{{m_1}}} \to \phi ({{{x}}_i}) \in {\bf{F}}$$ (1)

      $\Phi $ 表示输入矩阵 $X$ 映射到高维特征空间 ${\bf{F}}$ 后的特征矩阵:

      $$\Phi = {\left[ {\phi ({{{x}}_1}),\phi ({{{x}}_2}), \cdots ,\phi ({{{x}}_n})} \right]^{\rm{T}}} \in {{\bf{R}}^{n \times M}}$$ (2)

      式中, $M$ 为特征空间维数. 注意到在计算Gram矩阵 $K = {{Φ}}{ {{Φ}} ^{\rm{T}}} \in {{\rm{R}}^{n \times n}}$ 时, 通过使用核技巧 ${K_{ij}} = k ({{{x}}_i},{{{x}}_j}) =$ $\left\langle {\phi ({{{x}}_i}),\phi ({{{x}}_j})} \right\rangle $ 就无需确定 $\Phi $ 的具体形式, 避免了在高维特征空间的复杂內积运算. 本文选用如下高斯函数作为核函数:

      $$k({{x}},{{y}}) = \exp ( - {{{{\left\| {{{x}} - {{y}}} \right\|}^2}} / c})$$ (3)

      式中, $c$ 为高斯核函数宽度, 由 $5{m_1}$ 经验原则确定. Gram矩阵 $K$ 的中心化处理可按下式计算:

      $$\bar K = \left( {{E_n} - {{\bf{1}}_n}{\bf{1}}_n^{\rm{T}}/n} \right)K\left( {{E_n} - {{\bf{1}}_n}{\bf{1}}_n^{\rm{T}}/n} \right)$$ (4)

      式中, $\bar K$ 为中心化后的 $K$ , ${E_n}$ $n \times n$ 的单位矩阵, ${{\bf{1}}_n} = {\left[ {1,1, \cdots ,1} \right]^{\rm{T}}} \in {{\bf{R}}^n}$ .

      使用KPLS方法可将 $\bar K$ $Y$ 矩阵分解为:

      $$\left\{ \begin{array}{l} \bar K = \hat K + {K_r} = T{P^{\rm{T}}} + {K_r} \\ Y = \hat Y + {Y_r} = T{Q^{\rm{T}}} + {Y_r} \\ \end{array} \right.$$ (5)

      式中, ${K_r}$ ${Y_r}$ 分别表示 $\bar K$ $Y$ 的建模误差, $P \in {{\bf{R}}^{{m_1} \times A}}$ $Q \in {{\bf{R}}^{l \times A}}$ 分别为 $\Phi $ $Y$ 的负载矩阵, $T = \left[ {{{{t}}_1},{{{t}}_2}, \cdots ,{{{t}}_A}} \right]$ $ \in {{\bf{R}}^{n \times A}}$ $\bar K$ $Y$ 的得分矩阵, $A$ 为交叉验证决定的主元个数, 并设 ${\bf{t}}_i^{row}$ 为得分矩阵 $T$ 的第 $i$ 个行向量.

    • 聚类算法中, 比较有影响的重要工作就是Dunn将常规硬聚类目标函数推广到了模糊情形, 而Bezdek又将Dunn的目标函数做了推广, 给出了如下基于目标函数的模糊聚类分析更一般的描述[20]:

      $$\left\{ \begin{array}{l} \!\!\!{\rm{min }}{J_{{\rm{FCM}}}} = \displaystyle\sum\limits_{i = 1}^c {\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{d^2}({{t}}_k^{row},{{{v}}_i})} } \\ \!\!\! \displaystyle\sum\limits_{i = 1}^c {{u_{ik}}} = 1,{\rm{ }}{u_{ik}} \in [0,1],1 \leqslant i \leqslant c,1 \leqslant k \leqslant n \\ \end{array} \right.$$ (6)

      式中, $U{\rm{ = [}}{u_{ik}}{]_{c \times n}}$ 表示隶属度矩阵, ${u_{ik}}$ 表示样本 ${{t}}_k^{row}$ 对第 $i$ 个聚类中心 ${{{v}}_i}$ 的隶属度; $m \in [1, + \infty ]$ 为模糊指数, 影响隶属度矩阵的模糊程度; ${d^2}({{t}}_k^{row}, {{{v}}_i})$ 表示样本 ${{t}}_k^{row}$ 与第 $i$ 个聚类中心 ${v_i}$ 之间的欧式距离.

      $${u_{ik}}{\rm{ = }}{\left\{ {{{\sum\limits_{j = 1}^c {\left( {\frac{{{d^2}({{t}}_k^{row},{{{v}}_i})}}{{{d^2}({{t}}_j^{row},{{{v}}_i})}}} \right)} }^{{1 / {(m - 1)}}}}} \right\}^{ - 1}}$$ (7)
      $${{{v}}_i}{\rm{ = }}\dfrac{{\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{t}}_k^{row}} }}{{\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}} }}$$ (8)

      Krishnapuram和Keller[21]在FCM算法的基础上放松了对隶属度的概率约束, 提出了可能性聚类(PCM)算法, 该算法的目标函数及约束条件如下:

      $$\left\{ \begin{array}{l} \!\!\!{\rm{min }}{J_{PCM}} = \displaystyle\sum\limits_{i = 1}^c {\displaystyle\sum\limits_{k = 1}^n {{{({w_{ik}})}^p}} } {d^2}({{t}}_k^{row},{{{v}}_i}) + \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\displaystyle\sum\limits_{i = 1}^c {{\tau _i}\displaystyle\sum\limits_{k = 1}^n {{{(1 - {w_{ik}})}^p}} } \\ \!\!\!\displaystyle\sum\limits_{i = 1}^c {{w_{ik}}} > 0,{w_{ik}} \in [0,1],1 \leqslant i \leqslant c,1 \leqslant k \leqslant n \end{array} \right.$$ (9)

      式中, $W{\rm{ = [}}{w_{ik}}{]_{c \times n}}$ 表示可能性划分矩阵, ${w_{ik}}$ 表示样本 ${{t}}_k^{row}$ 对第 $i$ 个聚类中心 ${{{v}}_i}$ 的可能性; $p \in [1, + \infty ]$ 为可能性划分指数; ${d^2}({{t}}_k^{row},{{{v}}_i})$ 表示样本 ${{t}}_k^{row}$ 与第 $i$ 个聚类中心 ${{{v}}_i}$ 之间的欧式距离; ${\tau _i}$ 为惩罚因子; $\sum\nolimits_{i = 1}^c {{\tau _i}} \sum\nolimits_{k = 1}^n {{{(1 - {w_{ik}})}^p}} $ 为惩罚项, 避免可能性矩阵 $W$ 0的情况.

      通常使用拉格朗日乘子法求解PCM目标函数极值对应的 ${w_{ik}}$ ${{{v}}_i}$ , 如下所示:

      $${w_{ik}}{\rm{ = }}{\left\{ {1{\rm{ + }}{{\left( {\dfrac{{{d^2}({{t}}_k^{row},{{{v}}_i})}}{{{\tau _i}}}} \right)}^{{1 / {(m - 1)}}}}} \right\}^{ - 1}}$$ (10)
      $${{{v}}_i}{\rm{ = }}\dfrac{{\displaystyle\sum\limits_{k = 1}^n {{{({w_{ik}})}^p}{{t}}_k^{row}} }}{{\displaystyle\sum\limits_{k = 1}^n {{{({w_{ik}})}^p}} }}$$ (11)

      惩罚因子 ${\tau _i}$ 的计算公式如下:

      $${\tau _i}{\rm{ = }}{K_1}\dfrac{{\displaystyle\sum\limits_{k = 1}^n {{{({w_{ik}})}^p}{d^2}({{t}}_k^{row},{{{v}}_i})} }}{{\displaystyle\sum\limits_{k = 1}^n {{{({w_{ik}})}^p}} }}$$ (12)

      式中, ${K_1} > 0$ , 通常取值为1.

    • 聚类的鲁棒性是指所实现分区的稳定性和可再现性, 以及对噪声和离群点的不敏感性[22, 23]. FCM算法由于对隶属度的约束, 使得聚类结果对离群点特别敏感. 为了解决这个问题, 已有学者提出了多种解决方案. Krishnapuram和Keller提出的PCM算法放松了对隶属度的概率约束, 使其对离群点具有较强的鲁棒性, 但容易导致重合聚类[24]. Timm等人[25]在所有的PCM集群原型之间建立一个排斥力, 其强度随着距离的增加而降低. 该方法有效避免了重合聚类, 但在两个聚类之间非常接近的情况下却不能准确处理. 针对FCM和PCM存在的上述问题, Pal[26]等人提出了PFCM聚类算法, PFCM具有FCM与PCM的优点, 具有较好的鲁棒性, 但对参数设置有很大的依赖性. 基于此, 针对现有方法存在的上述问题, 提出鲁棒加权模糊c均值(RoW-FCM)聚类算法. 首先引入可能性划分矩阵作为权值参数, 同时考虑到欧几里德距离在聚类时的局限[27], 因此采用马氏距离. FCM等算法的另一个主要缺点是它们倾向于使集群的大小相等. 也就是说, 如果一个大集群的数量不平衡, 那么它的一部分就会被错误地分类为另一个小集群, 考虑到这一问题, 本文进一步利用变量控制簇大小的方法来解决这一问题[28]. 综上, 本文RoW-FCM算法的聚类目标函数如下:

      $$\left\{ \begin{array}{l} \!\!\! \min {\rm{ }}{J_{{\rm{RoW - FCM}}}} \!=\! \displaystyle\sum\limits_{i = 1}^c \displaystyle\sum\limits_{k = 1}^n {{({\alpha _i})}^{1 - m}}{{({u_{ik}})}^m}{{({w_{ik}})}^p} \\ \;\;\qquad\qquad\qquad D({{t}}_k^{row},{{{v}}_i};{{\bf{S}}_i}) \!+\!\! \displaystyle\sum\limits_{i = 1}^c {{\eta _i}\displaystyle\sum\limits_{k = 1}^n \!{{{(1 \!-\! {w_{ik}})}^p}} } \\ \!\!\! s.t.\left\{ \begin{array}{l} \!\!\!\displaystyle\sum\limits_{i = 1}^c {{u_{ik}} = 1} ,{u_{ik}} \in [0,1],1 \leq i \leq c,1 \leq k \leq n \\ \!\!\! 0 \!<\! \displaystyle\sum\limits_{i = 1}^c {{w_{ik}}} \! <\! c,{w_{ik}} \in [0,1],1 \!\leq\! i \!\leq\! c,1 \!\leq\! k \!\leq\! n \\ \!\!\! \displaystyle\sum\limits_{i = 1}^c {{\alpha _i} = 1} ,{\rm{ }}{a_i} \in [0,1],1 \leq i \leq c \\ \!\!\! \left| {{{\bf{S}}_i}} \right|{\rm{ = }}1 \\[-10pt] \end{array} \right. \\ \end{array} \right.$$ (13)

      式中, $D({{t}}_k^{row},{{{v}}_i};{S_i}){\rm{ = (}}{{t}}_k^{row} - {{{v}}_i}{{\rm{)}}^{\rm T}}S_i^{ - 1}{\rm{(}}{{t}}_k^{row} - {{{v}}_i}{\rm{)}}$ , ${{\bf{S}}_i}$ 是一个正定矩阵, 它表示变量的模糊化协方差矩阵; ${\eta _i}$ 为惩罚因子; $\sum\nolimits_{i = 1}^c {{\eta _i}} \sum\nolimits_{k = 1}^n {{{(1 - {w_{ik}})}^p}} $ 为惩罚项; $A{\rm{ = [}}{\alpha _i}{]_{1 \times c}}$ 为聚类大小控制矩阵, ${\alpha _i}$ 为聚类大小控制因子.

      引入拉格朗日乘子 $\lambda $ $\gamma $ $\xi $ , 构造如下函数:

      $$\begin{split} L =& \displaystyle\sum\limits_{i = 1}^{\rm{c}} {\displaystyle\sum\limits_{k = 1}^n {{{({\alpha _i})}^{1 - m}}{{({u_{ik}})}^m}} } {({w_{ik}})^p}D({{t}}_k^{row},{{{v}}_i};{S_i}) + \\ &\displaystyle\sum\limits_{i = 1}^c {{\eta _i}} \displaystyle\sum\limits_{k = 1}^n {{{(1 - {w_{ik}})}^p}} + \displaystyle\sum\limits_{k = 1}^n {{\lambda _k}\left(1 - \displaystyle\sum\limits_{i = 1}^c {{u_{ik}}} \right)} + \\ &\displaystyle\sum\limits_{i = 1}^c {{\gamma _i}\left| {{S_i}} \right|} {\rm{ + }}\xi \left(1 - \displaystyle\sum\limits_{i = 1}^c {{\alpha _i}} \right) \\[-15pt] \end{split} $$ (14)

      对函数 $L$ 分别求关于 ${w_{ik}}$ ${u_{ik}}$ ${v_{ik}}$ ${\alpha _i}$ 的偏导数, 可得:

      $$\begin{split} \dfrac{{\partial L}}{{\partial {w_{ik}}}} = &0 \Rightarrow {({\alpha _i})^{1 - m}}{({u_{ik}})^m}p{({w_{ik}})^{p{\rm{ - }}1}}D({{t}}_k^{row},{{{v}}_i};{{\bf{S}}_i}) - \\ & {\eta _i}p{(1 - {w_{ik}})^{p - 1}} = 0 \\[-10pt] \end{split} $$ (15)

      进一步解得:

      $$ {w_{ik}} = {\left[ {1 + {{\left( {\frac{{{{({\alpha _i})}^{1 - m}}{{({u_{ik}})}^m}D({{t}}_k^{row},{{{v}}_i};{{\bf{S}}_i})}}{{{\eta _i}}}} \right)}^{\frac{{\rm{1}}}{{p - 1}}}}} \right]^{ - 1}} $$ (16)
      $$ \left\{ \begin{split} \!\!\!& \dfrac{{\partial L}}{{\partial {u_{ik}}}} = 0{\rm{ }} \\ & m{({\alpha _i})^{1 \!-\! m}}{({u_{ik}})^{m \!-\! 1}}{({w_{ik}})^p}D({{t}}_k^{row},{{{v}}_i};{S_i}) \!=\! {\lambda _k} \\ \end{split} \right. $$ (17)
      $$\begin{split} {\rm{ }}{u_{ik}} =& {\left( {\dfrac{{{\lambda _k}}}{m}} \right)^{\dfrac{{\rm{1}}}{{m - 1}}}}\\ &{\left[ {{{({\alpha _i})}^{1 - m}}{{({w_{ik}})}^p}D({{t}}_k^{row},{{{v}}_i};{S_i})} \right]^{\dfrac{{{\rm{ - 1}}}}{{m - 1}}}}\end{split}$$ (18)

      $ \sum\nolimits_{i = 1}^c {{u_{ik}} = 1} $ 有:

      $$\begin{split}1 =& \displaystyle\sum\limits_{j = 1}^c \Bigg\{ {{\left( {\dfrac{{{\lambda _k}}}{m}} \right)}^{\frac{1}{{m - 1}}}}\bigg[ {{({\alpha _j})}^{1 - m}}{{({w_{jk}})}^p}\\ &D({{t}}_k^{row},{{{v}}_i};{S_j}) \bigg]^{\frac{{{\rm{ - }}1}}{{m - 1}}}\ \Bigg\} \end{split}$$ (19)

      将式(17)带入上式得:

      $${\rm{ }}{u_{ik}} = \dfrac{{{{\left[ {{{({\alpha _i})}^{1 - m}}{{({w_{ik}})}^p}D({{t}}_k^{row},{{{v}}_i};{S_i})} \right]}^{ - 1/(m - 1)}}}}{{\displaystyle\sum\limits_{j = 1}^c {{{\left[ {{{({\alpha _j})}^{1 - m}}{{({w_{jk}})}^p}D({{t}}_k^{row},{{{v}}_j};{S_j})} \right]}^{ - 1/(m - 1)}}} }}$$ (20)
      $$ \left\{ \begin{array}{l} \dfrac{{\partial L}}{{\partial {v_{ik}}}} = 0 \\ \displaystyle\sum\limits_{k = 1}^n \begin{array}{l} {({\alpha _i})^{1 - m}}{({u_{ik}})^m}p{({w_{ik}})^p} \\ \left[ {S_i^{ - 1}({{t}}_k^{row} - {{{v}}_i}) + {{(S_i^{ - 1})}^{\rm T}}({{t}}_k^{row} - {{{v}}_i})} \right] \\ \end{array} = 0 \\ \end{array} \right. $$ (21)
      $$\begin{split} &\left[ {S_i^{ - 1} + {{(S_i^{ - 1})}^{\rm T}}} \right]{{{v}}_i} = \\ & \dfrac{{\left[ {S_i^{ - 1} + {{(S_i^{ - 1})}^{\rm T}}} \right]\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}{{t}}_k^{row}} }}{{\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}} }} \end{split} $$ (22)

      可知 $\left[ {S_i^{ - 1} + {{(S_i^{ - 1})}^{\rm T}}} \right]$ 可逆, 解得:

      $${{{v}}_i} = \dfrac{{\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}{{t}}_k^{row}} }}{{\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}} }}$$ (23)
      $$\left\{ \begin{array}{l} \dfrac{{\partial L}}{{\partial {S_i}}} = 0 \\ \\ \displaystyle\sum\limits_{k = 1}^n \begin{array}{l} {({\alpha _i})^{1 - m}}{({u_{ik}})^m}{({w_{ik}})^p} \\ S_i^{ - 1}({{t}}_k^{row} - {{{v}}_i}){({{t}}_k^{row} - {{{v}}_i})^{\rm T}}S_i^{ - 1} \\ \end{array} {\rm{ }} + \\ \;\; \;\;\;\;\;{\rm{ }} {\gamma _i}S_i^{ - 1} = 0 \\ \end{array} \right.$$ (24)
      $${S_i}{\rm{ = }}\dfrac{1}{{{\gamma _i}}}\displaystyle\sum\limits_{k = 1}^n \begin{array}{l} {({\alpha _i})^{1 - m}}{({u_{ik}})^m}{({w_{ik}})^p} \\ S_i^{ - 1}({{t}}_k^{row} - {{{v}}_i}){({{t}}_k^{row} - {{{v}}_i})^{\rm T}} \\ \end{array} $$ (25)

      $ {\theta _i} = {{{{({\alpha _i})}^{1 - m}}} / {{\gamma _i}}}$ , 得:

      $${S_i}{\rm{ = }}{\theta _i}\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}({{t}}_k^{row} - {{{v}}_i}){{({{t}}_k^{row} - {{{v}}_i})}^{\rm T}}} $$ (26)

      为了消除拉格朗日乘子 ${\gamma _i}$ , 令:

      $${\hat S_i}{\rm{ = }}\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}p{{({w_{ik}})}^p}({{t}}_k^{row} - {{{v}}_i}){{({{t}}_k^{row} - {{{v}}_i})}^{\rm T}}} $$ (27)

      $ \left| {{S_i}} \right|{\rm{ = }}1$ 得:

      $${\theta _i} = \dfrac{1}{{\left| {{{\hat S}_i}} \right|}}$$ (28)
      $$\left\{ \begin{array}{l} \!\!\! \dfrac{{\partial L}}{{\partial {\alpha _i}}} = 0{\rm{ }} \\ \!\!\! \displaystyle\sum\limits_{k = 1}^n {(1 - m){{({\alpha _i})}^{ - m}}{{({u_{ik}})}^m}{{({w_{ik}})}^p}D({{t}}_k^{row},{{{v}}_i};{S_i})} = \xi \\ \end{array} \right.$$ (29)

      $ \sum\nolimits_{i = 1}^c {{\alpha _i} = 1}$ 得:

      $$1{\rm{ = }}\displaystyle\sum\limits_{j = 1}^c {{{\left[ {\dfrac{{\displaystyle\sum\limits_{k = 1}^n \begin{array}{l} (1 - m){({u_{jk}})^m}{({w_{jk}})^p} \\ D({{t}}_k^{row},{{{v}}_j};{S_j}) \\ \end{array} }}{\xi }} \right]}^{\dfrac{1}{m}}}} $$ (30)

      将式(29)带入上式得:

      $${\alpha _i}{\rm{ = }}\dfrac{{{{\left( {\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}D({{t}}_k^{row},{{{v}}_i};{S_i})} } \right)}^{ - m}}}}{{\displaystyle\sum\limits_{j = 1}^c {{{\left( {\displaystyle\sum\limits_{k = 1}^n {{{({u_{jk}})}^m}{{({w_{jk}})}^p}D({{t}}_k^{row},{{{v}}_j};{S_j})} } \right)}^{ - m}}} }}$$ (31)

      ${\eta _i}$ 为惩罚因子, 采用下式计算:

      $${\eta _i}{\rm{ = }}{K_2}\dfrac{{\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}D({{t}}_k^{row},{{{v}}_i};{S_i})} }}{{\displaystyle\sum\limits_{k = 1}^n {{{({u_{ik}})}^m}{{({w_{ik}})}^p}} }}$$ (32)

      式中, ${K_2} > 0$ , 通常取值为1.

      最后, 所提RoW-FCM算法的具体实现步骤如下所示:

      1)输入数据 $T = \left[ {{{{t}}_1},{{{t}}_2}, \cdots ,{{{t}}_{{A}}}} \right]$ , 设定聚类数目 $c$ 、模糊指数 $m$ 、可能性划分指数 $p$ , 设置算法终止限 $\varepsilon $ 、算法最大迭代次数 $coun{t_1}$ , 初始化迭代次数 $k = 1$ , 初始化隶属度矩阵 ${U^{(1)}}=\left[u_{_{ik}}^{(1)}\right]_{c \times n}$ 、聚类中心 ${V^{(1)}}=\left[{{v}}_i^{(1)}\right]_{c \times A}$ 、协方差矩阵 ${S^{(1)}}=\left[S_{_i}^{(1)}\right]_{A \times A \times c}$ 以及聚类大小控制矩阵 $A{\rm{ = [}}{\alpha _i}{]_{1 \times c}}$ ;

      2)利用式 (17) 计算 ${W^{(k + 1)}}= \left[w_{_{ik}}^{(k + 1)}\right]_{c \times n}$ ;

      3)利用式 (20) 计算 ${U^{(k + 1)}}=\left[u_{_{ik}}^{(k + 1)}\right]_{c \times n}$ ;

      4)利用式 (23) 计算 ${V^{(k + 1)}}=\left[{{v}}_i^{(k + 1)}\right]_{c \times A}$ ;

      5)利用式 (25) 计算 ${S^{(k + 1)}}=\left[S_{_i}^{(k + 1)}\right]_{A \times A \times c}$ ;

      6)利用式 (31) 计算 $A{\rm{ = [}}{\alpha _i}{]_{1 \times c}}$ ;

      7)如果 $\left\| {{U^{(k + 1)}} - {U^{(k)}}} \right\| < \varepsilon $ 或者算法迭代次数 $k > coun{t_1}$ ,则算法终止; 否则, $k = k{\rm{ + }}1$ , 执行1).

      注 1: 本文聚类算法对于隶属度矩阵和聚类中心的初始化并不敏感, 因此在迭代开始前, 即在算法1中的1)过程, 隶属度矩阵以及聚类中心的初始值采用随机初始化给出.

    • 实际污水处理运行过程中, 当异常工况发生时, 及时识别造成异常工况发生的异常变量对指导操作人员做出有效操作决策具有重要意义. 聚类算法中, 隶属度矩阵描述了样本属于聚类中心的程度. 为了识别与异常工况相关的变量, 本文进一步提出一种新的基于变量贡献矩阵的识别方法. 所提方法的基本思想就是: 每个变量对各种工况都有一个贡献值, 并且限定每个变量对所有工况的贡献值之和为1. 如果某个变量对某个工况的贡献值最大, 即表明此变量是与此工况相关联的变量, 也就认为该变量是造成该工况的关键变量. 变量贡献矩阵通过建立隶属度矩阵与过程变量的线性回归模型得到, 其描述了样本变量对各个簇的解释程度, 回归模型如下:

      $${u_{ik}} = \displaystyle\sum\limits_{a = 1}^{{m_1}} {{x_{ka}}{\eta _{ai}}{\rm{ + }}{\varepsilon _{ik}}} ,i = 1, \cdots ,c,k = 1, \cdots ,n$$ (33)

      式中, ${\varepsilon _{ik}}$ 为误差项, 满足 $E({\varepsilon _{ik}}) = 0$ , $Var({\varepsilon _{ik}}) = {\delta ^2} ({\text{常数}})$ 以及 $Cov({\varepsilon _{ik}},{\varepsilon _{ij}}){\rm{ = }}0,j \ne k$ ; ${x_{ka}}$ 表示第 $k$ 个样本的第 $a$ 个变量; $N{\rm{ = [}}{\eta _{ai}}{]_{{m_1} \times c}}$ 为变量贡献矩阵, ${\eta _{ai}}$ 表示聚类 $i$ 被变量 ${x_{ka}}$ 的解释程度.

      为求解 ${\eta _{ai}}$ , 引入如下损失函数:

      $$J = \displaystyle\sum\limits_{i = 1}^c {\displaystyle\sum\limits_{k = 1}^n {{{\left({u_{ik}} - \displaystyle\sum\limits_{a = 1}^{{m_1}} {{x_{ka}}{\eta _{ai}}} \right)}^2}} } $$ (34)

      ${\eta _{ai}}$ 的实际意义考虑, 类比隶属度, 对上述损失函数引入约束如下:

      $$\sum\limits_{i = 1}^c {{\eta _{ai}}} = 1,{\eta _{ai}} \in [0,1]$$ (35)

      采用拉格朗日乘子法求解变量贡献矩阵 $N$ , 引入拉格朗日乘子 $\zeta $ , 构造目标函数如下:

      $$\begin{split} L =& \displaystyle\sum\limits_{i = 1}^c {\displaystyle\sum\limits_{k = 1}^n {{{\left({u_{ik}} - \sum\limits_{a = 1}^{{m_1}} {{x_{ka}}{\eta _{ai}}} \right)}^2}} } + \\ &\displaystyle\sum\limits_{a = 1}^{{m_1}} {{\zeta _a}\left(1 - \displaystyle\sum\limits_{i = 1}^c {{\eta _{ai}}} \right)} \\[-10pt] \end{split} $$ (36)

      对函数 $L$ 求关于 ${\eta _{ai}}$ 的偏导数, 可得:

      $$\left\{ \begin{array}{l} \dfrac{{\partial L}}{{\partial {\eta _{ai}}}} = 0{\rm{ }} \\ \displaystyle\sum\limits_{k = 1}^n {({u_{ik}} - {x_{ka}}{\eta _{ai}})( - 2{x_{ka}}) = {\zeta _a}} \\ \end{array} \right.$$ (37)
      $${\eta _{ai}}{\rm{ = }}\dfrac{{{\zeta _a}{\rm{ + 2}}\displaystyle\sum\limits_{k = 1}^n {{x_{ka}}{u_{ik}}} }}{{\displaystyle\sum\limits_{k = 1}^n {x_{ka}^2} }}$$ (38)

      由于 $\sum\nolimits_{a = 1}^c {{\eta _{ai}}} = 1$ , 并将式(37)带入上式得:

      $$ \begin{split} & \displaystyle\sum\limits_{j = 1}^c {{\eta _{aj}}} = \displaystyle\sum\limits_{j = 1}^c \\ & {\dfrac{{\displaystyle\sum\limits_{k = 1}^n {\left({\rm{2}}x_{ka}^2{\eta _{ai}} - {\rm{2}}{x_{ka}}{u_{ik}}\right)} {\rm{ + }}2\displaystyle\sum\limits_{k = 1}^n {{x_{ka}}{u_{jk}}} }}{{2\displaystyle\sum\limits_{k = 1}^n {x_{ka}^2} }}} = 1 \\[-20pt] \end{split} $$ (39)

      从而进一步可得:

      $$ {\eta _{ai}} \!=\! \left( {1 \!-\! \dfrac{{2\displaystyle\sum\limits_{k = 1}^n {{x_{ka}}{u_{jk}}} \!-\! c \times \displaystyle\sum\limits_{k = 1}^n {{x_{ka}}{u_{ik}}} }}{{\displaystyle\sum\limits_{k = 1}^n {x_{ka}^2} }}} \right) \times \dfrac{1}{c} $$ (40)

      最后, 基于式(40), 根据变量贡献矩阵 ${N^{(k + 1)}} \!= \left[\eta _{_{ai}}^{(k + 1)}\right]_{{m_1} \times c}$ 对污水处理过程进行异常工况识别, 规则如下: 若第 $a$ 个变量对所有聚类的贡献 ${\{} {\eta _{a1}}, \cdots , {\eta _{ac}} t{\}}$ 中的最大值为 ${\eta _{a{\rm{g}}}}$ , 则第 $a$ 个变量为与第 $g$ 种异常工况相关的过程变量, 其中 $g \in \left\{ {2, \cdots ,c} \right\}$ , 且第1个聚类为正常工况样本的聚类.

    • 首先, 采用图3(a)所示数据测试基于欧氏距离与马氏距离的聚类方法的性能. 实验数据集分为两组: 数据类1在一个半径为5的圆中随机生成50个样本点, 数据类2在一个长轴为15、短轴为1的椭圆中随机生成100个样本点, 两组数据聚类中心之间的距离为9. 本实验在本文所提目标函数式(13)的基础上分别采用马氏距离与欧氏距离作为对比. 为便于区分, 将采用马氏距离的方法记作RoW-FCM-1, 将采用欧氏距离的算法记作RoW-FCM-2. 两种方法聚类效果分别如图3(b)图3(c)所示. 可以看出, 采用马氏距离可以将椭圆数据集与圆形数据集很好地分开, 而基于欧氏距离的算法则不能将其有效分开.

      图  3  仿真实验数据及聚类效果图

      Figure 3.  Simulation experiment data and clustering effect diagram

      然后, 采用图4左所示数据集A来测试所提方法对于不平衡集群的聚类性能. 图4左图中的数据集A分为两类数据: 数据类1在一个半径为4的圆中随机生成150个样本点, 数据类2在一个半径为2的圆中随机生成40个样本点, 两类数据聚类中心之间的距离为7. 图5显示了分别采用FCM、PCM、PFCM和所提RoW-FCM对图4左所示数据集A进行聚类的结果. 由图5可知, FCM、PCM、PFCM三种方法都将大集群的部分数据错误的分类为较小集群的部分, 其中PCM的聚类效果最差, 产生了重合聚类, 即聚类中心重合, 而本文RoW-FCM算法对两类集群有很好的划分. 为了测试本文所提RoW-FCM算法在聚类时对离群点的鲁棒性, 进一步采用图4右所示包含离群点的数据集B进行鲁棒性的测试. 在数据集B中共有12个样本点, 其中, 数据类1: $\left\{ {{X_1},{X_2},{X_3},{X_4},{X_5}} \right\}$ 和数据类2: $\left\{ {{X_6},{X_7},{X_8},{X_9},{X_{10}}} \right\}$ 分别为关于y轴对称的聚类, 聚类中心分别为 $v_1^ * = ( - 4,0)$ $v_2^ * = (4,0)$ , ${X_{11}}$ ${X_{12}}$ 为两个离群点, 它们距离两个聚类中心的距离相等. 我们在数据集B上将FCM、PCM、PFCM以及本文RoW-FCM进行数据对比实验. 不同方法的聚类结果参数及聚类效果分别见表2图6所示. 表2中, $U$ 代表隶属度矩阵, $W$ 代表可能性划分矩阵. 由聚类结果可知, PCM算法产生重合聚类, 在四种算法PFCM算法得到的聚类中心的偏移有所减小. 但是, 对比四种算法的聚类效果, 本文RoW-FCM算法聚类中心偏移距离最小, 受离群点影响最小, 具有最好的鲁棒性.

      图  4  不平衡簇测试数据集A(左)与离群点数据集B(右)

      Figure 4.  Unbalanced cluster test data set A (left) and outlier data set B (right)

      图  5  FCM、PCM、PFCM、RoW-FCM聚类效果图

      Figure 5.  FCM、PCM、PFCM、RoW-FCM clustering effect diagram

      表 2  FCM、PCM、PFCM、RoW-FCM聚类参数

      Table 2.  FCM, PCM, PFCM, RoW-FCM clustering parameters

      FCM PCM PFCM RoW-FCM
      $U_1^{\rm T}$ $U_2^{\rm T}$ $W_1^{\rm T}$ $W_2^{\rm T}$ $U_1^{\rm T}$ $U_2^{\rm T}$ $W_1^{\rm T}$ $W_2^{\rm T}$ $U_1^{\rm T}$ $U_2^{\rm T}$ $W_1^{\rm T}$ $W_2^{\rm T}$
      1 0.973 0.027 0.799 0.798 0.021 0.979 0.026 0.547 0.991 0.009 0.833 0.999
      2 0.991 0.009 0.859 0.858 0.010 0.989 0.032 0.755 0.989 0.011 0.839 0.999
      3 0.995 0.005 0.861 0.860 0.002 0.998 0.032 0.940 1.00 0.000 1.000 1.000
      4 0.967 0.033 0.848 0.848 0.026 0.975 0.032 0.555 0.989 0.011 0.834 0.999
      5 0.988 0.012 0.916 0.916 0.013 0.987 0.042 0.770 0.986 0.014 0.840 0.998
      6 0.012 0.988 0.916 0.917 0.987 0.013 0.770 0.042 0.012 0.988 0.999 0.861
      7 0.009 0.991 0.859 0.860 0.989 0.011 0.755 0.032 0.011 0.989 0.999 0.835
      8 0.005 0.995 0.861 0.862 0.998 0.002 0.940 0.032 0.000 0.999 1.000 0.998
      9 0.033 0.967 0.848 0.849 0.975 0.026 0.555 0.032 0.011 0.989 0.999 0.835
      10 0.027 0.973 0.799 0.800 0.979 0.021 0.547 0.026 0.010 0.990 0.999 0.811
      11 0.500 0.500 0.997 0.997 0.500 0.500 0.125 0.125 0.069 0.931 0.985 0.274
      12 0.500 0.500 0.632 0.632 0.500 0.500 0.026 0.026 0.997 0.004 0.060 0.999
      聚类中心 v1=(-3.616, 0.383) v1=(0.001, 0.369) v1=(-3.736, 0.240) v1=(-3.989, 0.010)
      v2=(3.616, 0.384) v2=(0.007, 0.369) v2=(3.736, 0.240) v2=(3.910, 0.000)
      偏移距离 r1=0.543 r1=4.016 r1=0.357 r1=0.010
      r2=0.543 r2=4.010 r2=0.357 r2=0.090

      图  6  FCM、PCM、PFCM、RoW-FCM聚类效果图

      Figure 6.  FCM、PCM、PFCM、RoW-FCM clustering effect diagram

      综上, 通过本节三个数值实验可以看出, 在对不平衡数据集聚类时: 所提RoW-FCM算法通过引入控制距离尺寸的参数, 很好的解决了不平衡簇问题, 相比于FCM、PCM、PFCM算法有很好的聚类性能. 在离群点数据实验中, RoW-FCM算法比FCM和PFCM算法的鲁棒性更好. 而且相比于PFCM, 本文RoW-FCM算法聚类性能对参数设置并不敏感. 最后, 相比于基于欧式距离的聚类算法, RoW-FCM算法采用马氏距离能够充分考虑样本间关系, 对于非球形数据集也有较好的聚类效果.

    • 本文基于污水处理过程的基准模型BSM1进行数据仿真实验. BSM1是由欧盟科学技术合作组织与国际水协共同合作开发的一个独立仿真平台, 它能够较为合理地反应污水处理过程的反应机理, 其设备布局由一个生化反应池和一个二次沉淀池组成[29], 具体如图1二级处理工艺设备布局图所示. 选取二沉池出水中的生化需氧量(BOD)、化学需氧量(COD)、悬浮物(SS)、氨氮(NH)作为出水质量指标. 同时, 根据工艺机理, 确定影响出水水质指标的28个关键过程变量如表3所示. 根据 $5{m_1}$ 原则, KPLS的高斯核函数宽度选为140, 同时通过交叉验证确定KPLS主元个数为3个. 所用测试数据包含2种异常工况: 一种为进水流量异常, 另一种为毒性冲击. 其中, 毒性冲击故障是由于来自工业、农业或医院等的有毒物质造成的. 毒性冲击会使活性污泥中的微生物出现“中毒”现象, 破坏活性污泥系统, 导致污水处理效率下降, 造成生化需氧量、化学需氧量、总氮和总磷等出水指标异常. 这里, 本文通过降低异养菌最大比生长速率 ${\mu _H}$ , 增大异养菌衰减系数 ${b_H}$ 来模拟毒性冲击[30]. 因此, 本文主要就进水流量异常和毒性冲击两种异常工况的检测和识别问题进行分析.

      表 3  影响污水处理过程出水水质的主要过程变量

      Table 3.  The main process variables that affect the effluent quality of the sewage treatment process

      编号 符号 变量物理含义 编号 符号 变量物理含义
      1 Qin 进水流量 15 SS,3 反应池3易生物降解有机底物量
      2 SNH,in 进水氨浓度 16 SALK,3 反应池3池碱度
      3 XBH,1 反应池1活性异养菌生物量 17 XBH,4 反应池4活性异养菌生物量
      4 SNO,1 反应池1硝氮浓度 18 XBA,4 反应池4活性自养菌生物量
      5 SS,1 反应池1易生物降解有机底物量 19 SO,4 反应池4溶解氧浓度
      6 SALK,1 反应池1池碱度 20 SNH,4 反应池4氨氮浓度
      7 XBH,2 反应池2活性异养菌生物量 21 SS,4 反应池4易生物降解有机底物量
      8 SNO,2 反应池2硝氮浓度 22 SALK,4 反应池4池碱度
      9 SS,2 反应池2易生物降解有机底物量 23 XBH,5 反应池5活性异养菌生物量
      10 SALK,2 反应池2池碱度 24 XBA,5 反应池5活性自养菌生物量
      11 XBH,3 反应池3活性异养菌生物量 25 SO,5 反应池5溶解氧浓度
      12 XBA,3 反应池3活性自养菌生物量 26 SNH,5 反应池5氨氮浓度
      13 SO,3 反应池3溶解氧浓度 27 SS,5 反应池5易生物降解有机底物量
      14 SNH,3 反应池3氨氮浓度 28 SALK,5 反应池5池碱度
    • 首先对测试数据集进行故障检测实验. 监测到两种异常工况. 同时, 可以看到FCM、PFCM和所提RoW-FCM三种方法均能够监测到异常工况. 但是常规FCM和PFCM两种算法的隶属度矩阵值波动较大, 尤其在0. 5附近区分度不明显, 导致聚类错误率升高. 而本文RoW-FCM算法的隶属度矩阵值平稳, 在0. 5处区分度大, 能够将两类异常工况很好的进行聚类, 能够分别在200、800时刻附近监测到异常工况的发生. 从仿真的平均迭代次数来看, PCM算法迭代次数最少, 但该算法由于产生重合聚类, 故不在考虑范围内. 另外, 在其余三种方法中, 本文算法具有最少的迭代次数. 综上, 本文RoW-FCM算法对两种异常工况的监测准确率最高, 迭代次数也最少, 所以RoW-FCM算法在实际污水处理过程监测中具有良好的异常工况检测性能.

      图  7  FCM隶属度矩阵

      Figure 7.  FCM membership matrix

      图  8  PCM可能性矩阵

      Figure 8.  PCM possibility matrix

      图  9  PFCM隶属度矩阵

      Figure 9.  PFCM membership matrix

      图  10  RoW-FCM隶属度矩阵

      Figure 10.  RoW-FCM membership matrix

      表 4  不同算法的聚类准确度与迭代次数

      Table 4.  Clustering accuracy and number of iterations of different algorithms

      工况类型 聚类正确率 聚类收敛迭代次数
      (收敛精度10^-5, 30次仿真)
      FCM PCM PFCM RoW-FCM FCM PCM PFCM RoW-FCM
      正常工况 92.3% 80.8% 93.9% 97.5% 45.1 14 29.1 23.6
      异常工况1 75.0% 6.3% 76.3% 96.0%
      异常工况2 80.3% 3.5% 77.5% 97.0%
    • 进一步采用3.3节所提异常工况识别方法进行识别, 识别结果如表5图11所示, 其中表5中的编号与表3中的变量编号相对应, 加粗的数值表示与异常工况关联变量的贡献值. 可以看出, 与异常工况1关联最大的变量分别为: $3 - {X_{BH,1}},{\rm{ }}5 - {S_{S,1}}, {\rm{ }}7 \!-\! {X_{BH,2}}, {\rm{ }}9 \!-\! {S_{S,2}},$ $11\! -\! {X_{BH,3}},{\rm{ }}12 \!-\! {X_{BA,3}}, {\rm{ }}14 \!-\! {S_{NH,3}},$ $15 \!-\! {S_{S,3}},{\rm{ }}17\! -\! {X_{BH,4}},{\rm{ }}18 \!-\! {X_{BA,4}},$ $21 \!-\! {S_{S,4}}, {\rm{ }}23 \!-\! {X_{BH,5}}, {\rm{ }}24 - {X_{BA,5}},{\rm{ }}27 - {S_{S,5}}$ . 这意味着异常工况1与活性异养菌生物量、活性自养菌生物量、易生物降解有机底物量有关, 据此可以判断异常工况1为毒性冲击, 即毒性冲击导致活性异养菌与活性自养菌数量减少, 从而导致易生物降解有机底物量等过程变量出现异常. 图11也显示与异常工况2关联最大的变量分别为: $1 \!-\! {Q_{in}},{\rm{ }}2 \!-\! {S_{NH,in}},{\rm{ }}6 \!-\! {S_{ALK,1}},$ $8 \!-\! {S_{NO,2}}, {\rm{ }}13 \!-\! {S_{O,3}},{\rm{ }}16 \!-\! {S_{ALK,3}},$ $19 \!\!-\!\! {S_{O,4}},{\rm{ }}20 \!\!-\!\! {S_{NH,4}}, {\rm{ }}22 \!\!-\!\! {S_{ALK,4}},$ $ {\rm{ }}25 - {S_{O,5}},{\rm{ }}26 - {S_{NH,5}},{\rm{ }}28 - {S_{ALK,5}}$ . 这意味着进水流量和进水氨浓度与异常工况2的发生有关, 这些变量的异常也同时导致反应池中碱度、硝氮浓度、氨氮浓度的变化, 故此判断异常工况2为进水量异常. 根据上述分析可知, 所提异常工况识别方法所得到的变量贡献矩阵对异常工况的解释符合实际情况, 能够识别出与异常工况相关的关键变量, 从而验证了所提方法在异常工况识别的有效性和实用性.

      表 5  异常工况识别结果表(其中加粗的数值表示与异常工况关联变量的贡献值)

      Table 5.  Abnormal condition recognition result table (the bolded value indicates the contribution value of the variable associated with the abnormal condition)

      编号 正常工况 异常工况1 异常工况2 编号 正常工况 异常工况1 异常工况2
      1 0.133 0.339 0.528 15 0.254 0.465 0.281
      2 0.150 0.321 0.530 16 0.297 0.255 0.448
      3 0.454 0.481 0.065 17 0.450 0.464 0.086
      4 0.453 0.395 0.152 18 0.354, 0.424 0.223
      5 0.093 0.577 0.331 19 0.238 0.260 0.503
      6 0.305 0.247 0.448 20 0.124, 0.352 0.524
      7 0.456 0.477 0.067 21 0.236 0.482 0.283
      8 0.010 0.307 0.683 22 0.281 0.245 0.475
      9 0.241 0.473 0.286 23 0.446 0.458 0.096
      10 0.361 0.290 0.349 24 0.352 0.418 0.230
      11 0.453 0.471 0.076 25 0.052 0.310 0.639
      12 0.353 0.429 0.218 26 0.118 0.314 0.568
      13 0.255 0.167 0.578 27 0.229 0.482 0.289
      14 0.208 0.425 0.367 28 0.291 0.259 0.450

      图  11  异常工况识别结果

      Figure 11.  Recognition results of abnormal conditions

      注 2: 本文所提异常工况识别算法思想源于FCM算法, 在FCM算法中, 每个样本对于所有聚类中心的隶属度之和为1, 隶属度值最大表明这个样本属于其对应的某个聚类中心. 本文所提异常工况识别算法的思想是每个变量对各个工况都有一个贡献值, 并且限定每个变量对所有工况的贡献值之和为1. 如果某个变量对某个工况的贡献值最大, 即表明此变量是与此工况相关联的变量, 也就认为该变量是造成该工况的关键变量. 也就是说前文提到的“最大”一词指的是某个变量对某个工况的“最大”贡献值, 即本文异常工况关联最大的变量的选取标准是对工况贡献值最大的变量.

    • 针对先验故障知识少的非平稳污水处理过程异常工况监测与识别的难题, 引入并改进了基于模糊c均值的聚类方法, 提出了一种基于RoW-FCM与KPLS的过程监测新方法. 该方法首先建立了质量变量与高维非线性污水处理过程变量的KPLS模型, 然后采用所提基于RoW-FCM的算法对污水处理过程进行监测. 数值仿真实验表明, 相比于FCM、PCM、PFCM算法, 所提RoW-FCM聚类算法对离群点具有更好的鲁棒性, 并解决了不平衡簇数据集聚类问题. 此外, 数值实验也表明所提算法采用马氏距离能够适应更多的聚类数据结构, 明显优于基于欧氏距离的聚类算法. 基于污水处理过程的异常工况检测与识别数据实验表明: 所提方法在监测过程中准确率更高, 迭代次数少, 能够有效监测到污水处理过程中异常工况的发生, 并能够正确识别出异常工况相关的关键变量, 因此在污水处理过程监测和异常工况识别上具有较好的测试效果和应用前景.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回