2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于粒度聚类的铁矿石烧结过程运行性能评价

杜胜 吴敏 陈略峰 维托尔德·佩德里茨

杜胜, 吴敏, 陈略峰, 维托尔德·佩德里茨. 基于粒度聚类的铁矿石烧结过程运行性能评价. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267
引用本文: 杜胜, 吴敏, 陈略峰, 维托尔德·佩德里茨. 基于粒度聚类的铁矿石烧结过程运行性能评价. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267
Du Sheng, Wu Min, Chen Lue-Feng, Pedrycz Witold. Operating performance assessment based on granular clustering for iron ore sintering process. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267
Citation: Du Sheng, Wu Min, Chen Lue-Feng, Pedrycz Witold. Operating performance assessment based on granular clustering for iron ore sintering process. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267

基于粒度聚类的铁矿石烧结过程运行性能评价


DOI: 10.16383/j.aas.c200267
详细信息
    作者简介:

    中国地质大学(武汉)自动化学院博士研究生. 主要研究方向为复杂工业过程建模与控制. E-mail: dusheng@cug.edu.cn

    中国地质大学(武汉)自动化学院教授. 主要研究方向为过程控制, 鲁棒控制和智能系统. 本文通信作者. E-mail: wumin@cug.edu.cn

    中国地质大学(武汉)自动化学院副教授, 主要研究方向为智能系统, 模式识别和计算智能. E-mail: chenluefeng@cug.edu.cn

    维托尔德·佩德里茨 加拿大阿尔伯塔大学电子与计算机工程系教授, 主要研究方向为计算智能, 模糊建模和粒度计算, 知识发现和数据挖掘, 模糊控制和模式识别. E-mail: wpedrycz@ualberta.ca

  • 基金项目:  国家自然科学基金重点国际(地区)合作研究项目(61210011), 湖北省自然科学基金创新群体项目(2015CFA010), 高等学校学科创新引智计划项目(B17040), 中国地质大学(武汉)中央高校基本科研业务费资助项目, 国家留学基金(201906410029)资助

Operating Performance Assessment Based on Granular Clustering for Iron Ore Sintering Process

More Information
  • Fund Project:  Supported by the National Natural Science Foundation of China under Grant 61210011, the Hubei Provincial Natural Science Foundation of China under Grant 2015CFA010, the 111 Project under Grant B17040, the Fundamental Research Funds for National Universities, China University of Geosciences (Wuhan), and the Program of China Scholarship Council under Grant 201906410029
  • 摘要: 烧结过程的运行性能是生产效率和能源利用的综合表现. 运行性能评价是保持烧结过程的运行性能处于最优等级的前提. 考虑到时间序列数据的冗余, 本文提出一种基于粒度聚类的铁矿石烧结过程运行性能评价方法. 首先, 利用单因素方差分析方法选取影响运行性能等级的检测参数. 然后, 采用多粒度区间信息粒化实现检测参数时间序列数据的降维, 并进行粒度聚类, 得到聚类标签. 最后, 利用随机森林算法对聚类得到的标签进行运行性能等级评价. 利用实际钢铁企业的运行数据进行了实验, 构建两个对比实验, 分别采用基于时间序列数据聚类的方法和基于时间序列特征聚类的方法. 实验表明所提出的方法为有效评价烧结过程的运行性能提供了一套可行方案, 为操作人员提升烧结过程运行性能提供了有力的指导.
  • 图  1  风箱废气温度和烧结带分布

    Fig.  1  Temperature of exhaust gas and zone distribution.

    图  2  运行性能等级评价方案

    Fig.  2  Scheme of operating performance grade assessment.

    图  3  部分检测参数的数据箱图

    Fig.  3  Data box diagram of some detection parameters.

    图  4  多粒度区间信息粒化

    Fig.  4  Multi-granular interval information granulation.

    图  7  不同聚类数目的Calinski-Harabasz系数(TSFC)

    Fig.  7  Calinski-Harabasz coefficients for different number of clusters (TSFC).

    图  5  时间序列信息粒化结果. (a) 原始时间序列. (b) 信息粒化后的时间序列.

    Fig.  5  Result of the information granulation of time series. (a) Original time series. (b) Time series after information granulation.

    图  6  不同聚类数目的Calinski-Harabasz系数(TSDC)

    Fig.  6  Calinski-Harabasz coefficients for different number of clusters (TSDC).

    图  8  不同聚类数目的Calinski-Harabasz系数(TSGC)

    Fig.  8  Calinski-Harabasz coefficients for different number of clusters (TSGC).

    表  1  运行性能等级划分

    Table  1  Operating performance grade divination

    运行性能等级 描述
    优(Perfect, Pe) $C_{pm}\geq$ 1.67
    良(Good, Go) 1.67> $C_{pm}\geq$ 1.33
    一般(General, Ge) 1.33> $C_{pm}\geq$ 1.0
    差(Poor, Po) 1.0> $C_{pm}\geq$ 0.67
    不可接受(Unacceptable, Un) 0.67> $C_{pm}$
    下载: 导出CSV

    表  2  单因素方差分析结果

    Table  2  Results of one-way analysis of variance

    参数 $T_{1}$ $T_{2}$ $T_{3}$ $T_{5}$
    $\rho$ 6.76×10–8 1.56×10–5 8.26×10–5 6.40×10–2
    参数 $T_{7}$ $T_{9}$ $T_{11}$ $T_{13}$
    $\rho$ 1.90×10–2 4.26×10–3 2.47×10–25 5.85×10–20
    参数 $T_{15}$ $T_{17}$ $~~T_{18}$ $T_{19}$
    $\rho$ 6.43×10–20 4.17×10–15 9.39×10–25 2.89×10–18
    参数 $T_{20}$ $~~T_{21}$ $T_{22}$ $T_{23}$
    $\rho$ 1.84×10–21 6.53×10–18 3.59×10–20 1.24×10–16
    参数 $T_{24}$ $P_N$ $H_M$ $V_T$
    $\rho$ 2.35×10–35 2.46×10–26 1.46×10–13 6.25×10–2
    下载: 导出CSV

    表  3  运行性能评价结果

    Table  3  Results of operating performance assessment.

    评估等级 实际等级 精度
    Pe Go Ge Po Un
    TSDC Pe 89.08% 7.96% 1.20% 0.70% 1.06% 79.70%
    Go 8.97% 75.41% 9.21% 3.38% 3.03%
    Ge 4.58% 8.50% 66.45% 13.73% 6.75%
    Po 2.29% 4.30% 14.61% 67.34% 11.46%
    Un 1.53% 4.81% 5.03% 8.10% 80.53%
    TSFC Pe 90.08% 7.08% 1.20% 0.64% 0.99% 80.28%
    Go 8.84% 75.55% 8.96% 3.90% 2.76%
    Ge 4.43% 9.09% 67.63% 11.31% 7.54%
    Po 1.37% 5.75% 13.97% 66.85% 12.05%
    Un 1.22% 4.22% 5.22% 8.10% 81.24%
    TSGC Pe 94.24% 5.04% 0.14% 0.36% 0.22% 83.40%
    Go 8.35% 79.52% 10.41% 1.37% 0.34%
    Ge 0.44% 12.66% 67.03% 12.45% 7.42%
    Po 0.00% 1.15% 11.17% 74.50% 13.18%
    Un 0.00% 0.54% 5.59% 11.60% 82.28%
    下载: 导出CSV
  • [1] Chen X, Lan T, Shi X, Tong C. A semi-supervised linear–nonlinear least-square learning network for prediction of carbon efficiency in iron ore sintering process. Control Engineering Practice, 2020 doi:  10.1016/j.conengprac.2020.104454
    [2] Huang X, Fan X, Chen X, Gan M, Zhao X. Soft-measuring models of thermal state in iron ore sintering process. Measurement, 2018, 130: 145−150 doi:  10.1016/j.measurement.2018.07.095
    [3] Wang S, Li H, Zhang Y, Zou Z. A hybrid ensemble model based on ELM and improved AdaBoost.RT algorithm for predicting the iron ore sintering characters. Computational Intelligence and Neuroscience, 2019 doi:  10.1155/2019/4164296
    [4] Du S, Wu M, Chen X, Lai X, Cao W. Intelligent coordinating control between burn-through point and mixture bunker level in an iron ore sintering process. Journal of Advanced Computational Intelligence and Intelligent Informatics, 2017, 21(1): 139−147 doi:  10.20965/jaciii.2017.p0139
    [5] Chen X, Shi X, Tong C. Multi-time-scale TFe prediction for iron ore sintering process with complex time delay. Control Engineering Practice, 2019, 89: 84−93 doi:  10.1016/j.conengprac.2019.05.012
    [6] Liu Y, Wang F, Chang Y, Ma R. Comprehensive economic index prediction based operating optimality assessment and nonoptimal cause identification for multimode processes. Chemical Engineering Research and Design, 2015, 97: 77−90 doi:  10.1016/j.cherd.2015.03.008
    [7] Liu Y, Chang Y, Wang F. Online process operating performance assessment and nonoptimal cause identification for industrial processes. Journal of Process Control, 2014, 24(10): 1548−1555 doi:  10.1016/j.jprocont.2014.08.001
    [8] 邹筱瑜, 王福利, 常玉清, 王敏, 蔡庆宏. 基于分层分块结构的流程工业过程运行状态评价及非优原因追溯. 自动化学报, 2019, 45(2): 315−324

    Zou X, Wang F, Chang Y, Wang M, Cai Q. Plant-wide process operating performance assessment and non-optimal cause identification based on hierarchical multi-block structure. Acta Automatica Sinica, 2019, 45(2): 315−324
    [9] 邹筱瑜, 王福利, 常玉清, 郑伟. 基于两层分块GMM-PRS的流程工业过程运行状态评价. 自动化学报, 2019, 45(11): 2071−2081

    Zou X, Wang F, Chang Y, Zheng W. Plant-wide process operating performance assessment based on two-level multiblock GMM-PRS. Acta Automatica Sinica, 2019, 45(11): 2071−2081
    [10] Zou X, Zhao C. Concurrent assessment of process operating performance with joint static and dynamic analysis. IEEE Transactions on Industrial Informatics, 2020, 16(4): 2776−2786 doi:  10.1109/TII.2019.2934757
    [11] Zou X, Wang F, Chang Y. Assessment of operating performance using cross-domain feature transfer learning. Control Engineering Practice, 2019, 89: 143−153 doi:  10.1016/j.conengprac.2019.05.007
    [12] Du S, Wu M, Chen L, Cao W, Pedrycz W. Operating mode recognition of iron ore sintering process based on the clustering of time series data. Control Engineering Practice, 2020 doi:  10.1016/j.conengprac.2020.104297
    [13] Cho H, Choi N, Lee B. Oscillation recognition using a geometric feature extraction process based on periodic timeseries approximation. IEEE Access, 2020, 8: 34375−34386 doi:  10.1109/ACCESS.2020.2974259
    [14] Guo H, Wang L, Liu X, Pedrycz W. Information granulation-based fuzzy clustering of time series. IEEE Transactions on Cybernetics, 2020 doi:  10.1109/TCYB.2020.2970455
    [15] Pedrycz W, Bargiela A. Granular clustering: a granular signature of data. IEEE Transactions on Systems, Man, and Cybernetics−Part B: Cybernetics, 2002, 32(2): 212−224 doi:  10.1109/3477.990878
    [16] Lu W, Chen X, Pedrycz W, Liu X, Yang J. Using interval information granules to improve forecasting in fuzzy time series. International Journal of Approximate Reasoning, 2015, 57: 1−18 doi:  10.1016/j.ijar.2014.11.002
    [17] Boyles R A. The Taguchi capability index. Journal of Quality Technology, 1991, 23(1): 17−26 doi:  10.1080/00224065.1991.11979279
    [18] Du S, Wu M, Chen L, Zhou K, Hu J, Cao W, Pedrycz W. A fuzzy control strategy of burn-through point based on the feature extraction of time-series trend for iron ore sintering process. IEEE Transactions on Industrial Informatics, 2020, 16(4): 2357−2368 doi:  10.1109/TII.2019.2935030
    [19] Wu C W. An efficient inspection scheme for variables based on Taguchi capability index. European Journal of Operational Research, 2012, 223(1): 116−122 doi:  10.1016/j.ejor.2012.06.023
    [20] Booker JM, Raines M, Swift KG. Designing capable and reliable products. Oxford: Butterworth-Heinemann, 2001.
    [21] Lu W. Time series analysis and modeiing method research based on granuiar computing [Ph. D. dissertation], Dalian University of Technology, 2015.
    [22] Wang W, Pedrycz W, Liu X. Time series long-term forecasting model based on information granules and fuzzy clustering. Engineering Applications of Artificial Intelligence, 2015, 41: 17−24 doi:  10.1016/j.engappai.2015.01.006
    [23] Bezdek J C, Ehrlich R, Full W. FCM: The fuzzy c-means clustering algorithm. Computers & Geosciences, 1984, 10(2-3): 191−203
    [24] Caliński T, Harabasz J. A dendrite method for cluster analysis. Communications in Statistics-theory and Methods, 1974, 3(1): 1−27 doi:  10.1080/03610927408827109
    [25] Chai Z, Zhao C. Enhanced random forest with concurrent analysis of static and dynamic nodes for industrial fault classification. IEEE Transactions on Industrial Informatics, 2020, 16(1): 54−66 doi:  10.1109/TII.2019.2915559
    [26] Räsänen T, Kolehmainen M. Feature-based clustering for electricity use time series data. Proceedings of the International Conference on Adaptive and Natural Computing Algorithms, Springer, Berlin, Heidelberg, 2009: 401−412.
  • [1] 张瑞垚, 周平. 基于鲁棒加权模糊聚类的污水处理过程监测方法[J]. 自动化学报, doi: 10.16383/j.aas.c200392
    [2] 许美玲, 王依雯. 基于改进差分进化和回声状态网络的时间序列预测研究[J]. 自动化学报, doi: 10.16383/j.aas.c180549
    [3] 毛文涛, 蒋梦雪, 李源, 张仕光. 基于异常序列剔除的多变量时间序列结构化预测[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160707
    [4] 丁洁, 肖江剑, 况立群, 宋康康, 彭成斌. 基于长时间视频序列的背景建模方法研究[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160468
    [5] 富月, 杜琼. 一类工业运行过程多模型自适应控制方法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c160763
    [6] 丁进良, 杨翠娥, 陈立鹏, 柴天佑. 基于参考点预测的动态多目标优化算法[J]. 自动化学报, doi: 10.16383/j.aas.2017.c150811
    [7] 伦淑娴, 林健, 姚显双. 基于小世界回声状态网的时间序列预测[J]. 自动化学报, doi: 10.16383/j.aas.2015.c150049
    [8] 范家璐, 张也维, 柴天佑. 一类工业过程运行反馈优化控制方法[J]. 自动化学报, doi: 10.16383/j.aas.2015.c150061
    [9] 柴天佑. 复杂工业过程运行优化与反馈控制[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.01744
    [10] 黄淼, 王昕, 王振雷. 一类非线性系统的基于时间序列的多模型自适应控制[J]. 自动化学报, doi: 10.3724/SP.J.1004.2013.00581
    [11] 王骏, 钟富礼, 王士同, 邓赵红. 基于移相加权球面单簇聚类的周期时间序列异常检测[J]. 自动化学报, doi: 10.3724/SP.J.1004.2011.00984
    [12] 周平, 柴天佑, 陈通文. 工业过程运行的解耦内模控制方法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.01362
    [13] 郜传厚, 渐令, 陈积明, 孙优贤. 复杂高炉炼铁过程的数据驱动建模及预测算法[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00725
    [14] 玄兆燕, 杨公训. 经验模态分解法在大气时间序列预测中的应用[J]. 自动化学报, doi: 10.3724/SP.J.1004.2008.00097
    [15] 王永利, 周景华, 徐宏炳, 董逸生, 刘学军. 时间序列数据流的自适应预测[J]. 自动化学报, doi: 10.1360/aas-007-0197
    [16] 贺国光, 马寿峰, 李宇. 基于小波分解与重构的时间序列预测法[J]. 自动化学报
    [17] 陈仲永, 钱鸣奇, 伍文凯, 童勤业. 涨落复杂性在EEG时间序列分析中的应用[J]. 自动化学报
    [18] 徐志斌, 郑大钟. 一类PETRI网的时间性能简化分析[J]. 自动化学报
    [19] 樊重俊, 王浣尘, 韩崇昭, 胡保生. 基于分数维数的非线性相关度及其应用[J]. 自动化学报
    [20] 龚正发. 多变量时间序列的建模预报及其应用[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  5
  • HTML全文浏览量:  1
  • 被引次数: 0
出版历程

基于粒度聚类的铁矿石烧结过程运行性能评价

doi: 10.16383/j.aas.c200267
    基金项目:  国家自然科学基金重点国际(地区)合作研究项目(61210011), 湖北省自然科学基金创新群体项目(2015CFA010), 高等学校学科创新引智计划项目(B17040), 中国地质大学(武汉)中央高校基本科研业务费资助项目, 国家留学基金(201906410029)资助
    作者简介:

    中国地质大学(武汉)自动化学院博士研究生. 主要研究方向为复杂工业过程建模与控制. E-mail: dusheng@cug.edu.cn

    中国地质大学(武汉)自动化学院教授. 主要研究方向为过程控制, 鲁棒控制和智能系统. 本文通信作者. E-mail: wumin@cug.edu.cn

    中国地质大学(武汉)自动化学院副教授, 主要研究方向为智能系统, 模式识别和计算智能. E-mail: chenluefeng@cug.edu.cn

    维托尔德·佩德里茨 加拿大阿尔伯塔大学电子与计算机工程系教授, 主要研究方向为计算智能, 模糊建模和粒度计算, 知识发现和数据挖掘, 模糊控制和模式识别. E-mail: wpedrycz@ualberta.ca

摘要: 烧结过程的运行性能是生产效率和能源利用的综合表现. 运行性能评价是保持烧结过程的运行性能处于最优等级的前提. 考虑到时间序列数据的冗余, 本文提出一种基于粒度聚类的铁矿石烧结过程运行性能评价方法. 首先, 利用单因素方差分析方法选取影响运行性能等级的检测参数. 然后, 采用多粒度区间信息粒化实现检测参数时间序列数据的降维, 并进行粒度聚类, 得到聚类标签. 最后, 利用随机森林算法对聚类得到的标签进行运行性能等级评价. 利用实际钢铁企业的运行数据进行了实验, 构建两个对比实验, 分别采用基于时间序列数据聚类的方法和基于时间序列特征聚类的方法. 实验表明所提出的方法为有效评价烧结过程的运行性能提供了一套可行方案, 为操作人员提升烧结过程运行性能提供了有力的指导.

English Abstract

杜胜, 吴敏, 陈略峰, 维托尔德·佩德里茨. 基于粒度聚类的铁矿石烧结过程运行性能评价. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267
引用本文: 杜胜, 吴敏, 陈略峰, 维托尔德·佩德里茨. 基于粒度聚类的铁矿石烧结过程运行性能评价. 自动化学报, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267
Du Sheng, Wu Min, Chen Lue-Feng, Pedrycz Witold. Operating performance assessment based on granular clustering for iron ore sintering process. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267
Citation: Du Sheng, Wu Min, Chen Lue-Feng, Pedrycz Witold. Operating performance assessment based on granular clustering for iron ore sintering process. Acta Automatica Sinica, 2020, 46(x): 1−11. doi: 10.16383/j.aas.c200267
  • 符号说明

    $ T_{BTP} $   烧结终点温度( $ ^\circ {\rm{C}}$ )

    $ L_{BTP} $   烧结终点位置

    $ T_{i} $   第 $ i $ 个风箱废气温度( $ ^\circ {\rm{C}}$ )

    $ P_{N} $   主风箱负压(kPa)

    $ H_{M} $   料层厚度(mm)

    $ V_{T} $   台车速度(m/min)

    $ C_{pm} $   田口过程能力指数

    $ P_i $   第 $ i $ 个检测参数

    $ L_i $   第 $ i $ 个聚类标签

    $ G_i $   第 $ i $ 个运行性能等级

    $ F_T $   检验统计量

    $ \rho $   检验概率

    $ X $   时间序列

    $ s_k $   第 $ k $ 个时间序列片段

    $ \Omega_k $   第 $ k $ 个信息粒

    $ {\rm{rep}}(s_k) $    $ \Omega_k $ 的数值代表

    $ {\rm{rep}}(X) $   粒时间序列

    $ c $   聚类数目

    $ C_i $   第 $ i $ 个簇的聚类中心

    $ u_{ij} $   属于第 $ i $ 个簇的隶属度

    $ C_H(c) $   Calinski-Harabasz系数

    铁矿石烧结是人工富矿的主要途径, 其生成的烧结矿是高炉冶炼的主要原料. 烧结过程是一个包含一系列复杂物理化学反应的热聚合过程, 其原料包括铁矿粉、返矿、助熔剂和固体燃料(焦炭)[1]. 烧结过程具有强非线性、强耦合性和大时滞性, 这使得很难建立精确的烧结过程数学模型. 强非线性主要是由烧结过程中存在复杂的固相和液相反应[2, 3]导致的, 这些反应很难用数学关系描述. 强耦合性主要是指在生产过程中参数与参数之间存在耦合, 一个参数变化会导致一个或多个参数的联动[4]. 大时滞性[5]是指烧结过程耗时长, 参数的调节需要一段时间才能得到响应. 这些特性使得操作人员很难把控烧结过程的进度, 导致了操作人员难以通过经验判断当前运行状态的好坏.

    运行性能可用于衡量一段生产过程的运行状态, 它关系到烧结过程的生产效率和能源利用. 但是随着时间推移, 运行性能会偏离最优等级. 运行状态评价是将一段时间内的生产过程的运行状态划分为多个等级, 如优、良、一般、差等. 这本质上是一个时间序列的评价与分类问题. 运行性能评价是确保烧结过程的运行性能处于最优等级的前提. 运行性能评价不仅能指导操作人员控制烧结过程的高效运行, 而且为烧结过程运行性能提升奠定基础. 因此, 实现烧结过程的运行性能评价具有重要的经济价值.

    对于工业过程运行性能的评价问题, 许多学者做出了贡献. Liu等人以综合经济指标预测为基础, 提出了一种运行性能评价方法[6]. 文献[7]提出了一种基于性能相似度的在线运行性能评估方法, 利用全潜结构投影模型提取数据中的变异信息, 为运行性能评价提供依据. 考虑多种工作模式、多种类信息源的工业过程特征, 如: 金湿法冶金过程, 学者提出了分层分块评价结构的运行性能评估[8, 9]. 对于闭环控制下的工业过程中的运行性能, 学者提出了一种同时进行的静态和动态评估方法[10]. 为了评估具有少量历史数据的新建过程的性能, Zou等人提出了一种跨域特征转移学习评价方法[11].

    虽然上述方法在一些特定的流程工业中得到了有效应用, 但是这些方法很难适用于烧结过程的运行性能评价问题. 烧结过程的运行性能评价主要是对烧结燃烧过程的评价. 烧结燃烧过程可以用烧结热状态的时间序列数据来描述. 烧结过程的运行性能评价是一个时间序列的评价与分类问题.

    对于时间序列数据的评价与分类的研究. 主要可分为三类, 第一类是直接利用时间序列数据进行评价和分类, 如Du等人直接利用时间序列数据进行聚类, 构建了烧结过程的工况识别方法[12]. 第二类是对时间序列数据进行特征提取, 然后进行评价与分类, 如文献[13]对时间序列数据进行几何特征提取, 用于电力系统的振荡识别. 第三类是对时间序列数据进行信息粒化, 然后进行评价与分类, 如Guo等人提出了时间序列数据的粒度模糊聚类方法, 用于时间序列的分类[14].

    信息粒是由(时间、空间、功能等)相似性(紧密度)而收集在一起的实体的集合[15]. 对时间序列进行信息粒化不仅可以有效减少时间序列的信息冗余, 而且可以提取时间序列的动态特征[16]. 烧结过程运行性能评价是对一段时间内的所有检测参数的时间序列数据进行评价. 由于运行性能评价的周期远大于传感器的检测周期, 而且很多检测参数在一定时间内是缓慢变化的, 短周期的采样会采集很多无用信息, 这导致了时间序列的信息冗余. 本文引入时间序列进行信息粒化, 提取烧结过程时间序列数据的动态特性, 进而实现烧结过程运行性能评价.

    考虑到实际生产中对关键状态参数的边界约束, 本文引入田口过程能力指数作为烧结过程运行性能的衡量指标. 田口过程能力指数弥补了传统的过程能力指数只考虑工序平均值对规格中心的偏移的缺陷[17]. 田口过程能力指数更完整地解释了质量特性偏离目标值的原因: 一是质量特性的波动, 二是工序平均值的偏移.

    针对时间序列数据的冗余, 本文提出一种基于粒度聚类的铁矿石烧结过程运行性能评价方法. 所提方法利用单因素方差分析方法选取运行性能评价所需的参数, 并利用多粒度区间信息粒化方法实现时间序列数据的降维. 然后, 结合随机森林算法进行运行性能等级评价. 最后, 利用实际钢铁企业的运行数据进行了实验. 实验表明所提出的方法能有效评价烧结过程的运行性能, 能为操作人员提升烧结过程运行性能提供有力的指导.

    本文的创新点主要有三个方面. 首先, 设计了烧结过程运行性能评价方案, 并通过参数选择、信息粒化、粒度聚类, 再利用随机森林算法进行运行性能等级评价. 其次, 采用时间序列的多粒度区间信息粒化方法来处理烧结过程时间序列数据的冗余问题, 实现时间序列数据的降维. 最后, 利用实际钢铁企业的运行数据对所提方法的有效性进行了验证, 表明本文为烧结过程的运行性能评价提供了一套可行方案.

    • 本节将详细描述烧结矿的生产流程, 并定义烧结过程的运行性能. 最后根据烧结过程的特性, 设计烧结过程运行性能评价方案.

    • 本文以某钢铁企业360 m2的带式抽风烧结机为研究案例. 烧结工艺包括配料, 混合制粒, 布料点火, 抽风烧结, 破碎, 冷却和筛分等工序. 烧结过程最重要的工序是抽风烧结, 期间烧结混合料在抽风机的作用下自上而下燃烧, 并随着烧结台车向机尾移动. 燃烧过程使烧结料层分成了原料带, 燃烧带, 干燥带, 过湿带, 熔融带和成品带, 如图1所示.

      图  1  风箱废气温度和烧结带分布

      Figure 1.  Temperature of exhaust gas and zone distribution.

      由于烧结料层中的温度无法直接测量, 所以生产中通过检测风箱(共有24个风箱)中的废气温度来间接反映烧结料层的温度[18]. 温度传感器分布在1, 2, 3, 5, 7, 9, 11, 13, 15, 17, 18, 19, 20, 21, 22, 23, 24号风箱里. 从图1中最高的风箱废气温度被称为烧结终点温度( $ T_{BTP} $ , $ ^\circ {\rm{C}}$ ), 其对应的风箱位置称为烧结终点( $ L_{BTP} $ ). 为了监视生产, 除了检测燃烧过程的17个风箱废气温度( $T_{i},\; i = 1,\; 2,\; \cdots, \; 24$ , $ ^\circ {\rm{C}}$ )外, 还检测主风箱负压( $ P_{N} $ , kPa), 料层厚度( $ H_{M} $ , mm), 台车速度( $ V_{T} $ , m/min).

    • 为实现烧结过程运行性能的评价, 需要构建合理的运行性能衡量指标. 在实际生产中, 烧结终点(Burn-through point, BTP)是衡量烧结过程产量和质量的重要指标, 它是烧结机上混合原料完全烧结的第一个位置, 可表示为,

      $$ {L_{BTP}} = \int_0^T {{V_T}} (t){\rm{d}}t, $$ (1)

      其中 $ T $ 是指的混合料烧透所用的时间. 一般认为BTP在倒数第二个风箱位置附近时, 烧结过程产量最高, 烧结矿质量最好. 如果BTP超前, 则烧结机有效面积未充分利用, 利用率低; 如果BTP滞后, 那么在卸料时烧结料没有完全烧透, 返矿增加, 烧结矿产量低.

      由于BTP是具有一定范围要求的, 可以引入过程能力指数来衡量一段时间内BTP的好坏. 过程能力指数是指工序在一定时间里, 处于控制状态下的实际加工能力, 也是指满足产品质量标准要求的程度[17]. 因此, 本文以BTP作为决策参数, 选择田口过程能力指数为烧结过程运行性能的评价指标.

      对于一段BTP的时间序列数据, $L_{BTP} = [l_1,\; l_2,\; \cdots,\; l_{m_L}]$ , ( $ m_L $ 是时间序列段的长度), 其田口过程能力指数[17, 19] $ C_{pm} $ 表示为,

      $$ {C_{pm}} = \frac{{{l_U} - {l_L}}}{{6{{\hat \sigma }_L}\sqrt {1 + {{\left( {\dfrac{{{{\hat \mu }_L} - {l_T}}}{{{{\hat \sigma }_L}}}} \right)}^2}} }}, $$ (2)

      其中 $ l_U $ 是BTP的要求上限, $ l_L $ 是要求下限, $ l_T $ 是BTP的目标平均值. BTP的波动要求是在0.5个风箱范围内. 因此, $ l_U = l_T+0.5 $ , 而 $ l_L = l_T-0.5 $ . $ \hat \mu_L $ $ L_{BTP} $ 的估计均值, $ \hat \sigma_L $ $ L_{BTP} $ 的标准差, 其中,

      $$ {\hat \mu _L} = \frac{1}{m_L}\displaystyle\sum\limits_{i = 1}^{m_L} {{l_i}},\; \; {\hat \sigma _L} = \sqrt {\dfrac{{\displaystyle\sum\limits_{i = 1}^{m_L} {{{\left( {{l_i} - {{\hat \mu }_L}} \right)}^2}} }}{{m_L - 1}}}, $$ (3)

      $ C_{pm} $ 的值越大, 表明BTP的离散程度相对于标准范围越小, 烧结过程运行性能就越好; $ C_{pm} $ 的值越小, 表明BTP的离散程度相对标准范围越大, 烧结过程运行性能就越差. 因此, 可以从 $ C_{pm} $ 的数值大小来判断烧结过程的运行性的好坏. 根据文献[20]中 $ C_{pm} $ 的阈值设置, 可以得到如表1所示的运行性能等级划分.

      表 1  运行性能等级划分

      Table 1.  Operating performance grade divination

      运行性能等级 描述
      优(Perfect, Pe) $C_{pm}\geq$1.67
      良(Good, Go) 1.67> $C_{pm}\geq$1.33
      一般(General, Ge) 1.33> $C_{pm}\geq$1.0
      差(Poor, Po) 1.0> $C_{pm}\geq$0.67
      不可接受(Unacceptable, Un) 0.67> $C_{pm}$
    • 烧结过程的运行性能评价问题是通过前一段时间的检测参数对烧结过程的运行性能进行评价, 得到运行性能等级. 运行性能评价可以提前获得烧结过程的运行状况, 这对操作人员控制烧结过程进一步提升运行性能具有重要的指导意义. 考虑到时间序列数据冗杂, 存在许多无用信息, 这会干扰运行性能评价的准确性. 因此, 本文设计了一种基于粒度聚类的烧结过程运行性能评价方案, 如图2所示.

      图  2  运行性能等级评价方案

      Figure 2.  Scheme of operating performance grade assessment.

      首先, 利用传感器从烧结过程中获取检测参数的时间序列数据, 并对一些异常数据进行预处理. 然后, 利用单因素方差分析方法分析运行性能等级和检测参数的相关性, 确定对运行性能等级具有重要影响的检测参数 $ P_1 $ , ${P_2},\cdots,$ $ P_m $ , $ m $ 是选择的参数数量. 再分别对检测参数 $ P_1 $ , ${P_2},\cdots,$ $ P_m $ 的时间序列数据进行信息粒化, 并进行粒度聚类, 得到聚类标签 $ L_1 $ , ${L_2},\cdots,$ $ L_m $ . 最后, 以聚类标签为输入, 利用随机森林算法进行运行性能等级评价, 得到运行性能等级(运行性能等级为Pe, Go, Ge, Po或Un). 此评价方案通过粒度聚类将时间序列数据转换为标签数据, 以实现运行性能等级评价的目的.

      在本方案中, 信息粒度指的是烧结过程中检测参数的时间序列数据由数字大小相似性聚集在一起的集合. 粒度聚类是将多粒度信息粒化后的粒时间序列进行聚类, 它的本质是从信息粒的角度衡量了运行性能的相似性. 聚类标签是对粒度聚类得到的不同粒时间序列集群的一个命名, 它表征着烧结过程运行性能较为相似情况下的粒时间序列的代表.

    • 本节将构建运行性能评价模型. 首先, 利用单因素方差分析方法进行参数选择. 然后, 利用多粒度区间信息粒化方法对时间序列数据进行信息粒化, 再利用模糊C均值聚类方法得到聚类标签. 最后, 利用随机森林算法对聚类标签进行运行性能等级评价.

    • 本文需要分析的是检测参数是否对运行性能等级有显著影响, 这是一个连续变量和分类变量的相关性分析问题. 本文采用单因素方差分析方法进行参数选择. 单因素方差分析方法可以分析出在不同运行性能等级下检测参数数据分布的差异, 从而确定每个检测参数对运行性能等级是否有显著的影响. 虽然检测参数之间存在相互影响关系, 但是进行参数选择的目的是得到对运行性能等级具有显著影响的检测参数. 因此, 本文没有进行检测参数之间的相关性分析, 而是采用单因素方差分析方法实现检测参数与运行性能等级之间的相关性分析.

      烧结过程有5个运行性能等级 ${G_1},\; {G_2},\; \cdots, \; {G_h}$ , $ h $ = 5. 以每个参数时间序列段内的平均值作为这段时间序列的代表, 这样就可以对每个运行性能中的参数分布情况进行分析. 假设有 $ N $ 个时间序列段, 他们属于5个运行性能等级的数目分布为 ${n_1},\; {n_2},\; \cdots,\; {n_h}$ . 那么等级 $ G_j $ ( $j=1,\; 2,\cdots,\;h$ )中的时间序列段可以表示为 ${p_{1j}},\; {p_{2j}},\; \cdots\; {p_{{n_j}{j}}}$ . 等级 $ G_j $ 下的时间序列段平均值为,

      $$ {\bar p_j} = \dfrac{1}{{{n_j}}}\sum\limits_{i = 1}^{{n_j}} {{p_{ij}}}, $$ (4)

      时间序列数据的总平均值为,

      $$ \bar p = \dfrac{1}{N}\sum\limits_{j = 1}^h {\sum\limits_{i = 1}^{{n_j}} {{p_{ij}}} } = \dfrac{1}{n}\sum\limits_{j = 1}^h {{n_j}} {\bar p_j}, $$ (5)

      时间序列数据的总平方和为,

      $$ {S_T} = \sum\limits_{j = 1}^h {\sum\limits_{i = 1}^{{n_j}} {{{\left( {{p_{ij}} - \bar p} \right)}^2}} }, $$ (6)

      $ S_T $ 反映了全部样本数据之间的差异, 其可分解为 $ S_T = S_E+S_A $ , 其中,

      $$ \begin{split} &{S_E} = \displaystyle\sum\limits_{j = 1}^h {\displaystyle\sum\limits_{i = 1}^{{n_j}} {{{\left( {{p_{ij}} - {{\bar p}_j}} \right)}^2}} }, \\ &{S_G} = \displaystyle\sum\limits_{j = 1}^h {\displaystyle\sum\limits_{i = 1}^{{n_j}} {{{\left( {{{\bar p}_j} - \bar p} \right)}^2}} } = \displaystyle\sum\limits_{j = 1}^h {{n_j}} {\left( {{{\bar p}_j} - \bar p} \right)^2}. \end{split} $$ (7)

      $ S_E $ 叫做误差平方和, 表示了在等级 $ G_j $ 下时间序列的观察值与平均值的差异, 是由随机误差所引起的. $ S_G $ 叫做等级 $ G_j $ 的效应平方和, 表示了在等级 $ G_j $ 下的时间序列的平均值与总平均值的差异, 是由等级 $ G_j $ 以及随机误差所引起的.

      $ S_G $ $ S_E $ 相互独立时, $ S_G $ $ S_E $ 分别服从自由度为 $ h-1 $ , $ N-h $ $ \chi^2 $ 分布, 可以构造检验统计量 $ F_T $ ,

      $$ {F_T} = \dfrac{{\left( {{S_G}} \right)/(h - 1)}}{{\left( {{S_E}} \right)/(N - h)}}\sim F(h - 1,\; N - h), $$ (8)

      它服从F分布. 可以计算在F分布中可以取大于 $ F_T $ 的检验概率 $ \rho\left( {F(h - 1,\; N - h) \ge {F_T}} \right) $ . 检验概率越小, 表示参数对运行性能等级的影响越大.

      对烧结过程中的20个检测参数的1000个数据样本进行单因素方差分析, 并得到每个参数的检验概率, 如表2所示. 可见参数 $ T_5 $ , $ T_7 $ , $ T_9 $ $ V_T $ 的检验概率明显大于其他参数. 同时图3中, 也列举了四个检测参数的相对于运行性能等级的数据箱图, 可见参数 $ T_5 $ $ V_T $ 在各个运行性能等级上的分布差异不明显, 而 $ T_{18} $ $ T_{24} $ 在不同运行性能等级下具有明显差异. 当 $ \rho\leq0.001 $ 时, 认为检测参数对运行性能等级的影响是显著的. 那么可以选择出 $\rho\leq 0.001$ 的16个检测参数, 即得到 $ P_1 $ , ${P_2},\cdots,\;$ $ P_m $ , $ m = 16 $ .

      表 2  单因素方差分析结果

      Table 2.  Results of one-way analysis of variance

      参数 $T_{1}$ $T_{2}$ $T_{3}$ $T_{5}$
      $\rho$ 6.76×10–8 1.56×10–5 8.26×10–5 6.40×10–2
      参数 $T_{7}$ $T_{9}$ $T_{11}$ $T_{13}$
      $\rho$ 1.90×10–2 4.26×10–3 2.47×10–25 5.85×10–20
      参数 $T_{15}$ $T_{17}$ $~~T_{18}$ $T_{19}$
      $\rho$ 6.43×10–20 4.17×10–15 9.39×10–25 2.89×10–18
      参数 $T_{20}$ $~~T_{21}$ $T_{22}$ $T_{23}$
      $\rho$ 1.84×10–21 6.53×10–18 3.59×10–20 1.24×10–16
      参数 $T_{24}$ $P_N$ $H_M$ $V_T$
      $\rho$ 2.35×10–35 2.46×10–26 1.46×10–13 6.25×10–2

      图  3  部分检测参数的数据箱图

      Figure 3.  Data box diagram of some detection parameters.

    • 考虑到时间序列数据的冗余, 本节将先对检测参数 $ P_i $ ( $i = 1,\; 2,\;\cdots,\; m$ )的时间序列进行多粒度区间信息粒化, 以实现时间序列数据降维, 然后对形成的多粒度区间信息粒进行聚类.

      多粒度区间信息粒化思想如图4所示, 首先将时间序列 $X = [x_1,\; x_2,\; \cdots,\; x_{n_T}]$ ( $ n_T $ 是时间序列长度)分割成 $ n_s $ 个非重叠的时间序列片段 $s_1,\; s_2,\;\cdots, \; s_{n_s}$ , 然后对每个时间序列片段 $ s_k $ 中的时间序列数据进行区间信息粒化得到 $ \Omega_k $ , 并用数值代表 $ {\rm{rep}}(s_k) $ 表示. 通过这种方式, 原始时间序列 $ X $ 可以由 $s_1,\; s_2,\; \cdots,\; s_{n_s}$ 的数值代表来描述, 即 ${\rm{rep}}(X) = [{\rm{rep}}({s_1}),\; {\rm{rep}}({s_2}),\; \cdots,\; {\rm{rep}}({s_{{n_s}}})]$ . 采用 $ {\rm{rep}}(X) $ 来表示时间序列数据 $ X $ , 不仅降低了时间序列的维度, 同时保持了原始时间序列的动态特征.

      图  4  多粒度区间信息粒化

      Figure 4.  Multi-granular interval information granulation.

      时间序列片段 $s_k = [x_{i_k+1},\; x_{i_k+2},\;\cdots,\; x_{i_k+j_k}]$ ( $ j_k $ $ s_k $ 的长度, $ i_k $ $ s_k $ 在时间序列 $ X $ 中的起始索引)的区间信息粒化, 是为 $ s_k $ 构建一个具有合理语义的信息粒 $ \Omega_k $ . 合理粒度的原则使 $ \Omega_k $ 应同时满足合理性和特殊性两个要求[21]. 合理性要求 $ \Omega_k $ 应尽可能的覆盖 $ s_k $ 中的时间序列数据点. 特殊性要求 $ \Omega_k $ 应具有尽可能清晰的语义, 即 $ \Omega_k $ 尽可能具体(精细). 区间信息粒 $ {\Omega _k} = [{a_k},\; {b_k}] $ 覆盖时间序列数据点的个数为 $ {\rm{card}}\{ {x_t}{\rm{|}}{x_t} \in {\Omega _k}\} $ , 可量化其合理性. $ {\Omega _k} $ 的长度 $ m({\Omega _k}) = \left| {{b_k}{\rm{ }} - {a_k}} \right| $ , 可量化其的特殊性.

      定义两个函数的乘积 $ f = f_1\cdot f_2 $ , 可以同时考虑合理性和特殊性, 其中 $ f_1 $ $ f_2 $ 为,

      $$ \begin{split} &{f_1} = {\mathop{\rm{card}}\nolimits} \left\{ {{x_t}|{x_t} \in {\Omega _k}} \right\},\\ &{f_2} = \exp \left( { - \left| {{b_k} - {a_k}} \right|} \right). \end{split} $$ (9)

      $ {\rm{rep}}(s_k) $ $ s_k $ 的数值代表(平均值或中位数, 本文取中位数), 则可以基于函数 $ f $ 分别确定区间信息粒的下限 $ a_k $ 和上限 $ b_k $ ,

      $$ \begin{split} &V({a_{k,{\rm{ opt }}}}) = \mathop {\max }\limits_{{a_k} \le {\mathop{\rm{rep}}\nolimits} \left( {{s_k}} \right)} V\left( {{a_k}} \right),\\ &V({b_{k,{\rm{ opt }}}}) = \mathop {\max }\limits_{{b_k} \ge {\mathop{\rm{rep}}\nolimits} \left( {{s_k}} \right)} V\left( {{b_k}} \right), \end{split} $$ (10)

      其中

      $$ \begin{split} V\left( {{a_k}} \right) = & {\mathop{\rm{card}}\nolimits} \left\{ {{x_t} \in {s_k}|{a_k} \le {x_t} \le {\mathop{\rm{rep}}\nolimits} \left( {{s_k}} \right)} \right\}\times \\ & \exp \left( { - \left| {{\mathop{\rm{rep}}\nolimits} \left( {{s_k}} \right) - {a_k}} \right|} \right),\\ V\left( {{b_k}} \right) = & {\mathop{\rm{card}}\nolimits} \left\{ {{x_t} \in {s_k}|{\mathop{\rm{rep}}\nolimits} \left( {{s_k}} \right) \le {x_t} \le {b_k}} \right\} \times \\ & \exp \left( { - \left| {{b_k} - {\mathop{\rm{rep}}\nolimits} \left( {{s_k}} \right)} \right|} \right). \end{split} $$

      通过上述方式, 可得到 $ s_k $ 的最佳区间信息粒 $ {\Omega _k} = [{a_{k,{\rm{opt}}}},{b_{k,\rm{opt}}}] $ .

      图4所示, 将时间序列 $ X $ 分割为 $ n_s $ 个非重叠时间序列片段 $s_1,\; s_2, \cdots\;,\; s_{n_s}$ . 根据合理的粒度原理可为 $ s_k $ 形成合适的区间信息粒 ${\Omega _k} = [{a_{k,{\rm{opt}}}}, {b_{k,\rm{opt}}}]$ . 这样时间序列 $ X $ 可以由多个区间信息粒 $\Omega_1,\; \Omega_2, \cdots\; \Omega_{n_s}$ 的集合表示. 多粒度区间信息粒化需要考虑信息粒的紧凑性[14], 对于特定的 $ n_s $ , 最佳多粒度区间信息粒化是使所有信息粒的体积之和最小化的信息粒.

      $ m({\Omega _k}) = \left| {{b_k}{\rm{ }} - {a_k}} \right| $ $ s_k $ 的长度 $ T_k $ 的乘积表示区间信息粒 $ {\Omega _k} $ 的体积, 即

      $$ {\mathop{\rm{Vol}}\nolimits} \left( {{\Omega _k}} \right) = {T_k} \cdot m\left( {{\Omega _k}} \right). $$ (11)

      所有信息粒 $\Omega_1,\; \Omega_2,\cdots,\; \Omega_{n_s}$ 的体积之和为,

      $$ V = {\rm{Vol}}({\Omega _1}) + {\rm{Vol}}({\Omega _2}) + \cdots + {\rm{Vol}}({\Omega _{{n_s}}}), $$ (12)

      $ V $ 可以量化信息粒的紧凑性, 最佳多粒度区间信息粒化的目标是,

      $$ \mathop {\min }\limits_{{\Omega _1},{\Omega _2}, \cdots ,{\Omega _{{n_s}}}} \sum\limits_{k = 1}^{{n_s}} {{\mathop{\rm{Vol}}\nolimits} } \left( {{\Omega _k}} \right). $$ (13)

      以上式为优化目标, $ \Omega_k $ 为优化变量, 通过智能优化算法就可以得到最佳的多粒度区间信息粒. 本文采用粒子群优化算法实现最终的多粒度区间信息粒化.

      通过多粒度区间信息粒化, 可将时间序列 $ X $ 转换为 ${\rm{rep}}(X) = [{\rm{rep}}({s_1}),\; {\rm{rep}}({s_2}), \cdots,\; {\rm{rep}}({s_{{n_s}}})]$ , 进而实现了时间序列数据的降维. 为了实现运行性能评价的目的, 需要对降维后的粒时间序列进行聚类. 用聚类标签表示相似度高的一类粒时间序列, 可有效提高后续运行性能评价的精度. 对检测参数 $ P_i $ ( $i = 1,\; 2,\cdots,\; m$ )的时间序列进行粒度聚类, 是将多粒度区间信息粒化后的时间序列转化成了聚类标签 $ L_i $ ( $i = 1,\; 2,\cdots,\; m$ ). 本文采用模糊C均值(Fuzzy C-Means, FCM)聚类来实现粒时间序列的聚类. FCM聚类是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法[22].

      针对某个检测参数, 利用FCM聚类把 $ n_c $ 个粒时间序列 $ {\rm{rep(}}{X_i}) $ , $i = 1,\; 2,\cdots,\; {n_c}$ 分为 $ c $ 个簇, 就是求每个簇的聚类中心 $ C $ 和隶属度矩阵 $ U $ , 使得非相似性指标的价值函数达到最小. 隶属度矩阵 $ U $ 中元素的取值范围为(0,1), 一个粒时间序列的隶属度的和总等于1, 也就是 $\sum_{i = 1}^{c} u_{ij} = 1, j = 1,\; 2,\cdots, \; n_c$ . FCM聚类的目标函数定义为,

      $$ J(U,C) = \sum\limits_{i = 1}^c {\sum\limits_{j = 1}^{n_c} {u_{ij}^m {\left\| {{\rm{rep}}({X_j}) - {C_i}} \right\|^2} }}, $$ (14)

      其中 $ u_{ij} $ $ U $ 中的第 $ (i,\; j) $ 个元素, $ C_i $ 为第 $ i $ 个簇的聚类中心, $ {\left\| {{\rm{rep}}({X_j}) - {C_i}} \right\|^2} $ 表示 $ C_i $ $ {\rm{rep}}(X_j) $ 的欧式距离, $ m $ 是一个加权指数. 目标函数表示考虑粒时间序列样本 $ {\rm{rep}}(X_j) $ 属于不同聚类的隶属度为 $ u_{ij} $ 的情况下, 所有 $ {\rm{rep}}(X_j) $ 到各个聚类中心 $ C_i $ 的距离之和. 目标函数越小, 表示聚类效果越好.

      在约束条件 $ \sum\nolimits_{i = 1}^c {{u_{ij}}} = 1 $ 下, 要使目标函数 $ J(U,\; C) $ 最小, 这是一个考虑约束的求极值问题. 采用拉格朗日乘数法构建新的目标函数,

      $$ L(U,C) = J(U,C)- \sum\limits_{j = 1}^{{n_c}} {{\lambda _j}} \left( {\sum\limits_{i = 1}^c {{u_{ij}}} - 1} \right) $$ (15)

      其中 $ {\lambda _j} $ 称为拉格朗日乘子. 对上式分别对 $ {u_{ij}} $ $ C_i $ 求导数, 可得使目标函数 $ J(U,\; C) $ 最小的必要条件[23]为,

      $$ {C_{i = }}\dfrac{{\displaystyle\sum\limits_{j = 1}^{n_c} {u_{ij}^m{{\rm{rep}}(X_j)}} }}{{\displaystyle\sum\limits_{j = 1}^{n_c} {u_{ij}^m} }}, $$ (16)
      $$ {u_{ij}} = \dfrac{1}{{\displaystyle\sum\limits_{k = 1}^c {{{\left( {\frac{{\left\| {{\rm{rep}}({X_j}) - {C_i}} \right\|}}{{\left\| {{\rm{rep}}({X_j}) - {C_k}} \right\|}}} \right)}^{\frac{2}{{m - 1}}}}} }}. $$ (17)

      FCM聚类算法是迭代计算公式(14), (16), (17), 当目标函数小于某个确定的阀值, 或它相对上次目标函数值的改变量小于某个阀值, 则算法停止. 检测参数的时间序列数据, 经过粒度聚类得到的聚类中心将应用于新的时间序列数据的聚类. 这样得到的聚类类别就是检测参数 $ P_i $ 时间序列转化后的聚类标签 $ L_i $ .

      检测参数的聚类标签 $ L_i $ 是类别变量, 它的值域范围取决于聚类数目 $ c $ . 因此, 需要选择合适的 $ c $ , 以保证获得聚类标签能够有效代表原始的时间序列数据. 由于FCM聚类是自定义聚类数目, 因此引入Calinski-Harabasz(CH)系数[24]确定FCM聚类的聚类数目. CH系数值越高表示聚类效果越好. CH系数定义如下,

      $$ {C_H}(c) = \frac{{{S_B}}}{{{S_W}}}\frac{{{n_c} - c}}{{c - 1}}, $$ (18)

      其中 $ S_B $ 表示簇之间距离的平方和, $ S_W $ 为每个时间序列与其所在簇聚类中心的距离的平方和. 每个簇的聚类中心为 $ C_i $ , 每个簇中时间序列个数为 $ n_i $ , 所有时间序列的中心为 $ {{\bar X}_{{\rm{rep}}}} $ , 那么 $ S_B $ $ S_W $ 表示为,

      $$ \begin{split} &{S_B} = \displaystyle\sum\limits_{i = 1}^c {{n_i}} {\left\| {{C_i} - {{\bar X}_{{\rm{rep}}}}} \right\|^2},\\ &{S_W} = \displaystyle\sum\limits_{i = 1}^c {\displaystyle\sum\limits_{j = 1}^{{n_i}} {{{\left\| {{\rm{rep}}({X_j}) - {C_i}} \right\|}^2}} }. \end{split} $$ (19)

      可见 $ S_W $ 越小, $ S_B $ 越大, 则聚类效果越好. $\dfrac{{{n_c} - c}}{{c - 1}}$ 表示 $ c $ 越大, $ C_H $ 值越小, 则聚类效果越差, 即 $ C_H $ 的目的是用尽量少的簇和尽量多的时间序列数据样本获得好的聚类效果.

    • 运行性能等级评价是找到当前检测参数的时间序列数据的运行性能等级, 也就是时间序列的分类问题. 通过时间序列的粒度聚类, 可以将检测参数的时间序列数据转化成聚类后的标签数据. 那么所涉及的运行性能等级评价转化为一个标签分类问题. 考虑到各个检测参数之间并非完全独立, 本文采用随机森林算法来实现这些标签的分类. 文献[25]提出了一种同时分析静态和动态节点的增强型随机森林算法, 该方法着重于提取静态和动态节点以增强随机森林算法. 本文对时间序列降维并保留了时间序列的动态特性, 本方法着重于对时间序列数据的处理. 设粒度聚类后的检测参数 $ P_i $ ( $i = 1,\; 2,\cdots,\; m$ )的时间序列被转化成了聚类标签 $ L_i $ ( $i = 1,\; 2,\cdots,\; m$ ). 那运行性能等级评价模型可以表示为,

      $$ G = {f_{\rm{RF}}}({L_1},\; {L_2}, \cdots,\; {L_m}), $$ (20)

      其中 $ G $ 的取值范围为{Pe, Go, Ge, Po, Un}, $ f_{\rm{RF}}(\cdot) $ 表示随机森林分类器. 在构建运行性能评价模型时, 先计算与检测参数时间序列数据相对应的烧结终点时间序列数据的田口过程能力指数, 并利用表1所示的运行性能等级划分方法得到检测参数时间序列数据所对应的运行性能等级, 然后利用检测参数时间序列数据和其对应的运行性能等级来训练运行性能评价模型.

      随机森林算法通过自助法随机选择向量生长成分类“树”, 每个“树”都会完整生长而不会修剪. 并且在生成树的时候, 每个节点的变量都仅仅在随机选出的少数几个变量中产生. 最终的决策树是通过对潜在的随机向量树进行“ 投票”表决生成的, 即随机森林选择具有最多投票的分类. 随机森林算法具有两个非常重要的自定义参数: 分类树的数量和分割节点的随机变量的数量. 这两个参数进行优化, 以使分类过程中错误出现的次数最小.

      通过前面几个部分的介绍, 所提的运行性能评价方法的流程可表示如下.

      输入: 某段时间内检测参数 $T_i$ ( $i=1,\;2,\cdots\;, \;24$ ), $P_N$ , $H_M$ $V_T$ 的时间序列数据.

      输出: 运行性能等级 $G$ (Pe, Go, Ge, Po或Un).

      步骤 1: 利用单因素方差分析方法选择显著影响运行性能等级的检测参数 $P_1$ , ${P_2},\cdots,\;$ $P_m$ , $m$ = 16;

      步骤 2: 对检测参数 $P_i$ ( $i=1,\;2,\cdots\;,\;m$ )的时间序列 $X_i$ 进行多粒度区间信息粒化, 得到粒时间序列 ${\rm{rep}}(X_i)$ ;

      步骤 3: 对粒时间序列 ${\rm{rep}}(X_i)$ 进行聚类, 得到 ${\rm{rep}}(X_i)$ 对应的聚类标签 $L_i$ ( $i=1,\;2,\cdots\;,\;m$ );

      步骤 4: 以聚类标签 $L_i$ 为输入, 利用公式(20)的随机森林分类器, 得到运行性等级 $G$ .

    • 从某钢铁企业烧结厂收集了一个月的运行数据, 采样间隔为5秒. 烧结机运行时会出现故障和停机等情况, 这导致了原始数据存在很多噪声和检测误差. 因此对原始数据进行预处理是很有必要的. 经过滤波和剔除异常值等操作后, 将原始数据的采样间隔扩展到30秒. 采样间隔的扩展即能减少数据量, 也保留了数据的变化特性.

      图  7  不同聚类数目的Calinski-Harabasz系数(TSFC)

      Figure 7.  Calinski-Harabasz coefficients for different number of clusters (TSFC).

      首先需要验证信息粒化后的时间序列能否表征出原始时间序列的动态特征. 对烧结终点的时间序列数据进行了信息粒化的实验, 选择了长度为50的烧结终点时间序列样本, 时间间隔为30秒. 然后利用所提出的多粒度区间信息粒化方法对选取的烧结终点时间序列样本进行粒化, 设置信息粒的个数为10. 最终得到了如图5所示的时间序列信息粒化结果. 从图5可以看出信息粒化后的时间序列能表征出原始时间序列的动态特征.

      图  5  时间序列信息粒化结果. (a) 原始时间序列. (b) 信息粒化后的时间序列.

      Figure 5.  Result of the information granulation of time series. (a) Original time series. (b) Time series after information granulation.

      一次完整的烧结过程大约需要45分钟. 为了对烧结过程进行更精细的评价, 选择运行性能评价的时间长度为10分钟. 也就是说需要评价的每个时间序列段有20个数据点. 对原始数据进行时间序列段分割, 得到4000组时间序列段. 实验采用十折交叉验证, 也就是将4000组时间序列段平均分成十个部分, 每次采用其中9个部分的时间序列段用作训练, 剩下部分的时间序列段用作测试. 依次不重叠的进行十次实验, 最后将实验结果进行累计.

      为了验证所提出方法的有效性, 构建了对比实验. 本文的所提出的运行性能评价方法是基于时间序列粒度聚类(Time series granular clustering, TSGC) 实现的, 主要是考虑采用信息粒化来减少时间序列的冗余, 提取有效的信息. 设计的对比实验采用基于时间序列数据聚类(Time series data clustering[12], TSDC)的运行性能评价方法和基于时间序列特征聚类(Time series feature clustering[26], TSFC)的运行性能评价方法.

      在基于TSGC的实验中, 根据时间序列长度段设置每个时间序列粒化为5个区间信息粒. 对4000组时间序列段进行了三种聚类方法的测试, 设置了不同的聚类数目, 得到了它们聚类后的CH系数, 如图6-8所示. 由图可确定每个检测参数的聚类数目(图中最大值对应的聚类数目). 在随机森林算法进行运行性能等级评价中, 经网格法测试后选择分类树的数量为200和分割节点数为6. 基于TSDC的方法直接使用时间序列数据进行聚类, 运行性能等级评价方法采用2.3节所述方法. 基于TSFC的方法采用时间序列的平均值和标准差两个特征来表示时间序列, 并进行聚类, 运行性能等级评价方法也采用2.3节所述方法. 最后, 三个实验的运行性能等级评价结果如表3所示. 表中混淆矩阵中的比例值指的是每个评价等级的查准率, 精度是指运行性能评价方法在五个评价等级的平均查准率.

      图  6  不同聚类数目的Calinski-Harabasz系数(TSDC)

      Figure 6.  Calinski-Harabasz coefficients for different number of clusters (TSDC).

      图  8  不同聚类数目的Calinski-Harabasz系数(TSGC)

      Figure 8.  Calinski-Harabasz coefficients for different number of clusters (TSGC).

      表 3  运行性能评价结果

      Table 3.  Results of operating performance assessment.

      评估等级 实际等级 精度
      Pe Go Ge Po Un
      TSDC Pe 89.08% 7.96% 1.20% 0.70% 1.06% 79.70%
      Go 8.97% 75.41% 9.21% 3.38% 3.03%
      Ge 4.58% 8.50% 66.45% 13.73% 6.75%
      Po 2.29% 4.30% 14.61% 67.34% 11.46%
      Un 1.53% 4.81% 5.03% 8.10% 80.53%
      TSFC Pe 90.08% 7.08% 1.20% 0.64% 0.99% 80.28%
      Go 8.84% 75.55% 8.96% 3.90% 2.76%
      Ge 4.43% 9.09% 67.63% 11.31% 7.54%
      Po 1.37% 5.75% 13.97% 66.85% 12.05%
      Un 1.22% 4.22% 5.22% 8.10% 81.24%
      TSGC Pe 94.24% 5.04% 0.14% 0.36% 0.22% 83.40%
      Go 8.35% 79.52% 10.41% 1.37% 0.34%
      Ge 0.44% 12.66% 67.03% 12.45% 7.42%
      Po 0.00% 1.15% 11.17% 74.50% 13.18%
      Un 0.00% 0.54% 5.59% 11.60% 82.28%

      图6-8列举了四个检测参数在不同聚类数目下的CH系数. 可以看出TSDC和TSGC方法下的聚类效果是相似的, CH系数和最佳聚类数目都很接近. 这反映了多粒度区间信息粒化是对时间序列的降维, 同时它保留了时间序列的动态特性. 从表3的混淆矩阵来看, 评价方法对于“Pe”和“Un”这两个运行性能等级的评价精度相对较高, 而对其他运行性能等级的评价效果不佳, 这与数据的分布不均有一定关系. 此外, 可以看出所提出的TSGC方法更能有效的评价烧结过程的运行性能等级, 精度可达83.40%, 相对于TSDC方法提高3.70%, 相对于TSFC方法提高了3.12%. TSFC方法相对于TSDC方法也有一定程度的提升. 这表明TSGC方法的确能降低时间序列数据的冗余, 同时提取有效信息.

    • 针对烧结过程检测参数的时间序列数据冗余, 本文引入多粒度区间信息粒化实现时间序列数据的降维, 并保留时间序列的动态特征. 在此基础上, 提出了一种基于粒度聚类的烧结过程运行性能评价方法. 实验结果表明所提方法相对于传统的时间序列数据聚类和特征聚类能更有效的评价烧结过程的运行性能等级, 可为操作人员控制烧结过程提供指导.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回