2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于Bootstrap的高炉铁水硅含量二维预报

蒋朝辉 董梦林 桂卫华 阳春华 谢永芳

蒋朝辉, 董梦林, 桂卫华, 阳春华, 谢永芳. 基于Bootstrap的高炉铁水硅含量二维预报. 自动化学报, 2016, 42(5): 715-723. doi: 10.16383/j.aas.2016.c150574
引用本文: 蒋朝辉, 董梦林, 桂卫华, 阳春华, 谢永芳. 基于Bootstrap的高炉铁水硅含量二维预报. 自动化学报, 2016, 42(5): 715-723. doi: 10.16383/j.aas.2016.c150574
JIANG Zhao-Hui, DONG Meng-Lin, GUI Wei-Hua, YANG Chun-Hua, XIE Yong-Fang. Two-dimensional Prediction for Silicon Content of Hot Metal of Blast Furnace Based on Bootstrap. ACTA AUTOMATICA SINICA, 2016, 42(5): 715-723. doi: 10.16383/j.aas.2016.c150574
Citation: JIANG Zhao-Hui, DONG Meng-Lin, GUI Wei-Hua, YANG Chun-Hua, XIE Yong-Fang. Two-dimensional Prediction for Silicon Content of Hot Metal of Blast Furnace Based on Bootstrap. ACTA AUTOMATICA SINICA, 2016, 42(5): 715-723. doi: 10.16383/j.aas.2016.c150574

基于Bootstrap的高炉铁水硅含量二维预报

doi: 10.16383/j.aas.2016.c150574
基金项目: 

国家自然科学基金创新研究群体科学基金 61321003

国家自然科学基金重大项目 61290325

中南大学中央高校基本科研业务费专项资金 2013zzts226

详细信息
    作者简介:

    董梦林中南大学信息科学与工程学院硕士研究生.主要研究方向为工业过程建模与优化控制研究,智能控制系统.E-mail: 244751367@qq.com

    桂卫华 中国工程院院士,中南大学信息科学与工程学院教授.主要研究方向为复杂工业过程建模与优化控制,工业大系统控制理论与应用.E-mail: gwh@mail.csu.edu.cn

    阳春华博士,中南大学信息科学与工程学院教授.主要研究方向为复杂工业过程建模与优化控制,智能自动化控制系统.E-mail: ychh@mail.csu.edu.cn

    谢永芳博士, 中南大学信息科学与工程学院教授. 主要研究方向为复杂工业过程建模与控制, 分散鲁棒控制.E-mail: yfxie@mail.csu.edu.cn

    通讯作者:

    蒋朝辉 博士, 中南大学信息科学与工程学院副教授. 主要研究方向为复杂工业过程建模与优化控制, 广义大系统控制理论与应用. 本文通信作者. E-mail:jzh0903@csu.edu.cn.

Two-dimensional Prediction for Silicon Content of Hot Metal of Blast Furnace Based on Bootstrap

Funds: 

Foundation for Innovative Re- search Groups of National Natural Science Foundation of China 61321003

Major Program of National Natural Science Foundation of China 61290325

Fundamental Research Funds for the Central Universities of Central South University 2013zzts226

More Information
    Author Bio:

    Master student at the School of Information Science and Engineering, Central South University. Her research interest covers mod-eling and optimal control of complex industrial process, and intelligent control system.

    Academician of Chinese Academy of Engineering, professor at the School of Information Science and Engineering, Central South University. His research interest covers modeling and optimal control of complex industrial process, industrial large system control theory and application.

    Ph. D., professor at the School of Information Science and Engineering, Central South University. Her research interest covers modeling and optimal control of complex industrial process, and intelligent automation control system.

    Ph. D., professor at the School of Information Science and Engineering, Central South University. His research interest covers modeling and optimal control of complex industrial process, and distributed robust control.

    Corresponding author: JIANG Zhao-Hui Ph. D., associate professor at the School of Information Science and Engineering, Central South University. His research interest covers modeling and optimal control of complex industrial process, descriptor large systems control theory and application. Corresponding author of this paper.E-mail:jzh0903@csu.edu.cn.
  • 摘要: 高炉铁水硅含量的实时准确预报对调控高炉炉温和稳定炉况具有重要作用, 但其预报结果一直存在准确度不高和缺乏可信度表征等问题, 特别是在炉况不稳、运行数据波动较大时, 预报结果的准确度和可信度急速下降, 不利于现场操作人员根据预报结果进行生产操作. 为此本文融合神经网络和Bootstrap预报区间方法, 构建高炉铁水硅含量的二维预报模型, 实现在预报硅含量值的同时给出了该预测值的可信度.应用实例表明, 本文提出的方法提高了硅含量点预测结果的准确度, 且预测区间宽度能正确地表征点预测结果的可信度, 对实际生产操作具有较好的指导意义.
  • 铁水硅含量是衡量高炉冶炼过程中炉况稳定性与铁水质量的重要生产指标,也是表征高炉热状态及其变化趋势的参考变量,但高炉铁水硅含量无法实时在线检测,导致炉况调控盲目.因此准确地预报铁水硅含量对稳定高炉炉况、保障高炉顺行具有重要的意义.

    目前,高炉铁水硅含量预报主要有三种思路: 1)根据高炉炼铁内部所发生的一系列复杂化学反应和传递现象建立机理模型[1-2],机理模型预测精度高、适应范围广泛,但建立准确的机理模型耗时耗力;2)混合机理分析和数据的经验模型[3-4],对高炉冶炼的实时生产数据与专家知识进行对比分析,利用提取的规则进行推理,从而实现高炉炉温的预测和控制.经验模型具有简单易用、可理解性强等特点,在炉况诊断和炉温控制等方面能够起到有效的提示作用.然而由于基于规则的定性判断和高炉冶炼过程的高度复杂性,经验模型难以应用于更为复杂的高炉炉温的预测中.3)充分利用高炉现场检测到的有限数据建立数据驱动模型,例如偏最小二乘模型[5]、自回归模型[6]、神经网络模型[7]、非线性时间序列模型[8-9]、贝叶斯模型[10]、支持向量机模型[11-12]、混沌模型[13]等均在高炉铁水硅含量的预测中得到应用,但这些模型均存在一定的局限性,如自回归模型的预测命中率较差,不能适应高炉复杂的炉温系统;神经网络、贝叶斯网络和非线性时间序列模型等模型性能较为不稳定,普适性不强;混沌模型仅利用硅含量的历史数据,没有充分利用高炉生产过程中丰富的数据资源来分析硅含量变化的影响[14].最重要的是,上述数据驱动模型均是铁水硅含量单一值预测,而我国高炉炼铁的入炉矿源及其品位波动频繁,导致其冶炼过程中工况经常波动,致使现有的基于数据的高炉铁水硅含量预测模型的结果不确定性特征明显,难以准确地表征真实炉况,带来炉温调控方向错误.由此可见,单一的硅含量值预测存在较大的不确定性,难以解决高炉炉温精确调控的难题.

    预报结果的可信度分析是解决预报结果的不确定性问题的重要方法,国内外已经开展了相关研究,如电力负荷预报中,通过研究预报误差的变化规律,对其特征进行统计分析,建立风电预测可信度模型,进而为合理调控提供依据[15];在气温、降水预报中多采用基于集合预报的概率预报模型,通过预报概率密度函数,定量地描述预报结果的不确定性,提高了极端天气预报的准确度[16].上述方法需数据样本充足,且在处理数据样本的不确定性时需假设总体服从某一概率分布,如正态分布或均匀分布,然后对输出响应的不确定性进行定量计算.然而高炉铁水硅含量的数据检测周期长达40分钟左右,且因矿源变动、炉况波动造成的数据间差别较大,所以,同期矿源一致且炉况相似的硅含量数据(周期为一个月左右)是典型的小样本数据,无法精确计算得到样本的真实分布.而Bootstrap预测区间[17]方法无需对未知的分布做任何假设,通过计算机直接对原始数据进行反复再抽样,从而将小样本问题转化为大样本问题来估计未知参数的近似分布,然后根据参数的近似估计构建预测区间,其预测区间宽度变化可较为精准地反应出预测结果的不确定性.

    为此,本文结合高炉铁水硅含量数据的小样本特点和矿源频繁波动等所带来的不确定性特征,提出一种高炉铁水硅含量的二维预报方法,即同时预报高炉铁水硅含量值及其可信度:将Bootstrap预测区间方法引入到铁水硅含量预报结果的可信度分析中,通过估计硅含量预测值的近似分布,为硅含量预测值提供一个预测区间,然后利用预测区间宽度表征硅含量预测值的可信度,实现高炉铁水硅含量的二维预报.该方法能克服单一的硅含量预测值存在预测结果可靠性低的问题,可以对可信度较低的预测值给予警示,使操作人员有选择地参考预测结果,为高炉现场操作提供更可靠的信息,对进一步提高高炉炉温的调控能力及精度和提高现场操作人员的操作准确率具有重要的意义.

    现有的硅含量预测模型,以硅含量单一值预测为主,无可信度表征.国内钢铁企业为了节约成本,大多采用国内矿源,而国内矿源来源广泛,矿石种类多、品位低且波动频繁,导致炉况波动较大,增加了硅含量预测结果的不确定性,降低了预测结果的可靠性.在没有任何可信度表征的情况下,操作人员按照预测结果对炉况进行调控,可能会导致能耗上升、排放超标、成本增加,严重时可能导致炉况恶化并引发事故.因此,将硅含量预测值及其可信度定量地呈现给现场操作人员十分必要,即研究硅含量二维预报势在必行.为此,本文在融合Bootstrap预测区间方法和神经网络的基础上,提出了一种高炉铁水硅含量二维预报的新方法,其功能如图 1所示.

    图 1  高炉铁水硅含量二维预报功能
    Fig. 1  The two-dimensional prediction function of the silicon content in hot metal of blast furnace

    图 1中,(yi*)表示第i次采样的铁水硅含量测量值(i=1,2,…,n), $\hat y_i^l$ =1,2,…,L)表示L个神经网络输出的L个硅含量预测值, $\hat{y}_i$ 表示对应的二维预报模型的硅含量预测值,L表示重抽样次数, $\sigma^2_{\hat{y}_i}$ 表示模型方差, $r_i^2$ 表示预测的残差.

    首先,对高炉现场采集的数据进行预处理得到模型的数据样本,再采用Bootstrap方法对其进行L次有放回的随机抽样得到L个不尽相同的子样本,然后用这L个子样本训练得到L个神经网络来进行硅含量预测,最终得到L个硅含量预测值,并以其平均值作为硅含量的最终预测值;通过计算多个硅含量预测值之间的离散度即模型方差,结合硅含量测量值中噪声的方差来构建预测区间;最后采用计数法统计预测结果中的预测区间宽度和预测值与测量值的绝对误差关系以定量表征预测值的可信度.当该预测值的可信度较高时,操作者可以信任该预测值;当该预测值的可信度较低时,提示操作者预测值与真实值之间可能存在较大误差,硅含量预测值不可信,避免操作者依据可信度低的硅含量预测值而对炉况产生错误的判断.低的可信度也说明预测的难度和不确定性变大,警示硅含量数据可能将出现较大波动.

    实际生产中,影响铁水硅含量[Si]的变量众多,包括状态参数和可调的控制参数.综合高炉冶炼工艺机理和现有仪表检测现状,目前能够反映铁水质量指标的主要状态参数包括透气性指数、鼓风动能、理论燃烧温度、实际风速、炉顶压力、全压差、富氧率和热风压力等.影响铁水质量参数的可调控制参数不仅包括料速、矿焦比等高炉上部控制参数,同时还主要受到热风温度、冷风压力、冷风流量、设定喷煤量等送风系统和喷吹燃料系统参数的影响.表 1是影响硅含量的候选输入变量,考虑到硅含量具有较强的自相关性,同时将上一炉硅含量和上上炉硅含量作为模型的候选输入变量.

    表 1  模型的候选输入变量
    Table 1  List of candidate input variables of the model
    变量名单位变量名单位
    Si(n-1)wt %理论燃烧温度
    Si(n - 2)wt %矿焦比kg/t
    料速t/h标准风速m/s
    顶压kpa热风温度oC
    全压差kpa鼓风动能kg . m/s
    富氧率wt %冷风流量m3/ min
    热风压力kpa冷风压力kpa
    实际风速m/s富氧压力kpa
    喷煤量t透气性指数m3/ min .kpa
    下载: 导出CSV 
    | 显示表格

    过多的输入变量会增加模型的复杂度,影响计算速度,因此,在建模时有必要删除候选变量中与铁水硅含量相关性不强的变量.在某钢铁厂2650m3高炉采集的数据的基础上,选用2013年1月10号21:00到2013年2月25号10:00总共831组数据进行分析处理.通过计算硅含量与所有候选输入变量的相关系数,最终选取硅含量相关系数较强的上一炉硅含量、上上炉硅含量、冷风流量,实际风速、鼓风动能、富氧率、热风温度、料速和透气性指数共9个变量作为模型的输入变量,如表 2所示.

    表 2  模型的输入变量
    Table 2  List of the input variables of the model
    变量名相关性变量名相关性
    Si(n - 1)0.731富氧率0.251
    Si(n - 2)0.618热风温度-0.214
    冷风流量0.378料速-0.207
    实际风速-0.342透气性指数-0.113
    鼓风动能-0.304
    下载: 导出CSV 
    | 显示表格

    由于在采样过程中,受高温高压等恶劣环境或者高炉减风、休风等非正常生产的影响,采集到的数据存在异常值,为保证数据的合理性和有效性,必须对选取的变量进行异常值处理,删除那些明显错误或是波动异常的数据.这些数据的存在会影响模型的训练效果,可能使得模型参数朝着错误的方向调整.本文异常值处理采用马氏距离法,计算输入变量与硅含量组成的数据样本 ${X}=(x_1,x_2,{\cdots},x_m)^{\rm T}~({m}=10)$ 与其均值X之间的马氏距离:

    $ \begin{equation} {D}^2=(X-\bar{X})^{\rm T}S^{-1}(X-\bar{X}) \end{equation} $

    (1)

    其中,S为数据样本的协方差矩阵;S-1为数据样本的协方差矩阵逆矩阵.当马氏距离高于自由度为m的卡方分布时,该样本被认为是一组异常值.异常值处理后共删除了31个异常值点,最后得到的样本数据共800组.

    最后,考虑到选取的各输入变量数量级相差较大,对模型的收敛速度和复杂度有很大影响,在建模前需要对各变量进行归一化处理,通过数值变换来消除变量间的量纲影响:

    $ {{\tilde x}_i}=\frac{{{x_i} - \min({x_i})}}{{\max({x_i})- \min({x_i})}} $

    (2)

    其中,xixi分别为第i个变量归一化前、后取值,max(xi)、min(xi)分别为第i个变量归一化前的最大值、最小值.归一化处理使得xi ∈(0,1),而铁水硅含量根据铁水质量要求需尽量控制在(0.3,0.5)范围内,实际检测值在(0.1,0.9)范围内,所以无需做归一化处理.

    预测区间方法[17]是在神经网络的基础上发展起来的,其区间的上下限是根据观测值以置信水平1-α的概率落入某区间求得.构建预测区间的主要目的是对模型预测硅含量值的不确定性进行量化评估,并用预测区间的宽度表征衡量硅含量预测值的可信度.

    受高炉现场检测条件限制,在高炉每次出铁周期内(大约40~60分钟)仅能随机提取一份样本以检测铁水质量,所以,离线化验的铁水硅含量值中存在的抽样误差无法通过多次检测求取平均值来消除,其构成了铁水硅含量检测值中随机误差的主要组成部分.为了综合考虑高炉铁水硅含量检测的随机性和不确定性,假设硅含量值的建模如下:

    $ \begin{equation} y_i^{\ast}=y_i+\varepsilon_{i} \end{equation} $

    (3)

    其中,yi表示第i次采样的铁水硅含量的真实值,yi*表示对应的硅含量测量值(i=1,2,…,n).εi表示噪声,即随机误差,一般可假定其服从均值为0的正态分布,εi的存在使得硅含量的测量值yi*偏离真实值yi.在构建预测区间过程中,假设每炉次的铁水采样的样本误差独立同分布,预测模型对硅含量真实值yi的预测输出为 ${{\hat y}_i}$ ,那么模型误差可表示为:

    $ \begin{equation} y_i^{\ast}-\hat{y}_i=[y_i-\hat{y}_i]+\varepsilon_{i} \end{equation} $

    (4)

    式(4)所示的预测误差包括两个部分,yi- ${{\hat y}_i}$ 表示硅含量真实值与模型预测值的误差,对其分布的估计可以表示为对模型预测结果置信区间的估计.εi表示数据噪声,是构成预测误差的另一个部分.yi*- ${{\hat y}_i}$ 表示预测误差,描述了硅含量的实际测量值与预测值之间的误差,对其分布的估计可以表示为对模型预测结果预测区间的估计.当yi- ${{\hat y}_i}$ 与εi相互独立时,预测模型的预测方差可表示为:

    $ \begin{equation} \sigma^2_i=\sigma^2_{\hat{y}_i}+\sigma^2_{\hat{\varepsilon}_i} \end{equation} $

    (5)

    其中, $\sigma^2_{\hat{y}_i}$ 为模型方差,由模型的参数估计误差产生,反映了多个硅含量预测值间的离散度; $\sigma^2_{\hat{\varepsilon}_i}$ 为噪声方差,反映了铁水硅含量测量的不确定性.由式(5)可知,由于置信区间可以通过 $\sigma^2_{\hat{y}_i}$ 进行估计,预测区间包含了置信区间,通过 $\sigma^2_i$ 进行估计,考虑了噪声对硅含量预测结果的影响,能够估计模型预测值相对于硅含量实际测量值的准确度,显然对模型的硅含量预测值的可信度进行评估时更具适用性.

    Bootstrap方法是统计学家Efron教授在1979年提出的一种基于计算机技术的重抽样方法,它是以原始数据为基础的模拟抽样统计推断法,可用于研究一组数据某统计量的分布特征,是常用的构造置信区间和预测区间的方法.

    Bootstrap方法的实质就是再抽样过程,通过对观测数据的重新抽样产生再生样本来模拟总体分布:设随机子样 ${X}=\{{{X}_1,{X}_2,{\cdots},{X}_n}\}$ 来自未知总体 ${F}_n$ , ${Y}({X},{F})$ 为所求的统计量,它是{x}和{F}的函数.要求根据子样观测值 ${X}=\{{{x}_1,{x}_2,{\cdots},{x}_n}\}$ 估计 ${Y}({X},{F})$ 的分布特性.Bootstrap法的解决思路是:用来自 ${F}_n$ 的随机抽样样本集 ${X}^*=\{{{x}_1^*,{x}_2^*,{\cdots},{x}_n^*}\}$ 代替 $ {X}=\{{{x}_1,{x}_2,{\cdots},{x}_n}\}$ ,用 ${Y}^*({X}^*,{F}_n)$ 在 ${F}_n$ 之下的分布逼近 ${Y}=({X},{F})$ .对于 ${R}^*$ 的计算,一般采用Monte-Carlo方法:对样本长度为N的样本 ${X}=\{{{x}_1,{x}_2,{\cdots},{x}_n}\}$ 进行N次有放回的等概率随机抽样,得到一个子样本 ${X}^{*1}=\{{{x}_1^{*1},{x}_2^{*2},{\cdots},{x}_n^{*1}}\}$ ,重复上述步骤L次,即可得到L个子样本.以 ${Y}({X}^{*1},{F})$ , ${Y}({X}^{*2},{F})$ ,…, ${Y}({X}^{*L},{F})$ 的分布作为 ${Y}({X},{F})$ 的分布的逼近.子样本依照排列组合方法计算共有 $L^{L}$ 种排列情况,子样本的多样性较强.显然,每个子样本中会有重复的样本,重复的样本数目大约是原样本集数目的36.8%[18].子样本数L的取值越大, ${Y}^*$ 的分布越能逼近{Y}的分布.Efron在1987年给出一个公式以检验不同样本数的效应,并根据他们的经验指出,若需估计统计量的偏差和方差,则需要子样本数在200以上.然而,当估计置信区间和进行假设检验时,大致需要1000个自助样本,因此,本文选取L=1000.

    3.2.1   基于Bootstrap的硅含量预测值

    本文融合了Bootstrap和神经网络计算硅含量预测值,方法如下:对经过数据预处理的数据集进行N次有放回的随机抽样得到一个子样本训练集,重复上述步骤L次,即可得到L个子样本训练集 $\{{{D}_{il}}\}^L_{{l}=1}$ ,并用这L个数据集训练得到L个神经网络 $\{{{N}{N}_{l}}\}^L_{{l}=1}$ .该L个神经网络模型结构一致,参数的不同主要由训练样本的差异和参数初始化的随机性造成.

    本文采用修剪法优化神经网络结构、提高神经网络的泛化能力:从一个大规模的隐含层节点为30的初始网络开始,在训练过程中逐步删除那些不必要的节点和权值,以达到降低网络复杂性,获得满足性能要求的网络结构的目的,最终本文中的神经网络模型的隐含层节点为9个.由于神经网络个数众多,为了加快模型训练速度,本文采用自适应调整速率附加动量因子方法改进神经网络的反向传播算法,加快模型收敛速度,提高模型训练精度,防止模型陷入局部最优[19].将L个已训练好的神经网络同时对硅含量进行预测,则每炉硅含量的测量值 ${y}_i^*$ 可得到L个对应的预测值 $\{{\hat{y}_i^l}\}^L_{l=1}$ .并由这L个预测值的Bootstrap均值来估计硅含量的最终预测值 $\hat{y}_i$ :

    $ \begin{equation} \hat{y}_i={\frac{1}{{L}}}\sum^L_{l=1}{\hat{y}^l_i} \end{equation} $

    (6)
    3.2.2   硅含量的Bootstrap预测区间

    假设神经网络组合模型的硅含量预测值是无偏的,那么该模型的预测方差可以由L个神经网络的硅含量预测值 $\{{\hat{y}_i^l}\}^L_{l=1}$ 的方差来估计:

    $ \begin{equation} \sigma^2_{\hat{y}_i}=\frac{1}{L-1}\sum^L_{l=1}(\hat{y}^l_i-\hat{y}_i)^2 \end{equation} $

    (7)

    置信区间通过式(7)中 $\sigma^2_{\hat{y}_i}$ 的估计值来构建,而构建预测区间,还需要估计噪声方差 $\sigma^2_{\hat{\varepsilon}_i}$ ,由式(5)可知 $\sigma^2_{\hat{\varepsilon}}$ 如下:

    $ \begin{equation} \sigma^2_{\hat{\varepsilon}}={\rm E}\{(y^*-\hat{y})^2\}-\sigma^2_{\hat{y}} \end{equation} $

    (8)

    由式(6)可知,残差平方和如下:

    $ \begin{equation} {r}_i^2=\max(({y}^*_i-\hat{y}_i)^2-\sigma^2_{\hat{y}_i},0) \end{equation} $

    (9)

    其中, $\hat{y}_i$ 和 $\sigma^2_{\hat{y}_i}$ 可由式(6)和(7)计算得到.将残差与输入变量集样本合并构建一个新的数据集: ${{D}}_{r^2}=\{{(x_i,r_i^2)}\}^n_{i=1}$ ,xi是模型的输入变量,维度即是输入变量个数.

    通过数据集 ${{D}}_{r^2}$ 训练一个新的神经网络,即第L+1个神经网络 ${N}{{N}_{L+1}}$ ,用来估计未知参数 $\sigma^2_{\hat{\varepsilon}_i}$ ,目标是使得观察样本在 ${{D}}_{r^2}$ 出现的概率最大.所以, ${N}{{N}_{L+1}}$ 神经网络没有采用传统神经网络的目标函数误差平方和作为目标函数,而是引入了最大似然估计方法,建立新的目标函数来训练模型[20],定义为:

    $ \begin{equation} {C}_{NN_\sigma}=\frac{1}{2}\sum^n_{i=1}\left[\ln(\sigma^2_{\hat{\varepsilon}_i})+\frac{r^2_i}{\sigma^2_{\hat{\varepsilon}_i}}\right] \end{equation} $

    (10)

    该目标函数可微,所以最小化目标函数的权值调整策略依然可以采用一般的学习算法,例如梯度下降法、共轭梯度法等.本文采用同前L个神经网络一样的算法:自适应调整速率附加动量因子法.神经网络的结构通过修剪法确定.

    通过计算得到 $\hat{y}_i$ 、 $\sigma^2_{\hat{y}_i}$ 、 $\sigma^2_{\hat{\varepsilon}_i}$ ,即可计算置信度为α的预测区间:

    $ \begin{equation} {P}I_i=(\hat{y}_i-t_{df}^{1-\frac{\alpha}{2}}\sqrt{\sigma^2_{\hat{y}_i}+\sigma^2_{\hat{\varepsilon}_i}},\hat{y}_i+t_{df}^{1-\frac{\alpha}{2}}\sqrt{\sigma^2_{\hat{y}_i}+\sigma^2_{\hat{\varepsilon}_i}}) \end{equation} $

    (11)

    $t_{df}^{1-\frac{\alpha}{2}}$ 是自由度为 ${df}$ 的{t}分布函数的 $1-{\alpha}/{2}$ 分位数,其中自由度 ${df}$ 的取值一般可以设置为L,等同于模型方差估计所训练的模型的个数[17].

    采用Bootstrap预测区间方法构建硅含量二维预报模型的具体步骤如下:

    步骤1. 根据Bootstrap方法对D1数据集进行N次有放回的重抽样,得到一个数据子集.用该样本训练一个神经网络.

    步骤2. 重复上述步骤L次(L一般大于等于1000),得到L个已经训练好的神经网络.

    步骤3. 将数据集D2输入到上述的L个神经网络中,得到n2×L个硅含量预测值,即每个硅含量的测量值有L个对应的预测值 $\{{y}^l_i\}^L_{l=1}$ ,由式(6),可计算得到对应的硅含量预测值 $\hat{y}_i$ ,由式(9)可计算得到对应的残差 $r^2_i$ .

    步骤4. 将数据集D2中的输入样本 $\{x_i\}^{n_2}_{i=1}$ 与 $\{r_i\}^{n_2}_{i=1}$ 组成新的样本集 ${D}_{r^2}=\{(x_i,r^2_i)\}^{n_2}_{i=1}$ ,用于训练目标函数为式(10)的第L+1个神经网络.

    步骤5. 将测试样本D3输入上述已训练的模型中,得到硅含量预测值 $\hat{y}_i$ 、预测方差 $\sigma^2_{\hat{y}_i}$ 、噪声方差 $\sigma^2_{\hat{\varepsilon}_i}$ ,再根据式(11)即得到预测区间.

    步骤6. 通过对预测结果统计分析,建立预测区间宽度与预测结果可信度之间的定量关系.最终实现二维预报,即同时预测高炉铁水硅含量值及其可信度.

    将预处理得到的800组数据分为三个样本集D1D2D3,其中D1D2用来训练硅含量预测模型,分别有400组和200组数据,D3为测试样本,共200组数据.按照第3.3节中步骤1~5,可得到硅含量的预测值及其预测区间.二维预报模型的200组预测输出结果如图 2所示.

    图 2  高炉铁水硅含量二维预报模型预测结果图
    Fig. 2  Prediction results of the two-dimensional prediction model

    为了对比分析二维预报模型预测硅含量值的精度,本文基于同样的数据样本分别采用单一神经网络、偏最小二乘模型和ARIMA模型进行仿真测试.并通过以下两个性能评价指标对预测模型的预测精度进行比较:命中率(绝对误差小于0.1的预测值在总预测样本中所占的比例)和均方根误差.结果如表 3所示,二维预报模型中由L个神经网络输出的预测值计算得到的平均值作为硅含量预测值的预测效果明显要优于单一的神经网络,另外对比于偏最小二乘模型和ARIMA模型,二维预报模型在硅含量值的预测上也表现出了更为优越的泛化能力.

    表 3  四种预测模型的硅含量值的预测结果对比
    Table 3  Comparison of prediction results of the four models
    方法命中率(%)均方根误差
    单一神经网络750.1251
    偏最小二乘模型700.1384
    ARIMA模型730.1297
    二维预报模型840.0735
    下载: 导出CSV 
    | 显示表格

    图 2图 3可以看出,二维预报模型的硅含量预测值能很好地跟踪实测值的变化,误差也大多分布在(-0.1,0.1)范围内.但在硅含量实际值波动较为剧烈时,例如第5、6、7炉,此时预测的误差较大,预测值不能反映实测值的剧烈波动.

    图 3  误差结果图
    Fig. 3  The predictive error result of the model

    图 4对比了200组硅含量预测值和实测值,可以看出,大部分点均处在y=x线附近,但是有少量的点分布在y1=x+0.1和y2=x-0.1两条临界线之外,且多是在硅含量测量值x小于0.3和大于0.5的情况下.这说明二维预报模型对于炉况平稳情况下,在(0.3,0.5)范围内波动的硅含量数据预测能力较好.而对炉况出现异常时,一些在非正常范围内波动的硅含量的极值点数据预测能力较差,预测值不能及时跟踪测量值的剧烈变化.经计算可知,预测值的方差为0.0101,实测值的方差为0.0043,说明实测值对比于预测值数据的分布更为分散,波动更为剧烈,同样证实了上述结论.因此,单一的硅含量值预测存在较大的不确定性,有些预测值的预测误差较大,可信度较低,不能为现场操作人员使用.而由图 2整体来看,实测值波动剧烈且预测误差较大的情况下预测值对应的预测区间宽度相对于其他较为平稳的炉次处明显变宽,说明预测区间宽度确实可以反映出预测值的可信度.接下来,本文将通过对预测结果统计分析,讨论不同预测区间宽度范围内预测结果可信度的变化,建立二者的对应关系,实现预测区间宽度定量表征硅含量预测值的可信度.

    图 4  硅含量预测值与实测值对比
    Fig. 4  The contrast of observed and predicted [Si]

    建立二维预报模型的步骤6:建立预测区间宽度与预测结果可信度之间的定量关系,实现二维预报.首先需要将二维预报模型输出的预测区间基于宽度进行合理分类,然后讨论不同预测区间宽度范围内对应的硅含量预测值的可信度.从图 2可以看出,预测区间在预测值和真实值的误差变大的情况下宽度也明显变宽,可信度评估也同样基于对预测结果的误差分析,所以,本文将预测结果的绝对误差作为联系预测区间宽度和可信度的桥梁.

    表 4所示,首先对200炉硅含量预测结果进行了统计,得到了硅含量预测值与真实值的绝对误差不同的情况下,对应的预测区间宽度的平均值.可以看出,预测的绝对误差与其预测区间宽度的平均值有明显的正比例关系.

    表 4  二维预报模型的预测结果统计
    Table 4  Statistics of prediction results of the two-dimensional
    绝对误差预测点个数预测区间平均宽度
    <0.051010.3118
    (0.05, 0.1)670.3207
    < 0.1320.4744
    下载: 导出CSV 
    | 显示表格

    在高炉铁水硅含量的预测结果评价中,结合现场实际经验,一般认为预测值与真实值的绝对误差大于0.1时,预测值没有命中真实值,小于0.1时,预测值命中真实值.预测结果的可信度可以通过预测样本中"命中"的预测样本比例来体现.所以,本文给出如下可信度评估方法:

    $ \begin{equation} {P}_{R_j}=\frac{1}{n_j}\sum^{n_j}_{i=1}{H}_i\times100% \end{equation} $

    (12)

    其中 ${R}_j$ 表示预测区间宽度范围, $n_j$ 表示预测区间宽度范围 ${R}_j$ 内对应点的个数. $\hat{y}_{ij}^{(1)}$ 表示的预测值, ${H}(\cdot)$ 是Heavisiside函数,定义为:

    $ {H_{ij}}=\left\{ \begin{array}{l} 1,\quad \quad |\hat y_{ij}^{(1)} - y_{ij}^{(1)}| <0.1\\ 0,\;\;\;\;\;\;\;\;其他 \end{array} \right. $

    (13)

    严格来讲,从图 2可知,二者没有严格的正比例关系,如第11时刻的预测区间比第12时刻大,但预测偏差却是第12时刻更大,所以,本文从预测区间宽度变化范围的角度讨论可信度变化情况.将预测区间划分成3个变化范围,对于每个预测区间宽度类别内的预测样本,根据式(12)计算对应的预测结果可信度,结果如表 5所示.

    表 5  硅含量预测区间宽度和点预测结果的可信度关系
    Table 5  The relationship between width of prediction interval and reliability of point predictions
    预测点个数
    预测区间预测区间宽度范围< 0.1 < 0.1可信度(%)
    Ri< 0.37648095%
    R2(0.3, 0.45)7738096.25%
    Rs< 0.4515254037.5%
    下载: 导出CSV 
    | 显示表格

    表 5可以看出,预测区间宽度不同,相应的硅含量预测值的可信度也有着明显的变化,二者关系紧密.当预测区间宽度大于0.45时,硅含量预测值的可信度极低,表明预测值与真实值极大可能存在较大误差,预测结果不可信,避免操作者依据错误的硅含量预测值而对炉况产生错误的判断以至于对炉温做出错误的调控,此时操作人员需依靠现场实际经验,结合高炉现场检测到的其他信息灵活地分析炉况并做出正确反应;当预测区间宽度小于0.45时,硅含量点预测值的可信度高达95%以上,表明此时预测结果可信度很高,可以为操作人员提供可靠的预测信息.

    综上可知,预测结果可信度并不是稳定不变的,当数据波动较小时,二维预报模型输出的硅含量预测值能够很好的跟踪实测值,预测精确度较高,预测结果可信度也较高;而当炉况较差时,硅含量数据波动较大,预测值很难及时跟踪实测值的趋势变化,预测的准确度会明显下降,预测结果的可信度也会随之下降.高炉铁水硅含量的二维预报方法,较为准确地建立了预测区间宽度和硅含量预测值的可信度之间的定量关系,能在预测硅含量值的同时给出该预测结果的可信度,使得现场操作人员可以依据可信度有选择地参考预测结果,降低炉温调控过程中的不确定性,有利于提高高炉现场的炉温调控能力.

    本文提出了基于Bootstrap方法的高炉铁水硅含量二维预报模型,同时预测硅含量值及其可信度.该模型的硅含量点预测值能很好地跟踪铁水硅含量的变化趋势,命中率可达84%,预测均方根误差仅为0.0735.但对于那些硅含量波动较大的炉次,预测值不能及时跟踪测量值的剧烈变化,预测误差较大.同时,二维预报模型给出硅含量的预测区间用以表征硅含量点预测值的可信度,实现硅含量值及其可信度的同时预测,即高炉铁水硅含量的二维预报.模型的二维预报弥补了单一的硅含量值预测存在的不确定性问题,为高炉现场提供更多的信息指导.但该二维预报模型由于神经网络可能会存在的有偏性,导致输出的预测区间宽度较宽,预测区间宽度与可信度不能建立严格的对应关系,对于可信度的划分范围过于宽泛.此外,该模型也存在着模型复杂、计算复杂度大和运算时间长等问题.

    目前,基于Bootstrap方法的高炉铁水硅含量二维预报模型的研究尚处于探索阶段,模型自身的结构和性能还有改进空间.从应用验证的结果可以看出,模型在跟踪铁水硅含量的趋势变化和表征预测结果可信度上优势明显,并有望通过优化预测模型的目标函数及训练算法,寻找参数最优初始值,统计大量预测结果构建更为合理的可信度范围等手段,进一步提高模型精度和预测结果可信度的准确性,得到预测区间宽度和可信度更精确的对应关系,使得二维预报模型的实用性进一步提高.

  • 图  1  高炉铁水硅含量二维预报功能

    Fig.  1  The two-dimensional prediction function of the silicon content in hot metal of blast furnace

    图  2  高炉铁水硅含量二维预报模型预测结果图

    Fig.  2  Prediction results of the two-dimensional prediction model

    图  3  误差结果图

    Fig.  3  The predictive error result of the model

    图  4  硅含量预测值与实测值对比

    Fig.  4  The contrast of observed and predicted [Si]

    表  1  模型的候选输入变量

    Table  1  List of candidate input variables of the model

    变量名单位变量名单位
    Si(n-1)wt %理论燃烧温度
    Si(n - 2)wt %矿焦比kg/t
    料速t/h标准风速m/s
    顶压kpa热风温度oC
    全压差kpa鼓风动能kg . m/s
    富氧率wt %冷风流量m3/ min
    热风压力kpa冷风压力kpa
    实际风速m/s富氧压力kpa
    喷煤量t透气性指数m3/ min .kpa
    下载: 导出CSV

    表  2  模型的输入变量

    Table  2  List of the input variables of the model

    变量名相关性变量名相关性
    Si(n - 1)0.731富氧率0.251
    Si(n - 2)0.618热风温度-0.214
    冷风流量0.378料速-0.207
    实际风速-0.342透气性指数-0.113
    鼓风动能-0.304
    下载: 导出CSV

    表  3  四种预测模型的硅含量值的预测结果对比

    Table  3  Comparison of prediction results of the four models

    方法命中率(%)均方根误差
    单一神经网络750.1251
    偏最小二乘模型700.1384
    ARIMA模型730.1297
    二维预报模型840.0735
    下载: 导出CSV

    表  4  二维预报模型的预测结果统计

    Table  4  Statistics of prediction results of the two-dimensional

    绝对误差预测点个数预测区间平均宽度
    <0.051010.3118
    (0.05, 0.1)670.3207
    < 0.1320.4744
    下载: 导出CSV

    表  5  硅含量预测区间宽度和点预测结果的可信度关系

    Table  5  The relationship between width of prediction interval and reliability of point predictions

    预测点个数
    预测区间预测区间宽度范围< 0.1 < 0.1可信度(%)
    Ri< 0.37648095%
    R2(0.3, 0.45)7738096.25%
    Rs< 0.4515254037.5%
    下载: 导出CSV
  • [1] de Castro J A, Nogami H, Yagi J I. Transient mathematical model of blast furnace based on multi-fluid concept with application to high PCI operation. ISIJ International, 2000, 40(7): 637-646
    [2] Nogami H, Chu M S, Yagi J I. Multi-dimensional transient mathematical simulator of blast furnace process based on multi-fluid and kinetic theories. Computers and Chemical Engineering, 2005, 29(11-12): 2438-2448
    [3] Gao C H, Ge Q H, Jian L. Rule extraction from fuzzy-based blast furnace SVM multiclassifier for decision-making. IEEE Transactions on Fuzzy Systems, 2014, 22(3): 586-596
    [4] 黄龙诚. 基于机理与数据混合驱动的高炉分布式炉温建模方法研究[硕士学位论文], 浙江大学, 中国, 2013

    Huang Long-Cheng. Blast Furnace Distributed Temperature Modeling Method Research Based on Mechanism and Data Hybrid Driven [Master dissertation], Zhejiang University, China, 2013
    [5] 李志玲. 基于主成分分析和偏最小二乘的高炉炉温预测模型的研究[硕士学位论文], 内蒙古科技大学, 中国, 2011

    Li Zhi-Ling. Study for Prediction Model of Blast Furnace Temperture Based on Principal Component Analysis and Partial Least Squares [Master dissertation], Inner Mongolia University of Science & Technology, China, 2011
    [6] 王文慧. 基于小波分析理论的高炉炉温预测模型研究[硕士学位论文], 浙江大学, 中国, 2005

    Wang Wen-Hui. Study for Prediction Model of Silicon Content in Molten Iron Based on Wavelet Analysis [Master dissertation], Zhejiang University, China, 2005
    [7] Chen W, Wang B X, Han H L. Prediction and control for silicon content in pig iron of blast furnace by integrating artificial neural network with genetic algorithm. Ironmaking & Steelmaking, 2010, 37(6): 458-463
    [8] Zeng J S, Gao C H, Liu X G, Yang K P, Luo S H. Using non-linear GARCH model to predict silicon content in blast furnace hot metal. Asian Journal of Control, 2008, 10(6): 632-637
    [9] Saxén H, Pettersson F, Gunturu K. Evolving nonlinear time-series models of the hot metal silicon content in the blast furnace. Materials and Manufacturing Processes, 2007, 22(5): 577-584
    [10] 刘学艺, 刘祥官, 王文慧. 贝叶斯网络在高炉铁水硅含量预测中的应用. 钢铁, 2005, 40(3): 17-20

    Liu Xue-Yi, Liu Xiang-Guan, Wang Wen-Hui. Application of Bayesian network to predicting silicon content in hot metal. Iron and Steel, 2005, 40(3): 17-20
    [11] Gao C H, Jian L, Luo S H. Modeling of the thermal state change of blast furnace hearth with support vector machines. IEEE Transactions on Industrial Electronics, 2012, 59(2): 1134-1145
    [12] Jian L, Gao C H, Li L, Zeng J S. Application of least squares support vector machines to predict the silicon content in blast furnace hot metal. ISIJ international, 2008, 48(11): 1659-1661
    [13] Gao C H, Zhou Z M, Qian J X. Chaotic identification and prediction of silicon content in hot metal. Journal of Iron and Steel Research International, 2005, 12(5): 3-5, 46
    [14] 郜传厚, 渐令, 陈积明, 孙优贤. 复杂高炉炼铁过程的数据驱动建模及预测算法. 自动化学报, 2009, 35(6): 725-730

    Gao Chuan-Hou, Jian Ling, Chen Ji-Ming, Sun You-Xian. Data-driven modeling and predictive algorithm for complex blast furnace ironmaking process. Acta Automatica Sinica, 2009, 35(6): 725-730
    [15] 南晓强, 李群湛, 赵元哲, 邱大强. 计及风电预测可信度的经济调度及辅助决策方法. 电力系统自动化, 2013, 37(19): 61-67

    Nan Xiao-Qiang, Li Quan-Zhan, Zhao Yuan-Zhe, Qiu Da-Qiang. An economic dispatch and decision making method based on credibility of wind power forecasting. Automation of Electric Power Systems, 2013, 37(19): 61-67
    [16] Zhao T T, Wang Q J, Bennett J C, Robertson D E, Shao Q X, Zhao J S. Quantifying predictive uncertainty of streamflow forecasts based on a Bayesian joint probability model. Journal of Hydrology, 2015, 528: 329-340
    [17] Khosravi A, Nahavandi S, Creighton D, Atiya A F. Comprehensive review of neural network-based prediction intervals and new advances. IEEE Transactions on Neural Networks, 2011, 22(9): 1341-1356
    [18] Chernick M R. Bootstrap Methods: A Guide for Practitioners and Researchers (Second Edition). Hoboken, N.J.: Wiley-Interscience, 2011.
    [19] 杨甲沛, 李锵, 刘郑, 袁晓琳. 基于自适应学习速率的改进型BP算法研究. 计算机工程与应用, 2009, 45(11): 56-58

    Yang Jia-Pei, Li Qiang, Liu Zheng, Yuan Xiao-Lin. Research of improved BP algorithm based on self-adaptive learning rate. Computer Engineering and Applications, 2009, 45(11): 56-58
    [20] Nix D A, Weigend A S. Estimating the mean and variance of the target probability distribution. In: Proceedings of the 1994 IEEE World Congress on Computational Intelligence, 1994 IEEE International Conference on Neural Networks. Orlando, FL: IEEE, 1994. 55-60
  • 期刊类型引用(28)

    1. 古志远,吕东澔,李向丽,张勇,代学冬. 基于知识与数据相结合的高炉炉温融合预测. 中国测试. 2024(03): 19-28 . 百度学术
    2. 邱国兴,蔡明冲,张毅,苏炳瑞,杨永坤,李小明. 基于灰色关联分析和机器学习的高炉铁水硅含量预测. 材料导报. 2024(20): 256-261 . 百度学术
    3. 蒋珂,蒋朝辉,谢永芳,潘冬,桂卫华. 基于时序关联矩阵的高炉冶炼过程多重关联时延估计方法. 自动化学报. 2023(02): 329-342 . 本站查看
    4. 蒋珂,蒋朝辉,谢永芳,潘冬,桂卫华. 基于动态注意力深度迁移网络的高炉铁水硅含量在线预测方法. 自动化学报. 2023(05): 949-963 . 本站查看
    5. 于涛,丁海旭,黄卫民,乔俊飞. 面向复杂异质数据的集成学习研究综述. 控制工程. 2023(08): 1425-1435 . 百度学术
    6. 蒋朝辉,许川,桂卫华,蒋珂. 基于最优工况迁移的高炉铁水硅含量预测方法. 自动化学报. 2022(01): 194-206 . 本站查看
    7. 蒋珂,蒋朝辉,谢永芳,潘冬,桂卫华. 高炉铁水质量信息在线检测方法综述. 冶金自动化. 2022(02): 19-33+45 . 百度学术
    8. 王军,郑伟,李泽安,王德智,王晓雪,赵宏博. 高炉炉热闭环智能控制系统研究与应用评价. 工业技术创新. 2022(05): 1-10 . 百度学术
    9. 周朝刚,胡锦榛,蒋朝敏,王书桓,艾立群,陈虎. 基于BP神经网络算法的脱磷转炉终点磷含量预报模型. 炼钢. 2021(02): 10-15 . 百度学术
    10. 闫长斌,汪鹤健,周建军,杨风威,彭万军. 基于Bootstrap-SVR-ANN算法的TBM施工速度预测. 岩土工程学报. 2021(06): 1078-1087 . 百度学术
    11. 周平,刘记平,梁梦圆,张瑞垚. 基于KPLS鲁棒重构误差的高炉燃料比监测与异常识别. 自动化学报. 2021(07): 1661-1671 . 本站查看
    12. 温亮,周平. 基于多参数灵敏度分析与遗传优化的铁水质量无模型自适应控制. 自动化学报. 2021(11): 2600-2613 . 本站查看
    13. 熊伟丽,孙文心,史旭东. 基于曲率信息的改进BP算法及其在FNN中的应用. 系统仿真学报. 2020(01): 1-8 . 百度学术
    14. 熊伟丽,孙文心,马君霞. 带自相关约束的NARX动态软测量模型. 控制与决策. 2020(04): 816-822 . 百度学术
    15. 王晓玲,谢怀宇,王佳俊,陈文龙,蔡志坚,刘宗显. 基于Bootstrap和ICS-MKELM算法的大坝变形预测. 水力发电学报. 2020(03): 106-120 . 百度学术
    16. 李温鹏,周平. 高炉铁水质量鲁棒正则化随机权神经网络建模. 自动化学报. 2020(04): 721-733 . 本站查看
    17. 崔桂梅,吕明远. 基于燃料比最优的高炉喷煤设定值多目标优化. 科学技术与工程. 2020(10): 4022-4028 . 百度学术
    18. 尹林子,关羽吟,蒋朝辉,许雪梅. 基于k-means++的高炉铁水硅含量数据优选方法. 化工学报. 2020(08): 3661-3670 . 百度学术
    19. 方一鸣,赵晓东,张攀,刘乐,王硕玉. 基于改进灰狼算法和多核极限学习机的铁水硅含量预测建模. 控制理论与应用. 2020(07): 1644-1654 . 百度学术
    20. 王高鹏,翟海鹏. 多时间段炉温监控体系及应用. 冶金自动化. 2020(S1): 35-39 . 百度学术
    21. 崔桂梅,陈荣,于凯,张勇. 基于多尺度分解的ELM炉温预测研究. 控制工程. 2020(11): 1901-1906 . 百度学术
    22. 蒙西,乔俊飞,韩红桂. 基于类脑模块化神经网络的污水处理过程关键出水参数软测量. 自动化学报. 2019(05): 906-919 . 本站查看
    23. 尹林子,李乐,蒋朝辉. 基于粗糙集理论与神经网络的铁水硅含量预测. 钢铁研究学报. 2019(08): 689-695 . 百度学术
    24. 姜乐,周平. 优化增量型随机权神经网络及应用. 化工学报. 2019(12): 4710-4721 . 百度学术
    25. 李泽龙,杨春节,刘文辉,周恒,李宇轩. 基于LSTM-RNN模型的铁水硅含量预测. 化工学报. 2018(03): 992-997 . 百度学术
    26. 陈娇娜,张翔,张生瑞. 高速公路行程时间Bootstrap-KNN区间预测分析与实证. 控制与决策. 2018(11): 2080-2086 . 百度学术
    27. 周平,张丽,李温鹏,戴鹏,柴天佑. 集成自编码与PCA的高炉多元铁水质量随机权神经网络建模. 自动化学报. 2018(10): 1799-1811 . 本站查看
    28. 陈龙,刘全利,王霖青,赵珺,王伟. 基于数据的流程工业生产过程指标预测方法综述. 自动化学报. 2017(06): 944-954 . 本站查看

    其他类型引用(40)

  • 加载中
图(4) / 表(5)
计量
  • 文章访问数:  1779
  • HTML全文浏览量:  270
  • PDF下载量:  962
  • 被引次数: 68
出版历程
  • 收稿日期:  2015-09-09
  • 录用日期:  2016-01-13
  • 刊出日期:  2016-05-01

目录

/

返回文章
返回