2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于动态注意力深度迁移网络的高炉铁水硅含量在线预测方法

蒋珂 蒋朝辉 谢永芳 潘冬 桂卫华

蒋珂, 蒋朝辉, 谢永芳, 潘冬, 桂卫华. 基于动态注意力深度迁移网络的高炉铁水硅含量在线预测方法. 自动化学报, 2023, 49(5): 949−963 doi: 10.16383/j.aas.c210524
引用本文: 蒋珂, 蒋朝辉, 谢永芳, 潘冬, 桂卫华. 基于动态注意力深度迁移网络的高炉铁水硅含量在线预测方法. 自动化学报, 2023, 49(5): 949−963 doi: 10.16383/j.aas.c210524
Jiang Ke, Jiang Zhao-Hui, Xie Yong-Fang, Pan Dong, Gui Wei-Hua. Online prediction method for silicon content of molten iron in blast furnace based on dynamic attention deep transfer network. Acta Automatica Sinica, 2023, 49(5): 949−963 doi: 10.16383/j.aas.c210524
Citation: Jiang Ke, Jiang Zhao-Hui, Xie Yong-Fang, Pan Dong, Gui Wei-Hua. Online prediction method for silicon content of molten iron in blast furnace based on dynamic attention deep transfer network. Acta Automatica Sinica, 2023, 49(5): 949−963 doi: 10.16383/j.aas.c210524

基于动态注意力深度迁移网络的高炉铁水硅含量在线预测方法

doi: 10.16383/j.aas.c210524
基金项目: 国家自然科学基金(61773406, 61725306, 61290325), 国家重大科研仪器研制项目(61927803), 中南大学研究生自主探索创新项目(2021zzts0183), 湖南省研究生科研创新项目(CX20210242)资助
详细信息
    作者简介:

    蒋珂:中南大学博士研究生. 2019年获得中南大学硕士学位. 主要研究方向为数据驱动的工业过程建模与控制, 过程数据分析和机器学习. E-mail: jiangke@csu.edu.cn

    蒋朝辉:中南大学自动化学院教授. 2011年获得中南大学博士学位. 主要研究方向为智能传感与检测技术, 图像处理与智能识别, 人工智能和机器学习. 本文通信作者. E-mail: jzh0903@csu.edu.cn

    谢永芳:中南大学自动化学院教授. 1993 年获得中南工业大学学士学位. 主要研究方向为分散控制, 鲁棒控制, 过程控制, 工业大数据和知识自动化. E-mail: yfxie@csu.edu.cn

    潘冬:中南大学自动化学院讲师. 分别于2015年和2021年获得中南大学学士和博士学位. 2019年至2021年, 在加拿大拉瓦尔大学电子与计算工程系联合培养. 主要研究方向为红外热成像, 视觉检测, 图像处理和深度学习. E-mail: pandong@csu.edu.cn

    桂卫华:中国工程院院士, 中南大学自动化学院教授. 1981年获得中南矿冶学院硕士学位. 主要研究方向为复杂工业过程建模, 优化与控制应用, 故障诊断与分布式鲁棒控制. E-mail: gwh@csu.edu.cn

Online Prediction Method for Silicon Content of Molten Iron in Blast Furnace Based on Dynamic Attention Deep Transfer Network

Funds: Supported by National Natural Science Foundation of China (61773406, 61725306, 61290325), National Major Scientific Research Equipment of China (61927803), Independent Exploration and Innovation Project for Postgraduate of Central South University (2021zzts0183), and Hunan Provincial Innovation Foundation for Postgraduate (CX20210242)
More Information
    Author Bio:

    JIANG Ke Ph.D. candidate at the School of Automation, Central South University. She received her master degree from Central South University in 2019. Her research interest covers data-based modeling and control of industrial process, process data analysis, and machine learning

    JINAG Zhao-Hui Professor at the School of Automation, Central South University. He received his Ph.D. degree from Central South University in 2011. His research interest covers intelligent sensing and detection technology, image processing and intelligent recognition, artificial intelligence, and machine learning. Corresponding author of this paper

    XIE Yong-Fang Professor at the School of Automation, Central South University. He received his bachelor degree from Central South University of Technology in 1993. His research interest covers decentralized control, robust control, process control, industrial big data, and knowledge automation

    PAN Dong Lecturer at the School of Automation, Central South University. He received his bachelor and Ph.D. degrees from Central South University in 2015 and 2021, respectively. He was a joint training Ph.D. candidate in the Department of Electrical and Computing Engineering from Université Laval, Canada, from 2019 to 2021. His research interest covers infr-ared thermal imaging, vision-based measurement, image processing, and deep learning

    GUI Wei-Hua Academician of Chinese Academy of Engineering, professor at the School of Automation, Central South University. He received his master degree from Central South Institute of Mining and Metallurgy in 1981. His research interest covers complex industrial process modeling, optimization and control applications, fault diagnosis, and distributed robust control

  • 摘要: 铁水硅含量是反映高炉冶炼过程中热状态变化的灵敏指示剂, 但无法实时在线检测, 造成铁水质量调控盲目. 为此, 提出一种基于动态注意力深度迁移网络(Attention deep transfer network, ADTNet)的高炉铁水硅含量在线预测方法. 首先, 针对传统深度网络静态建模思路无法准确描述过程变量与铁水硅含量之间的关系, 提出一种基于注意力机制模块的输入过程变量与输出硅含量之间的动态关系描述方法; 其次, 为降低硅含量预测模型训练时对标签数据的依赖, 考虑到铁水温度与硅含量数据之间的正相关性, 利用小时级硅含量标签数据微调基于分钟级铁水温度数据预训练好的深度模型的结构, 进而提高基于动态注意力深度迁移网络的硅含量预测精度; 同时, 为增强预测网络的可解释性, 实时给出了基于动态注意力机制模块计算的每个样本各过程变量对铁水硅含量的贡献度; 最后, 基于某钢铁厂2号高炉的工业实验, 验证了该方法的准确性、有效性和先进性.
  • 高炉炼铁是钢铁流程中的上游和关键工序, 是铁素物质流转换的核心关键单元, 是钢铁制造过程中能耗最大和生产成本最高的环节[1-2]. 炼铁过程中的主体设备高炉是气体、液体和固体三相共存的竖式反应器, 具有连续鼓风、周期性加料和出铁、高温高压高尘等特征, 其内部连续发生复杂的物理化学反应, 并最终生产出熔融铁水[3]. 钢铁工业要实现真正的高质量发展, 至少要过“五关”, 更要斩“六降”, “五关” 即产能关、布局关、绿色关、质量关和效率关, “六降” 即降预期、降杠杆、降排放、降人员、降风险和降成本. 为了满足这种趋势的发展, 生产过程中关键性能指标的实时监控, 在工业界和学术界得到了广泛的关注[4-6].

    铁水硅含量是高炉冶炼过程中表征铁水质量的重要指标, 也是反映炉缸内部热状态和炉况的灵敏指示剂. 铁水硅含量偏低, 说明铁水物理热不足, 炉缸热储备不够, 容易造成炉缸冻结事故. 铁水硅含量偏高, 有利于去除铁水中的有害元素磷和硫, 但是过高的铁水硅含量又会使生铁变硬变脆, 收得率降低且易引起喷溅. 另外, 铁水中过高的硅也意味着炉缸煤气流过于旺盛, 易导致悬料、崩料等炉况故障及能源的浪费[7]. 通常, 铁水硅含量需要根据原燃料品位和铁水品质的要求, 控制在一个合理的范围内, 如本文研究的中国西南某钢铁厂需要控制在0.3% ~ 0.6%. 目前, 高炉现场操作者主要通过人工采样后离线化验的方式获取硅含量值, 但在撇渣器处取铁水样本的过程具有一定的危险性, 化验过程需要昂贵的仪器和人工成本, 且化验的数据不具有时效性, 使得铁水质量信息不能及时反馈, 造成高炉铁水质量精细化调控困难. 因此, 实现铁水硅含量的实时在线预测, 对评估高炉状态、提升铁水质量、降低高炉能耗和保障高炉顺行具有重要的意义. 高炉炼铁过程具有强非线性、非稳态、大时滞等特点, 涉及气、液、固三相及其耦合, 是一个极其复杂的物理化学反应过程, 因此难以建立精确的机理模型描述冶炼过程. 通过简化部分条件建立的机理模型, 在一定程度上为认知冶炼过程及炉内现象起到了积极作用, 但建模条件要求严格, 模型所需参数无法准确获取, 建立的静态机理模型无法应用于原燃料品位波动频繁的国内高炉炼铁过程[8-10]. 随着集散控制系统和工业互联网成功运用以来, 高炉冶炼系统已积累了海量能反映冶炼过程的知识和数据, 且基于数据驱动的方法不需要详细准确的先验知识, 仅仅依靠过程运行中的大量数据就能实现对铁水硅含量的在线实时预测, 因此, 基于数据驱动的铁水硅含量在线预测方法已经成为当前研究领域的热点方向[11-13].

    随着人工智能技术的快速发展和应用, 大量的基于数据驱动的模型被用来在线预报铁水硅含量, 如支持向量回归机 (Support vector regression, SVR)[14]、神经网络[15]、T-S (Takagi-Sugeno)模糊模型[16]等. 文献[14]基于非线性自回归模型提出了一种鲁棒的最小二乘支持向量机模型, 同时预测多个铁水质量性能指标. 文献[15]融合多次有放回重采样下建立的神经网络模型, 实现了硅含量数值和可信度二维预报. 文献[16]提出了一种基于贝叶斯块结构稀疏的T-S模糊模型预测高炉铁水硅含量. 尽管这些模型在高炉冶炼过程的关键性能指标的预测方面都取得了积极的进展, 但还有一些问题没有被解决, 仍有进一步提高的空间. 首先, 这些模型大都是浅层学习模型, 其表达能力和泛化能力有限, 难以为复杂的高炉冶炼过程提供深层次的非线性描述, 在非平稳炉况时模型的性能波动较大; 其次, 这些模型都是监督学习模式, 对铁水硅含量标签数据的依赖较强, 硅含量标签以人工采样、离线化验的方式获取, 使得采集大量带标签的样本是困难的.

    深度网络能在一定程度上解决上述铁水硅含量在线预测面临的两个问题. 首先, 通过堆叠多层隐含层使得模型能逐层地提取抽象的特征表示, 来描述复杂的高炉冶炼过程; 其次, 模型的构建分为无监督的预训练和有监督的微调两阶段, 先利用无标签的快速采样过程变量数据预训练深度网络, 可以更好地挖掘数据中隐含分布特征, 进而降低对标签硅含量数据依赖[17]. 由于深度网络的特点, 在很多领域都取得了出色效果, 如自然语言处理、文本识别和计算机视觉[18-20]等. 在工业过程中, 深度学习也被引入工业过程关键性能指标在线估计. 文献[21]利用深度网络, 预测高炉铁水硅含量短期内的变化趋势. 文献[22]堆叠多个受限玻尔兹曼机构成深度网络, 实现了美国田纳西州伊士曼化工过程状态分类. 深度网络建模优势的引入, 使得工业过程的关键性能指标预测的精度取得了一定的提升. 但是, 直接建立基于深度网络的铁水硅含量在线预测模型, 还存在一定的问题. 首先, 训练好的深度网络无差别地逐层提取输入样本的各维过程变量抽象特征表示, 来完成硅含量在线预测任务, 实际对于高炉冶炼过程, 特别是国内入炉矿源频繁变动的情况, 影响硅含量的过程变量的重要性呈现的是一种动态的变化规律, 因此深度网络静态的建模思路无法完整地描述动态的高炉冶炼过程; 其次, 基于数据驱动的深度黑箱模型虽然展示了较佳的性能, 但建模的过程难以被理解和信任, 且模型缺乏一定的可解释性; 再次, 深度模型的训练对标签的硅含量数据量有一定的要求, 而高成本的化验过程导致获取实时的硅含量标签样本是困难的. 基于上述考虑, 本文提出了基于动态注意力深度迁移网络(Attention deep transfer network, ADTNet)的高炉铁水硅含量在线预测方法. 首先, 提出了一种轻量化的动态注意力机制模块, 将该模块嵌入在深度去噪自编码机(Denoising autoencoders, DAE)网络的前端, 能实时地计算输入样本的各过程变量注意力分数, 使得深度网络能有差别地动态提取与硅含量相关的过程变量的抽象特征, 且该模块还能给出对应的过程变量对硅含量预测值的贡献度, 在一定程度上增强黑箱模型的可解释性. 此外, 为了减少模型对硅含量标签数据的依赖, 本文介绍和引入了前期工作中研发的高炉铁口铁水温度红外视觉检测系统, 迁移该系统获取的实时的铁水温度数据训练好的深度网络模型到铁水硅含量在线预测任务中, 进一步提高铁水硅含量在线预测的性能[23-24].

    高炉炼铁过程如图1所示, 固体燃料(焦炭、煤粉等)、含铁原料(烧结矿、球团矿和块矿)和溶剂(白云石、石灰石和锰矿等)按一定配比从高炉炉顶分批下料, 同时由热风炉产生高温热风, 并通过高炉四周的风口平台向高炉内部鼓入高温热风及煤粉, 与焦炭发生燃烧反应生成一氧化碳和氢气等高温还原性气体. 下降的炉料和上升高温煤气流相遇, 先后发生传热、还原、融化、脱碳反应后生成生铁, 含铁矿石中的杂质和一些溶剂发生反应生成炉渣, 最终下落到炉缸区与铁水混合, 铁水从铁口排出流经铁口, 最终在撇渣器处实现渣铁分离.

    图 1  高炉三维仿真模拟图
    Fig. 1  Three-dimensional simulation diagram ofthe blast furnace cast field

    铁水硅含量是评价高炉冶炼过程的关键性能指标, 能在一定程度上表征炉内热状态和铁水质量. 炉温过高, 炉内透气性下降, 炉缸煤气流太过旺盛, 导致悬料、崩料等炉况故障及原材料的浪费; 炉温过低, 铁水物理热不足, 炉内铁元素不能被充分还原, 冶炼效率降低. 为了保证高炉的顺行和铁水的质量, 操作者们需要对铁水硅含量进行实时在线的监控. 高炉系统可以由一个非线性模型描述, 其表达形式为:

    $$ {y^t} = F\left( {{{{{\boldsymbol{x}}}}^t}} \right) $$ (1)

    式中, $t$表示采样时间, ${{{{\boldsymbol{x}}}}^t} \in {{\bf{R}}^{{d_x}}}$表示在采样时刻$t$的输入向量, ${y^t}$表示在采样时刻$t$的输出, 即铁水硅含量的值. 因此, 铁水硅含量的在线检测等同于构建一个基于数据驱动的预测模型$F'$, 使得模型$F'$能够尽量地逼近非线性的高炉系统$F$和尽可能准确地在线预测铁水硅含量. 为此, 本文提出了一种基于动态注意力机制的深度网络(Attention deep network, ADNet) $F'$来构建铁水硅含量预测模型, 通过引入动态注意力机制提高网络逐层抽取的特征的质量和增强黑箱模型的可解释性, 并且迁移红外视觉铁水测温系统检测的分钟级铁水温度数据训练的模型, 来进一步提高铁水硅含量预测模型$F'$的性能.

    本节主要介绍深度网络的一种基本结构单元 —— 去噪自编码机, 考虑到入炉矿源品质的波动和冶炼条件的改变对预测目标铁水硅含量造成的动态影响, 提出一种动态注意力机制模块, 来描述动态的和非线性的高炉冶炼过程, 进而提高硅含量在线预测精度.

    深度网络通过从低层到高层将数据逐层抽象, 进而自学习到原始数据的本质特征以适应于各种复杂的任务. 去噪自编码机是一种堆叠深度网络的基本单元, 是一种典型的3层无监督神经网络, 由输入层、隐含层和输出层组成[25-26], 结构如图2所示. 训练目标是让输出尽可能地复现输入, 为了防止模型简单地用输出复制输入, 训练过程中, 隐含层神经元数量一般小于输入层神经元数量, 迫使隐含层神经元学习到输入的压缩抽象特征表示. 为了提取更鲁棒性的抽象特征表示, 进而更出色地完成任务, 去噪自编码机在输入样本中, 加入了随机噪声进行干扰.

    图 2  去噪自编码机基本结构
    Fig. 2  Architecture of a denoising autoencoder

    不失一般性, 假设模型输入为${\boldsymbol{X}} = [ {{{\boldsymbol{x}}}}^1,\;{{{\boldsymbol{x}}}}^2,\;\cdots, \;{{{\boldsymbol{x}}}}^t ]^{\rm{T}}$, 其中${{{{\boldsymbol{x}}}}^t} = [ {x_1^t,\;x_2^t,\;\cdots,\;}$${ {x_{{{d_x}}}^t} ]^{\rm{T}}} \in {{\bf{R}}^{{d_x}}}$, $ {d_x} $是样本的维度, 加入随机噪声污染后的第$ t $个输入为 ${{{\tilde {\boldsymbol{x}}}}^t} = [ \tilde {{x}}_1^t,\; \tilde {{x}}_2^t,\;\cdots,\;\tilde {{x}}{{_{{d_x}}^t}_{}} ]^{\rm{T}} \in {{\bf{R}}^{{d_x}}} .$ 对第 $ t $ 个污染后的输入向量${{{\tilde {\boldsymbol{x}}}}^t}$进行编码可以得到隐含层特征${{\boldsymbol{h}}^t} = [ {{h}}_1^t, \;{{h}}_2^t,\; \cdots,\; {{{{h}}}}_{{d_h}}^t ]^{\rm{T}} \in {{\bf{R}}^{{d_h}}}$, 编码函数$ {f_\theta } $如下:

    $$ {{{\boldsymbol h}}^t} = {f_\theta }\left( {{{{{\tilde {\boldsymbol{x}}}}}^t}} \right) = f\left( {{{{\boldsymbol{W}}}}{{{{\tilde {\boldsymbol{x}}}}}^t} + {{{\boldsymbol{b}}}}} \right) $$ (2)

    式中, $ f $是隐含层的激活函数, ${{{\boldsymbol{W}}}}$是大小为$ {d_h} \times {d_x} $的权值矩阵, ${{{\boldsymbol{b}}}} \in {{\bf{R}}^{{d_h}}}$是隐含层的偏置向量. 隐含层特征${{{{\boldsymbol{h}}}}^t}$通过解码函数映射到重构特征 ${{\hat{{{\boldsymbol{x}}}}}^t} = [ \hat {{x}}_1^t,\; \hat {{x}}_2^t,\;\cdots,\;\hat {{x}}{{_{{d_x}}^t}_{}} ]^{\rm{T}} \in {{\bf{R}}^{{d_x}}}$, 解码函数$ {g_\theta } $如下:

    $$ {{\hat{{{\boldsymbol{x}}}}}^t} = {g_\theta }\left( {{{{{\boldsymbol{h}}}}^t}} \right) = f\left( {{{{\boldsymbol{W}}}'}{{{{\boldsymbol{h}}}}^t} + {{{\boldsymbol{b}}}'}} \right) $$ (3)

    式中, ${{{\boldsymbol{W}}}'}$${{{\boldsymbol{W}}}}$互为转置矩阵, ${{{\boldsymbol{b}}}} \in {{\bf{R}}^{{d_x}}}$是输出层的偏置向量. 去噪自编码机通过梯度下降算法不断最小化目标函数来反复调整参数组${{{\boldsymbol{\theta}} }}{\text{ = }}\left( {{{{\boldsymbol{W}}}},{{{\boldsymbol{W}}}'},{{{\boldsymbol{b}}}},{{{\boldsymbol{b}}}'}} \right)$, 其目标函数为:

    $$\begin{split} L\left( {{{{\boldsymbol{W}}}},{{{\boldsymbol{W}}}'},{{{\boldsymbol{b}}}},{{{\boldsymbol{b}}}'}} \right) =\;& \frac{1}{{2{N}}}{\sum\limits_{t = 1}^{{N}} {\left\| {{{{\hat{{{\boldsymbol{x}}}}}}^t} - {{{{\boldsymbol{x}}}}^t}} \right\|} ^2}= \\ \;& \frac{1}{{2{N}}}\sum\limits_{t = 1}^{{N}} {\sum\limits_{d = 1}^{{d_x}} {{{\left( {x_d^t - \hat x_d^t} \right)}^2}} } \end{split} $$ (4)

    考虑到单个去噪自编码机隐含层学习到的是原始数据的浅层特征, 为了得到更加抽象和鲁棒性的特征表示, 来提高硅含量在线预测精度, 可以通过堆叠多个去噪自编码机来搭建深度网络, 有多个非线性隐藏层的深度网络可以学习更复杂的输入样本和预测目标硅含量之间的关系, 从而在高层得到更具抽象和鲁棒的特征表示. 堆叠多个去噪自编码机过程如图3所示, 当第1个去噪自编码机(DAE 1)训练完成后, 其隐含层的特征表示${{{{\boldsymbol{H}}}}_1} =[ {{{{{\boldsymbol{h}}}}}}_1^1, \;{{{{{\boldsymbol{h}}}}}}_1^2,\; \cdots , \;{{{{{\boldsymbol{h}}}}}}_1^t ]^{\rm{T}}$, 其中 ${{{\boldsymbol{h}}}}_1^t = [ {{{h}}_1^t,\;{{h}}_2^t,\;\cdots,\; {{{h}}_{{{d_1}}}^t} ]^{\rm{T}}} \in {{\bf{R}}^{{d_1}}}$经过随机污染后作为第2个去噪自编码机(DAE 2)的输入, 通过编码和解码函数得到网络的输出矩阵${{{\hat{{{\boldsymbol{H}}}}}}_1} = [ {{{\hat{{{{{\boldsymbol{h}}}}}}}}_1^1,{{\hat{{{{{\boldsymbol{h}}}}}}}}_1^2, \cdots ,{{\hat{{{{{\boldsymbol{h}}}}}}}}_1^{{t}}} ]^{\rm{T}}$, 其中 ${{\hat{{{\boldsymbol{h}}}}}}_1^t = [ \hat {{h}}_1^t,\hat {{h}}_2^t,\cdots, \hat {{h}}_{{{d_1}}}^t ]^{\rm{T}} \in {{\bf{R}}^{{d_1}}}$, 则第2个去噪自编码机的误差函数为:

    图 3  堆叠去噪自编码机训练过程
    Fig. 3  The training process of stacking denoising autoencoders
    $$ {L^2}\left( {{{{\boldsymbol{W}}}},{{{\boldsymbol{b}}}}} \right) = \frac{1}{{2{N}}}\sum\limits_{t = 1}^{{N}} {\sum\limits_{d = 1}^{{d_1}} {{{\left( {h_d^t - \hat h_d^t} \right)}^2}} } $$ (5)

    通过梯度下降算法, 最小化误差函数训练模型的参数, 重复这个过程, 直到第$ N $个去噪自编码机(DAE $N)$训练完成. 无监督的预训练过程完成后, 将N个训练好的去噪自编码机的隐含层权值和偏置矩阵取出来, 堆叠成一个深度网络, 在最后隐含层后面加上回归层并随机初始化网络回归层的权值和偏置矩阵, 使用带标签的硅含量数据集有监督地微调整个网络参数, 进而更高效地完成硅含量在线预测任务.

    预训练好的深度网络使用带标签的铁水硅含量样本最小化损失函数, 微调整个网络结构来提高硅含量在线预测的性能, 有监督微调的损失函数如下:

    $$ \begin{split} {L_{ loss}} =\;& \frac{1}{{2{N_{Si}}}}{\sum\limits_{t = 1}^{{N_{Si}}} {\left( {y_{Si}^t - \hat y_{Si}^t} \right)} ^2}=\\ &\frac{1}{{2{N_{Si}}}}\sum\limits_{t = 1}^{{N_{Si}}}\Big( {y_{Si}^t - } {f^{( {N + 1}) }}\Big( {{{\boldsymbol{W}}}}^{( {N + 1})}\Big( \cdots\\ & f^{( 2 )}\Big( {{{\boldsymbol{W}}}}^{( 2 )}\Big( f^{( 1 )} \Big( {{{\boldsymbol{W}}}}^{( 1 )}{{{\boldsymbol{x}}}}_{Si}^t + {{{\boldsymbol{b}}}}^{( 1 )} \Big)\; + \\ &{{{\boldsymbol{b}}}}^{( 2 )} \Big) \Big) \cdots + {{\boldsymbol b}}^{( {N + 1})} \Big) \Big) \Big)^2 \end{split} $$ (6)

    式中, $ y_{Si}^t $为预测目标真实值, $ \hat y_{Si}^t $为模型的预测值, $ {f^{\left( {N + 1} \right)}} $为堆叠去噪自编码机(Stacked DAE, S-DAE)第$ \left( {N + 1} \right) $层神经元的非线性激活函数, ${{{{\boldsymbol{W}}}}^{\left( {N + 1} \right)}}$${{{{\boldsymbol{b}}}}^{\left( {N + 1} \right)}}$分别为第$ \left( {N + 1} \right) $层神经元与前一层神经元之间的权值矩阵与偏置矩阵. 由式(6)可知, 堆叠去噪自编码机形成的深度网络在训练时, 对输入样本的每一维过程变量都给予了相同的关注度, 使得模型前向传播时, 无差别地提取抽象特征表示. 但是在高炉冶炼过程中, 输入样本的过程变量与铁水硅含量相关系数是不一样的, 并且随着入炉矿源品质的波动和冶炼条件的改变, 影响铁水硅含量的过程变量的重要性, 随时间呈现出一种动态变化的趋势. 在工程应用技术中, 一般是采取先降维后建模的思路, 通过变量相关性分析确定主要过程变量, 忽略次要过程变量对铁水硅含量的影响, 且主要过程变量的重要性在建模的过程中, 并不会得到体现. 显然, 传统的深度的静态建模思路无法准确地描述高炉冶炼过程的动态特性, 且无差别地提取抽象特征无法准确地表征输入变量与铁水硅含量之间的非线性关系. 因此, 本文提出了一种动态的注意力机制模块, 能实时地为每个输入样本的过程变量计算动态的注意力分数, 使得模型能动态地为每个样本中有效的和有价值的过程变量分配更多的注意力, 进而更高效地完成铁水硅含量的预测任务.

    为了准确地描述完整的动态高炉冶炼过程, 提出的动态注意力机制模块必须满足两个基本准则: 1)能够学习样本的过程变量和铁水硅含量之间的非线性关系; 2)能够描述样本的过程变量和铁水硅含量之间的动态关系. 基于此设计的动态注意力机制模块, 由注意力得分模块和注意力聚焦模块两部分构成, 其目标是通过挖掘样本过程变量与铁水硅含量之间的动态关系, 从而提高深度网络自学习的抽象特征质量, 基本结构如图4所示.

    图 4  动态注意力机制模块
    Fig. 4  The dynamic attention mechanism module

    注意力得分模块由多个全连接层(Fully connected layers, FC)构成, 隐含层和输出层神经元中非线性激活函数的存在, 使得网络能模拟高炉冶炼过程的复杂非线性特点. 注意力聚焦模块由注意力得分模块计算的输入样本各过程变量的注意力分数, 与之对应的输入样本各过程变量点乘, 进而描述样本各过程变量与铁水硅含量之间的动态关系.动态注意力机制模块的数学表达过程描述如下, 具体地, 假设模块的输入向量为${{{\boldsymbol X}}_{S{{i}}}} = [ {{\boldsymbol x}}_{Si}^1,\;{{\boldsymbol x}}_{Si}^2,\;\cdots,\; {{\boldsymbol x}}_{Si}^t ]^{\rm{T}}$, 经过注意力得分模块计算后输出记为${{{{\boldsymbol{\omega}} }}_{Si}}$:

    $$ \begin{split} {{{{\boldsymbol{\omega}} }}_{Si}} =\;& {f^{( M )}}\Big( {{{{\boldsymbol W}}^{( M )}}\Big( { \cdots {f^{( 2 )}}\Big( {{{{\boldsymbol W}}^{( 2 )}}\Big( {{f^{( 1 )}}\Big( {{{{\boldsymbol W}}^{( 1 )}}{{{\boldsymbol X}}_{Si}}} } } } }\; + \\ & {{\boldsymbol b}}^{( 1 )} \Big) + {{{{\boldsymbol{b}}}}^{( 2 )}} \Big) \Big) \cdots + {{{\boldsymbol b}}^{( M )}} \Big) \Big) \\[-10pt]\end{split} $$ (7)

    式中, $ {f^{\left( M \right)}} $为第M层神经元的非线性激活函数, ${{{\boldsymbol W}}^{\left( M \right)}}$${{{\boldsymbol b}}^{\left( M \right)}}$分别为第M层神经元与前一层神经元之间的权值矩阵与偏置矩阵. 将${{{{\boldsymbol{\omega}} }}_{Si}}$在每个样本的各维度上的过程变量上展开可得:

    $$ \begin{split} {{{{\boldsymbol{\omega}} }}_{Si}} =\;& {\left[ {{{{\boldsymbol{\omega}} }}_{Si}^1,\;{{{\boldsymbol{\omega}} }}_{Si}^2,\; \cdots ,\;{{{\boldsymbol{\omega}} }}_{Si}^t} \right]^{\rm{T}}} =\\ &\left[ {\begin{array}{*{20}{c}} {\omega _1^1}&{\omega _2^1}& \cdots &{\omega _{{d_x}}^1} \\ {\omega _1^2}&{\omega _2^2}& \cdots &{\omega _{{d_x}}^2} \\ \vdots & \vdots & \ddots & \vdots \\ {\omega _1^t}&{\omega _2^t}& \cdots &{\omega _{{d_x}}^t} \end{array}} \right] \end{split} $$ (8)

    为了描述样本的过程变量在不同时刻与铁水硅含量之间的动态关系, 将注意力得分模块计算得分矩阵${{{{\boldsymbol{\omega}} }}_{Si}}$与输入变量${{{{\boldsymbol{X}}}}_{Si}}$做哈达玛积操作:

    $$ \begin{split} {{{{\boldsymbol{\omega}} }}_{Si}} \odot {{{{\boldsymbol{X}}}}_{Si}} =\;& {\left[ {{{{\boldsymbol{\omega}} }}_{Si}^1,\;{{{\boldsymbol{\omega}} }}_{Si}^2,\; \cdots ,\;{{{\boldsymbol{\omega}} }}_{Si}^t} \right]{\rm{}}^{\rm{T}}} \odot\\ &{\left[ {{{{\boldsymbol{x}}}}_{Si}^1,\;{{{\boldsymbol{x}}}}_{Si}^2,\;\cdots,\;{{\boldsymbol{{x}}}}_{Si}^t} \right]^{\rm{T}}} =\\ & \left[ {\begin{array}{*{20}{c}} {\omega _1^1 \cdot x_1^1}&{\omega _2^1 \cdot x_2^1}& \cdots &{\omega _{{d_x}}^1 \cdot x_{{d_x}}^1} \\ {\omega _1^2 \cdot x_1^2}&{\omega _2^2 \cdot x_2^2}& \cdots &{\omega _{{d_x}}^2 \cdot x_{{d_x}}^2} \\ \vdots & \vdots & \ddots & \vdots \\ {\omega _1^t \cdot x_1^t}&{\omega _2^t \cdot x_2^t}& \cdots &{\omega _{{d_x}}^t \cdot x_{{d_x}}^t} \end{array}} \right] \end{split} $$ (9)

    输入样本${{{{\boldsymbol{X}}}}_{Si}}$与得分矩阵${{{{\boldsymbol{\omega}} }}_{Si}}$对应位置元素点乘的矢量矩阵, 作为预训练好的堆叠去噪自编码机的输入, 基于动态注意力机制模块的深度去噪自编码机网络如图5所示, 整个网络输出可表示为:

    图 5  基于动态注意力机制模块的深度去噪自编码机网络
    Fig. 5  Deep denoising autoencoders network based on dynamic attention mechanism module
    $$ \begin{split} {{{{\hat{{{\boldsymbol{Y}}}}}}}_{Si}} =\;& {f^{( {N + 1} )}}\Big( {{{\boldsymbol{W}}}}^{( {N + 1} )}\Big( \cdots\\ & {f^{( 2 )}}\Big( {{{\boldsymbol{W}}}}^{( 2 )}\Big( {{f^{( 1 )}}\Big( {{{{{\boldsymbol{W}}}}^{( 1 )}}\Big( {{{{{\boldsymbol{\omega}} }}_{Si}} \odot {{{{\boldsymbol{X}}}}_{Si}}} \Big)}} \;+\\ & { { { {{{{\boldsymbol{b}}}}^{( 1 )}}} \Big) {\; + \;{{{{\boldsymbol{b}}}}^{( 2 )}}} \Big)} \Big) { \cdots + {{{{\boldsymbol{b}}}}^{( {N + 1} )}}} \Big)} \Big)\end{split} $$ (10)

    因此, 使用带标签的硅含量样本有监督地微调基于动态注意力机制的深度网络时的损失函数为:

    $$ \begin{split} {L_{ loss}} =\;& \frac{1}{{2{N_{Si}}}}{\sum\limits_{t = 1}^{{N_{Si}}} {\left( {y_{Si}^t - \hat y_{Si}^t} \right)} ^2}=\\ \;&\frac{1}{2{N_{Si}}}\sum\limits_{t = 1}^{{N_{Si}}} \Big( {y_{Si}^t - } f^{( {N + 1} )}\Big( {{{\boldsymbol{W}}}}^{( {N + 1} )}\Big( \cdots \\ &{f^{( 2 )}}\Big( {{{\boldsymbol{W}}}}^{( 2 )}\Big( {f^{( 1 )}} \Big( {{{\boldsymbol{W}}}}^{( 1 )}\Big( {{{\boldsymbol{\omega}} }}_{Si}^t \odot {{{\boldsymbol{x}}}}_{Si}^t \Big)+ \\ & {{{\boldsymbol{b}}}}^{( 1 )} \Big) + {{{{\boldsymbol{b}}}}^{( 2 )}} \Big) \Big) \cdots + {{{\boldsymbol{b}}}}^{( {N + 1} )} \Big) \Big) \Big)^2 \\[-10pt]\end{split} $$ (11)

    由式(11)可以看出, 网络在训练和预测的过程中, 考虑了每个输入样本的过程变量与预测目标之间的动态关系, 能有区别地为每个样本提取目标相关的抽象特征表示, 来描述复杂的高炉冶炼过程, 进而提高硅含量在线预报模型的性能. 基于动态注意力机制模块的深度去噪自编码机网络如图5所示. 注意力得分模块目的在于捕获输入样本的过程变量与铁水硅含量之间的相关关系, 并强调样本的各个过程变量对预测的硅含量值的动态贡献度. 注意力聚焦模块目的在于增强与铁水硅含量相关性较大的过程变量的影响, 抑制与铁水硅含量相关性较小的过程变量的影响. 设计的注意力机制模块是一个轻量化的结构单元, 能够在网络任意层之间嵌入, 从而提高网络自学习特征的质量. 且注意力得分模块能实时动态地给出每个样本各过程变量对硅含量的贡献度, 因此对黑箱模型具有一定的可解释性.

    本节主要介绍基于动态注意力深度迁移网络的铁水硅含量在线预测模型, 为了降低硅含量预测模型训练过程中对标签数据的依赖, 分析了铁水温度与硅含量之间的相关关系, 并介绍和引入了前期工作中研发的高炉铁口铁水温度红外视觉检测系统, 迁移了基于分钟级的铁水温度数据训练好的深度模型结构, 并使用少量的硅含量标签数据, 进一步微调网络参数进而提高硅含量在线预测的精度.

    通过在线同步采集中国西南某炼铁厂2650 m3的2号高炉撇渣器处热电偶检测铁水温度和硅含量化验数据, 绘制了如图6所示的铁水温度与铁水硅含量之间的散点分布图. 通过分析可知, 铁水温度与硅含量之间存在一定的正相关性, 建模时加入铁水温度数据, 对提升硅含量在线预测模型的准确率有一定的帮助. 而高炉现场主要采用快速热电偶来检测高炉撇渣器处的铁水温度, 一次出铁周期只能获取有限个数据, 导致铁水温度数据的质量和数量得不到保证. 在前期工作中, 本文原创研发了铁水测温仪和高炉出铁口铁水温度红外视觉检测系统, 能实时在线检测高炉出铁口铁水温度, 这为建立硅含量在线预报模型提供了独有的数据来源[23-24].

    图 6  铁水温度与铁水硅含量的散点图
    Fig. 6  The scatter plot of temperature and silicon content of molten iron

    研制的铁水测温仪结构如图7(a)所示, 在中国西南某炼铁厂2650 m3的2号高炉的1号、2号和3号出铁口进行了安装, 并能长期稳定工作. 基于硬件设备, 搭建了由铁水测温仪、防护装置、专用光缆、三维云台、控制柜和计算机等构成的红外视觉铁水温度检测系统, 开发了大型高炉铁水质量监控平台, 实现了高炉出铁口铁水温度的在线精确检测. 实时的铁水温度数据能为硅含量的在线检测模型提供更关键和全面的信息来源.

    图 7  高炉铁水测温系统
    Fig. 7  Molten iron temperature measuring system in a blast furnace

    前期工作研发的铁水温度红外视觉检测系统, 能实现秒级出铁口温度数据的检测, 但考虑到图像数据的存储空间的限制和铁水温度渐近式变化特点, 现场数据库中保存了分钟级铁水温度的数据. 高炉现场安装的过程变量检测传感器的采样频率约为10 s一次. 而现场对铁水硅含量的检测主要是通过人工定期抽样, 离线化验分析, 在一个班次(8 h)内约有12 ~ 16组数据. 因此, 数据库中有大量能反映铁水硅含量的过程变量数据, 而对应的需要高成本标注的硅含量数据是明显不足的. 由图6可知, 铁水温度与铁水硅含量之间存在一定的正相关性, 因此在建模过程中, 铁水温度数据作为一维主要过程变量的加入, 会在一定程度上提高模型的预测性能. 但为了数据集时间轴上的匹配, 分钟级采样的铁水温度数据需要经过相关处理, 来匹配小时级化验的铁水硅含量数据, 这样会导致大量的铁水温度数据被压缩或丢失.

    考虑到红外视觉铁水测温系统和过程变量采样频率的相对快速性, 为了充分利用铁水温度数据中的信息, 通过构建分钟级优质数据集训练铁水温度在线预测模型, 再将模型上学习到的知识迁移到铁水硅含量在线预测任务中, 降低硅含量模型训练时对标签数据的依赖. 由于铁水温度与铁水硅含量之间的正相关性和反映铁水温度和硅含量的过程变量的相对一致性, 通过迁移从已训练的铁水温度在线预测任务中学习的知识, 来提升铁水硅含量在线预测任务是可行的, 且建模过程中不存在很大的源领域和目标域漂移的问题. 基于深度迁移学习的铁水硅含量在线预报模型结构如图8所示, 需要注意的是, 为了让铁水温度预测模型学习到的参数能更好地适配铁水硅含量在线预测任务, 动态注意力机制模块中输入是能反映铁水温度和硅含量的共同过程变量. 唯一的区别是, 铁水温度模型数据是分钟级别采样的, 而铁水硅含量模型的数据是小时级别采样的. 为进一步提高模型的性能, 在基于堆叠去噪自编码机构建的铁水硅含量深度预测模型的输入层, 拼接了对硅含量值有影响的特有过程变量. 基于动态注意力深度迁移网络的铁水硅含量在线预报过程具体步骤如下:

    图 8  基于深度迁移网络的铁水硅含量在线预报模型
    Fig. 8  Online prediction model of silicon content in molten iron based on deep transfer network

    步骤1. 根据专家经验和高炉冶炼过程机理分析, 从高炉历史数据库中挑选出相关的数据, 用于分别构建铁水温度和铁水硅含量在线预报模型.

    步骤2. 对采集的数据进行相关数据预处理, 包括输入输出样本时间配准、异常值剔除、缺失值处理、归一化处理、变量相关性分析. 预处理后的铁水温度数据集记为$\{ {{{{{\boldsymbol{X}}}}_{Fe}},{{{{\boldsymbol{Y}}}}_{F{\text{e}}}}}\} = \{ {( {{{{\boldsymbol{x}}}}_{Fe}^1,{{{\boldsymbol{y}}}}_{Fe}^1}),}$ $( {{{\boldsymbol{x}}}}_{Fe}^2, {{{\boldsymbol{y}}}}_{Fe}^2), \cdots ,( {{{{\boldsymbol{x}}}}_{Fe}^t,\;{{{\boldsymbol{y}}}}_{Fe}^t}), \cdots , \;{( {{{{\boldsymbol{x}}}}_{Fe}^{{N_{Fe}}},\;{{{\boldsymbol{y}}}}_{Fe}^{{N_{Fe}}}})}\}$, 铁水硅含量数据集表示为$\{ {{{{{\boldsymbol{X}}}}_{Si}},{{{{\boldsymbol{Y}}}}_{Si}}}\} = \{ {( {{{{\boldsymbol{x}}}}_{Si}^1,{{{\boldsymbol{y}}}}_{Si}^1}),}$ $( {{{\boldsymbol{x}}}}_{S{{i}}}^2, {{{\boldsymbol{y}}}}_{S{{i}}}^2), \cdots , ( {{{{\boldsymbol{x}}}}_{Si}^t,{{{\boldsymbol{y}}}}_{Si}^t}), \cdots , {( {{{{\boldsymbol{x}}}}_{Si}^{{N_{Si}}},\;{{{\boldsymbol{y}}}}_{Si}^{{N_{Si}}}})}\}$, 其中$ {N_{Fe}} $$ {N_{Si}} $分别为铁水温度数据集和铁水硅含量数据集中样本的个数.

    步骤3. 用数据${{{{\boldsymbol{X}}}}_{Fe}} = [ {{{\boldsymbol{x}}}}_{Fe}^1,{{{\boldsymbol{x}}}}_{Fe}^2, \cdots ,{{{\boldsymbol{x}}}}_{Fe}^t, \cdots , {{{\boldsymbol{x}}}}_{Fe}^{{N_{Fe}}} ]^{\rm{T}}$无监督地预训练第1个去噪自编码机网络, 采用误差反向传播算法最小化误差函数$\sum\nolimits_{t = 1}^{{N_{Fe}}}\times {{{\sum\nolimits_{d = 1}^{{d_x}} ({( {x_d^t - \hat x_d^t} )} }^2}}/ ({2{N_{Fe}}} ))$并保存训练好的隐含层的权值和偏置矩阵$[ {{{{{\boldsymbol{W}}}}^1},{{{{\boldsymbol{b}}}}^1}} ]$. 将第1个去噪自编码机的隐含层输出${{{{\boldsymbol{H}}}}_1} = [ {{{\boldsymbol{h}}}}_1^1,{{{\boldsymbol{h}}}}_1^2, \cdots , {{{\boldsymbol{h}}}}_1^t, \cdots , {{{\boldsymbol{h}}}}_1^{{N_{Fe}}} ]^{\rm{T}}$, 其中${{{\boldsymbol{h}}}}_1^t = [ {h_1^t,}$ ${ {h_2^t,\cdots,h_{{{d_1}}}^t} ]^{\rm{T}}} \in {{\bf R}^{{d_1}}}$作为第2个去噪自动编码机的输入, 利用误差反向传播算法最小化误差函数${{\sum\nolimits_{t = 1}^{{N_{Fe}}} {{{\sum\nolimits_{d = 1}^{{d_1}} ({( {h_d^t - \hat h_d^t} )} }^2}}/ } ({2{N_{Fe}}}}))$并保存训练好的隐含层的权值和偏置矩阵$[ {{{{{\boldsymbol{W}}}}^2},{{{{\boldsymbol{b}}}}^2}} ]$. 重复上述步骤, 直到第N个去噪自编码机训练完成, 保存权值矩阵${{{{\boldsymbol{W}}}}^{{{deep}}}} = {[ {{{{{\boldsymbol{W}}}}^1},{{{{\boldsymbol{W}}}}^2}, \cdots ,{{{{\boldsymbol{W}}}}^N}} ]^{\rm{T}}}$和偏置矩阵 ${{{{\boldsymbol{b}}}}^{{{deep}}}} = {[ {{{{{\boldsymbol{b}}}}^1},{{{{\boldsymbol{b}}}}^2}, \cdots ,{{{{\boldsymbol{b}}}}^N}} ]^{\rm{T}}}$.

    步骤4. 将N个训练好的去噪自编码机的隐含层权值和偏置矩阵取出来, 堆叠成一个深度网络, 在预训练好的深度网络的前端嵌入动态注意力机制模块, 并随机初始化模块权值矩阵${{{{\boldsymbol{W}}}}^{{{attention}}}} = {[ {{{{{\boldsymbol{W}}}}^1},\;{{{{\boldsymbol{W}}}}^2},\; \cdots ,\;{{{{\boldsymbol{W}}}}^M}} ]^{\rm{T}}}$ 和偏置矩阵 ${{{{\boldsymbol{b}}}}^{{{attention}}}} = [ {{{{\boldsymbol{b}}}}^1},\; {{{{\boldsymbol{b}}}}^2}, \cdots ,{{{{\boldsymbol{b}}}}^M} ]^{\rm{T}}$, 把铁水温度数据${{{{\boldsymbol{X}}}}_{Fe}} = [ {{{\boldsymbol{x}}}}_{Fe}^1,{{{\boldsymbol{x}}}}_{Fe}^2, \cdots , {{{\boldsymbol{x}}}}_{Fe}^t, \cdots ,{{{\boldsymbol{x}}}}_{Fe}^{{N_{Fe}}}]^{\rm{T}}$输入到动态注意力机制模块中得到各样本过程变量的注意力得分矩阵${{{{\boldsymbol{\omega}} }}_{Fe}}$, 将${{{{\boldsymbol{X}}}}_{Fe}}$与得分矩阵${{{{\boldsymbol{\omega}} }}_{Fe}}$做哈达玛积操作, 得到预训练好的深度网络的输入为${{{{\boldsymbol{X}}}}_{Fe}} = [ {{{\boldsymbol{\omega}} }}_{Fe}^1 \odot {{{\boldsymbol{x}}}}_{Fe}^1,{{{\boldsymbol{\omega}} }}_{Fe}^2 \odot {{{\boldsymbol{x}}}}_{Fe}^2, \cdots , {{{\boldsymbol{\omega}} }}_{Fe}^t \odot {{{\boldsymbol{x}}}}_{Fe}^t, \cdots ,{{{\boldsymbol{\omega}} }}_{Fe}^{{N_{Fe}}} \odot {{\boldsymbol{{x}}}}_{Fe}^{{N_{Fe}}} ]^{\rm{T}}$, 其中 ${{{\boldsymbol{\omega}} }}_{Fe}^t \odot {{{\boldsymbol{x}}}}_{Fe}^t = [ {\omega _1^tx_1^t,\omega _2^tx_2^t, \cdots ,\omega _{{d_x}}^tx_{{d_x}}^t} ]^{\rm{T}}$.

    步骤5. 在嵌入动态注意力机制模块的深度网络的后端, 即最后一个隐含层上再加一层输出层并随机初始化参数$[ {{{{{\boldsymbol{W}}}}^{N + 1}},{{\boldsymbol{{{b}}}}^{N + 1}}} ]$, 输入铁水温度数据$\{ {{{{{\boldsymbol{X}}}}_{Fe}},{{{{\boldsymbol{Y}}}}_{F{\text{e}}}}} \} = \{ {( {{{{\boldsymbol{x}}}}_{Fe}^1,{{{\boldsymbol{y}}}}_{Fe}^1} ),} ( {{{{\boldsymbol{x}}}}_{Fe}^2,{{{\boldsymbol{y}}}}_{Fe}^2} ),\cdots ,( {{{\boldsymbol{x}}}}_{Fe}^t, {{{\boldsymbol{y}}}}_{Fe}^t ), \cdots , ( {{{{\boldsymbol{x}}}}_{Fe}^{{N_{Fe}}}}$${,{{{\boldsymbol{y}}}}_{Fe}^{{N_{Fe}}}}) \}$利用误差反向传播算法最小化误差函数${{\sum\nolimits_{t = 1}^{{N_{Fe}}} ({\left( {{y_{Fe}^t} - {{\hat y}_{Fe}^t}} \right)^2}/ } ({2{N_{Fe}}}}))$并微调整个网络结构参数${{{\boldsymbol{W}}}} = \left[ {{{{{\boldsymbol{W}}}}^{{{attention}}}},{{{{\boldsymbol{W}}}}^{{{deep}}}}} \right]$${{{\boldsymbol{b}}}} = [ {{{{\boldsymbol{b}}}}^{{{attention}}}}, {{{{\boldsymbol{b}}}}^{{{deep}}}}]$.

    步骤6. 将训练好的铁水温度模型迁移到铁水硅含量在线预报模型上, 把${{{{\boldsymbol{X}}}}_{Si}} = [ {{{\boldsymbol{x}}}}_{Si}^1,\;{{{\boldsymbol{x}}}}_{Si}^2, \;\cdots , \; {{{\boldsymbol{x}}}}_{Si}^t,\; \cdots \; ,{{{\boldsymbol{x}}}}_{Si}^{{N_{Si}}} ]^{\rm{T}}$ 输入到动态注意力机制模块中, 得到深度网络输入为 ${{{{\boldsymbol{X}}}}_{Si}} = [ {{{\boldsymbol{\omega}} }}_{Si}^1 \odot {{{\boldsymbol{x}}}}_{Si}^1,{{{\boldsymbol{\omega}} }}_{Si}^2 \odot {{{\boldsymbol{x}}}}_{Si}^2, \cdots , {{{\boldsymbol{\omega}} }}_{Si}^t \odot {{{\boldsymbol{x}}}}_{Si}^t, \cdots ,{{{\boldsymbol{\omega}} }}_{Si}^{{N_{Si}}} \odot {{{\boldsymbol{x}}}}_{Si}^{{N_{Si}}} ]^{\rm{T}}$, 并在深度网络的输入层拼接了对铁水硅含量有影响的特有的数据${{{\dot {\boldsymbol{X}}}}_{Si}} = {[ {{{\dot {\boldsymbol{x}}}}_{Si}^1,{{\dot {\boldsymbol{x}}}}_{Si}^2, \cdots ,{{\dot {\boldsymbol{x}}}}_{Si}^t, \cdots ,{{\dot {\boldsymbol{x}}}}_{Si}^{{N_{Si}}}} ]^{\rm T}} ,$ 其中 ${{\dot {\boldsymbol{x}}}}_{Si}^t = {[ {x_{{d_x} + 1}^t,\;x_{{d_x} + 2}^t,\;\cdots,\;x_{{d_x} + {d_m}}^t} ]^{\rm{T}}} \in {{\bf{R}}^{{d_m}}}$, 利用误差反向传播算法最小化误差函数${{\sum\nolimits_{t = 1}^{{N_{Si}}}( {( {{y_{Si}^t} - {{\hat y}_{Si}^t})^2}}/ } ({2{N_{Si}}}}))$并微调网络结构参数, 完成对基于深度迁移网络的铁水硅含量在线预报模型的训练.

    步骤7. 将与特有变量拼接好的测试样本${\boldsymbol{{X}}_{Test}}= [ {{{\boldsymbol{x}}}}_{Test}^1,{{{\boldsymbol{x}}}}_{Test}^2, \cdots ,{{{\boldsymbol{x}}}}_{Test}^t, \cdots , {{{\boldsymbol{x}}}}_{Test}^{{N_{{{Test}}}}} ]^{\rm T}$输入到训练好的铁水硅含量预测模型中, 其中${{\boldsymbol{x}}_{Test}^t} = $$[ {x_1^t},{x_2^t}, \cdots x_{{{d_x}}}^t,x_{{{d_x} + 1}}^t,x_{{{d_x} + 2}}^t,\cdots, x_{{{d_x} + {d_m}}}^t ]^{\rm{T}} \in {{\bf{R}}^{{d_x} + {d_m}}}$, ${N_{{{Test}}}}$是测试集样本的数量. 把测试样本$ 1 \sim {d_x} $维度的过程变量输入到动态注意力机制模块, 把$( {{d_x} + 1} ) \;\sim\; ( {{d_x} + {d_m}} )$维度的过程变量作为硅含量独有的特征拼接到深度网络的输入层, 训练好的网络最后一层输出为铁水硅含量的预测结果, 记为$\hat {\boldsymbol{Y}}_{Test} = [ {\hat y_{Test}^1},$${{\hat y_{Test}^2,\cdots,\hat y_{Test}^t,\cdots,\hat y_{Test}^{{N_{{{Test}}}}}} ]^{\rm{T}}}$.

    为了验证基于动态注意力深度迁移网络的铁水硅含量在线预报模型的有效性, 将本文提出算法在中国西南某炼铁厂2号高炉上采集的数据进行工业试验. 实验结果验证了本文方法的有效性和可行性, 模型的预测结果和样本过程变量对硅含量的贡献度, 能为现场操作者提供实时的冶炼状态信息和更为直观的操作指导.

    高炉历史数据库中记录了大量能反映铁水温度和硅含量的传感器检测数据, 根据高炉的冶炼工艺机理、已安装的传感器检测设备和现场专家经验, 确定了对铁水温度和硅含量有影响的过程变量, 详细描述见表1. 提取2020年8月1日至2020年12月17日数据用于建模分析, 其中过程变量有1160141组, 铁水温度数据有172352组, 硅含量数据有7282组. 考虑到数据库中的数据会因为设备故障或者人工录入错误等原因出现错误, 或高炉休风等特殊情况造成数据缺失, 也会因为现场冶炼过程的干扰使得测量数据出现大量的噪声. 因此在建模前, 需要对数据进行相关预处理, 得到标准的、干净的和连续的数据提供给后续的模型.

    表 1  过程变量最大互信息系数
    Table 1  Maximal information coefficient of process variables
    过程变量 MICMIT MICSi 过程变量 MICMIT MICSi
    富氧率 0.104 0.115 冷风压力 0.104 0.094
    透气性指数 0.104 0.111 全压差 0.104 0.130
    CO 0.103 0.104 热风压力 0.103 0.116
    CO2 0.111 0.145 实际风速 0.100 0.113
    标准风速 0.117 0.111 冷风温度 0.102 0.109
    富氧流量 0.120 0.129 热风温度 0.101 0.115
    冷风流量 0.117 0.111 顶温 0.120 0.162
    鼓风动能 0.101 0.107 顶温下降管 0.111 0.155
    炉腹煤气量 0.108 0.127 阻力系数 0.103 0.110
    炉腹煤气指数 0.109 0.128 鼓风湿度 0.135 0.140
    顶压 0.128 0.156 富氧压力 0.103 0.096
    本小时实际
    喷煤量
    0.100 0.136 上一小时
    实际喷煤量
    0.110 0.165
    下载: 导出CSV 
    | 显示表格

    考虑到撇渣器处人工取样的铁水, 需要花费1 h左右时间化验铁水硅含量百分比值, 因此将数据库中记录的铁水硅含量数据往前推一个小时, 与传感器检测的过程变量在时间维度上进行配准. 对于设备故障或者人工录入错误而导致的异常数据, 通过箱线图直接剔除. 直接删除休风和设备故障等原因造成的缺失数据. 为了构建完备的输入、输出样本集, 把经过数据预处理后的铁水温度数据集按每分钟取均值处理, 铁水硅含量的数据按每小时取均值处理. 经过处理后的铁水温度数据集共有111041组数据, 铁水硅含量数据集共有3117组数据. 针对数据集中样本的不同过程变量量纲存在较大的差异, 因此在建模前需要对数据进行归一化处理, 进而消除不同量纲对模型的影响, 本文采用式(12)对数据归一化处理:

    $$\bar x_{{d_x}}^t = \frac{{x_{{d_x}}^t - x_{{d_x}}^{\min }}}{{x_{{d_x}}^{\max } - x_{{d_x}}^{\min }}}$$ (12)

    式中, $ \bar x_{{d_x}}^t $是第$ t $个数据样本中的第$ {d_x} $个过程变量归一化处理后的结果, $ x_{{d_x}}^t $为第$ t $个数据样本中第$ {d_x} $个过程变量的值, $ x_{{d_x}}^{\max } $$ x_{{d_x}}^{\min } $分别为第$ {d_x} $个过程变量在所有的数据样本中的最大值和最小值.

    为了定量描述表1中通过专家经验挑选的过程变量与铁水温度和铁水硅含量之间的相关性, 本文采用最大互信息系数(Maximal information coefficient, MIC)[27]来计算两个变量之间的相关性, MIC定义如下:

    $$ {\rm{MIC}} = \mathop {\max }\limits_{|x|,|y| < B} \frac{{\displaystyle\sum\limits_{x,y} {p(x,y){{\log }_2}\frac{{p(x,y)}}{{p(x)p(y)}}} }}{{{{\log }_2}(\min (|x|,|y|))}} $$ (13)

    式中, $p(x)$为数据点落在$ x $列的概率, $p(y)$为数据点落在$y$行的概率, $p(x,y)$为变量$x$与变量$y$联合概率, $B$为变量最优推荐值, 即数据量的0.6次方. 各过程变量与铁水温度和硅含量的最大信息系数分别记为MICMIT和MICSi, 如表1所示.

    表1可知, 通过专家经验和工艺机理分析确定的过程变量与铁水温度和铁水硅含量, 都有较强的相关性, 因此这24个过程变量作为铁水温度和铁水硅含量预测模型动态注意力机制模块的输入. 需要注意的是, 在铁水硅含量预测模型的深度网络输入层拼接了对铁水硅含量有影响的特有过程变量,即: ${q}^{-1}{x}_{硅含量}^{{t}}$${q}^{-2}{x}_{硅含量}^{t}$${q}^{-3}{x}_{硅含量}^{t}$${x}_{红外铁水温度}^{t}$${q}^{-1}{x}_{红外铁水温度}^{t} 、$ ${q}^{-2}{x}_{红外铁水温度}^{t} 、$ ${q^{ - 1}}x_{c{o_2}}^t、$ ${q}^{-1}{x}_{富氧流量}^{t}、$ ${q}^{-1}{x}_{顶压}^{t}、$ ${q}^{-1}{x}_{全压差}^{t} 、$ ${q}^{-2}{x}_{顶温}^{t} 、$ ${\mathrm{q}}^{-1}{x}_{鼓风湿度}^{t} ,$ 其中 $ {q^{ - 1}}{x^t} = {x^{t - 1}} $$ {q^{ - 2}}{x^t} = {x^{t - 2}} $$ {q^{ - 3}}{x^t} = {x^{t - 3}} $分别表示在第$ t - 1 $$ t - 2 $$ t - 3 $时刻过程变量$ x $的取值, 这部分特有的过程变量主要考虑的是高炉冶炼过程中大惯性和时序性对铁水硅含量的影响.

    需要注意的是, 用归一化后的数据训练的模型输出的仍是归一化后的结果, 因此需要对输出结果进行反归一化处理才能得到最终的实际预测结果. 铁水温度和铁水硅含量的反归一化, 分别如式(14)和式(15)所示:

    $$ \hat y_{Fe}^t = \vec y\,_{Fe}^t\left( {y_{Fe}^{\max } - y_{Fe}^{\min }} \right) + y_{Fe}^{\min } $$ (14)
    $$ \hat y_{S{\text{i}}}^t = \vec y\,_{Si}^t\left( {y_{Si}^{\max } - y_{Si}^{\min }} \right) + y_{Si}^{\min } $$ (15)

    式中, $ \hat y_{Fe}^t $$\hat y_{S{{i}}}^t$是铁水温度模型和铁水硅含量模型的反归一化后的真实输出结果, $\vec y\,_{Fe}^t$$\vec y\,_{Si}^t$分别是铁水温度模型和铁水硅含量模型的输出结果, $ y_{Fe}^{\max } $$ y_{Fe}^{\min } $分别是铁水温度真实数据中的最大值和最小值, $ y_{Si}^{\max } $$ y_{Si}^{\min } $分别是铁水硅含量真实数据中的最大值和最小值.

    为了评价模型的性能, 通过引入均方根误差(Root mean squared error, RMSE)和平均绝对误差(Mean absolute error, MAE)来衡量模型的预测值与实际化验值之间的差异程度, RMSE和MAE定义如下:

    $$ {\rm{RMSE}} = \sqrt {\frac{1}{{{N_{Si}}}}\sum\limits_{t = 1}^{{N_{Si}}} {{{\left( {y_{Si}^t - \hat y_{Si}^t} \right)}^2}} } $$ (16)
    $$ {\rm{MAE}} = \frac{1}{{{N_{Si}}}}\sum\limits_{t = 1}^{{N_{Si}}} {\left| {y_{Si}^t - \hat y_{Si}^t} \right|} $$ (17)

    统计指标RMSE和MAE越小, 表示模型的性能越好. 根据现场专家经验, 预测值与实际化验值的误差绝对值在0.1%范围内为可接受的结果, 为了更直观地展示模型的预测效果, 模型的预测命中率定义为HR:

    $$ {\rm{HR}} = \frac{1}{{{N_{Si}}}}\sum\limits_{t = 1}^{{N_{Si}}} {\left( {H\left( t \right)} \right)} \times 100{\text{%}} $$ (18)

    式中, $ H\left( t \right) $是第$ t $个样本的Heaviside函数, 定义为:

    $$H\left( t \right) = \left\{ \begin{array}{l} 1,\;\;\;\left| {y_{Si}^t - \hat y_{Si}^t} \right| \le 0.1\\ 0,\;\;\;\left| {y_{Si}^t - \hat y_{Si}^t} \right| > 0.1 \end{array} \right.$$ (19)

    经过数据预处理后, 某钢铁厂2号高炉上采集的111041组铁水温度数据, 用来建立基于动态注意力机制的深度网络预测模型, 其中10万组数据用于训练模型, 11041组数据用于测试模型. 3117组铁水硅含量数据, 用于建立基于动态注意力深度迁移网络的预测模型, 其中2837组数据用于模型训练, 280组数据用于模型测试. 通过实验过程中对模型结构的反复训练和调整, 预测模型中的动态注意力机制模块的全连接层层数$ M $取3, 各层神经元个数分别设置为256、128、24, 第1 ~ 2个隐含层激活函数设置为ReLU (Rectified linear unit)函数[28], 第3个隐含层激活函数设置为Sigmoid函数. 4个去噪自编码机堆叠形成一个结构为24-160-120-80-40-1的深度网络, 其中第1个、第2个、第3个和第4个去噪自编码机的结构(输入层−隐含层−输出层)分别设置为24-160-2、160-120-160、120-80-120和80-40-80. 激活函数都设置为ReLU函数, 加性高斯噪声的系数设为0.01. 铁水温度模型的训练批次设置为1024, 迭代次数设置为100, 铁水硅含量模型的训练批次设置为32, 迭代次数设置为300. 网络权值使用Xaiver初始化为均值为0, 方差为0.1的均匀分布, 偏置初始化为0, 学习率设置为0.001.

    为了比较本文提出的基于动态注意力深度迁移网络的铁水硅含量预测模型的性能, 将基于动态注意力机制的深度网络用于建模讨论, 模型参数与深度迁移网络中铁水硅含量预测模块中的保持一致, 目的是为了分析迁移训练好的铁水温度网络对铁水硅含量预测性能的影响. 为了验证本文提出的动态注意力机制模块对模型性能的贡献, 基于堆叠去噪自编码机的深度网络被用来建模分析, 其网络结构为36-160-120-80-40-1, 模型的输入考虑了影响铁水温度和硅含量的24个共有过程变量和影响硅含量的12个特有过程变量. 考虑到支持向量回归机在小样本建模上具有很好的优势, 因此内核为径向基函数的支持向量回归机也被用来建模比较. 所有模型都是在深度学习框架PyTorch中运行, 计算机CPU为英特尔酷睿i7-9700, 运行频率为3.0 GHz, 内存为32 GB. 详细的实验对比结果如表2所示.

    表 2  基于不同模型的预测性能
    Table 2  Prediction performance based on different models
    模型 RMSE MAE HR (%)
    SVR 0.0832 0.0635 77.5
    S-DAE 0.0794 0.0616 84.6
    ADNet 0.0772 0.0583 86.4
    ADTNet 0.0649 0.0509 90.0
    下载: 导出CSV 
    | 显示表格

    表2可以看出, 相比于浅层的支持向量回归机模型, 深度网络模型S-DAE、ADNet、ADTNet的性能都优于支持向量回归机, 可能原因是深度网络自学习到的抽象的和鲁棒性的特征表示, 有助于挖掘数据中隐含的关系, 进而提高模型的性能. 相比于堆叠去噪自编码机搭建而成的深度网络, 带有动态注意力机制的深度网络和深度迁移网络性能更好, 这说明本文设计的动态注意力模块, 实时地考虑每个样本不同的过程变量与硅含量的动态关系, 模型能为每个样本学习到目标相关的抽象特征表示, 来提高硅含量在线预报模型的性能. 对比基于动态注意力机制的深度网络, 基于动态注意力深度迁移网络的均方根误差和平均绝对误差分别为0.0649和0.0509, 命中率能达到90%, 表明前期工作开发的红外视觉铁水测温系统提供的实时出铁口处铁水温度信息能为硅含量的在线预测提供有用的信息, 且使用铁水温度大数据训练后的迁移深度网络模型, 能充分挖掘过程变量与铁水硅含量之间的关系, 进而提高模型的性能, 并在一定程度上降低硅含量预测模型对带标签数据样本的依赖. 需要说明的是, 本文提出的深度模型的训练时间是要远远大于浅层模型的, 这主要是因为深度模型的训练有无监督的预训练和有监督的微调两个阶段. 但在将模型部署到工业应用现场时, 无监督地预训练完全可以离线完成, 只需使用带标签的样本有监督地在线微调预训练好的网络结构. 因此, 本文提出的方法在工业现场也具有一定的应用价值.

    为了进一步直观、清晰地对比模型的性能和铁水硅含量预测的细节信息, 绘制了基于支持向量回归机模型、堆叠去噪自编码机网络、带有动态注意力机制的深度网络和动态注意力深度迁移网络的模型预测值曲线图和实际化验值的曲线图, 如图9 ~ 12所示. 通过对比发现, 基于动态注意力深度迁移网络预测的硅含量和实际化验硅含量曲线在数值与趋势上吻合较好, 进一步说明了本文提出方法的有效性和优越性. 由图9可以看出, 基于浅层的支持向量回归机预测值显著偏离了实际化验值, 尽管根据定义模型的命中率能达到77.5%, 但实际模型预测值波动范围较窄, 无法正确地跟踪实际的硅含量数值与趋势. 由图10可以看出, 基于堆叠去噪自编码机预测性能显著优于支持向量回归机, 模型能以较高的准确率命中硅含量实际化验值, 且样本预测的误差进一步缩小, 说明了深度网络对复杂的高炉冶炼过程非线性描述能力强于浅层网络. 由图11可以看出, 基于动态注意力机制的深度网络预测结果, 能基本一致地跟踪硅含量实际化验值, 且预测误差基本稳定在绝对值正负0.1%范围内, 这也进一步说明了本文提出动态注意力模块对模型性能的提升. 由图12可以看出, 基于深度迁移网络的预测性能是最佳的, 且在入炉矿源频繁波动情况下有较强的稳定性, 相比于基于动态注意力机制的深度网络预测结果, 基于深度迁移网络的数值和趋势跟踪得更好, 样本预测误差更小, 这也进一步表明了独有的铁水温度数据的加入对模型性能的提升. 模型对160 ~ 170组硅含量预测性能欠佳, 这是因为该数据区间内硅含量化验值超过0.6%, 通过分析训练集样本分布发现, 超过0.6%硅含量样本数量在总样本中占比较少, 导致模型对该部分少量样本拟合能力欠佳. 需要说明的是, 图9 ~ 12的预测结果表明, 当实测硅含量值偏小时, 预测硅含量数值普遍偏大; 当实测硅含量数值偏大时, 预测硅含量数值普遍偏小. 这是因为数据预处理操作中通过箱线图删除了异常的数据样本, 使得模型的预测结果不会出现极端预测值.

    图 9  基于支持向量回归机的铁水硅含量预测结果
    Fig. 9  Prediction results of silicon content based on SVR
    图 10  基于堆叠去噪自编码机的铁水硅含量预测结果
    Fig. 10  Prediction results of silicon content based on S-DAE
    图 11  基于动态注意力机制深度网络的铁水硅含量预测结果
    Fig. 11  Prediction results of silicon content based on ADNet
    图 12  基于动态注意力深度迁移网络的铁水硅含量预测结果
    Fig. 12  Prediction results of silicon content based on ADTNet

    为了进一步更加直观地展示基于不同模型的铁水硅含量预测误差分布情况, 计算测试样本与对应训练样本的差值, 绘制了如图13所示的误差分布曲线. 从基于支持向量回归机预测结果绘制的误差曲线来看, 该模型误差波动范围比较大, 无法保证预测结果的可靠性. 相比浅层网络, 基于堆叠去噪自编码机和基于动态注意力机制的深度网络计算的误差大部分更加接近现场可接受的范围, 且动态注意力机制的引入, 使得基于动态注意力机制的深度模型相比于基于堆叠去噪自编码机模型对160 ~ 280组之间波动较大的样本的预测效果更好, 误差更小. 而本文的基于动态注意力深度迁移网络的误差普遍分布在工业现场可接受的范围 $\left[ { - 0.1,\;0.1} \right]$ 内, 甚至大部分样本的误差能保持在$\left[ { - 0.05,\;0.05} \right]$内, 超出可接受范围的样本基本都是硅含量化验值超过0.6%或低于0.3%. 根据中国西南某炼铁厂2号高炉冶炼的要求, 铁水硅含量需要严格控制在0.3% ~ 0.6%, 这会导致超出控制范围的样本数量在总样本中占比较少, 在模型的训练过程中难以挖掘到小样本数据中的隐藏信息, 进而使得模型对该类样本预测性能欠佳. 从整体上来看, 本文模型能以较高的准确率预测铁水硅含量并具有较强的稳定性. 为了进一步阐述模型的稳定性, 将不同模型预测的硅含量值和硅含量实际化验值分别作为横、纵坐标, 绘制如图14所示的散点分布图. 由图14可以看出, 基于支持向量回归机模型的散点图有大量的点分布在${y_2} = x - 0.1$的下方, 这说明模型对这部分样本的预测性能欠佳. 而基于堆叠去噪自编码机和基于动态注意力机制的深度模型的散点图有部分分布在${y_1} = x + 0.1$${y_2} = x - 0.1$两条临界线之外, 且分布在临界线内部的部分散点分布较为分散, 说明这两个模型预测的结果虽然满足了现场可接受范围, 但预测的精度还有进一步提升的空间. 而基于动态注意力深度迁移网络模型的散点普遍集中在$y = x$附近, 只有少量的点分布在两条临界线之外, 且分布在临界线之外的点大多是硅含量化验值超过0.6%或者低于0.3%的样本, 这表明了本文模型对硅含量分布范围在[0.3%, 0.6%]的数据具有较高的预测准确率, 而对于少数波动范围大的样本预测值则不能及时准确地跟踪检测值, 这也进一步说明了模型对部分超过0.6%或者低于0.3%数据的欠拟合能力. 考虑到现场入炉矿源的品质和铁水质量的要求, 铁水硅含量化验值大部分时间稳定在0.3% ~ 0.6%范围内, 因此对分布在[0.3%, 0.6%]范围内硅含量样本的高预测准确率对现场操作也有较高的指导意义.

    图 13  基于不同模型的铁水硅含量误差分布图
    Fig. 13  Prediction errors of silicon content in molten iron based on different models
    图 14  基于不同模型的预测和实际铁水硅含量分布散点图
    Fig. 14  The scatter plot of predictive and observed silicon content based on different models

    本文提出动态注意力深度迁移模型的另一个优势是, 设计的动态注意力机制模块能够实时地给出每个样本各个维度的过程变量对硅含量的动态注意力得分, 能实时地反映各过程变量对当前硅含量值的贡献程度. 本文给出测试集中前24个样本的过程变量对硅含量的贡献度, 绘制了如图15所示的样本过程变量得分热力图, 横坐标代表过程变量, 纵坐标代表样本编号, 横纵坐标确定的矩阵中的数字代表的是该样本的过程变量对硅含量的贡献程度. 本文的注意力分数由Sigmoid函数计算出来, Sigmoid函数值分布在(0, 1)范围内, 得分热力图给出了各过程变量的后3位小数. 尽管每个样本各维度过程变量注意力分数变化幅度较小, 但小幅度的变动是归一化后的数据和注意力模块计算累积的结果, 小幅度的变动在一定程度上能反映过程变量对硅含量贡献度的变化情况. 由图15可以看出, 各过程变量对第1个硅含量化验样本(0.4015%)与第2个硅含量化验样本(0.5003%)之间的贡献度的变化情况. 根据现场专家经验, 铁水硅含量的升高, 主要原因有5个: 1)软熔带中滴落带的高度升高; 2)炉料分布与煤气流分布不合理, 中心料柱透气性差; 3)焦炭强度不好且焦炭灰分高; 4)高炉渣的二元碱度降低; 5)鼓风动能不足或者透气性指数小难以消除炉缸中心死料柱, 确保炉缸中心活跃. 原因1)和原因2)是多种过程变量和现场操作共同作用的结果, 原因3)主要受原料成分的影响, 原因4)主要受高炉渣中氧化镁的含量的影响. 由图15可以看出, 当硅含量化验值上升时, 透气性指数和鼓风动能的注意力分数分别减小了0.005和0.003, 其他过程变量的注意力分数发生了动态的变化, 这也能说明本文提出的注意力机制模块给出的过程变量对铁水硅含量值影响的合理性. 因此, 注意力机制模块不仅能捕获输入样本的过程变量与硅含量之间的相关关系并强调样本的各个过程变量在预测过程中的作用, 也能动态地给出各过程变量的注意力分数前后的差异, 可以为后续高炉冶炼过程的调节提供重要的参考依据并在一定程度上增强黑箱模型的可解释性.

    图 15  过程变量注意力得分热力图
    Fig. 15  The heat map of process variables attention scores

    高炉铁水硅含量是高炉炼铁过程中表征铁水质量和炉缸内部热状态的重要和关键技术指标, 本文针对硅含量难以在线检测的实际工程难题, 提出了一种基于动态注意力深度迁移网络的铁水硅含量在线预报方法. 该方法提出了一种动态的注意力机制模块, 来捕获样本的各过程变量与硅含量之间的关系, 使得后端的深度网络在训练过程中逐层加强对预测性能有提升的主要过程变量的特征提取和抑制次要过程变量的特征提取. 考虑到铁水温度与铁水硅含量之间的正相关关系, 结合前期工作中研发的红外视觉铁水测温系统, 迁移了基于铁水温度数据训练的深度模型结构, 利用少量硅含量标签数据微调模型参数, 提高了铁水硅含量预测模型的性能并同时降低了模型对硅含量标签数据的依赖. 该模型不仅能实时地给出铁水硅含量的预测值, 还能给出对应的过程变量对预测值的贡献度, 不仅能在一定程度上增强黑箱模型的可解释性, 也能为现场工人的操作和炉况调控提供重要的参考信息.

    在今后的研究中, 将以预测的实时铁水硅含量数据和测温系统检测的铁水温度数据为基础, 黑箱模型的部分可解释性为辅助, 融合工艺条件、操作参数之间的耦合关系, 开展基于深度学习的高炉炼铁过程操作参数优化方法的研究.

  • 图  1  高炉三维仿真模拟图

    Fig.  1  Three-dimensional simulation diagram ofthe blast furnace cast field

    图  2  去噪自编码机基本结构

    Fig.  2  Architecture of a denoising autoencoder

    图  3  堆叠去噪自编码机训练过程

    Fig.  3  The training process of stacking denoising autoencoders

    图  4  动态注意力机制模块

    Fig.  4  The dynamic attention mechanism module

    图  5  基于动态注意力机制模块的深度去噪自编码机网络

    Fig.  5  Deep denoising autoencoders network based on dynamic attention mechanism module

    图  6  铁水温度与铁水硅含量的散点图

    Fig.  6  The scatter plot of temperature and silicon content of molten iron

    图  7  高炉铁水测温系统

    Fig.  7  Molten iron temperature measuring system in a blast furnace

    图  8  基于深度迁移网络的铁水硅含量在线预报模型

    Fig.  8  Online prediction model of silicon content in molten iron based on deep transfer network

    图  9  基于支持向量回归机的铁水硅含量预测结果

    Fig.  9  Prediction results of silicon content based on SVR

    图  10  基于堆叠去噪自编码机的铁水硅含量预测结果

    Fig.  10  Prediction results of silicon content based on S-DAE

    图  11  基于动态注意力机制深度网络的铁水硅含量预测结果

    Fig.  11  Prediction results of silicon content based on ADNet

    图  12  基于动态注意力深度迁移网络的铁水硅含量预测结果

    Fig.  12  Prediction results of silicon content based on ADTNet

    图  13  基于不同模型的铁水硅含量误差分布图

    Fig.  13  Prediction errors of silicon content in molten iron based on different models

    图  14  基于不同模型的预测和实际铁水硅含量分布散点图

    Fig.  14  The scatter plot of predictive and observed silicon content based on different models

    图  15  过程变量注意力得分热力图

    Fig.  15  The heat map of process variables attention scores

    表  1  过程变量最大互信息系数

    Table  1  Maximal information coefficient of process variables

    过程变量 MICMIT MICSi 过程变量 MICMIT MICSi
    富氧率 0.104 0.115 冷风压力 0.104 0.094
    透气性指数 0.104 0.111 全压差 0.104 0.130
    CO 0.103 0.104 热风压力 0.103 0.116
    CO2 0.111 0.145 实际风速 0.100 0.113
    标准风速 0.117 0.111 冷风温度 0.102 0.109
    富氧流量 0.120 0.129 热风温度 0.101 0.115
    冷风流量 0.117 0.111 顶温 0.120 0.162
    鼓风动能 0.101 0.107 顶温下降管 0.111 0.155
    炉腹煤气量 0.108 0.127 阻力系数 0.103 0.110
    炉腹煤气指数 0.109 0.128 鼓风湿度 0.135 0.140
    顶压 0.128 0.156 富氧压力 0.103 0.096
    本小时实际
    喷煤量
    0.100 0.136 上一小时
    实际喷煤量
    0.110 0.165
    下载: 导出CSV

    表  2  基于不同模型的预测性能

    Table  2  Prediction performance based on different models

    模型 RMSE MAE HR (%)
    SVR 0.0832 0.0635 77.5
    S-DAE 0.0794 0.0616 84.6
    ADNet 0.0772 0.0583 86.4
    ADTNet 0.0649 0.0509 90.0
    下载: 导出CSV
  • [1] 周平, 张丽, 李温鹏, 戴鹏, 柴天佑. 集成自编码与PCA的高炉多元铁水质量随机权神经网络建模. 自动化学报, 2018, 44(10): 1799-1811

    Zhou Ping, Zhang Li, Li Wen-Peng, Dai Peng, Chai Tian-You. Modeling of blast furnace multi-element molten iron quality with random weight neural network based on self-encoding and PCA. Acta Automatica Sinica, 2018, 44(10): 1799-1811
    [2] Zhou H, Zhang H F, and Yang C J. Hybrid model based intelligent optimization of ironmaking process. IEEE Transaction on Industrial Electronics, 2020, 67(3): 2469-247 doi: 10.1109/TIE.2019.2903770
    [3] Jiang K, Jiang Z H, Xie Y F, Pan D, Gui W H. Abnormality monitoring in the blast furnace ironmaking process based on stacked dynamic target-driven denoising autoencoders. IEEE Transactions on Industrial Informatics, 2022, 18(3): 1854−1863
    [4] 郜传厚, 渐令, 陈积明, 孙优贤. 复杂高炉炼铁过程的数据驱动建模及预测算法. 自动化学报, 2009, 35(06): 725-730 doi: 10.3724/SP.J.1004.2009.00725

    Gao Chuan-Hou, Jian Ling, Chen Jia-Ming, Sun You-Xian. Data-driven modeling and prediction algorithm for complex blast furnace ironmaking process. Acta Automatica Sinica, 2009, 35(6): 725-730 doi: 10.3724/SP.J.1004.2009.00725
    [5] Chen S H, Gao C H. Linear priors mined and integrated for transparency of blast furnace black-Box SVM model. IEEE Transactions on Industrial Informatics, 2020, 16(6): 3862-3870 doi: 10.1109/TII.2019.2940475
    [6] Zhou P, Lv Y B, Wang H, and Chai T Y. Data-driven robust RVFLNs modeling of a blast furnace iron-making process using Cauchy distribution weighted M-Estimation. IEEE Transaction on Industrial Electronics, 2017, 64(9): 7141–7151 doi: 10.1109/TIE.2017.2686369
    [7] 宋贺达, 周平, 王宏, 柴天佑. 高炉炼铁过程多元铁水质量非线性子空间建模及应用. 自动化学报, 2016, 42(11): 1664-1679

    Song He-Da, Zhou Ping, Wang Hong, Chai Tian-You. Nonlinear subspace modeling of multivariate molten iron quality in blast furnace ironmaking and its application. Acta Automatica Sinica, 2016, 42(11): 1664-1679
    [8] Spirin N A, Onorin O P, Istomin A S. Study of transition processes of blast-furnace smelting by the mathematical model me-thod. In: Proceedings of the IOP Conference Series, Materials Science and Engineering. Suzhou, China: Institute of Physics Pu-blishing, 2018. 12−73
    [9] Spirin N, Onorin O, Alexander I. Prediction of blast furnace thermal state in real-time operation. Solid State Phenomena, 2020, 299: 518-523 doi: 10.4028/www.scientific.net/SSP.299.518
    [10] Spirin N. A, Polinov A A, Gurin I A, Pishnograev SN. Information system for real-time prediction of the silicon content of iron in a blast furnace. Metallurgist, 2020, 63(9): 898-905
    [11] Saxen H, Gao C H, and Gao Z W. Data-driven time discrete models for dynamic prediction of the hot metal silicon content in the blast furnace—A review. IEEE Transactions on Industrial Informatics, 2013, 9(4): 2213-2225 doi: 10.1109/TII.2012.2226897
    [12] 李温鹏, 周平. 高炉铁水质量鲁棒正则化随机权神经网络建模. 自动化学报, 2020, 46(04): 721-733

    Li Wen-Peng, Zhou Ping. Blast furnace hot metal quality robust regularization random weight neural network modeling. Acta Automatica Sinica, 2020, 46(04): 721-733
    [13] 蒋朝辉, 许川, 桂卫华, 蒋珂. 基于最优工况迁移的高炉铁水硅含量预测方法. 自动化学报

    Jiang Zhao-Hui, Xu Chuang, Gui Wei-Hua, Jiang Ke. Prediction method of hot metal silicon content in blast furnace based on optimal smelting condition migration. Acta Automatica Sinica, to be published.
    [14] Zhou P, Guo D W, Wang H, and Chai T Y. Data-driven robust M-LS-SVR-based NARX modeling for estimation and control of molten iron quality indices in blast furnace ironmaking. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(9): 4007-4021 doi: 10.1109/TNNLS.2017.2749412
    [15] 蒋朝辉, 董梦林, 桂卫华, 阳春华, 谢永芳. 基于Bootstrap的高炉铁水硅含量二维预报. 自动化学报, 2016, 42(05): 715-723

    Jiang Zhao-Hui, Dong Meng-Lin, Gui Wei-Hua, Yang Chun-Hua, Xie Yong-Fang. Two-dimensional prediction for silicon content of hot metal of blast furnace based on bootstrap. Acta Automatica Sinica, 2016, 42(5): 715-723
    [16] Li J P, Hua C C, Yang Y N, Guan X P. Bayesian block structure sparse based T–S fuzzy modeling for dynamic prediction of hot metal silicon content in the blast furnace. IEEE Transactions on Industrial Electronics, 2017, 65(6): 4933-4942
    [17] Hinton G E, Osindero S, and Teh Y W. A fast learning algorithm for deep belief nets. Neural Computing, 2006, 18(7): 1527-1554 doi: 10.1162/neco.2006.18.7.1527
    [18] Hinton G E, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Process, 2012, 29(6): 82-97 doi: 10.1109/MSP.2012.2205597
    [19] Ma J, Wu F, Zhu J, Xu D, and Kong D. A pre-trained convolutional neural network based method for thyroid nodule diagnosis. Ultrasonics, 2017, 73: 221 doi: 10.1016/j.ultras.2016.09.011
    [20] Krizhevsky A, Sutskever I, and Hinton G E. Imagenet classification with deep convolutional neural networks. in Process Advance Neural Information Process System, 2012, 1097-1105
    [21] Jiang K, Jiang Z H, Xie Y F, Chen Z P, Pan D, Gui W H. Classification of silicon content variation trend based on fusion of multilevel features in blast furnace ironmaking. Information Sciences, 2020, 521: 32-45 doi: 10.1016/j.ins.2020.02.039
    [22] Wang Y L, Pan Z F, Yuan X F, Yang C H, and Gui W H. A novel deep learning based fault diagnosis approach for chemical process with extended deep belief network. ISA Transactions, 2020, 96: 457-467 doi: 10.1016/j.isatra.2019.07.001
    [23] Pan D, Jiang Z H, Chen Z P, Jiang K, Gui W H. Compensation method for molten iron temperature measurement based on heterogeneous features of infrared thermal images. IEEE Transactions on Industrial Informatics, 2020, 16(11): 7056-7066. doi: 10.1109/TII.2020.2972332
    [24] Pan D, Jiang Z H, Chen Z P, Gui W H, Xie Y F, Yang C H. Temperature measurement and compensation method of blast furnace molten iron based on infrared computer vision. IEEE Transactions on Instrumentation and Measurement, 2018, 68 (10): 3576-3588.
    [25] Vincent P, Larochelle H, Lajoie I, Bengio Y, and Manzagol P. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research, 2010, 11: 3371–3408
    [26] Vincent P, Larochelle H, Bengio Y, Manzagol P A. Extracting and composing robust features with denoising autoencoders. In: Proceedings of the 25th International Conference Machine Lea-rning. Helsinki, Finland: 2008. 1096−1103
    [27] Reshef D N, Reshef Y A. Detecting novel associations in large data sets. Science, 2011, 334(6062): 1518-1524 doi: 10.1126/science.1205438
    [28] Agarap A F. Deep learning using rectified linear units (ReLU). arXiv preprint arXiv: 1803.08375, 2018.
  • 期刊类型引用(7)

    1. 高云鹏,罗芸,孟茹,张微,赵海利. 基于ISSA-HKLSSVM的浮选精矿品位预测方法. 湖南大学学报(自然科学版). 2024(02): 111-120 . 百度学术
    2. 蒙西,王岩,孙子健,乔俊飞. 基于注意力模块化神经网络的城市固废焚烧过程氮氧化物排放预测. 化工学报. 2024(02): 593-603 . 百度学术
    3. 周孝廉. 基于规则的铁钢界面铁水温度预测功能开发. 冶金与材料. 2024(03): 19-21 . 百度学术
    4. 胡开成,严爱军,汤健. 城市固废焚烧过程炉温与烟气含氧量多目标鲁棒预测模型. 自动化学报. 2024(05): 1001-1014 . 本站查看
    5. 蒋朝辉,周科,桂卫华,曹婷,潘冬,朱既承. 基于运动轨迹和径向距离的高炉料面堆积形状建模方法. 自动化学报. 2023(06): 1155-1169 . 本站查看
    6. 陈婧,史大威,蔡德恒,王军政,朱玲玲. 数据驱动的间歇低氧训练贝叶斯优化决策方法. 自动化学报. 2023(08): 1667-1678 . 本站查看
    7. 黄山文. 铁水硅含量对铁钢系统生产平衡的影响分析. 冶金与材料. 2023(12): 163-165+168 . 百度学术

    其他类型引用(11)

  • 加载中
图(15) / 表(2)
计量
  • 文章访问数:  2492
  • HTML全文浏览量:  684
  • PDF下载量:  538
  • 被引次数: 18
出版历程
  • 收稿日期:  2021-06-10
  • 录用日期:  2021-11-02
  • 网络出版日期:  2021-11-21
  • 刊出日期:  2023-05-20

目录

/

返回文章
返回