2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于潜在特征选择性集成建模的二噁英排放浓度软测量

汤健 乔俊飞 郭子豪

王超, 刘侠, 董迪, 臧丽亚, 刘再毅, 梁长虹, 田捷. 基于影像组学的非小细胞肺癌淋巴结转移预测. 自动化学报, 2019, 45(6): 1087-1093. doi: 10.16383/j.aas.c160794
引用本文: 汤健, 乔俊飞, 郭子豪. 基于潜在特征选择性集成建模的二噁英排放浓度软测量. 自动化学报, 2022, 48(1): 223−238 doi: 10.16383/j.aas.c190254
WANG Chao, LIU Xia, DONG Di, ZANG Li-Ya, LIU Zai-Yi, LIANG Chang-Hong, TIAN Jie. Radiomics Based Lymph Node Metastasis Prediction in Non-small-cell Lung Cancer. ACTA AUTOMATICA SINICA, 2019, 45(6): 1087-1093. doi: 10.16383/j.aas.c160794
Citation: Tang Jian, Qiao Jun-Fei, Guo Zi-Hao. Dioxin emission concentration soft measurement based on multi-source latent feature selective ensemble modeling for municipal solid waste incineration process. Acta Automatica Sinica, 2022, 48(1): 223−238 doi: 10.16383/j.aas.c190254

基于潜在特征选择性集成建模的二噁英排放浓度软测量

doi: 10.16383/j.aas.c190254
基金项目: 国家自然科学基金 (62073006, 62021003), 北京市自然科学基金 (4212032, 4192009), 科学技术部国家重点研发计划(2018YFC1900800-5), 矿冶过程自动控制技术国家(北京市)重点实验室(BGRIMM-KZSKL-2020-02)资助
详细信息
    作者简介:

    汤健:北京工业大学教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制. 本文通信作者. E-mail: freeflytang@bjut.edu.cn

    乔俊飞:北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: junfeq@bjut.edu.cn

    郭子豪:北京工业大学信息学部硕士研究生. 主要研究方向为高维小样本数据的特征建模, 固废处理过程难测参数软测量. E-mail: miller94@163.com

Dioxin Emission Concentration Soft Measurement Based on Multi-source Latent Feature Selective Ensemble Modeling for Municipal Solid Waste Incineration Process

Funds: Supported by National Natural Science Foundation of China (62073006, 62021003),Beijing Natural Science Foundation (4212032,4192009), National Key Research and Development Program of the Ministry of Science and Technology (2018YFC1900800-5), and Beijing Key Laboratory of Process Automation in Mining and Metallurgy (BGRIMM-KZSKL-2020-02)
More Information
    Author Bio:

    TANG Jian Professor at Beijing University of Technology. His research interest covers small sample data modeling and intelligent control of municipal solid waste treatment process. Corresponding author of this paper

    QIAO Jun-Fei Professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, and structure design and optimization of neural networks

    GUO Zi-Hao Master student at the Faculty of Information Technology, Beijing University of Technology. His research interest covers feature modeling of high-dimensional small sample data and soft measurement of difficulty-to-measure parameters in municipal solid waste treatment process

  • 摘要: 二噁英(Dioxin,DXN)是导致城市固废焚烧(Municipal solid waste incineration, MSWI)建厂存在“邻避现象”的主要原因之一. 工业现场多采用离线化验手段检测DXN浓度, 难以满足污染物减排控制的需求. 针对上述问题, 本文提出了基于潜在特征选择性集成(Selective ensemble, SEN)建模的DXN排放浓度软测量方法. 首先, 采用主元分析(Principal component analysis, PCA)分别提取依据工艺阶段子系统及全流程系统过程变量的潜在特征, 并依据预设贡献率阈值进行特征初选; 接着, 采用互信息(Mutual information, MI)度量初选特征与DXN间的相关性, 并自适应确定再选的上下限及阈值; 最后, 采用具有超参数自适应选择机制的最小二乘−支持向量机(Least squares — support vector machine, LS-SVM)算法建立多源特征的候选子模型, 基于分支定界(Branch and bound, BB)优化和预测误差信息熵加权算法进行集成子模型的优化选择和加权组合, 进而得到软测量模型. 基于某MSWI焚烧厂DXN检测数据仿真验证了所提方法的有效性.
  • 肺癌是世界范围内发病率和死亡率最高的疾病之一, 占所有癌症病发症的18 %左右[1].美国癌症社区统计显示, 80 %到85 %的肺癌为非小细胞肺癌[2].在该亚型中, 大多数病人会发生淋巴结转移, 在手术中需对转移的淋巴结进行清扫, 现阶段通常以穿刺活检的方式确定淋巴结的转移情况.因此, 以非侵入性的方式确定淋巴结的转移情况对临床治疗具有一定的指导意义[3-5].然而, 基本的诊断方法在无创淋巴结转移的预测上存在很大挑战.

    影像组学是针对医学影像的兴起的热门方法, 指通过定量医学影像来描述肿瘤的异质性, 构造大量纹理图像特征, 对临床问题进行分析决策[6-7].利用先进机器学习方法实现的影像组学已经大大提高了肿瘤良恶性的预测准确性[8].研究表明, 通过客观定量的描述影像信息, 并结合临床经验, 对肿瘤进行术前预测及预后分析, 将对临床产生更好的指导价值[9].

    本文采用影像组学的方法来解决非小细胞肺癌淋巴结转移预测的问题.通过利用套索逻辑斯特回归(Lasso logistics regression, LLR)[10]模型得出基本的非小细胞肺癌淋巴结的转移预测概率, 并把组学模型的预测概率作为独立的生物标志物, 与患者的临床特征一起构建多元Logistics预测模型并绘制个性化诺模图, 在临床决策中的起重要参考作用.

    我们收集了广东省人民医院2007年5月至2014年6月期间的717例肺癌病例.这些病人在签署知情同意书后, 自愿提供自己的信息作为研究使用.为了充分利用收集到的数据对非小细胞肺癌淋巴结转移预测, 即对$N1-N3$与$N0$进行有效区分, 我们对收集的数据设置了三个入组标准: 1)年龄大于等于18周岁, 此时的肺部已经发育完全, 消除一定的干扰因素; 2)病理诊断为非小细胞肺癌无其他疾病干扰, 并有完整的CT (Computed tomography)增强图像及个人基本信息; 3)有可利用的术前病理组织活检分级用于确定N分期.经筛选, 共564例病例符合进行肺癌淋巴结转移预测研究的要求(如图 1).

    图 1  数据筛选流程图
    Fig. 1  Data filtering flow chart

    为了得到有价值的结果, 考虑到数据的分配问题, 为了保证客观性, 防止挑数据的现象出现, 在数据分配上, 训练集与测试集将按照时间进行划分, 并以2013年1月为划分点.得到训练集: 400例, 其中, 243例正样本$N1-N3$, 157例负样本$N0$; 测试集: 164例, 其中, 93例正样本, 71例负样本.

    在进行特征提取工作前, 首先要对肿瘤病灶进行分割.医学图像分割的金标准是需要有经验的医生进行手动勾画的结果.但手动分割无法保证每次的分割结果完全一致, 且耗时耗力, 尤其是在数据量很大的情况下.因此, 手动分割不是最理想的做法.在本文中, 使用的自动图像分割算法为基于雪橇的自动区域生长分割算法[11], 该算法首先选定最大切片层的种子点, 这时一般情况下最大切片为中间层的切片, 然后估计肿瘤的大小即直径, 作为一个输入参数, 再自动进行区域生长得到每个切片的肿瘤如图 2(a1), (b1), 之后我们进行雪橇滑动到邻接的上下两个切面, 进行分割, 这样重复上述的区域生长即滑动切片, 最终分割得到多个切片的的肿瘤区域, 我们将肿瘤切面层进行组合, 得到三维肿瘤如图 2(a2), (b2).

    图 2  三维病灶的分割
    Fig. 2  3D tumor segmentation

    利用影像组学处理方法, 从分割得到的肿瘤区域中总共提取出386个特征.这些特征可分为四组:三维形状特征, 表面纹理特征, Gabor特征和小波特征[12-13].形状特征通过肿瘤体积、表面积、体积面积比等特征描述肿瘤在空间和平面上的信息.纹理特征通过统计三维不同方向上像素的规律, 通过不同的分布规律来表示肿瘤的异质性. Gabor特征指根据特定方向, 特定尺度筛选出来的纹理信息.

    小波特征是指原图像经过小波变换滤波器后的纹理特征.在模式识别范畴中, 高维特征会增加计算复杂度, 此外, 高维的特征往往存在冗余性, 容易造成模型过拟合.因此, 本位通过特征筛选方法首先对所有特征进行降维处理.

    本文采用$L$1正则化Lasso进行特征筛选, 对于简单线性回归模型定义为:

    $$ \begin{equation} f(x)=\sum\limits_{j=1}^p {w^jx^j} =w^\mathrm{T}x \end{equation} $$ (1)

    其中, $x$表示样本, $w$表示要拟合的参数, $p$表示特征的维数.

    要进行参数$w$学习, 应用二次损失来表示目标函数, 即:

    $$ \begin{equation} J(w)=\frac{1}{n}\sum\limits_{i=1}^n{(y_i-f(x_i)})^2= \frac{1}{n}\vert\vert\ {{y}-Xw\vert\vert}^2 \end{equation} $$ (2)

    其中, $X$是数据矩阵, $X=(x_1 , \cdots, x_n)^\mathrm{T}\in {\bf R}^{n\times p}$, ${y}$是由标签组成的列向量, ${y}=(y_1, \cdots, y_n )^\mathrm{T}$.

    式(2)的解析解为:

    $$ \begin{equation} \hat{w}=(X^\mathrm{T}X)^{-1}X^\mathrm{T}{y} \end{equation} $$ (3)

    然而, 若$p\gg n$, 即特征维数远远大于数据个数, 矩阵$X^\mathrm{T}X$将不是满秩的, 此时无解.

    通过Lasso正则化, 得到目标函数:

    $$ \begin{equation} J_L(w)=\frac{1}{n} \vert\vert{y}-Xw\vert\vert^2+\lambda\vert\vert w\vert\vert _1 \end{equation} $$ (4)

    目标函数最小化等价为:

    $$ \begin{equation} \mathop {\min }\limits_w \frac{1}{n} \vert\vert{y}-Xw\vert\vert^2, \, \, \, \, \, \, \, \mathrm{s.t.}\, \, \vert \vert w\vert \vert _1 \le C \end{equation} $$ (5)

    为了使部分特征排除, 本文采用$L$1正则方法进行压缩.二维情况下, 在$\mbox{(}w^1, w^2)$平面上可画出目标函数的等高线, 取值范围则为平面上半径为$C$的$L$1范数圆, 等高线与$L$1范数圆的交点为最优解. $L$1范数圆和每个坐标轴相交的地方都有"角''出现, 因此在角的位置将产生稀疏性.而在维数更高的情况下, 等高线与L1范数球的交点除角点之外还可能产生在很多边的轮廓线上, 同样也会产生稀疏性.对于式(5), 本位采用近似梯度下降(Proximal gradient descent)[14]算法进行参数$w$的迭代求解, 所构造的最小化函数为$Jl=\{g(w)+R(w)\}$.在每次迭代中, $Jl(w)$的近似计算方法如下:

    $$ \begin{align} J_L (w^t+d)&\approx \tilde {J}_{w^t} (d)=g(w^t)+\nabla g(w^t)^\mathrm{T}d\, +\nonumber\\ &\frac{1} {2d^\mathrm{T}(\frac{I }{ \alpha })d}+R(w^t+d)=\nonumber\\ &g(w^t)+\nabla g(w^t)^\mathrm{T}d+\frac{{d^\mathrm{T}d} } {2\alpha } +\nonumber\\ &R(w^t+d) \end{align} $$ (6)

    更新迭代$w^{(t+1)}\leftarrow w^t+\mathrm{argmin}_d \tilde {J}_{(w^t)} (d)$, 由于$R(w)$整体不可导, 因而利用子可导引理得:

    $$ \begin{align} w^{(t+1)}&=w^t+\mathop {\mathrm{argmin}} \nabla g(w^t)d^\mathrm{T}d\, +\nonumber\\ &\frac{d^\mathrm{T}d}{2\alpha }+\lambda \vert \vert w^t+d\vert \vert _1=\nonumber\\ &\mathrm{argmin}\frac{1 }{ 2}\vert \vert u-(w^t-\alpha \nabla g(w^t))\vert \vert ^2+\nonumber\\ &\lambda \alpha \vert \vert u\vert \vert _1 \end{align} $$ (7)

    其中, $S$是软阈值算子, 定义如下:

    $$ \begin{equation} S(a, z)=\left\{\begin{array}{ll} a-z, &a>z \\ a+z, &a<-z \\ 0, &a\in [-z, z] \\ \end{array}\right. \end{equation} $$ (8)

    整个迭代求解过程为:

    输入.数据$X\in {\bf R}^{n\times p}, {y}\in {\bf R}^n$, 初始化$w^{(0)}$.

    输出.参数$w^\ast ={\rm argmin}_w\textstyle{1 \over n}\vert \vert Xw-{y}\vert \vert ^2+\\ \lambda \vert\vert w\vert \vert _1 $.

    1) 初始化循环次数$t = 0$;

    2) 计算梯度$\nabla g=X^\mathrm{T}(Xw-{y})$;

    3) 选择一个步长大小$\alpha ^t$;

    4) 更新$w\leftarrow S(w-\alpha ^tg, \alpha ^t\lambda )$;

    5) 判断是否收敛或者达到最大迭代次数, 未收敛$t\leftarrow t+1$, 并循环2)$\sim$5)步.

    通过上述迭代计算, 最终得到最优参数, 而参数大小位于软区间中的, 将被置为零, 即被稀疏掉.

    本文使用LLR对组学特征进行降维并建模, 并使用10折交叉验证, 提高模型的泛化能力, 流程如图 3所示.

    图 3  淋巴结转移预测模型构造图
    Fig. 3  Structure of lymph node metastasis prediction model

    将本文使用的影像组学模型的预测概率(Radscore)作为独立的生物标志物, 并与临床指标中显著的特征结合构建多元Logistics模型, 绘制个性化预测的诺模图, 最后通过校正曲线来观察预测模型的偏移情况.

    我们分别在训练集和验证集上计算各个临床指标与淋巴结转移的单因素P值, 计算方式为卡方检验, 结果见表 1, 发现吸烟与否和EGFR (Epidermal growth factor receptor)基因突变状态与淋巴结转移显著相关.

    表 1  训练集和测试集病人的基本情况
    Table 1  Basic information of patients in the training set and test set
    基本项训练集($N=400$) $P$值测试集($N=164$) $P$值
    性别144 (36 %)0.89678 (47.6 %)0.585
    256 (64 %)86 (52.4 %)
    吸烟126 (31.5 %)0.030*45 (27.4 %)0.081
    274 (68.5 %)119 (72.6 %)
    EGFR缺失36 (9 %)4 (2.4 %)
    突变138 (34.5 %)$ < $0.001*67 (40.9 %)0.112
    正常226 (56.5 %)93 (56.7 %)
    下载: 导出CSV 
    | 显示表格

    影像组学得分是每个病人最后通过模型预测后的输出值, 随着特征数的动态变化, 模型输出的AUC (Area under curve)值也随之变化, 如图 4所示, 使用R语言的Glmnet库可获得模型的参数$\lambda $的变化图.图中直观显示了参数$\lambda $的变化对模型性能的影响, 这次实验中模型选择了3个变量.如图 5所示, 横坐标表示$\lambda $的变化, 纵坐标表示变量的系数变化, 当$\lambda $逐渐变大时, 变量的系数逐渐减少为零, 表示变量选择的过程, 当$\lambda $越大表示模型的压缩程度越大.

    图 4  $\lambda $与变量数目对应走势
    Fig. 4  The trend of the parameters and the number of variables
    图 5  系数随$\lambda $参数变化图
    Fig. 5  The coefficient changes with the parameters

    通过套索回归方法, 自动的将变量压缩为3个, 其性能从图 4中也可发现, 模型的AUC值为最佳, 最终的特征如表 2所示. $V0$为截距项; $V179$为横向小波分解90度共生矩阵Contrast特征; $V230$为横向小波分解90度共生矩阵Entropy特征.

    表 2  Lasso选择得到的参数
    Table 2  Parameters selected by Lasso
    Lasso选择的参数含义数值$P$值
    $V0$截距项2.079115
    $V179$横向小波分解90度共生矩阵Contrast特征(Contrast_2_90)0.0000087< 0.001***
    $V230$横向小波分解90度共生矩阵Entropy特征(Entropy_3_180)$-$3.573315< 0.001***
    $V591$表面积与体积的比例(Surface to volume ratio)$-$1.411426< 0.001***
    下载: 导出CSV 
    | 显示表格

    $V591$为表面积与体积的比例; 将三个组学特征与$N$分期进行单因素分析, 其$P$值都是小于0.05, 表示与淋巴结转移有显著相关性.根据Lasso选择后的三个变量建立Logistics模型并计算出Rad-score, 详见式(9).并且同时建立SVM (Support vector machine)模型.

    NB (Naive Bayesian)模型, 进行训练与预测, LLR模型训练集AUC为0.710, 测试集为0.712, 表现较优; 如表 3所示.将实验中使用的三个机器学习模型的结果进行对比, 可以发现, LLR的实验结果是最好的.

    表 3  不同方法对比结果
    Table 3  Comparison results of different methods
    方法训练集(AUC)测试集(AUC)召回率
    LLR0.7100.7120.75
    SVM0.6980.6540.75
    NB0.7180.6810.74
    下载: 导出CSV 
    | 显示表格
    $$ \begin{equation} \begin{aligned} &\text{Rad-score}=2.328373+{\rm Contrast}\_2\_90\times\\ &\qquad 0.0000106 -{\rm entropy}\_3\_180\times 3.838207 +\\ &\qquad\text{Maximum 3D diameter}\times 0.0000002 -\\ &\qquad\text{Surface to volume ratio}\times 1.897416 \\ \end{aligned} \end{equation} $$ (9)

    为了体现诺模图的临床意义, 融合Rad-score, 吸烟情况和EGFR基因因素等有意义的变量进行分析, 绘制出个性化预测的诺模图, 如图 7所示.为了给每个病人在最后得到一个得分, 需要将其对应变量的得分进行相加, 然后在概率线找到对应得分的概率, 从而实现非小细胞肺癌淋巴结转移的个性化预测.我们通过一致性指数(Concordance index, $C$-index)对模型进行了衡量, 其对应的$C$-index为0.724.

    图 6  测试集ROC曲线
    Fig. 6  ROC curve of test set
    图 7  验证诺模图
    Fig. 7  Verifies the nomogram

    本文中使用校正曲线来验证诺模图的预测效果, 如图 8所示, 由校正曲线可以看出, 预测结果基本上没有偏离真实标签的结果, 表现良好, 因此, 该模型具有可靠的预测性能[15].

    图 8  一致性曲线
    Fig. 8  Consistency curves

    在构建非小细胞肺癌淋巴结转移的预测模型中, 使用LLR筛选组学特征并构建组学标签, 并与显著的临床特征构建多元Logistics模型, 绘制个性化预测的诺模图.其中LLR模型在训练集上的AUC值为0.710, 在测试集上的AUC值为0.712, 利用多元Logistics模型绘制个性化预测的诺模图, 得到模型表现能力$C$-index为0.724 (95 % CI: 0.678 $\sim$ 0.770), 并且在校正曲线上表现良好, 所以个性化预测的诺模图在临床决策上可起重要参考意义.[16].


  • 收稿日期 2019-03-27 录用日期 2019-06-27 Manuscript received March 27, 2019; accepted June 27, 2019 国家自然科学基金 (62073006, 62021003), 北京市自然科学基金 (4212032, 4192009), 科学技术部国家重点研发计划(2018YFC1900800-5), 矿冶过程自动控制技术国家(北京市)重点实验室(BGRIMM-KZSKL-2020-02)资助 Supported by National Natural Science Foundation of China (62073006, 62021003), Beijing Natural Science Foundation (4212032, 4192009), National Key Research and Development Program of the Ministry of Science and Technology (2018YFC1900800-5),
  • and Beijing Key Laboratory of Process Automation in Mining and Metallurgy (BGRIMM-KZSKL-2020-02) 本文责任编委 刘艳军 Recommended by Associate Editor LIU Yan-Jun 1. 北京工业大学信息学部 北京 100124 2. 计算智能与智能系统北京市重点实验室 北京 100124 1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124 2. Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124
  • 图  1  基于DXN视角的MSWI过程描述

    Fig.  1  MSWI process description based on DXN perspective

    图  2  基于潜在特征SEN建模的DXN排放浓度软测量策略

    Fig.  2  Soft sensing strategy of DXN emission concentration based on latent feature SEN modeling

    图  3  不同功能子系统的前6个PC的累积贡献率

    Fig.  3  Cumulative contribution rate of the first six PCs of different functional subsystems

    图  4  全部子系统及MSWI全流程系统的初选潜在特征与DXN间的MI值

    Fig.  4  MI value between DXN and primary potential characteristics of all subsystems and MSWI whole process systems

    图  5  子模型超参数自适应寻优的第1次和第2次的曲线

    Fig.  5  Curves of the 1st and 2nd curves for adaptive hyperparametric optimization of submodels

    表  1  本文中的公式符号及其说明汇总表

    Table  1  Summary of formula symbols and their explanations in this paper

    符号含义符号含义
    ${ {{\boldsymbol{y}}} }$DXN 排放浓度软测量模型的真值${\boldsymbol{\hat y} }$DXN排放浓度软测量模型的预测输出
    $N$建模样本数量$M$输入过程变量数量
    ${ {{\boldsymbol{X}}} }$MSWI 全流程系统的输入数据${\boldsymbol{X} }_{}^i$第$i$个子系统的输入数据
    ${ {{\boldsymbol{I}} - 1} }$MSWI 全流程系统划分子系统个数$M_{}^i$第$i$个子系统包含的过程变量个数
    ${ {{\boldsymbol{Z}}} }_{ {\rm{FeAll} } }^i$第$i$个子系统的过程变量采用PCA提取的全部潜在特征$M_{{\rm{FeAll}}}^i$第$i$个子系统的过程变量采用PCA提取的全部潜在特征的数量
    ${ {{\boldsymbol{Z}}} }_{ {\rm{FeSe1st} } }^i$第$i$个子系统的初选潜在特征${\theta _{{\rm{Contri}}}}$对全部潜在特征进行初选的设定阈值
    $M_{{\rm{FeSe1st}}}^i$第$i$个子系统初选潜在特征的数量$M_{{\rm{FeSe2nd}}}^i$第$i$个子系统再选潜在特征的数量
    ${ {{\boldsymbol{Z}}} }_{ {\rm{FeSe2nd} } }^i$第$i$个子系统的再选潜在特征${\theta _{{\rm{MI}}}}$再选潜在特征的选择阈值${\theta _{{\rm{MI}}}}$
    ($K_{{\rm{er}}}^i$, $R_{{\rm{eg}}}^i$)第$i$个子模型的核参数和正则化参数 , 即超参数对$i$第$i$个子模型的预测输出
    ${ {{\boldsymbol{t}}} }_{m_{ {\rm{FeAll} } }^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个主元的得分向量${ {{\boldsymbol{p}}} }_{m_{ {\rm{FeAll} } }^i}^ii$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个主元的载荷向量
    ${ {{\boldsymbol{T}}} }_{}^i$第$i$个子系统的得分矩阵${\boldsymbol{P}}^i $第$i$个子系统的载荷矩阵
    $\lambda _{m_{{\rm{FeAll}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个载荷向量${\boldsymbol{p} }_{m_{ {\rm{FeAll} } }^i}^i$相对应的特征值$\theta _{m_{{\rm{FeAll}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个潜在特征的贡献率
    $\xi _{m_{{\rm{FeAll}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个潜在特征是否被选中的标记值$\xi _{{\rm{MI}}}^{m_{{\rm{FeSelst}}}^i}$第$i$个子系统的初选潜在特征${\boldsymbol{z} }_{m_{ {\rm{FeSelst} } }^i}^i$与DXN排放浓度间的MI值
    $\theta _{{\rm{Contri}}}^{{\rm{Uplimit}}}$潜在特征再选阈值的上限值$\theta _{{\rm{Contri}}}^{{\rm{Downlimit}}}$潜在特征再选阈值的下限值
    $\theta _{{\rm{Contri}}}^{{\rm{Step}}}$潜在特征再选阈值的固定步长$\beta _{m_{{\rm{FeSe1st}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeSe1st} } }^i$个初选潜在特征是否被选中的标记值
    ${ { {{\boldsymbol{w}}} }^i}$第$i$个子模型的权重系数${b^i}$第$i$个子模型的偏置系数
    ${{\bf{\beta }}^i}$第$i$个子模型的拉格朗日算子向量${{\bf{\zeta }}^i}$第$i$个子模型的预测误差向量
    $M_{{\rm{para}}}^{}$候选超参数矩阵$\{ K_{{\rm{er}}}^i,R_{{\rm{eg}}}^i\} $第$i$个子模型在$M_{{\rm{para}}}^{}$中自适应选择的超参数对
    $K$候选核参数数量$R$候选惩罚参数数量
    $J = K \times R$超参数矩阵中的超参数对的数量$\begin{array}{l}\{ {(K_{{\rm{er}}}^{{\rm{initial}}})^i}, {(R_{{\rm{eg}}}^{{\rm{initial}}})^i}\}\end{array}$第$i$个子模型在采用网格搜索策略在矩阵$M_{{\rm{para}}}^{}$中初选的超参数对
    ${({ {{\boldsymbol{K}}} }_{ {\rm{er} } }^{ {\rm{vector} } })^i}$依据初选超参数对计算的新候选核参数向量${({ {{\boldsymbol{R}}} }_{ {\rm{eg} } }^{ {\rm{vector} } })^i}$依据初选超参数对计算的新候选惩罚参数向量
    ${N_{{\rm{ker}}}}$新候选核参数的数量${N_{{\rm{reg}}}}$新候选惩罚参数的数量
    $k_{{\rm{supara}}}^{{\rm{down}}}$,$k_{{\rm{supara}}}^{{\rm{up}}}$确定超参数向量的收缩和扩放因子${f^i}( \cdot )$第$i$个子模型
    ${f^{{i_{{\rm{sel}}}}}}( \cdot )$第${i_{ {\rm{sel} } } }$个集成子模型$w_{{i_{{\rm{sel}}}}}^{}$第${i_{ {\rm{sel} } } }$个集成子模型的加权系数
    ${\hat y_{{i_{{\rm{sel}}}}}}$第${i_{ {\rm{sel} } } }$个集成子模型的预测值$K_{{\rm{er}}}^{{i_{{\rm{sel}}}}}$,$R_{{\rm{eg}}}^{{i_{{\rm{sel}}}}}$第${i_{ {\rm{sel} } } }$个集成子模型的超参数
    ${(\hat y_{{i_{{\rm{sel}}}}}^{})_n}$第$n$个样本基于第${i_{ {\rm{sel} } } }$个集成子模型的预测值${(e_{{i_{{\rm{sel}}}}}^{})_n}$第$n$个样本基于第${i_{ {\rm{sel} } } }$个集成子模型的相对预测误差
    $E_{{i_{{\rm{sel}}}}}^{}$第${i_{ {\rm{sel} } } }$个集成子模型的预测误差信息熵
    下载: 导出CSV

    表  2  初选潜在特征的数量及其贡献率

    Table  2  Number of the primary selected latent feature and their contribution ratio

    子系统代号IncineratorBoilerFlue gasSteamStackCommonMSWI
    特征编号129.9070.9954.5763.3442.9146.3343.58
    221.7512.6610.4216.5618.0614.1013.40
    311.146.0588.9017.69117.308.6538.761
    46.9525.0147.1463.90612.656.7985.921
    56.6353.0365.0412.0307.2114.4834.822
    65.0751.3564.2691.5331.8544.2213.246
    73.7923.2371.1843.5013.071
    83.2082.5841.0072.8422.919
    92.7841.1902.1162.444
    101.8461.4942.138
    111.5141.2561.911
    121.2831.1641.731
    131.1291.481
    141.344
    151.068
    初选潜在特征数量1369561215
    原始过程变量数量791419536115286
    下载: 导出CSV

    表  3  全部子系统及MSWI全流程系统初选潜在特征MI值的极值统计表

    Table  3  Extremum statistical table of potential characteristic MI values for primary selection latent feature of all Subsystems and MSWI whole process system

    子系统最大值集合 最小值集合
    MI 值贡献率 (%)PC 编号MI 值贡献率 (%)PC 编号
    Incinerator0.85591.51411 0.681429.901
    Boiler0.80193.03650.552770.991
    Flue gas0.831610.4220.608454.571
    Steam0.82497.69130.605963.341
    Stack0.806717.3030.718242.911
    Common0.86134.22160.540046.331
    MSWI0.78824.82250.442943.581
    下载: 导出CSV

    表  4  再选潜在特征数量和MI值统计表

    Table  4  Statistical table of re-selected latent feature's number and MI value

    子系统数量MI值
    Incinerator50.79520.82670.82580.85590.8088
    Boiler20.80190.7952
    Flue gas10.8316
    Steam30.82490.80220.8019
    Stack20.79520.8067
    Common60.80190.86130.80880.79040.83830.8316
    MSWI10.7882
    下载: 导出CSV

    表  5  不同建模方法统计结果

    Table  5  Statistical results of different modeling methods

    方法过程变量数量加权方法RMSE参数 (LV/PC) $( K_{ {\rm{er} } }^{},R_{ {\rm{eg} } }^{})$备注
    文献 [22]120.08869 ± 0.3000(—) (—)单模型, RWNN
    文献 [24]80.02695(—) (21, 21)单模型, SVM
    文献 [37]6AWF0.02306(—) (0.1, 1; 400, 6400; 12800,
    25600; 51200, 102400)
    SEN, 基于多核参数
    PLS2860.01790(13) (—)单模型, MSWI系统
    PCA-LS-SVM2860.01563(18) (36240, 83904)单模型, MSWI系统
    集成建模 (EN)286PLS0.01420(5, 2, 1, 3, 2, 6, 1) (109, 109; 10000,
    25.75; 5.950, 0.0595; 30.70, 2.080;
    5.950, 0.5950; 1520800, 22816;
    1362400, 158.5)
    PCA-MI-LSSVM子模型, EN,
    全部子模型
    AWF0.01851
    Entropy0.01625
    选择性集成建模(SEN) (本文方法)286 (104)BB-AWF0.01348(5, 1, 2) (109, 109; 5.950, 0.0595; 5.950, 0.5950)PCA-MI-LSSVM子模型, SEN, Incinerator, Flue gas,
    Stack共3个子模型
    BB-Entropy0.01332
    下载: 导出CSV
  • [1] 柴天佑. 复杂工业过程运行优化与反馈控制[J]. 自动化学报, 2013, 39(11): 1744-1757.

    Chai Tian-You. Operational optimization and feedback control for complex industrial processes. Acta Automatica Sinica, 2013, 39(11): 1744-1757
    [2] Chai T Y, Ding J L, Yu G, Wang H. Integrated optimization for the automation systems of mineral processing. IEEE Transactions on Automation Science & Engineering, 2014, 11(4): 965-982.
    [3] Chai T Y, Qin S J, Wang H. Optimal operational control for complex industrial processes. Annu. Rev. Control, 2014, 38(1): 81-92. doi: 10.1016/j.arcontrol.2014.03.005
    [4] Arafat H A, Jijakli K, Ahsan A. Environmental performance and energy recovery potential of five processes for municipal solid waste treatment. Journal of Cleaner Production, 2015, 105: 233-240. doi: 10.1016/j.jclepro.2013.11.071
    [5] Yuanan H, Hefa C, Shu T. The growing importance of waste-to-energy (WTE) incineration in China's anthropogenic mercury emissions: Emission inventories and reduction strategies. Renewable and Sustainable Energy Reviews, 2018, 97: 119-137. doi: 10.1016/j.rser.2018.08.026
    [6] Huang T, Zhou L, Liu L, Xia M. Ultrasound-enhanced electrokinetic remediation for removal of Zn, Pb, Cu and Cd in municipal solid waste incineration fly ashes. Waste Management, 2018, 75: 226-235. doi: 10.1016/j.wasman.2018.01.029
    [7] Jones P H, Degerlache J, Marti E, Mischer G, Scherrer M C, Bontinck W J, Niessen H J. The global exposure of man to dioxins - a perspective on industrial-waste incineration. Chemosphere, 1993, 26: 1491-1497. doi: 10.1016/0045-6535(93)90216-R
    [8] Li X, Zhang C, Li Y, Zhi Q. The Status of Municipal Solid Waste Incineration (MSWI) in China and its Clean Development. Energy Procedia, 2016, 104: 498-503. doi: 10.1016/j.egypro.2016.12.084
    [9] Phillips K, Longhurst P J, Wagland S T. Assessing the perception and reality of arguments against thermal waste treatment plants in terms of property prices. Waste Management. 2014, 34(1): 219-225. doi: 10.1016/j.wasman.2013.08.018
    [10] Zhang H J, Ni Y W, Chen J P, Zhang Q. Influence of variation in the operating conditions on PCDD/F distribution in a full-scale MSW incinerator. Chemosphere, 2008, 70(4): 721-730. doi: 10.1016/j.chemosphere.2007.06.054
    [11] Mukherjee A, Debnath B, Ghosh S K. A review on technologies of removal of dioxins and furans from incinerator flue gas. Procedia Environmental Sciences, 2016, 35: 528-540. doi: 10.1016/j.proenv.2016.07.037
    [12] Stanmore B R. Modeling the formation of PCDD/F in solid waste incinerators. Chemosphere, 2002, 47: 565-773. doi: 10.1016/S0045-6535(02)00005-X
    [13] 乔俊飞, 郭子豪, 汤健. 面向城市固废焚烧过程的二噁英排放浓度检测方法综述. 自动化学报, 2020, 46(6): 1063−1089

    Qiao Jun-Fei, Guo Zi-Hao, Tang Jian. Dioxin emission concentration measurement approaches for municipal solid wastes incineration process: A survey. Acta Automatica Sinica, 2020, 46(6): 1063−1089
    [14] Pandelova M, Lenoir D, Schramm K W. Correlation between PCDD/F, PCB and PCBz in coal/waste combustion Influence of various inhibitors. Chemosphere, 2006, 62: 1196-1205. doi: 10.1016/j.chemosphere.2005.07.068
    [15] Gullett B K, Oudejans L, Tabor D, Touati A, Ryan S. Near-real-time combustion monitoring for PCDD/PCDF indicators by GC-REMPI-TOFMS. Environmental Engineering Science, 2012, 46: 923-928.
    [16] Wang W, Chai T Y, Yu W, Wang H, Su C Y. Modeling component concentrations of sodium aluminate solution via hammerstein recurrent neural networks. IEEE Transactions on Control Systems Technology, 2012, 20(4): 971−982
    [17] Tang J, Chai T Y, Yu W, Zhao L J. Modeling load parameters of ball mill in grinding process based on selective ensemble multisensor information. IEEE Transactions on Automation Science & Engineering, 2013, 10(3): 726-740.
    [18] Li D C, Liu C W. Extending attribute information for small data set classication. IEEE Transactions on Knowledge and Data Engineering, 2010, 24(3): 452-464
    [19] 汤健, 乔俊飞, 柴天佑, 刘卓, 吴志伟. 基于虚拟样本生成技术的多组分机械信号建模. 自动化学报, 2018, 44(9): 1569-1590.

    Tang Jian, Qiao Jun-Fei, Chai Tian-You, Liu Zhuo, Wu Zhi-Wei. Modeling Multiple Components Mechanical Signals by Means of Virtual Sample Generation Technique. Acta Automatica Sinica, 2018, 44(9): 1569-1590.
    [20] Chang N B, Huang S H. Statistical modelling for the prediction and control of PCDDs and PCDFs emissions from municipal solid waste incinerators. Waste Management & Research, 1995, 13: 379-400.
    [21] Chang N B, Chen W C. Prediction of PCDDs/PCDFs emissions from municipal incinerators by genetic programming and neural network modeling. Waste Management & Research, 2000, 18(4): 41-351.
    [22] Bunsan S, Chen W Y, Chen H W, Chuang Y H, Grisdanurak N. Modeling the dioxin emission of a municipal solid waste incinerator using neural networks. Chemosphere, 2013, 92: 258-264. doi: 10.1016/j.chemosphere.2013.01.083
    [23] Gomes T A F, Prud êncio R B C, Soares C, Rossi A L D, Carvalho A. Combining meta-learning and search techniques to select parameters for support vector machines. Neurocomputing, 2012, 75(1): 3-13. doi: 10.1016/j.neucom.2011.07.005
    [24] 肖晓东, 卢加伟, 海景, 等. 垃圾焚烧烟气中二噁英类浓度的支持向量回归预测. 可再生能源, 2017, 35(8): 1107-1114

    Xiao Xiao-Dong, Lu Jia-Wei, Hai Jing. Prediction of dioxin emissions in flue gas from waste incineration based on support vector regression. Renewable Energy Resources, 2017, 35(8): 1107-1114.
    [25] Tang J, Chai T Y, Yu W, Zhao L J. Feature extraction and selection based on vibration spectrum with application to estimate the load parameters of ball mill in grinding process. Control Engineering Practice, 2012, 20(10): 991-1004. doi: 10.1016/j.conengprac.2012.03.020
    [26] Soares C. A hybrid meta-learning architecture for multi-objective optimization of SVM parameters. Neurocomputing, 2014, 143(143): 27-43.
    [27] Yu G, Chai T Y, Luo X C. Multiobjective production planning optimization using hybrid evolutionary algorithms for mineral processing. IEEE Transact. Evolut. Comput. 2011, 15(4): 487-514. doi: 10.1109/TEVC.2010.2073472
    [28] Yin S, Yin J. Tuning kernel parameters for SVM based on expected square distance ratio. Information Sciences, 2016, 370-371: 92-102. doi: 10.1016/j.ins.2016.07.047
    [29] Tang J, liu Z, Zhang J, Wu Z W, Chai T Y, Yu W. Kernel latent feature adaptive extraction and selection method for multi-component non-stationary signal of industrial mechanical device, Neurocomputing, 2016, 216(C): 296-309.
    [30] 汤健, 田福庆, 贾美英. 基于频谱数据驱动的旋转机械设备负荷软测量. 北京: 国防工业出版社, 2015.

    Tang Jian, Tian Fu-Qing, Jia Mei-Ying. Soft Measurement of Rotating Machinery Equipment Load Based on Spectrum Data Drive. Beijing: National Defense Industry Press, 2015.
    [31] Brown G, Wyatt J, Harris R, Yao X. Diversity creation methods: a survey and categorisation. Information Fusion, 2005, 6: 5-20 doi: 10.1016/j.inffus.2004.04.004
    [32] Tang J, Chai T Y, Yu W, Liu Z, Zhou X J. A Comparative study that measures ball mill load parameters through different single-scale and multi-scale frequency spectra-based approaches, IEEE Transactions on Industrial Informatics. 2016, 12(6): 2008-2019. doi: 10.1109/TII.2016.2586419
    [33] Zhou Z H, Wu J, Tang W, Ensembling neural networks: many could be better than all, Artificial Intelligence, 2002, 137(1-2): 239-263. doi: 10.1016/S0004-3702(02)00190-X
    [34] Ma G, Wang Y, Wu L. Subspace ensemble learning via totally-corrective boosting for gait recognition. Neurocomputing, 2017, 224: 119-127. doi: 10.1016/j.neucom.2016.10.047
    [35] Tang J, Qiao J, Wu Z W, et al. Vibration and acoustic frequency spectra for industrial process modeling using selective fusion multi-condition samples and multi-source features. Mechanical Systems and Signal Processing, 2018, 99: 142-168. doi: 10.1016/j.ymssp.2017.06.008
    [36] Soares S, Antunes C H, Rui Ara újo. Comparison of a genetic algorithm and simulated annealing for automatic neural network ensemble development. Neurocomputing, 2013, 121(18): 498-511.
    [37] 汤健, 乔俊飞. 基于选择性集成核学习算法的固废焚烧过程二噁英排放浓度软测量, 化工学报, 2019, 70(2): 696−706

    Tang Jian, Qiao Jun-Fei. Dioxin emission concentration soft measuring approach of municipal solid waste incineration based on selective ensemble kernel learning algorithm, Journal of Chemical Industry and Engineering (China), 2019, 70(2): 696−706
    [38] Tang J, Chai T, Liu Z, et al. Selective ensemble modeling based on nonlinear frequency spectral feature extraction for predicting load parameter in ball mills. Chinese Journal of Chemical Engineering, 2015, 23(12): 2020-2028. doi: 10.1016/j.cjche.2015.10.006
  • 期刊类型引用(14)

    1. 王圣洁,刘乾义,文超,李忠灿,田文华. 考虑致因的初始晚点影响列车数预测模型研究. 综合运输. 2024(02): 105-110 . 百度学术
    2. 刘鲁岳,肖宝弟,岳丽丽. 基于改进RF-XGBoost算法的列车运行晚点预测研究. 铁道标准设计. 2023(03): 38-43 . 百度学术
    3. 李建民,许心越,丁忻. 基于多阶段特征优选的高速铁路列车晚点预测模型. 中国铁道科学. 2023(04): 219-229 . 百度学术
    4. 林鹏,田宇,袁志明,张琦,董海荣,宋海锋,阳春华. 高速铁路信号系统运维分层架构模型研究. 自动化学报. 2022(01): 152-161 . 本站查看
    5. 文超,李津,李忠灿,智利军,田锐,宋邵杰. 机器学习在铁路列车调度调整中的应用综述. 交通运输工程与信息学报. 2022(01): 1-14 . 百度学术
    6. 张芸鹏,朱志强,王子维. 高速铁路行车调度作业风险管控信息系统设计研究. 铁道运输与经济. 2022(03): 47-52+59 . 百度学术
    7. 张红斌,李军,陈亚茹. 京沪高铁列车运行晚点预测方法研究. 铁路计算机应用. 2022(05): 1-6 . 百度学术
    8. 俞胜平,韩忻辰,袁志明,崔东亮. 基于策略梯度强化学习的高铁列车动态调度方法. 控制与决策. 2022(09): 2407-2417 . 百度学术
    9. 唐涛,甘婧. 基于国内外铁路运营数据的列车运行时间预测模型. 中国安全科学学报. 2022(06): 123-130 . 百度学术
    10. 刘睿,徐传玲,文超. 基于马尔科夫链的高铁列车连带晚点横向传播. 铁道科学与工程学报. 2022(10): 2804-2812 . 百度学术
    11. 廖璐,张亚东,葛晓程,郭进,禹倩. 基于GBDT的列车晚点时长预测模型研究. 铁道标准设计. 2021(08): 149-154+176 . 百度学术
    12. 闫璐,张琦,王荣笙,丁舒忻. 基于动力学特性的列车运行态势分析. 铁道运输与经济. 2021(08): 64-70 . 百度学术
    13. 张俊,张欣愉,叶玉玲. 高速铁路非正常事件下初始延误场景聚类研究. 物流科技. 2021(06): 1-4+9 . 百度学术
    14. 徐传玲,文超,胡瑞,冯永泰. 高速铁路列车连带晚点产生机理及其判定. 交通运输工程与信息学报. 2020(04): 31-37 . 百度学术

    其他类型引用(28)

  • 加载中
  • 图(6) / 表(5)
    计量
    • 文章访问数:  942
    • HTML全文浏览量:  251
    • PDF下载量:  154
    • 被引次数: 42
    出版历程
    • 收稿日期:  2019-03-27
    • 录用日期:  2019-06-27
    • 网络出版日期:  2021-10-21
    • 刊出日期:  2022-01-25

    目录

    /

    返回文章
    返回