2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于潜在特征选择性集成建模的二噁英排放浓度软测量

汤健 乔俊飞 郭子豪

孙长银, 穆朝絮. 多智能体深度强化学习的若干关键科学问题. 自动化学报, 2020, 46(7): 1301−1312 doi: 10.16383/j.aas.c200159
引用本文: 汤健, 乔俊飞, 郭子豪. 基于潜在特征选择性集成建模的二噁英排放浓度软测量. 自动化学报, 2022, 48(1): 223−238 doi: 10.16383/j.aas.c190254
Sun Chang-Yin, Mu Chao-Xu. Important scientific problems of multi-agent deep reinforcement learning. Acta Automatica Sinica, 2020, 46(7): 1301−1312 doi: 10.16383/j.aas.c200159
Citation: Tang Jian, Qiao Jun-Fei, Guo Zi-Hao. Dioxin emission concentration soft measurement based on multi-source latent feature selective ensemble modeling for municipal solid waste incineration process. Acta Automatica Sinica, 2022, 48(1): 223−238 doi: 10.16383/j.aas.c190254

基于潜在特征选择性集成建模的二噁英排放浓度软测量

doi: 10.16383/j.aas.c190254
基金项目: 国家自然科学基金 (62073006, 62021003), 北京市自然科学基金 (4212032, 4192009), 科学技术部国家重点研发计划(2018YFC1900800-5), 矿冶过程自动控制技术国家(北京市)重点实验室(BGRIMM-KZSKL-2020-02)资助
详细信息
    作者简介:

    汤健:北京工业大学教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制. 本文通信作者. E-mail: freeflytang@bjut.edu.cn

    乔俊飞:北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: junfeq@bjut.edu.cn

    郭子豪:北京工业大学信息学部硕士研究生. 主要研究方向为高维小样本数据的特征建模, 固废处理过程难测参数软测量. E-mail: miller94@163.com

Dioxin Emission Concentration Soft Measurement Based on Multi-source Latent Feature Selective Ensemble Modeling for Municipal Solid Waste Incineration Process

Funds: Supported by National Natural Science Foundation of China (62073006, 62021003),Beijing Natural Science Foundation (4212032,4192009), National Key Research and Development Program of the Ministry of Science and Technology (2018YFC1900800-5), and Beijing Key Laboratory of Process Automation in Mining and Metallurgy (BGRIMM-KZSKL-2020-02)
More Information
    Author Bio:

    TANG Jian Professor at Beijing University of Technology. His research interest covers small sample data modeling and intelligent control of municipal solid waste treatment process. Corresponding author of this paper

    QIAO Jun-Fei Professor at the Faculty of Information Technology, Beijing University of Technology. His research interest covers intelligent control of wastewater treatment process, and structure design and optimization of neural networks

    GUO Zi-Hao Master student at the Faculty of Information Technology, Beijing University of Technology. His research interest covers feature modeling of high-dimensional small sample data and soft measurement of difficulty-to-measure parameters in municipal solid waste treatment process

  • 摘要: 二噁英(Dioxin,DXN)是导致城市固废焚烧(Municipal solid waste incineration, MSWI)建厂存在“邻避现象”的主要原因之一. 工业现场多采用离线化验手段检测DXN浓度, 难以满足污染物减排控制的需求. 针对上述问题, 本文提出了基于潜在特征选择性集成(Selective ensemble, SEN)建模的DXN排放浓度软测量方法. 首先, 采用主元分析(Principal component analysis, PCA)分别提取依据工艺阶段子系统及全流程系统过程变量的潜在特征, 并依据预设贡献率阈值进行特征初选; 接着, 采用互信息(Mutual information, MI)度量初选特征与DXN间的相关性, 并自适应确定再选的上下限及阈值; 最后, 采用具有超参数自适应选择机制的最小二乘−支持向量机(Least squares — support vector machine, LS-SVM)算法建立多源特征的候选子模型, 基于分支定界(Branch and bound, BB)优化和预测误差信息熵加权算法进行集成子模型的优化选择和加权组合, 进而得到软测量模型. 基于某MSWI焚烧厂DXN检测数据仿真验证了所提方法的有效性.
  • 多智能体系统由多个具有一定传感、计算、执行能力的个体组成, 个体通过网络与其他智能体通信, 相互协作完成任务. 每个智能体具有一定的独立性和自主性, 能够自主学习、推理和规划并选择适当的策略解决子问题. 通过多个具备简单智能的个体相互协作实现复杂的智能, 多智能体系统在降低单个智能体复杂程度的同时, 有效提高了整个系统的鲁棒性、可靠性和灵活性[1-2]. 近年来, 随着通信和网络技术的快速发展, 多智能体系统在交通运输、工业生产等多个领域都有广泛和深入的应用. 面对越来越多的大规模复杂问题, 单智能体集成的解决方案将面临各种资源和条件的限制. 如何开发具有群体智能的多智能体系统, 高效优化的完成任务, 是人工智能和自动化领域面临的新的挑战[3-4].

    伴随着计算和存储能力的大幅提升, 深度学习在人工智能领域获得了巨大的成功. 在此背景下, 产生了由深度学习和强化学习结合的深度强化学习(Deep reinforcement learning, DRL)[5]. 深度强化学习将感知、学习、决策融合到同一框架, 实现了从原始输入到决策动作“端到端”的感知与决策, 并在游戏领域取得了令人兴奋的成绩. Google DeepMind团队开发的AlphaGo系列围棋程序, 击败了人类顶级围棋选手[6-8]; 提出的深度Q网络(Deep Q-network, DQN), 在多种Atari游戏中成功超越人类专业玩家. OpenAI研发了能够在Dota2这一比围棋更复杂的游戏中击败人类专业玩家的游戏机器人[9]. 此外, 深度强化学习在无人驾驶[10]、机器人控制[11]、交通运输调度[12]、电力系统优化[13]、分布式传感网络[14]以及金融和社会学等领域还有大量的应用研究[15]. 更为重要的是, 深度强化学习可能成为一种解决复杂问题的有效方法, 极大地推动人工智能和自动化技术的发展[16-17].

    多智能体深度强化学习(Multi-agent deep reinforcement learning, MADRL)将深度强化学习的思想和算法用于多智能体系统的学习和控制中, 是开发具有群体智能的多智能体系统的重要方法. 然而, 深度强化学习方法扩展到多智能体系统, 面临诸多方面的挑战. 本文综述了强化学习和深度强化学习方法的原理, 分析了多智能体深度强化学习算法结构、环境非静态性、部分可观性等重要问题和研究进展, 对多智能深度强化学习方法的应用情况也进行了简要概述. 最后, 讨论了多智能体深度强化学习未来的研究方向和研究思路.

    受到生物学习规律的启发, 强化学习以试错机制与环境进行交互, 通过最大化累积奖赏的方式来学习和优化, 最终达到最优策略. 在强化学习中, 定义决策者或学习者为“学习机”, 将学习机之外的事物定义为“环境”, 系统与环境相融[18]. 学习机和环境之间的交互过程可以由三个要素来描述, 分别是: 状态$s$、动作$a$、奖励$ r .$学习机根据初始状态$ s_{0} ,$执行动作$ a_{0} $并与环境进行交互, 得到奖励$ r_{1} $并获得更新的状态$ s_{1}. $在时间步$ t ,$根据当前状态$ s_{t} $和奖励$ r_{t} ,$学习机提供当前动作$ a_{t}. $接着, 系统状态由$ s_{t} $转变为$ s_{t+1}, $与环境交互反馈奖励$ r_{t+1}. $强化学习基本原理如图1所示.

    图 1  强化学习的基本原理
    Fig. 1  Basic principles of reinforcement learning

    一般来说, 强化学习强调和环境的交互, 表示为一系列状态、动作和奖励的序列: $ s_{0} ,a_{0}, r_{1},s_{1}, a_{1}, $$ r_{2}, \cdots , s_{n-1} , a_{n-1} , r_{n}. $尽管$ n $可以趋向于无穷, 但实际上通常定义一个末端状态 $ s_{n} = s_{T} $来对$ n $进行限制. 这一串从起始状态开始到末端状态结束的状态、动作和奖励序列称为一个学习周期(Episode)或训练周期. 策略通常表示为$ \pi $, 是从状态$ s $到动作$ a $的一个映射. 如果对所有的状态, 在状态为$ s $时采取动作$ a $的概率$ P(a|s) = 1 $, 则这个策略为确定性策略. 反之, 如果对于状态$ s $, 在该状态下采取动作$ a $的概率$ P(a|s)<1 $, 则该策略为随机策略. 在两种情况的任一情况下, 都可以定义策略$ \pi $为一组状态备选动作的概率分布. 在当前时间步, 学习机与环境交互和试错学习, 迭代优化当前策略$ \pi_{t}, $使新一步的策略$ \pi_{t+1} $优于当前步的策略$ \pi_{t} .$这个过程被称为“策略更新”, 在强化学习过程中反复执行, 直到学习机不能寻找到一个更好的策略为止.

    在学习机与环境的交互中, 学习机在每个时间步$ t $都会得到一个反馈奖励$ r_{t} $, 直到末端状态$ s_{T} $. 然而每步奖励$ r_{t} $并不能代表长期的奖励收益. 为了表达学习机长期的收益, 引入时间步$ t $的回报$ G_{t} $:

    $$ \begin{split} G_{t} =\,& r_{t}+\gamma r_{t+1}+\gamma^{2} r_{t+2}+\cdots+\gamma^{T-t} r_{T}=\\ &\sum_{i = 0}^{T-t}\gamma^{i} r_{t+i} \end{split}$$ (1)

    其中, $ \gamma $为折扣因子且满足$ 0<\gamma\leq1 $. 当$ \gamma $接近1时, 学习机表现为更加重视长期回报. 反之, 当$ \gamma $接近0时, 学习机更加重视短期回报. 在实际中, $ \gamma $更倾向于被设置接近1, 使其更关注长期回报.

    策略的优劣通常采用值函数来进行表示. 用于评判状态$ s $下策略优劣的状态值函数表示为:

    $$ V_\pi(s) = {\rm E}[G_t|s_t = s,\pi] $$ (2)

    根据该式可以求得最优策略:

    $$ \pi^{*} = \arg \max\limits_\pi V_\pi(s)$$ (3)

    另一种形式的值函数用于评判状态$ s $下执行动作$ a $的优劣程度, 称为状态–动作值函数, 也称为$ Q $函数:

    $$ Q_\pi(s,a) = {\rm E}[G_t|s_t = s, a_t = a, \pi] $$ (4)

    此时最优策略表示为:

    $$ \pi^{*} = \arg \max\limits_{a}Q_{\pi^{*}}(s,a) $$ (5)

    下面给出蒙特卡洛法、时间差分法和策略梯度法三类强化学习算法, 分别从基于值函数和基于策略的角度进行优化.

    蒙特卡洛法通过重复生成训练周期并且记录在每个状态或每个状态–动作对的平均回报值的方法来拟合值函数, 状态值函数的计算方法如下:

    $$ V_{\pi}^{MC}(s) = \lim\limits_{j\rightarrow +\infty}{\rm E} [G^{j}(s_t)|s_t = s,\pi] $$ (6)

    式中, $ G^{j}(s_t) $表示在第$ j $个训练周期中, 在状态$ s_t $下观测到的回报值. 类似地, 还可以计算状态–动作值函数:

    $$ Q_{\pi}^{MC}(s,a)\! =\! \lim\limits_{j\rightarrow +\infty}{\rm E} [G^{j}(s_t,a_t)|s_t \!=\! s, a_t \!=\! a,\pi] $$ (7)

    为了使蒙特卡洛方法可以更有效的探索, 在策略更新中常采用$ \epsilon $-贪婪的方法进行探索. 虽然蒙特卡洛法不需要任何系统状态转移概率的信息, 但为保证这种方法能够最终收敛, 还需要满足两个条件: 1) 足够多的训练周期; 2) 每个状态和状态下的每个动作都应被达到和执行过一定次数.

    时间差分学习与蒙特卡洛法相同, 从环境交互的经验中学习, 且不需要模型. 但时间差分学习不是等到一个训练周期结束之后再进行更新, 而是在每个时间步上利用时间差分(Temporal difference)的方式进行更新, 因此可以达到更快的收敛效果. 状态值函数的更新方式为:

    $$ V(s_t)\leftarrow\alpha V(s_t)+(1-\alpha) (r_{t+1}+\gamma V(s_{t+1})) $$ (8)

    其中, $ \alpha $为更新速率, 满足$ 0<\alpha<1 $. 时间差分学习采用上一次的估计值来更新当前状态值函数, 这种方法也称作自举法(Bootstrapping). 在大多数情况中, 自举法的学习速度要快于非自举方法. 时间差分学习方法旨在获得值函数, 当面临控制决策问题时, 状态–动作值函数对于动作的选择更具有指导意义. 基于状态–动作值函数使用时间差分学习的算法主要分为SARSA学习和Q学习. SARSA学习算法是一种同策略(On-policy)的学习算法, 即评估策略和实际执行策略是同一个策略, 采用如下方法进行状态–动作值函数的估计:

    $$ \begin{split} Q(s_t,a_t)\leftarrow & \alpha Q(s_t, a_t)+(1-\alpha) (r_{t+1} + \\ &\gamma Q(s_{t+1},a_{t+1}) ) \end{split} $$ (9)

    其中, $ a_{t+1} $是下一步实际执行的动作. Q学习也称为行为依赖启发式动态规划(Action-dependent heuristic dynamic programming, ADHDP)[19]. 与SARSA算法对Q函数的更新方式不同, Q学习使用贝尔曼最优性原理使当前值函数直接趋近于最优策略的值函数, 更新方法如下:

    $$ \begin{split} Q(s_t,a_t)\leftarrow & \alpha Q(s_t, a_t) +(1-\alpha) (r_{t+1} +\\ &\gamma \max\limits_{a'} Q(s_{t+1},a') ) \end{split} $$ (10)

    这里$ a' $是在状态$ s_{t+1} $下使Q函数最大的动作. 由于Q学习中值函数评估的策略与实际执行策略不同, 因此是一种异策略(Off-policy)学习算法. 通过适当设计Q函数和更新方法, Q学习可以在未知模型信息条件下获得线性系统的最优策略.

    蒙特卡洛法和时间差分法都是基于值函数的方法, 实际使用中常采用表格来存储状态或状态–动作值函数, 因而对于具有较大动作空间的复杂问题是比较低效的. 策略梯度方法不依赖值函数, 直接将策略$ \pi $参数化为$ \pi(s|\theta) $, 然后计算出关于策略性能指标的梯度. 根据梯度方向, 调整策略参数, 最终得到最优策略[20]. 参数化策略可以分为随机性策略$ \pi(s|\theta) = P[a|s, \theta] $和确定性策略$ a = \mu(s|\theta) $, 并设置策略目标函数$ J(\theta) $对参数化策略进行评价. 对于随机性策略, 当前状态$ s $的动作$ a $服从参数为$ \theta $的某个概率分布. 而对于确定性策略, 每个状态对应的动作是确定的. 根据策略梯度定理, 随机性策略梯度表示为[21]:

    $$ \nabla_{\theta}J(\theta) = {\rm E}_{s,a\sim\pi} [\nabla_{\theta}\ln\pi (s|\theta)Q_{\pi}(s,a) ] $$ (11)

    确定性策略梯度表示为[22]:

    $$ \nabla_{\theta}J(\theta) = {\rm E}_{s,a\sim\mu} [\nabla_{\theta}\mu(s|\theta)\nabla_a Q_{\mu}(s,a)|_{a = \mu(s|\theta)}] $$ (12)

    梯度计算时, 需要真实的状态–动作值函数$ Q_{\pi}(s,a) $$ Q_{\mu}(s,a) $, 然而实际上该函数是未知的. 一种方法是使用一定步数的回报值作为状态–动作值函数的估计. 另一种方法是使用执行器–评价器结构[23-24], 使用评价器(Critic)以拟合状态–动作值函数, 使用执行器(Actor)表示策略. 评价器表示为参数$ w $的函数$ Q(s,a|w) $, 并使用时间差分方法更新. 时间差分误差$ \delta_t $表示为:

    $$ \delta_t = r_t+\gamma Q(s_{t+1}, a_{t+1}|w)-Q(s_{t}, a_{t}|w) $$ (13)

    评价器参数$ w $的更新公式为:

    $$ w \leftarrow w + \alpha\delta_t \nabla_w Q(s_t,a_t|w) $$ (14)

    将学习得到的评价器函数$ Q(s,a|w) $代替真实的值函数$ Q_{\pi}(s,a) $$ Q_{\mu}(s,a) ,$代入策略梯度公式完成对策略的更新. 另外, 执行器–评价器结构也可以采用同策略或者异策略两种形式进行实施.

    深度强化学习融合了深度学习的感知能力和强化学习的决策能力, 用于解决高维决策问题[25-27]. 图2是深度强化学习的基本原理.

    图 2  深度强化学习原理图
    Fig. 2  Schematic diagram of deep reinforcement learning

    2015年, Mnih等将卷积神经网络与Q学习技术相结合, 提出了深度Q网络, 完成了由屏幕原始像素到控制输出的端到端感知与决策过程, 并且在Atari视频游戏中达到甚至超过了人类的水平. 具体地, 深度Q网络在每个时间步对当前状态所有动作的状态–动作值进行估计, 当学习完成后, 只需要在每一步选择最大状态–动作值对应的动作为最优策略[28].

    深度Q网络采用深度神经网络拟合状态–动作值函数, 其网络参数表示为$ w, $通过训练逼近最优策略对应的状态–动作值函数. 从数学角度, 深度Q网络采用梯度下降的方法最小化如下代价函数$ L(w) \!:$

    $$ L(w) = {\rm E} [(r+\gamma\max\limits_{a'}Q(s',a'|w)-Q(s,a|w))^2] $$ (15)

    其中, $ a $$ s $是当前时刻动作和状态, $ a' $$ s' $是下一时刻动作和状态, $ r $是奖励信号. 当采用神经网络进行值函数拟合时, 样本的相关性会带来训练过程的不稳定[29]. 为了降低样本的相关性, Mnih等引入了参数为$ w' $的目标网络, 目标网络的参数每$ N $步与Q网络同步一次. 另外, 将与环境交互的样本$ (s,a,r,s') $都保存在经验回放池$ {\cal{D}} $中, 在每次更新时, 从经验回放池中随机抽取多个交互样本进行批量式训练. 由此, 代价函数(15)表示的训练过程可以进一步写为:

    $$\left\{ \begin{array}{l} {\nabla _w}L(w) = {{{\rm E}}_{s,a\sim{\cal{D}}}}[(y - Q(s,a|w)){\nabla _w}Q(s,a|w)]\\ y = r + \gamma \mathop {\max }\limits_{a'} Q(s',a'|w')\\ w' \leftarrow w\;\;\;{\rm{for}}\;{\rm{every}}\;N\;{\rm{steps}} \end{array} \right.$$ (16)

    深度Q网络已经较好地解决强化学习中的维数灾问题, 在后续的研究中, 研究人员基于深度Q网络提出了各种改进方案.

    Hasselt等提出双深度Q网络算法(Double deep Q-network, DDQN), 是对深度Q网络进行改进的一种重要算法[30-31]. 该算法将动作选择和动作评价使用两个Q网络分开执行, 以避免对状态–动作值的过高估计. 具体地, 使用深度Q网络选择状态–动作值最大的动作, 同时使用目标网络评价该动作, 其代价函数$ L_{D}(w) $可以写为:

    $$ \begin{split} L_{D}(w) =\, &{\rm E} [ (r + \gamma Q(s',\arg \mathop {\max }\limits_{a'} Q(s',a'|w) |w') -\\ &Q(s,a|w))^{2}]\\[-10pt] \end{split} $$ (17)

    经验回放在深度Q网络中可以有效打破数据之间的关联, 具有很重要的作用, 但那些稀有的重要样本却常常没有得到重视. 完全随机选择样本并不是一个最优的选择, 一些重要的、与最终目标相关的样本应当更经常地被采样并用于训练, 而常见的样本则无需经常回放. 基于此发现, Schaul等提出了优先经验回放算法[32], 使得第$ k $个经验样本被采样的概率依赖于其优先度函数$ p_k $:

    $$ \begin{split} p_k =\,&\big |r_k + \gamma Q(s'_k, {\rm{arg}} \max\limits_{a'} Q(s'_k, a'|w)|w') -\\ &Q(s_k, a_k|w)\big| \end{split} $$ (18)

    其中, $ a_k $$ s_k $是第$ k $个经验样本的动作和状态, $ r_k $$ s'_k $$ k $个经验样本的奖励信号和下一时刻状态.

    深度Q网络的策略评估过程常常会遇到大量冗余策略的情况. 例如在一种情形下, 常会出现两种以上的动作选择, 而这些动作并不会导致不同的结果. 由此, Wang等提出了一种竞争网络结构[33], 包括两个共存的网络. 一个参数为$ \phi $的网络用于估计状态值函数$ V(s|\phi) $, 另一个参数为$ \varphi $的网络用于估计优势状态–动作值函数$ A(s,a|\varphi) $, 这两个网络通过下式进行值函数的拟合:

    $$ Q(s,a) = V(s|\phi)+(A(s,a|\varphi)-\max\limits_{a'}A(s,a'|\varphi) ) $$ (19)

    深度Q网络可以使用部分历史数据作为输入, 以解决对历史数据有一定依赖的任务, 但不能有效处理长期历史数据依赖问题. 文献[34]对于这类部分可观马尔科夫决策过程, 将卷积神经网络之后的全连接层改为递归神经网络. 这种对于深度Q网络的改进算法称为深度递归Q网络(Deep recurrent Q-network, DRQN). 该方法在一些依赖历史数据的游戏中取得了远超过深度Q网络的效果. 进一步, Lample等在DRQN的网络结构上额外加入了游戏特征, 用DRQN结构在Doom游戏环境中超过了平均人类玩家的水平[35]. 另一种重要改进是在DRQN结构的基础上引入了注意力机制, 提出深度注意力递归Q网络(Deep attention recurrent Q-network, DARQN)[36]. 这种结构使策略网络更加关注重要特征, 从而使用较小的网络规模可以完成相同的任务, 有效提高了训练速度.

    深度Q网络通常只应用于离散动作空间的问题, 在选择每一步动作时, 需要找到使状态–动作值函数最大的动作. 如果在连续动作空间上, 需要在每一步进行迭代优化, 耗费大量的计算时间. 针对这个问题, Lillicrap等将DQN的经验回放机制和目标网络机制与确定性策略梯度算法(Deterministic policy gradient, DPG) 相结合, 提出了一种使用执行器-评判器结构的深度强化学习算法, 即深度确定性策略梯度(Deep deterministic policy gradient, DDPG)算法, 有效弥补了DQN只能用于离散动作空间的问题[37].

    DDPG使用了执行器-评判器结构, 执行器网络和评判器网络分别表示为$ \mu(s|\theta) $$ Q(s,a|w) $, $ \theta $$ w $分别为其网络参数. 两个网络分别有其对应的目标网络, 其参数分别为$ \theta' $$ w' $. 在状态空间的探索方面, 由于DDPG算法是异策略的方法, 因此可以通过构建一个额外加入噪声项$ \rho $的探索策略$ \widehat{\mu}(s_t|\theta) = \mu(s_t|\theta)+\rho $来进行探索. 最终, DDPG的执行器网络和评判器网络的更新公式为:

    $$ \left\{ \begin{array}{l} \delta = r + \gamma Q(s',\mu (s'|\theta ')|w') - Q(s,a|w)\\ w \leftarrow w + {\alpha _w}\delta {\nabla _w}Q(s,a|w)\\ \theta \leftarrow \theta + {\alpha _\theta }{\nabla _\theta }\mu (s|\theta ){\nabla _a}Q(s,a|w){|_{a = \mu (s|\theta )}} \end{array} \right.$$ (20)

    DDPG算法简洁易用, 可以很容易应用到高维的连续状态和动作空间上. 但DDPG在应用中却存在着训练低效的问题, 需要大量的训练样本和较长的训练时间才能收敛到稳定的策略.

    DQN和DDPG都使用了经验回放机制, 在高维复杂问题中需要使用大量的存储和计算资源. 针对该问题, Mnih等提出了另一种思路来代替经验回放机制, 即创建多个智能体, 在不同线程上的相同环境中进行并行学习. 每个智能体使用不同的探索策略并进行参数的更新, 从而减少了经验数据在时间上的关联, 因此不需要通过经验回放机制也能够实现稳定的学习. 该方法结合SARSA学习、Q学习以及执行器–评价器结构可以有多种实施方法, 其中使用执行器–评价器结构的异步执行的方式具有最好的效果, 被称为A3C (Asynchronous advantage actor-critic)算法[38]. 该算法包括一个全局执行器–评价器网络和多个对应于每个线程的执行器–评价器网络. 两种网络结构相同, 均为双输出的神经网络结构, 网络的一个输出表示策略, 另一个输出表示状态值函数. 全局策略和值函数分别表示为$ \pi(s|\theta) $$ V(s|\phi) ,$每个线程的策略和值函数分别表示为$ \pi(s|\theta') $$ V(s|\phi'), $其中$ \theta, \theta' , \phi $$ \phi' $为网络的参数. 每执行$ n $步或者达到某个终止状态时进行一次网络更新, 首先计算每个线程的值函数梯度和策略梯度, 然后将它们分别相加, 对全局的网络参数进行更新, 随后再复制给每个线程的网络. 另外, 在执行网络的参数梯度中加入了策略的熵正则化项$ \nabla_{\theta'}H(\pi(s_t|\theta')) ,$其中$ H(\pi(s_t|\theta')) $是熵[39], 可以增强算法在状态空间中的搜索效果, 避免策略过早收敛于某个确定的次优策略.

    在上述深度学习算法的应用中, 尽管采用了很多方法来保证其训练的稳定性, 但往往无法保证其策略的性能总是向更好的方向更新. 对于该问题, Schulman等提出了一种保证单调改进的TRPO (Trust region policy optimization)算法[40]. TRPO算法通过引入由散度定义的置信区域约束, 来选取合适的更新补偿, 保证策略总向着更好的方向更新, 并在机器人游泳、跳跃、行走等任务的仿真环境中表现出良好的性能.

    基于强化学习和深度强化学习的系统, 可以考虑是未来智慧系统的雏形. 人工智能与被控系统结合, 构建具有类脑智能的智慧系统, 是系统控制的高级目标. 古人云“学而时习之”、“温故而知新”, 无论是经典控制理论中最核心的“反馈”概念, 还是在上述学习算法中体现出来的“执行–评价”过程、“经验回放”思想等, 都关注了对既往累积知识的使用和再学习. 图3概括了学习系统闭环控制框架, 统称为“习件”(Relearnware), 包含与环境交互和感知, 基于输入和感知知识的学习, 自身累积知识的温习和反馈过程, 以及智能系统的更新进化.

    图 3  学习系统闭环控制框架
    Fig. 3  Relearnware: closed-loop control framework of learning systems

    “习件”的思想体现了系统交互(Interaction)、感知(Cognition)、学习(Learn)、反馈(Feedback)、进化(Evolution) 能力. 具体来说, 交互能力增强了系统在动态、开放、复杂环境中的适应性. 感知能力增强了系统对有效信息的获取, 能够有效应对耦合、相关、不完整、非结构化信息. 学习能力是基于当前的交互、感知等输入信息, 通过智能计算获取决策的能力. 反馈能力有效对系统累积知识进行温习和回顾, 对学习决策进行指导和评估; 反馈机制的增加, 有助于提高系统学习的效率和优化学习决策, 同时提高决策的安全性, 是形成高效安全可信智能系统的重要步骤. 进化是学习系统基于自身累积的知识和核心学习算法, 形成有效的智能进化范式, 实现具有类脑智能的智慧系统.

    多智能体系统中每个智能体的策略不只取决于自身的策略和环境的反馈, 同时还受到其他智能体行为和合作关系的影响[41]. 例如, 若智能体对环境有完全的观测能力, 则每个智能体可以在时间步$ t $获得全局状态, 并且通过自身的策略选择动作. 当智能体由于实际条件限制只有局部观测能力时, 每个智能体只能利用其局部观测值通过自身策略选择动作. 若智能体之间是合作关系时, 所有智能体为着一个相同的目标而努力, 在时间步$ t $每个智能体获得的奖励是相同的. 当智能体之间相互竞争, 或者分组竞争时, 每个智能体则会得到不同的奖励值. 多种不同的具体情况使得多智能体强化学习更加复杂. 本节首先介绍几种常见的算法结构, 然后探讨环境非静态性、部分可观性、通信设计、算法稳定性与收敛性等几类重点问题.

    独立式学习和集中式学习是将单智能体强化学习方法直接推广到多智能体系统中的两种思路. 独立式学习方法对每个智能体分别使用强化学习算法, 而将其他智能体看作环境的一部分. 独立式Q学习算法(Independent Q-learning, IQL)是一个典型的例子, 在学习过程中, 每个智能体获得其局部观测, 并且向着最大化整体奖励值的方向调整每个智能体的策略[42], 即每个智能体独立的执行Q学习算法. 由于每个智能体在学习的过程中, 其他智能体的策略同时发生变化, 打破了环境静态性的假设, 该方法在离散状态–动作空间下的小规模问题上具有一定的效果[43], 对复杂问题无法获得理想的效果. 集中式学习方法将所有智能体的状态和动作集中在一起, 构成一个扩张的状态和动作空间, 并直接使用单智能体的强化学习算法[44-45]. 但随着智能体数量的增加, 会导致状态和动作空间过大, 以至于无法进行有效的探索和训练. 因此, 近期对于多智能体强化学习的研究, 一般都寻求一种分布式的方法, 以避免过大的状态和动作空间[46].

    “集中式训练–分布式执行”是当前常用的一种多智能体强化学习算法结构. 在训练时, 所有的智能体采用集中式结构进行训练, 每个智能体可以通过无限制开放的信道获得其他智能体的信息. 在训练结束之后则执行分布式策略, 每个智能体只能通过自身的观测和有限信道传来的其他智能体的信息进行动作的选择[47]. 由于多智能体强化学习常在模拟环境中进行训练, 因此智能体之间的通信不受实际硬件条件的限制, 而且易于获得额外的环境状态, 便于这种集中式训练–分布式执行的结构的实际应用. 因此, 这种结构也被认为是多智能体强化学习领域的典型学习结构之一.

    Lowe等提出了多智能体深度确定性策略梯度算法(MADDPG), 将经典的DDPG算法扩展到多智能体领域, 使用了集中式训练–分布式执行的结构, 每个智能体均有执行器网络和评价器网络[48]. 在训练中, 评判器网络可以获取全局信息, 并对执行器网络的更新提供指导. 在测试中, 执行器网络根据其局部信息进行动作的选择. 此外, 该方法还引入了额外的网络用于预测其他所有智能体的策略, 并在多种合作和竞争的任务中取得了较好的效果. 基于MADDPG算法, 还有多种类似的拓展和补充性的工作[49-50]. Foerster等提出了一种反拟多智能体策略梯度(Counterfactual multi-agent policy gradients, COMA)算法, 将一个智能体的奖励表示为当前状态下的整体奖励与该智能体替换动作之后的整体奖励之差[51]. 与MADDPG方法不同, COMA方法使用了一个全局的评判函数对当前的全部动作和状态进行评价, 提高了训练中信息共享效率和智能体之间的协作能力. 由于全局评判函数的使用, 该方法同样使用了集中式训练–分布式执行的结构. COMA的不足之处是只能用于离散的动作空间, 而不能像MADDPG一样可用于连续动作空间.

    尽管集中式训练–分布式执行的结构具有诸多优势, 但是随着智能体数量的增加, 集中式训练中评价器网络规模会快速增长, 因而无法处理大规模多智能体的学习问题. 针对这类问题, 带有信息共享的完全分布式学习结构更加有效[52-53]. 在这种结构中, 多个智能体通过稀疏的网络拓扑进行信息共享, 共享的内容主要有原始观测, 表示策略的参数或者梯度, 表示值函数的参数或者梯度, 以及以上几种内容的组合. 此外, 信息也可以是智能体通过学习得到的通信策略产生的内容, 对于这种通信方式, 将在后面进行详细的综述.

    在单智能体强化学习中, 仅需要根据自身动作和环境交互即可完成学习任务. 而当环境中存在多个智能体时, 每个智能体不仅观测其自身的动作对环境造成的影响, 同时也会观测其他智能体的动作对环境的影响[54]. 更重要的是, 每个智能体在环境中同时也进行学习, 改变自身的策略, 进而导致了从每个智能体的角度出发, 环境都具有非静态性.

    在这种情况下, 通过学习改变其中一个智能体的策略会影响其他智能体最优策略的选取, 同时对于智能体值函数估计也会不准确. 换句话说, 当前情况下的最优策略, 随着其他智能体学习和策略的更新, 在未来的情况下将不再是最优策略[55], Q学习等应用于传统单智能体的强化学习方法, 在多智能体环境中将不能保证算法的收敛性. 由于上述原因, 无论独立式Q学习算法或者近年来提出的经验回放深度Q网络算法[56], 均不适用于非静态环境的问题.

    为解决多智能体强化学习中非静态环境问题, 基于DQN算法提出了多种改进方案. Abdallah等基于重复更新Q学习(Repeat update Q-learning, RUQL)算法, 提出深度重复更新Q网络(Deep repeated update Q-network, DRUQN)[57-58], 通过与选择动作概率成反比的方法, 来更新动作值避免策略的偏差. 基于松耦合Q学习方法[59], 深度松耦合Q网络(Deep loosely coupled Q-network, DLCQN)引入独立程度的概念, 通过观测信息和负值奖励信息为每个智能体调整独立程度, 智能体可以在不同情况中通过学习来决定独立行动还是与其他智能体进行合作. Diallo等将DQN扩展为多智能体并行DQN, 并展示该方法可以在非静态环境中收敛[60]. Foerster等提出在多智能体环境下使用经验回放机制的DQN算法, 主要是给经验加入额外信息来辅助多智能体的训练过程[61], 包括两种具体解决方法: 1)使用重要性采样方法来剔除过时数据; 2)通过在经验中加入更多信息来确定经验池中回放样本的“年龄”. 类似的方法还有Palmer等提出的宽松DQN (Lenient DQN, LDQN)算法, 用以解决多智能体同时学习而导致的策略不稳定问题[62], 并在多智能体协同运输任务中与滞回DQN (Hysteretic DQN, HDQN)算法进行了对比, 表明LDQN算法在随机奖励环境中能够收敛到比HDQN算法更好的控制策略[63]. Zheng等将上述宽松条件机制与经验定期回放机制结合, 提出了加权DDQN (Weighted DDQN)算法, 以应对多智能体环境中的非静态环境问题, 对随机奖励的两个智能体, 通过仿真验证了WDDQN相对于DDQN具有更好的性能[64].

    在多数任务中, 每个智能体并不能得到全部环境信息, 而只能对部分环境信息进行观测, 这类问题可以使用部分可观马尔科夫决策过程(Partially observable Markov decision process, POMDP)进行建模和研究[65]. 针对部分可观测问题和POMDP模型, 已经有一些解决方案. Hausknecht等提出了深度递归Q网络(Deep recurrent Q-network, DRQN) 算法[34], 使用DRQN方法的单智能体能够在部分可观的环境中以鲁棒的方式学习并改进策略. 与传统的DQN算法不同, DRQN通过递归神经网络近似$ Q(o, a) $, 即观测值$ o $和动作值$ a $的状态–动作值函数, 同时DRQN将网络的隐层状态视为环境的内部状态, 将隐层状态也包含在状态–动作值函数中, 然后再使用与DQN类似的方法进行值函数的更新.

    Foerster等将DRQN算法扩展为深度分布式递归Q网络算法(Deep distributed recurrent Q-network, DDRQN), 用以处理多智能体部分可观测和POMDP问题[66]. DDRQN算法主要有三个特点: 1)将每个智能体上一时间步的动作作为本时间步的输入状态的一部分; 2)在学习过程中所有智能体共享同一个Q网络; 3)相比于DQN算法, 不使用经验回放机制. DDRQN通过共享Q网络的方法, 可以大大减少网络参数的数量, 提高学习速度. 但该方法的一个重要局限在于假设所有的智能体动作集是相同的, 因此DDRQN方法不能应用于异构多智能体优化控制问题中.

    Hong等提出深度策略推理递归Q网络(Deep policy inference recurrent Q-network, DPIRQN), 也使用了递归神经网络以应对部分可观性的问题[67]. DPIRQN通过引入辅助任务和额外学习目标, 对其他智能体的策略进行学习. 在训练中, 自适应调整更加重视对其他智能体策略的学习, 还是更加重视对自身策略的优化. 这种算法使得每个智能体的值函数一定程度上依赖其他智能体的策略, 减小了环境的非静态性对学习带来的不利影响, 可同时应用于多智能体合作和竞争两种任务中.

    在有些分布式的学习结构中, 智能体之间通过通信网络共享观测数据、策略参数、策略梯度等信息, 最终完成智能体之间的合作. 与这种指明通信内容的方法不同, 另一种用于多智能体强化学习的通信方式是基于学习的通信方式. 智能体通过学习算法, 逐渐学习一种通信策略. 智能体的通信策略可以根据当前状态决定什么时候发送信息, 发送什么种类的信息, 发送信息的内容以及接收信息的目标智能体.

    文献[68]最早给出了这种基于学习的通信方式, 多智能体通过Q学习确定给其他智能体发送信息的内容并完成离散状态和动作空间下的合作追捕问题. 近年来, 基于学习的通信结合值函数拟合方法的研究在多智能体强化学习领域得到了很大的发展. Foerster等基于集中式训练–分布式执行结构, 提出了智能体间强化学习(Reinforced inter-agent learning, RIAL)方法和智能体间可微学习(Differentiable inter-agent learning, DIAL)方法, 引入了智能体基于学习的通信策略[69]. 智能体选择控制动作来改变自己的状态, 同时也选择通信动作来影响其他智能体的动作. 在RIAL方法中, 通过在深度Q网络中引入循环神经网络, 解决部分可观察性问题. 在训练中, 所有的智能体共享同一个深度Q网络来得到控制动作和通信动作的值. 在测试中, 每个智能体将训练得到的深度Q网络复制到本地, 并独立进行控制动作和通信动作的选择, 从而完成分布式的执行. DIAL方法在深度Q网络中建立一条可微信道, 不再使用离散的通信动作, 可以在训练中将一个智能体的梯度信息推送到与其连接的智能体中, 大大增强了学习中的反馈作用, 提高了训练的效果. Sukhbaatar等使用了类似的通信方法, 提出了一种多智能体强化学习通信网络, 称CommNet模型[70], 同样建立了可微信道, 并使用反向传播算法进行训练. 不同的是, 所有智能体共享同一个信道, 每个智能体接收到的是特定范围内所有智能体发送的通信消息的数值之和. 该方法在十字路口模拟调度和网格地图模拟战斗等任务中进行了测试, 取得了很好的效果.

    在多智能体深度强化学习领域, 使用深度网络表示值函数和策略, 给多智能体系统的控制和决策带来了更为通用的方法, 使其能够应用于更多复杂的环境. 然而, 随着智能体数量的增加, 多智能体系统的联合状态–动作空间呈指数增长, 深度网络的复杂性也快速增加, 极大增加了深度强化学习算法的探索难度, 甚至使算法最终无法收敛. 总的来说, 多智能体深度强化学习方法的稳定性和收敛性问题, 既受到深度学习方法本身的限制, 也受到多智能体系统和其所在环境的限制, 至今仍是一个开放性的难题.

    当强化学习算法用于多智能体一致性问题时, 常常会遇到算法的稳定性和收敛性问题. 在这种问题中, 每个智能体只能获得本地的观测, 同时通过通信网络获得相邻智能体的信息, 当值函数等的拟合采用线性函数或一般神经网络时, 可以得到一些理论上的稳定性和收敛性结果. 文献[71]使用执行器–评价器算法结构, 使得所有智能体的一致性误差最小, 给出了一致性误差的理论上界, 并且讨论了在已知系统动态的情况下得到最优控制器的可行性. 文献[72]针对多智能体强化学习问题提出了一种分布式执行器–评价器算法, 该方法假设所有的智能体都在本地保持对全局最优策略的估计, 并且独立更新本地的值函数. 通过引入额外的一致性处理方法, 使所有的智能体最终渐近收敛于全局最优策略, 同时进行了算法收敛性分析.

    多智能体深度强化学习方法在多个领域有广泛的应用前景, 如无人驾驶、智能仓储、生产调度、资源访问控制等领域. 下面讨论几个具有广阔应用前景, 尚需进一步发展的应用领域.

    多智能体强化学习方法近年来被引入社区能源管理和共享问题中[73-74]. 相比于随机能源共享方法, 采用多智能体深度强化学习方法, 在社区能源平衡调度方面具有明显的优势. Prasad等在包含多个绿色建筑物的零能耗社区中, 将每一栋绿色建筑物抽象成一个深度强化学习的智能体, 设计奖励函数与整个社区中的能源净消耗量有关, 通过学习执行合理的动作与其他绿色建筑物共享能源, 使所有建筑物在一年内的总耗电量小于其可再生能源的发电量[75]. 但该方法仅应用于最多十个建筑物的社区能源共享调度上, 没有测试更大规模的社区, 也没有考虑电价变动带来的影响.

    任务分配和任务调度问题, 通常需要通过多次迭代规划来获得最优解, 而复杂任务的分配和规划问题, 采用经典的规划方法往往难以获得可行的方案, 如复杂环境导航等问题[76-77]. Lin等基于执行器-评判器结构和深度Q学习算法, 提出使用多智能体强化学习方法研究大规模车队高效调度问题[78]. 论文将车辆建模为智能体, 使用网格对区域进行描述, 通过地理信息嵌入的方式建立智能体之间明确的合作关系, 仿真表明该方法用于车队调度可以减少交通拥塞, 提高运输效率. Noureddine等使用合作式多智能体深度强化学习方法研究任务分配问题[79], 使多个智能体能够在一个疏松耦合的分布式环境中请求其他智能体的帮助, 通过多个智能体之间的交互最终达到高效的任务分配.

    机器人集群控制, 是目前多智能体深度强化学习方法的应用研究热点. Hüttenrauch等将机器人集群系统建模为分布式POMDP, 并使用执行器–评判器结构对机器人集群系统进行协同控制[80]. 该方法通过视频信息描述整个机器人集群的状态, 并作为一个全局信息用于估计系统的值函数. 每个机器人在环境中的观测范围有限, 通过合作方式, 可以完成协同搜救和装配等复杂的任务. Kurek等基于DQN算法, 对每个智能体使用不同的Q网络和独立的经验回放池, 研究异构机器人合作问题[81]. 尽管该方法能够在游戏环境中有效提高机器人合作的得分, 然而其训练速度远远落后于同构机器人的情况. 期望在不久的将来, 可以看到多智能体强化学习方法在机器人集群控制中相关的实际应用.

    社会学中的一些问题, 如具有代表性的囚徒困境的例子等, 反映个体最佳选择和团体最佳选择的博弈. 近年来, 多智能体强化学习的方法也被用于一些社会学问题的研究中. Leibo等提出一种连续社会困境(Sequential social dilemma, SSD)概念, 并建立了SSD模型. 该问题无法使用一般的规划和进化的方法对均衡点进行求解, 使用独立DQN的学习方法可以模拟博弈中智能体的决策方式, 从而寻找到SSD的均衡点[15]. Perolat等对于公共池塘资源(Common-pool resource, CPR)占用问题[82], 使用多个独立学习的DQN智能体在CPR环境进行学习, 通过不断试错和调整每个智能体的奖励方式, 最终得到CPR占用问题的最优解.

    多智能体深度强化学习方法, 具有强大的理解、决策和协调能力, 被期望是解决复杂任务问题的有效方法. 然而, 这些方法尚未在多智能体环境中进行全面的研究. 比如, 逆强化学习(Inverse reinforcement learning)作为模仿学习的方法之一, 在单智能体深度强化学习中是有效的[83]. 模仿学习和逆强化学习方法可以减少学习时间并提高策略的有效性, 有巨大的应用潜力[84-85]. 但逆强化学习假设关于未知奖励函数的策略是最优的, 并且需要从演示中推断出奖励函数. 将逆强化学习方法延伸到MADRL领域需要表示和建模能够共同演示任务的多位专家以及专家的交流和推理. 面对具体复杂任务, 深入融合目标任务、学习方法和通信规则, 设计出符合特定任务要求的高效智能算法, 是未来多智能体深度强化学习方法重要的发展方向之一.

    无模型深度强化学习方法能够解决单智能体和多智能体中的许多问题, 但是, 此类方法通常应用于确定的、静态的任务, 且需要大量样本和较长的学习时间才能获得良好的性能. 对于不确定和动态任务, 基于模型的多智能体深度强化学习方法已经在样本效率、可转移性和通用性等方面展现出有效性. 尽管最近在单智能体中研究了一些基于模型的深度强化学习方法[86-90], 但这些方法尚未在多智能体中得到广泛研究. 所以, 可以在基于模型的多智能体强化学习方向做更多的研究探索. 此外, 结合基于模型的方法和无模型方法, 设计多智能体深度强化学习方法, 也是尚未被充分研究的领域.

    大型系统中异构智能体协调与协作一直是多智能体强化学习领域的主要挑战. 在具有许多异构智能体的环境中, 由于个体具有共同的行为, 例如动作、领域知识和目标, 因此可以通过集中训练和分散执行, 来实现异构个体的控制[91-92]. 在异构个体之间通信困难, 或者同构个体之间通信受限的情况下, 如何设计深度强化学习算法中的目标函数、奖励策略、学习和通讯机制等[93], 实现通信受限下的多智能体高效协调与协作, 提供最佳决策方案并最大程度地完成任务, 是非常值得研究的问题.

    深度强化学习一定程度赋予了机器自主理解、学习和决策的能力, 但是, 在复杂和对抗环境中, 需要将人的智能与机器智能结合在一起[94]. 传统的“人在回路”设置中, 智能体会在一段时间内自主执行其分配的任务, 然后停止并等待人工命令, 此后以这种限速方式循环操作. 在循环中, 智能体可以自动执行任务, 直到任务完成为止, 而扮演监督角色的人员保留干预执行操作的能力[95]. 当循环快速进行, 外界环境发生突变时引入人工干预, 机器可能无法及时作出反应. 面对这类问题, 如何基于多智能体深度强化学习方法, 适时引入人的判断和经验, 整合人和机器的智能, 提高人与机器交互的能力, 也是未来值得研究的方向.

    本文阐述了强化学习和深度强化学习的基本原理与研究现状, 总结提出了包含交互、感知、学习、反馈和进化的学习系统闭环控制框架, 强调了反馈在学习控制中的作用. 分析了多智能体深度强化学习的算法结构和存在的主要困难, 考察了在零能耗社区的能源共享、任务分配调度、机器人集群控制等相关应用领域的研究进展. 多智能体强化学习领域的理论研究日渐深入, 需要付出更多的时间和努力来探索多智能体强化学习理论的应用载体和相关技术, 并与具体任务相结合, 切实推进人工智能理论和技术的发展.


  • 收稿日期 2019-03-27 录用日期 2019-06-27 Manuscript received March 27, 2019; accepted June 27, 2019 国家自然科学基金 (62073006, 62021003), 北京市自然科学基金 (4212032, 4192009), 科学技术部国家重点研发计划(2018YFC1900800-5), 矿冶过程自动控制技术国家(北京市)重点实验室(BGRIMM-KZSKL-2020-02)资助 Supported by National Natural Science Foundation of China (62073006, 62021003), Beijing Natural Science Foundation (4212032, 4192009), National Key Research and Development Program of the Ministry of Science and Technology (2018YFC1900800-5),
  • and Beijing Key Laboratory of Process Automation in Mining and Metallurgy (BGRIMM-KZSKL-2020-02) 本文责任编委 刘艳军 Recommended by Associate Editor LIU Yan-Jun 1. 北京工业大学信息学部 北京 100124 2. 计算智能与智能系统北京市重点实验室 北京 100124 1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124 2. Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124
  • 图  1  基于DXN视角的MSWI过程描述

    Fig.  1  MSWI process description based on DXN perspective

    图  2  基于潜在特征SEN建模的DXN排放浓度软测量策略

    Fig.  2  Soft sensing strategy of DXN emission concentration based on latent feature SEN modeling

    图  3  不同功能子系统的前6个PC的累积贡献率

    Fig.  3  Cumulative contribution rate of the first six PCs of different functional subsystems

    图  4  全部子系统及MSWI全流程系统的初选潜在特征与DXN间的MI值

    Fig.  4  MI value between DXN and primary potential characteristics of all subsystems and MSWI whole process systems

    图  5  子模型超参数自适应寻优的第1次和第2次的曲线

    Fig.  5  Curves of the 1st and 2nd curves for adaptive hyperparametric optimization of submodels

    表  1  本文中的公式符号及其说明汇总表

    Table  1  Summary of formula symbols and their explanations in this paper

    符号含义符号含义
    ${ {{\boldsymbol{y}}} }$DXN 排放浓度软测量模型的真值${\boldsymbol{\hat y} }$DXN排放浓度软测量模型的预测输出
    $N$建模样本数量$M$输入过程变量数量
    ${ {{\boldsymbol{X}}} }$MSWI 全流程系统的输入数据${\boldsymbol{X} }_{}^i$第$i$个子系统的输入数据
    ${ {{\boldsymbol{I}} - 1} }$MSWI 全流程系统划分子系统个数$M_{}^i$第$i$个子系统包含的过程变量个数
    ${ {{\boldsymbol{Z}}} }_{ {\rm{FeAll} } }^i$第$i$个子系统的过程变量采用PCA提取的全部潜在特征$M_{{\rm{FeAll}}}^i$第$i$个子系统的过程变量采用PCA提取的全部潜在特征的数量
    ${ {{\boldsymbol{Z}}} }_{ {\rm{FeSe1st} } }^i$第$i$个子系统的初选潜在特征${\theta _{{\rm{Contri}}}}$对全部潜在特征进行初选的设定阈值
    $M_{{\rm{FeSe1st}}}^i$第$i$个子系统初选潜在特征的数量$M_{{\rm{FeSe2nd}}}^i$第$i$个子系统再选潜在特征的数量
    ${ {{\boldsymbol{Z}}} }_{ {\rm{FeSe2nd} } }^i$第$i$个子系统的再选潜在特征${\theta _{{\rm{MI}}}}$再选潜在特征的选择阈值${\theta _{{\rm{MI}}}}$
    ($K_{{\rm{er}}}^i$, $R_{{\rm{eg}}}^i$)第$i$个子模型的核参数和正则化参数 , 即超参数对$i$第$i$个子模型的预测输出
    ${ {{\boldsymbol{t}}} }_{m_{ {\rm{FeAll} } }^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个主元的得分向量${ {{\boldsymbol{p}}} }_{m_{ {\rm{FeAll} } }^i}^ii$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个主元的载荷向量
    ${ {{\boldsymbol{T}}} }_{}^i$第$i$个子系统的得分矩阵${\boldsymbol{P}}^i $第$i$个子系统的载荷矩阵
    $\lambda _{m_{{\rm{FeAll}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个载荷向量${\boldsymbol{p} }_{m_{ {\rm{FeAll} } }^i}^i$相对应的特征值$\theta _{m_{{\rm{FeAll}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个潜在特征的贡献率
    $\xi _{m_{{\rm{FeAll}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeAll} } }^i$个潜在特征是否被选中的标记值$\xi _{{\rm{MI}}}^{m_{{\rm{FeSelst}}}^i}$第$i$个子系统的初选潜在特征${\boldsymbol{z} }_{m_{ {\rm{FeSelst} } }^i}^i$与DXN排放浓度间的MI值
    $\theta _{{\rm{Contri}}}^{{\rm{Uplimit}}}$潜在特征再选阈值的上限值$\theta _{{\rm{Contri}}}^{{\rm{Downlimit}}}$潜在特征再选阈值的下限值
    $\theta _{{\rm{Contri}}}^{{\rm{Step}}}$潜在特征再选阈值的固定步长$\beta _{m_{{\rm{FeSe1st}}}^i}^i$第$i$个子系统的第$m_{ {\rm{FeSe1st} } }^i$个初选潜在特征是否被选中的标记值
    ${ { {{\boldsymbol{w}}} }^i}$第$i$个子模型的权重系数${b^i}$第$i$个子模型的偏置系数
    ${{\bf{\beta }}^i}$第$i$个子模型的拉格朗日算子向量${{\bf{\zeta }}^i}$第$i$个子模型的预测误差向量
    $M_{{\rm{para}}}^{}$候选超参数矩阵$\{ K_{{\rm{er}}}^i,R_{{\rm{eg}}}^i\} $第$i$个子模型在$M_{{\rm{para}}}^{}$中自适应选择的超参数对
    $K$候选核参数数量$R$候选惩罚参数数量
    $J = K \times R$超参数矩阵中的超参数对的数量$\begin{array}{l}\{ {(K_{{\rm{er}}}^{{\rm{initial}}})^i}, {(R_{{\rm{eg}}}^{{\rm{initial}}})^i}\}\end{array}$第$i$个子模型在采用网格搜索策略在矩阵$M_{{\rm{para}}}^{}$中初选的超参数对
    ${({ {{\boldsymbol{K}}} }_{ {\rm{er} } }^{ {\rm{vector} } })^i}$依据初选超参数对计算的新候选核参数向量${({ {{\boldsymbol{R}}} }_{ {\rm{eg} } }^{ {\rm{vector} } })^i}$依据初选超参数对计算的新候选惩罚参数向量
    ${N_{{\rm{ker}}}}$新候选核参数的数量${N_{{\rm{reg}}}}$新候选惩罚参数的数量
    $k_{{\rm{supara}}}^{{\rm{down}}}$,$k_{{\rm{supara}}}^{{\rm{up}}}$确定超参数向量的收缩和扩放因子${f^i}( \cdot )$第$i$个子模型
    ${f^{{i_{{\rm{sel}}}}}}( \cdot )$第${i_{ {\rm{sel} } } }$个集成子模型$w_{{i_{{\rm{sel}}}}}^{}$第${i_{ {\rm{sel} } } }$个集成子模型的加权系数
    ${\hat y_{{i_{{\rm{sel}}}}}}$第${i_{ {\rm{sel} } } }$个集成子模型的预测值$K_{{\rm{er}}}^{{i_{{\rm{sel}}}}}$,$R_{{\rm{eg}}}^{{i_{{\rm{sel}}}}}$第${i_{ {\rm{sel} } } }$个集成子模型的超参数
    ${(\hat y_{{i_{{\rm{sel}}}}}^{})_n}$第$n$个样本基于第${i_{ {\rm{sel} } } }$个集成子模型的预测值${(e_{{i_{{\rm{sel}}}}}^{})_n}$第$n$个样本基于第${i_{ {\rm{sel} } } }$个集成子模型的相对预测误差
    $E_{{i_{{\rm{sel}}}}}^{}$第${i_{ {\rm{sel} } } }$个集成子模型的预测误差信息熵
    下载: 导出CSV

    表  2  初选潜在特征的数量及其贡献率

    Table  2  Number of the primary selected latent feature and their contribution ratio

    子系统代号IncineratorBoilerFlue gasSteamStackCommonMSWI
    特征编号129.9070.9954.5763.3442.9146.3343.58
    221.7512.6610.4216.5618.0614.1013.40
    311.146.0588.9017.69117.308.6538.761
    46.9525.0147.1463.90612.656.7985.921
    56.6353.0365.0412.0307.2114.4834.822
    65.0751.3564.2691.5331.8544.2213.246
    73.7923.2371.1843.5013.071
    83.2082.5841.0072.8422.919
    92.7841.1902.1162.444
    101.8461.4942.138
    111.5141.2561.911
    121.2831.1641.731
    131.1291.481
    141.344
    151.068
    初选潜在特征数量1369561215
    原始过程变量数量791419536115286
    下载: 导出CSV

    表  3  全部子系统及MSWI全流程系统初选潜在特征MI值的极值统计表

    Table  3  Extremum statistical table of potential characteristic MI values for primary selection latent feature of all Subsystems and MSWI whole process system

    子系统最大值集合 最小值集合
    MI 值贡献率 (%)PC 编号MI 值贡献率 (%)PC 编号
    Incinerator0.85591.51411 0.681429.901
    Boiler0.80193.03650.552770.991
    Flue gas0.831610.4220.608454.571
    Steam0.82497.69130.605963.341
    Stack0.806717.3030.718242.911
    Common0.86134.22160.540046.331
    MSWI0.78824.82250.442943.581
    下载: 导出CSV

    表  4  再选潜在特征数量和MI值统计表

    Table  4  Statistical table of re-selected latent feature's number and MI value

    子系统数量MI值
    Incinerator50.79520.82670.82580.85590.8088
    Boiler20.80190.7952
    Flue gas10.8316
    Steam30.82490.80220.8019
    Stack20.79520.8067
    Common60.80190.86130.80880.79040.83830.8316
    MSWI10.7882
    下载: 导出CSV

    表  5  不同建模方法统计结果

    Table  5  Statistical results of different modeling methods

    方法过程变量数量加权方法RMSE参数 (LV/PC) $( K_{ {\rm{er} } }^{},R_{ {\rm{eg} } }^{})$备注
    文献 [22]120.08869 ± 0.3000(—) (—)单模型, RWNN
    文献 [24]80.02695(—) (21, 21)单模型, SVM
    文献 [37]6AWF0.02306(—) (0.1, 1; 400, 6400; 12800,
    25600; 51200, 102400)
    SEN, 基于多核参数
    PLS2860.01790(13) (—)单模型, MSWI系统
    PCA-LS-SVM2860.01563(18) (36240, 83904)单模型, MSWI系统
    集成建模 (EN)286PLS0.01420(5, 2, 1, 3, 2, 6, 1) (109, 109; 10000,
    25.75; 5.950, 0.0595; 30.70, 2.080;
    5.950, 0.5950; 1520800, 22816;
    1362400, 158.5)
    PCA-MI-LSSVM子模型, EN,
    全部子模型
    AWF0.01851
    Entropy0.01625
    选择性集成建模(SEN) (本文方法)286 (104)BB-AWF0.01348(5, 1, 2) (109, 109; 5.950, 0.0595; 5.950, 0.5950)PCA-MI-LSSVM子模型, SEN, Incinerator, Flue gas,
    Stack共3个子模型
    BB-Entropy0.01332
    下载: 导出CSV
  • [1] 柴天佑. 复杂工业过程运行优化与反馈控制[J]. 自动化学报, 2013, 39(11): 1744-1757.

    Chai Tian-You. Operational optimization and feedback control for complex industrial processes. Acta Automatica Sinica, 2013, 39(11): 1744-1757
    [2] Chai T Y, Ding J L, Yu G, Wang H. Integrated optimization for the automation systems of mineral processing. IEEE Transactions on Automation Science & Engineering, 2014, 11(4): 965-982.
    [3] Chai T Y, Qin S J, Wang H. Optimal operational control for complex industrial processes. Annu. Rev. Control, 2014, 38(1): 81-92. doi: 10.1016/j.arcontrol.2014.03.005
    [4] Arafat H A, Jijakli K, Ahsan A. Environmental performance and energy recovery potential of five processes for municipal solid waste treatment. Journal of Cleaner Production, 2015, 105: 233-240. doi: 10.1016/j.jclepro.2013.11.071
    [5] Yuanan H, Hefa C, Shu T. The growing importance of waste-to-energy (WTE) incineration in China's anthropogenic mercury emissions: Emission inventories and reduction strategies. Renewable and Sustainable Energy Reviews, 2018, 97: 119-137. doi: 10.1016/j.rser.2018.08.026
    [6] Huang T, Zhou L, Liu L, Xia M. Ultrasound-enhanced electrokinetic remediation for removal of Zn, Pb, Cu and Cd in municipal solid waste incineration fly ashes. Waste Management, 2018, 75: 226-235. doi: 10.1016/j.wasman.2018.01.029
    [7] Jones P H, Degerlache J, Marti E, Mischer G, Scherrer M C, Bontinck W J, Niessen H J. The global exposure of man to dioxins - a perspective on industrial-waste incineration. Chemosphere, 1993, 26: 1491-1497. doi: 10.1016/0045-6535(93)90216-R
    [8] Li X, Zhang C, Li Y, Zhi Q. The Status of Municipal Solid Waste Incineration (MSWI) in China and its Clean Development. Energy Procedia, 2016, 104: 498-503. doi: 10.1016/j.egypro.2016.12.084
    [9] Phillips K, Longhurst P J, Wagland S T. Assessing the perception and reality of arguments against thermal waste treatment plants in terms of property prices. Waste Management. 2014, 34(1): 219-225. doi: 10.1016/j.wasman.2013.08.018
    [10] Zhang H J, Ni Y W, Chen J P, Zhang Q. Influence of variation in the operating conditions on PCDD/F distribution in a full-scale MSW incinerator. Chemosphere, 2008, 70(4): 721-730. doi: 10.1016/j.chemosphere.2007.06.054
    [11] Mukherjee A, Debnath B, Ghosh S K. A review on technologies of removal of dioxins and furans from incinerator flue gas. Procedia Environmental Sciences, 2016, 35: 528-540. doi: 10.1016/j.proenv.2016.07.037
    [12] Stanmore B R. Modeling the formation of PCDD/F in solid waste incinerators. Chemosphere, 2002, 47: 565-773. doi: 10.1016/S0045-6535(02)00005-X
    [13] 乔俊飞, 郭子豪, 汤健. 面向城市固废焚烧过程的二噁英排放浓度检测方法综述. 自动化学报, 2020, 46(6): 1063−1089

    Qiao Jun-Fei, Guo Zi-Hao, Tang Jian. Dioxin emission concentration measurement approaches for municipal solid wastes incineration process: A survey. Acta Automatica Sinica, 2020, 46(6): 1063−1089
    [14] Pandelova M, Lenoir D, Schramm K W. Correlation between PCDD/F, PCB and PCBz in coal/waste combustion Influence of various inhibitors. Chemosphere, 2006, 62: 1196-1205. doi: 10.1016/j.chemosphere.2005.07.068
    [15] Gullett B K, Oudejans L, Tabor D, Touati A, Ryan S. Near-real-time combustion monitoring for PCDD/PCDF indicators by GC-REMPI-TOFMS. Environmental Engineering Science, 2012, 46: 923-928.
    [16] Wang W, Chai T Y, Yu W, Wang H, Su C Y. Modeling component concentrations of sodium aluminate solution via hammerstein recurrent neural networks. IEEE Transactions on Control Systems Technology, 2012, 20(4): 971−982
    [17] Tang J, Chai T Y, Yu W, Zhao L J. Modeling load parameters of ball mill in grinding process based on selective ensemble multisensor information. IEEE Transactions on Automation Science & Engineering, 2013, 10(3): 726-740.
    [18] Li D C, Liu C W. Extending attribute information for small data set classication. IEEE Transactions on Knowledge and Data Engineering, 2010, 24(3): 452-464
    [19] 汤健, 乔俊飞, 柴天佑, 刘卓, 吴志伟. 基于虚拟样本生成技术的多组分机械信号建模. 自动化学报, 2018, 44(9): 1569-1590.

    Tang Jian, Qiao Jun-Fei, Chai Tian-You, Liu Zhuo, Wu Zhi-Wei. Modeling Multiple Components Mechanical Signals by Means of Virtual Sample Generation Technique. Acta Automatica Sinica, 2018, 44(9): 1569-1590.
    [20] Chang N B, Huang S H. Statistical modelling for the prediction and control of PCDDs and PCDFs emissions from municipal solid waste incinerators. Waste Management & Research, 1995, 13: 379-400.
    [21] Chang N B, Chen W C. Prediction of PCDDs/PCDFs emissions from municipal incinerators by genetic programming and neural network modeling. Waste Management & Research, 2000, 18(4): 41-351.
    [22] Bunsan S, Chen W Y, Chen H W, Chuang Y H, Grisdanurak N. Modeling the dioxin emission of a municipal solid waste incinerator using neural networks. Chemosphere, 2013, 92: 258-264. doi: 10.1016/j.chemosphere.2013.01.083
    [23] Gomes T A F, Prud êncio R B C, Soares C, Rossi A L D, Carvalho A. Combining meta-learning and search techniques to select parameters for support vector machines. Neurocomputing, 2012, 75(1): 3-13. doi: 10.1016/j.neucom.2011.07.005
    [24] 肖晓东, 卢加伟, 海景, 等. 垃圾焚烧烟气中二噁英类浓度的支持向量回归预测. 可再生能源, 2017, 35(8): 1107-1114

    Xiao Xiao-Dong, Lu Jia-Wei, Hai Jing. Prediction of dioxin emissions in flue gas from waste incineration based on support vector regression. Renewable Energy Resources, 2017, 35(8): 1107-1114.
    [25] Tang J, Chai T Y, Yu W, Zhao L J. Feature extraction and selection based on vibration spectrum with application to estimate the load parameters of ball mill in grinding process. Control Engineering Practice, 2012, 20(10): 991-1004. doi: 10.1016/j.conengprac.2012.03.020
    [26] Soares C. A hybrid meta-learning architecture for multi-objective optimization of SVM parameters. Neurocomputing, 2014, 143(143): 27-43.
    [27] Yu G, Chai T Y, Luo X C. Multiobjective production planning optimization using hybrid evolutionary algorithms for mineral processing. IEEE Transact. Evolut. Comput. 2011, 15(4): 487-514. doi: 10.1109/TEVC.2010.2073472
    [28] Yin S, Yin J. Tuning kernel parameters for SVM based on expected square distance ratio. Information Sciences, 2016, 370-371: 92-102. doi: 10.1016/j.ins.2016.07.047
    [29] Tang J, liu Z, Zhang J, Wu Z W, Chai T Y, Yu W. Kernel latent feature adaptive extraction and selection method for multi-component non-stationary signal of industrial mechanical device, Neurocomputing, 2016, 216(C): 296-309.
    [30] 汤健, 田福庆, 贾美英. 基于频谱数据驱动的旋转机械设备负荷软测量. 北京: 国防工业出版社, 2015.

    Tang Jian, Tian Fu-Qing, Jia Mei-Ying. Soft Measurement of Rotating Machinery Equipment Load Based on Spectrum Data Drive. Beijing: National Defense Industry Press, 2015.
    [31] Brown G, Wyatt J, Harris R, Yao X. Diversity creation methods: a survey and categorisation. Information Fusion, 2005, 6: 5-20 doi: 10.1016/j.inffus.2004.04.004
    [32] Tang J, Chai T Y, Yu W, Liu Z, Zhou X J. A Comparative study that measures ball mill load parameters through different single-scale and multi-scale frequency spectra-based approaches, IEEE Transactions on Industrial Informatics. 2016, 12(6): 2008-2019. doi: 10.1109/TII.2016.2586419
    [33] Zhou Z H, Wu J, Tang W, Ensembling neural networks: many could be better than all, Artificial Intelligence, 2002, 137(1-2): 239-263. doi: 10.1016/S0004-3702(02)00190-X
    [34] Ma G, Wang Y, Wu L. Subspace ensemble learning via totally-corrective boosting for gait recognition. Neurocomputing, 2017, 224: 119-127. doi: 10.1016/j.neucom.2016.10.047
    [35] Tang J, Qiao J, Wu Z W, et al. Vibration and acoustic frequency spectra for industrial process modeling using selective fusion multi-condition samples and multi-source features. Mechanical Systems and Signal Processing, 2018, 99: 142-168. doi: 10.1016/j.ymssp.2017.06.008
    [36] Soares S, Antunes C H, Rui Ara újo. Comparison of a genetic algorithm and simulated annealing for automatic neural network ensemble development. Neurocomputing, 2013, 121(18): 498-511.
    [37] 汤健, 乔俊飞. 基于选择性集成核学习算法的固废焚烧过程二噁英排放浓度软测量, 化工学报, 2019, 70(2): 696−706

    Tang Jian, Qiao Jun-Fei. Dioxin emission concentration soft measuring approach of municipal solid waste incineration based on selective ensemble kernel learning algorithm, Journal of Chemical Industry and Engineering (China), 2019, 70(2): 696−706
    [38] Tang J, Chai T, Liu Z, et al. Selective ensemble modeling based on nonlinear frequency spectral feature extraction for predicting load parameter in ball mills. Chinese Journal of Chemical Engineering, 2015, 23(12): 2020-2028. doi: 10.1016/j.cjche.2015.10.006
  • 期刊类型引用(2)

    1. 焦博韬,郭一楠,何潇,蒲佳洋,巩敦卫. 基于动态支持向量提取的复杂装备实时安全评估. 中国科学:信息科学. 2025(01): 156-171 . 百度学术
    2. 李艳红,李志华,郑建兴,白鹤翔,郭鑫. 有限标签下的非平衡数据流分类方法. 大数据. 2025(02): 107-126 . 百度学术

    其他类型引用(1)

  • 加载中
  • 图(6) / 表(5)
    计量
    • 文章访问数:  943
    • HTML全文浏览量:  253
    • PDF下载量:  155
    • 被引次数: 3
    出版历程
    • 收稿日期:  2019-03-27
    • 录用日期:  2019-06-27
    • 网络出版日期:  2021-10-21
    • 刊出日期:  2022-01-25

    目录

    /

    返回文章
    返回