2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

两团队零和博弈下熵引导的极小极大值分解强化学习方法

胡光政 朱圆恒 赵冬斌

刘美枝, 孔祥玉, 胡昌华. 基于质量关联虚拟变量的质量相关变量划分及故障检测. 自动化学报, 2025, 51(5): 1−13 doi: 10.16383/j.aas.c240627
引用本文: 胡光政, 朱圆恒, 赵冬斌. 两团队零和博弈下熵引导的极小极大值分解强化学习方法. 自动化学报, 2025, 51(4): 1−14 doi: 10.16383/j.aas.c240258
Liu Mei-Zhi, Kong Xiang-Yu, Hu Chang-Hua. Quality-related variable division and fault detection based on quality-related virtual variable. Acta Automatica Sinica, 2025, 51(5): 1−13 doi: 10.16383/j.aas.c240627
Citation: Hu Guang-Zheng, Zhu Yuan-Heng, Zhao Dong-Bin. Entropy-guided minimax value decomposition for reinforcement learning in two-team zero-sum games. Acta Automatica Sinica, 2025, 51(4): 1−14 doi: 10.16383/j.aas.c240258

两团队零和博弈下熵引导的极小极大值分解强化学习方法

doi: 10.16383/j.aas.c240258 cstr: 32138.14.j.aas.c240258
基金项目: 国家自然科学基金(62293541, 62136008), 北京市自然科学基金(4232056), 北京市科技新星计划(20240484514), 中国科学院“全球共性挑战专项”(104GJHZ2022013GC)资助
详细信息
    作者简介:

    胡光政:阿里巴巴集团控股有限公司高级算法工程师. 2016年获得北京理工大学学士学位. 2019年获得北京理工大学硕士学位. 2024年获得中国科学院大学博士学位. 主要研究方向为深度强化学习和多机器人博弈. E-mail: hugaungzheng2019@ia.ac.cn

    朱圆恒:中国科学院自动化研究所副研究员. 2010年获得南京大学自动化专业学士学位. 2015年获得中国科学院自动化研究所控制理论和控制工程专业博士学位. 主要研究方向为深度强化学习, 博弈理论, 博弈智能和多智能体学习. E-mail: yuanheng.zhu@ia.ac.cn

    赵冬斌:中国科学院自动化研究所研究员, 中国科学院大学教授. 分别于1994年、1996年和2000年获得哈尔滨工业大学学士学位、硕士学位和博士学位. 主要研究方向为深度强化学习, 计算智能, 自动驾驶, 游戏人工智能, 机器人. 本文通信作者. E-mail: dongbin.zhao@ia.ac.cn

Entropy-guided MiniMax Value Decomposition for Reinforcement Learning in Two-team Zero-sum Games

Funds: Supported by National Natural Science Foundation of China (62293541, 62136008), Beijing Natural Science Foundation (4232056), Beijing Nova Program (20240484514), and International Partnership Program of Chinese Academy of Sciences (104GJHZ2022013GC)
More Information
    Author Bio:

    HU Guang-Zheng Senior algorithm engineer at Alibaba Group Holding Limited. He received his bachelor degree from Beijing Institute of Technology in 2016, master degree from Beijing Institute of Technology in 2019, and Ph.D. degree from the University of Chinese Academy of Sciences in 2024. His research interest covers deep reinforcement learning and multi-robot game

    ZHU Yuan-Heng Associate professor at the Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree in automation from Nanjing University in 2010, and Ph.D. degree in control theory and control engineering from the Institute of Automation, Chinese Academy of Sciences in 2015. His research interest covers deep reinforcement learning, game theory, game intelligence, and multiagent learning

    ZHAO Dong-Bin Professor at the Institute of Automation, Chinese Academy of Sciences and the University of Chinese Academy of Sciences. He received his bachelor degree, master degree, and Ph.D. degree from Harbin Institute of Technology, in 1994, 1996, and 2000, respectively. His research interest covers deep reinforcement learning, computational intelligence, autonomous driving, game artificial intelligence, and robotics. Corresponding author of this paper

  • 摘要: 在两团队零和马尔科夫博弈中, 一组玩家通过合作与另一组玩家进行对抗. 由于对手行为的不确定性和复杂的团队内部合作关系, 在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性. 鉴于此, 提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization, EGMF)强化学习方法, 在线学习队内合作和队间对抗的策略. 首先, 提出基于极小极大值分解的多智能体执行器−评估器框架, 在高采样成本的、不限动作空间的任务中, 提升优化效率和博弈性能; 其次, 引入最大熵使智能体可以更充分地探索状态空间, 避免在线学习过程收敛到局部最优; 此外, 策略在时间域累加的熵值用于评估策略的熵, 并将其与分解的个体独立Q函数结合用于策略改进; 最后, 在多种博弈仿真场景和一个实体任务平台上进行方法验证, 并与其他基线方法进行比较. 结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略.
  • 故障检测与诊断是保障复杂装备、工业过程安全稳定运行及产品质量的重要技术支撑[1]. 相较于传统依赖机理模型或专家知识的方法, 数据驱动的多元统计故障检测方法因其独特的优势而日益受到工程界和学术界的广泛关注, 成为故障检测领域的研究热点[2]. 该方法仅需利用系统运行时的离线和在线观测数据, 借助较成熟的多元统计分析方法, 特别适用于过程变量繁多且高度相关的系统.

    质量相关故障检测是基于多元统计过程故障诊断的重要研究内容, 而测量变量之间的相关性分析是该方法的关键环节. 一般而言, 测量变量可分为两类: 过程变量和质量变量. 过程变量是指在复杂装备运行或工业生产过程中可以直接观测的物理量、化学量或操作参数, 如电压、电流、流量等, 这些变量反映装备运行或生产过程的实时状态. 质量变量是指与装备性能或生产质量指标相关的变量, 如火箭飞行姿态角, 轧钢或造纸的厚度、硬度等, 这些质量变量是评估装备性能或产品质量的依据.

    需要指出的是, 由于复杂装备或工业过程结构复杂, 各组成部分之间高度耦合. 这些系统涉及的过程变量繁多, 且变量之间存在相关性. 但并非所有过程变量都与系统关键性能或产品质量密切相关. 在众多过程变量中, 通常只有部分变量的变化真正影响产品质量, 我们将这些变量称为质量相关变量, 而其余变量则被称为质量无关变量. 在故障检测中, 如果对所有过程变量进行建模, 质量无关变量的波动可能会导致故障检测指标超出控制限, 从而触发报警. 但这类故障并不直接影响产品质量, 我们称这类故障为质量无关故障. 由质量无关故障触发的报警不仅浪费资源和时间, 还可能误导操作人员对实际工况的判断, 大大影响生产效益. 为实现对生产过程的精准控制与优化, 确保产品质量和生产效益, 故障检测方法必须能够有效区分质量相关故障和质量无关故障.

    一般情况下, 质量相关故障检测方法可以归纳为两大类: 一类为空间分解法, 另一类为变量划分法. 空间分解法, 也称为后分解法, 其主要思路是首先对所有过程变量建立模型, 形成投影空间, 随后将该投影空间分解为质量相关子空间和质量无关子空间. 这一类的典型方法包括全潜结构投影(Total projection to latent structures, T-PLS)[3]和改进偏最小二乘(Modified partial least squares, MPLS)[4], 这两种方法都建立在偏最小二乘(Partial least squares, PLS)模型的基础上, 对投影空间进行深入的分解和细化; 随后, 这两种方法的大量变体被相继提出[58]. 空间分解法不仅适用于PLS模型, 也被广泛应用于其他统计分析模型中, 如主成分分析(Principal component analysis, PCA)[9]、典型相关分析(Canonical correlation analysis, CCA)[1011]、独立成分分析(Independent component analysis, ICA)[12] 和慢特征分析(Slow feature analysis, SFA)[13] 等. 例如, Wang等[14] 利用核主成分分析提取核主成分, 随后基于该核主成分和质量变量建立CCA模型. Liu等[15] 采用核独立成分对过程变量提取独立成分, 进一步建立独立成分与质量变量之间的回归模型, 提出修正的核独立成分回归(Modified kernel independent component regression, MKICR)模型. Zhang等[16] 提出一种基于质量相关修正正则化的SFA分布式故障检测方法, 以处理大规模时序过程中的动态、连接关系及异常值问题.

    变量划分法根据过程变量与质量变量的相关性强弱, 将过程变量分为质量相关组和质量无关组. 随后, 对这两组变量分别建模实现质量相关故障检测. 典型的划分方法包括互信息(Mutual information, MI)[1718], 最小冗余最大相关 (Minimal redundancy maximal relevance, mRMR)[19], 传递熵(Transfer entropy, TE)[2021], 投影变量重要性(Variable importance in the projection, VIP)[2223] 等. 例如, Guo等[24] 结合先验知识和测量变量建立时空拓扑图, 并利用MI划分变量构建质量相关子空间, 进行质量相关故障检测. Zhu等[25] 利用MI选择质量相关变量, 随后根据操作单元将整个过程分解为多个块, 分别在每个块中采用改进的卷积神经网络建立特征提取模型. Yu等[20] 利用TE计算变量间的因果关系, 对质量相关变量提取卷积特征, 建立质量相关故障检测模型.

    上述空间分解法和变量划分法的应用均存在一个前提条件: 质量变量必须可测, 因为它们依赖质量变量来分解质量相关子空间或划分质量相关变量. 然而, 在实际工业过程中, 由于生产环境恶劣或测量技术的局限性, 某些关键的质量变量, 例如脱丁烷塔塔底丁烷浓度, 可能难以甚至无法通过现有的测量仪器准确测量. 这一情况对传统的质量相关故障检测方法构成严峻的挑战. 针对这一挑战, 本文提出一种基于质量关联虚拟变量(Quality-related virtual variable, QRV)的质量相关变量划分方法, 建立一种基于QRV的ICA质量相关故障检测模型(QRV-based ICA, QRVICA). 值得注意的是, QRV的构造过程仅使用过程变量, 不依赖质量变量. 然而, 该QRV仍保持与质量变量较强的相关性, 并能够有效追踪质量变量的变化趋势. 因此, QRV可作为一种虚拟量间接反映系统的质量特性.

    与现有质量相关故障检测方法相比, 本文的主要贡献可归纳为: 1) 针对工业过程中质量变量不可测的情况, 提出一种质量关联虚拟变量构造方法. 该虚拟变量可间接反映系统的质量特性, 为变量间的相关性分析提供一种新方案. 2) 基于所构造的QRV, 提出一种基于假设检验和滑动窗口的质量相关变量划分方法, 为后续故障检测奠定基础, 有效克服传统质量相关故障检测对质量变量的直接依赖. 3) 设计一套完整的故障检测策略, 通过指数加权移动平均(Exponentially weighted moving average, EWMA)将历史样本信息融入当前样本的检测指标构造中, 实现兼具最低误报率和最高检测率的质量相关故障检测.

    本节简要介绍基于ICA的故障检测. 给定标准化训练数据矩阵$ X\in {{\bf{R}}^{n\times m}} $, 其中$ n $和$ m $分别表示样本数和变量数. ICA的核心思想是$ m $维的测量数据可以表示为$ d $维($ d\le m $) 独立成分的线性组合:

    $$X = SA+E $$ (1)

    式中, $ S = [{{\boldsymbol{s}}_{1}},\; \cdots\; ,\;{{\boldsymbol{s}}_{d}}] $为独立成分矩阵; $ A $和$ E $分别为混合矩阵和残差矩阵. ICA的关键是由已知数据矩阵$ X $估计混合矩阵$ A $和独立成分矩阵$ S $, 该问题可转化为寻求混解矩阵$ W $, 使得$ S = XW $中各独立分量彼此独立. 为消除变量间的相关性, 对矩阵$ X $进行白化. 首先对$ X $的协方差矩阵$ {{S}_{F}} $进行特征值分解:

    $${{S}_{F}} = \frac{1}{{n}-1}{{X}^{\text{T}}}X = U{\Lambda}{{U}^{\text{T}}} $$ (2)

    其中, $ {\Lambda } $和$ U $分别为特征值矩阵和特征向量矩阵. 经白化后的数据矩阵可表示为:

    $$ Z = XR\approx SAR = SC $$ (3)

    式中$ R = U{{\Lambda }^{-1/2}} $为白化矩阵; $ C = AR $为正交矩阵. 这样, 独立成分矩阵$ S $的估计可转化为:

    $$ S = Z{{C}^{\text{T}}} = XR{{C}^{\text{T}}} $$ (4)

    至此, 混解矩阵$ W $可表示为:

    $$ W = R{{C}^{\text{T}}} $$ (5)

    通常采用快速ICA (FastICA)求解上述混解矩阵, 以最大化负熵为准则函数, 负熵采用非二次函数$ G(\cdot) $近似, 则目标函数可表示为:

    $$ \begin{split} &J({{\boldsymbol{c}}_{i}}) = \underset{{{\boldsymbol{c}}_{i}}\in C}{\mathop{\max }}\,\;{{\left[\text{ E}\big\{ G(Z{\boldsymbol{c}}_{i}^{\text{T}}) \right\}- \text{ E}\left\{G({\boldsymbol{v}}) \big\} \right]}^{2}} \\ &\text{s.t.}\quad\text{E}\big\{ {{\left( Z{\boldsymbol{c}}_{i}^{\text{T}} \right)}^{2}} \big\} = 1\; \end{split} $$ (6)

    式中, $ \text{E}\{\cdot\} $代表期望; $ Z{\boldsymbol{c}}_{i}^{\text{T}} = {{\boldsymbol{s}}_{i}} $是第$ i $个独立成分; $ {\boldsymbol{v}} $表示零均值单位方差的高斯随机变量. 具体推导和求解过程可参考文献[26].

    为监测系统运行状态, 通常采用$ {{I}^{2}} $统计量监测独立成分空间的变化, 用$ Q $统计量监测残差空间的变化. 对于样本$ {\boldsymbol{x}} $, 其统计量可计算如下:

    $$ {{I}^{2}({\boldsymbol{x}})} = {{{\boldsymbol{s}}}}{\boldsymbol{s}}^{\text{T}} $$ (7)
    $$Q({\boldsymbol{x}}) = {{{\boldsymbol{e}}}}{\boldsymbol{e}}^{\text{T}}$$ (8)

    式中, $ {\boldsymbol{s}} = {\boldsymbol{x}}W $为样本$ {\boldsymbol{x}} $的独立成分得分; $ {\boldsymbol{e}} = {\boldsymbol{x}}\;- {\boldsymbol{s}}A $为样本残差. 考虑到$ {\boldsymbol{s}} $和$ {\boldsymbol{e}} $可能无法满足高斯分布, 采用核密度估计(Kernel density estimation, KDE)计算其相应的控制限$ I_{\lim }^{2} $和$ {{Q}_{\lim }} $.

    在复杂装备或工业过程中, 由于系统内部物料、能量及信息间的传递和反馈控制的存在, 质量相关变量之间形成错综复杂的相互作用和依赖关系[2]. 因此, 这些质量相关变量在系统运行过程中往往表现出协同变化的趋势, 而质量无关变量的变化趋势可能与质量相关变量缺乏明显的关联性. 当质量变量难以直接测量时, 是否存在一个虚拟变量 (我们称之为“质量关联虚拟变量”, QRV), 该变量能够与所有的质量相关变量均展现出明显的相关性, 而与那些质量无关变量则没有显著关联? 如果这样的QRV确实存在, 它便可作为表征系统质量特性的综合指标, 有效克服质量相关变量划分对质量变量的依赖. 这样, 通过评估各过程变量与QRV之间的相关性强度, 我们便可准确地划分质量相关变量. 按照上述思路, 本文所提基于QRV的质量相关变量划分方法的整体框架如图1所示.

    图 1  基于QRV的质量相关变量划分方法的整体框架
    Fig. 1  Overall framework of the quality-related variable division method based on QRV

    给定复杂系统正常工况下的过程变量矩阵$ X\in {{\bf{R}}^{n\times m}} $如下:

    $$ \begin{equation} \begin{aligned} X& = [{{\boldsymbol{x}}_{1}};\; \cdots\; ;\;{{\boldsymbol{x}}_{n}}] = [{{\boldsymbol{x}}^{1}},\; \cdots\; ,\;{{\boldsymbol{x}}^{m}}] \\ \end{aligned} \end{equation} $$ (9)

    式中$ {{\boldsymbol{x}}_{i}} $表示$ i $时刻的采样样本; $ {{\boldsymbol{x}}^{j}} $表示第$ j $个过程变量的时序数据. 假设$ X $已经标准化 (即具有零均值单位方差). 构造质量关联虚拟变量$ {\boldsymbol{\alpha}} \in {{\bf{R}}^{n\times 1}} $, 目标函数为最大化其与所有过程变量的内积平方和:

    $$ \begin{split} &\underset{{}}{\mathop{{\boldsymbol{\alpha}} = \arg \max }}\,\; \sum\limits_{j = 1}^{m}{{{\left( \frac{({{\boldsymbol{x}}^{j}})^{\text{T}}{{\boldsymbol{\alpha}}}}{n-1} \right)}^{2}}} \\ &\text{s.t.} \quad {{\boldsymbol{\alpha}}}^{\text{T}}{\boldsymbol{\alpha}} = n-1 \end{split} $$ (10)

    利用拉格朗日乘子法, 上述目标函数可转化为:

    $$L({{\boldsymbol{\alpha}} }) = \sum\limits_{j = 1}^{m}{{{\left( \frac{({{\boldsymbol{x}}^{j}})_{{}}^{\text{T}}{{\boldsymbol{\alpha}} }}{n-1} \right)}^{2}}}+\lambda (n-1-{{{\boldsymbol{\alpha}} }^{\text{T}}}{{\boldsymbol{\alpha}} })$$ (11)

    式中, $ {\lambda} $为拉格朗日算子, 对$ L({{\boldsymbol{\alpha}} }) $求导可得:

    $$ \begin{split} \frac{\partial L({\boldsymbol{\alpha}})}{\partial {{\boldsymbol{\alpha}}} } =\ & \frac{2}{{(n-1)}^{2}}{\sum\limits_{j = 1}^{m}({{\boldsymbol{x}}^{j}})_{{}}^{\text T}{{\boldsymbol{\alpha}}} {{\boldsymbol{x}}^{j}}}-2\lambda{{\boldsymbol{\alpha}}}=\\ & \frac{2\left[({{\boldsymbol{x}}^{1}})_{{}}^{\text T}{{\boldsymbol{\alpha}}}{{\boldsymbol{x}}^{1}}+\cdots +({{\boldsymbol{x}}^{m}})_{{}}^{\text T}{{\boldsymbol{\alpha}}}{{\boldsymbol{x}}^{m}} \right]}{{{(n-1)}^{2}}}-2\lambda{{\boldsymbol{\alpha}}} \end{split} $$ (12)

    令$ \frac{\partial L({{\boldsymbol{\alpha}} })}{\partial {{\boldsymbol{\alpha}}}} = 0 $, 对式(12)进行化简, 式(10)优化问题可转化为如下特征值分解问题:

    $$ \frac{X{{X}^{\text{T}}}{{\boldsymbol{\alpha}} }}{{{(n-1)}^{2}}} = \lambda {{\boldsymbol{\alpha}} } $$ (13)

    选择最大特征值对应的特征向量$ {\boldsymbol{\alpha}} $作为QRV.

    基于所构造QRV, 将那些与QRV相关度高的过程变量确定为质量相关变量, 而将与QRV相关度低的过程变量确定为质量无关变量. 为综合考虑变量对之间的局部相关性, 采用窗口宽度为$ M $的滑窗将时序数据截取为$ n-M+1 $个子块, 如图2所示, 图中第$ i $个子块记作:

    图 2  时间序列分块示意图
    Fig. 2  Schematic diagram of time series chunking
    $$ \begin{split} {{\overset{ \frown}{X}}}_{i} =\ & [{{\boldsymbol{x}}}_{i};\;{{\boldsymbol{x}}}_{i+1};\; \cdots\; ;\;{{\boldsymbol{x}}}_{i+M-1}] =\\ & [{{\overset{ \frown}{\boldsymbol{x}}}}_{i}^{1},\;{{\overset{ \frown}{\boldsymbol{x}}}}_{i}^{2},\; \cdots\; ,\;{{\overset{ \frown}{\boldsymbol{x}}}}_{i}^{m}] \end{split} $$ (14)

    同理, QRV的第$ i $个子块记作:

    $$ {{{\overset{ \frown}{{\boldsymbol{\alpha}} }}}_{i}} = [{{\alpha }_{i}},\;{{\alpha }_{i+1}},\; \cdots\; ,\;{{\alpha }_{{i+M-1}}}]^{\text{T}} $$ (15)

    由$ {{\overset{ \frown}{X}}_{i}} $和$ {{{\overset{ \frown}{{\boldsymbol{\alpha}} }}}_{i}}\; (i\in [1,\;n-M+1]) $ 组成子块对, 在每个子块对中计算各过程变量与QRV的相关度, 最后利用假设检验确定过程变量是否为质量相关变量. 在第$ i $个子块对$ {{\overset{ \frown}{X}}_{i}} $和$ {{{\overset{ \frown}{{\boldsymbol{\alpha}} }}}_{i}}\; (i\in [1,\;n- M+1]) $中, 第$ j $ 个变量$ {\overset{ \frown}{\boldsymbol{x}}}_{i}^{j} $与$ {{{\overset{ \frown}{{\boldsymbol{\alpha}} }}}_{i}} $的相关系数为:

    $$ {r}_{i}^{j} = \frac{\sum\limits_{{k} = 1}^{M}{\left({\overset{ \frown}{x}}_{i,\;k}^{j}-{\bar{x}}_{i}^{j} \right)\left( {{{{\overset{ \frown}{\alpha }}}}_{i,\;k}}-{{{{\bar{\alpha }}}}_{i}} \right)}}{\sqrt{\sum\limits_{{k} = 1}^{M}{{{\left({\overset{ \frown}{x}}_{i,\;k}^{j}-{\bar{x}}_{i}^{j} \right)}^{2}}}}\sqrt{\sum\limits_{{k} = 1}^{M}{{{\left( {{{{\overset{ \frown}{\alpha }}}}_{i,\;k}}-{{{{\bar{\alpha }}}}_{i}} \right)}^{2}}}}} $$ (16)

    式中, $ {\overset{ \frown}{x}}_{i,\;k}^{j} $表示向量$ {{\overset{ \frown}{\boldsymbol{x}}}_{i}^{j}} $的第$ k $个元素; $ {\bar{x}}_{i}^{j} $表示向量$ {{\overset{ \frown}{\boldsymbol{x}}}_{i}^{j}} $的均值; $ \overset{ \frown}{\alpha }_{i,\;k} $表示向量 $ {{{\overset{ \frown}{{\boldsymbol{\alpha}} }}}_{i}} $的第$ k $个元素; $ \bar{\alpha }_{i} $表示向量$ {{{\overset{ \frown}{{\boldsymbol{\alpha}} }}}_{i}} $的均值. 构造$ t $统计量:

    $$ t_{i}^{j} = {r}_{i}^{j}\sqrt{\frac{M-2}{1-{{({r}_{i}^{j})}^{2}}}} $$ (17)

    取原假设和备择假设分别为:

    $$ \begin{cases} & {{\text{H}}_0}:{r}_{i}^{j} = 0,\;{\text{ 即两变量相关度为0}}\\ & {{\text{H}}_{1}}:{r}_{i}^{j}\ne 0,\;{\text{ 即两变量相关度不为0}} \end{cases} $$ (18)

    采用双尾检验计算$ {r}_{i}^{j} $对应的$ p $值, 记作$ {p}_{i}^{j} $. 分别计算$ n-M+1 $个子块的$ p $值并组成检验矩阵:

    $$ P = \begin{bmatrix} p_{1}^{1} & \ldots & p_{1}^{m} \\ p_{2}^{1} & \ldots & p_{2}^{m} \\ \vdots & \ddots & \vdots \\ p_{n-M+1}^{1} & \ldots & p_{n-M+1}^{m} \end{bmatrix} \in {{\bf{R}}^{(n-M+1)\times m}} $$ (19)

    对矩阵$ P $按列求均值$ \bar{\boldsymbol{P}} = [{\bar{p}}_{{}}^{1},\;\cdots,\;{\bar{p}}_{{}}^{m}] $, 根据上述假设, 取显著性水平为0.05. 如果$ {\bar{p}}_{{}}^{j}<0.05 $, 则原假设$ {{\text {H}}_{0}} $不成立, 即过程变量$ {{\boldsymbol{x}}^{j}} $为质量相关变量, 否则为质量无关变量.

    至此, 过程变量$ X $可被划分为质量相关变量组$ {{X}_{r}} $和质量无关变量组$ {{X}_{u}} $.

    本节在前述变量划分结果的基础上, 详述基于ICA的故障检测指标构建和故障检测策略.

    按照式(1) ~ (6), 分别对质量相关变量组$ {{X}_{r}} $和质量无关变量组$ {{X}_{u}} $建立ICA模型:

    $$ \begin{cases} X_{r} = S_{r}A_r + E_{r} \\ X_{u} = S_{u} A_{u}+ E_{u} \end{cases} $$ (20)
    $$ \begin{cases} S_{r} = X_{r} W_{r} \\ S_{u} = X_{u} W_{u} \end{cases} $$ (21)

    式中, $ {{A}_{r}} $和$ {{A}_{u}} $为混合矩阵; $ {{W}_{r}} $和$ {{W}_{u}} $为混解矩阵; $ {{S}_{r}} $和$ {{S}_{u}} $为独立成分; $ {{E}_{r}} $和$ {{E}_{u}} $则表示残差; 下标 $ {r} $和$ {u} $分别表示质量相关空间和质量无关空间.

    对于$ t $时刻样本$ {{\boldsymbol{x}}_{t}} $, 由质量相关变量和质量无关变量组成的向量分别记作$ {{\boldsymbol{x}}_{t,\;r}} $和$ {{\boldsymbol{x}}_{t,\;u}} $. 则样本$ {{\boldsymbol{x}}_{t}} $的质量相关统计量按照式(7)和(8)可表示为:

    $$ I_{r}^{2}({{\boldsymbol{x}}_{t}}) = {\boldsymbol{s}}{{_{t,\;r}^{{}}}}{\boldsymbol{s}}_{t,\;r}^{\text{T}} $$ (22)
    $$ {{Q}_{r}}({{\boldsymbol{x}}_{t}}) = {{\boldsymbol{e}}_{t,\;r}}{\boldsymbol{e}}_{t,\;r}^{\text{T}} $$ (23)

    式中$ {\boldsymbol{s}}_{t,\;r}^{{}} = {{\boldsymbol{x}}_{t,\;r}}{{W}_r} $和$ {{\boldsymbol{e}}_{t,\;r}} = {{\boldsymbol{x}}_{t,\;r}}-{\boldsymbol{s}}_{t,\;r}^{{}}{{A}_r} $分别表示$ {{\boldsymbol{x}}_{t}} $在质量相关空间的独立成分和残差. 同理可求得$ {{\boldsymbol{x}}_{t}} $的质量无关统计量 $ I_u^{2}({{\boldsymbol{x}}_{t}}) $ 和$ {{Q}_u}({{\boldsymbol{x}}_{t}}) $. 采用KDE分别求得$ I_r^{2}({{\boldsymbol{x}}_{t}}) $, $ {{Q}_r}({{\boldsymbol{x}}_{t}}) $, $ I_u^{2}({{\boldsymbol{x}}_{t}}) $和$ {{Q}_{u}}({{\boldsymbol{x}}_{t}}) $的控制限, 记作$ I_{{\text{r}}\_\text{lim}}^{2} $, $ Q_{{\text{r}}\_\text{lim}}^{{}} $, $ I_{{\text{u}}\_\text{lim}}^{2} $和$ Q_{{\text{u}}\_\text{lim}}^{{}} $.

    复杂系统运行中, 由于环境变化、电磁干扰, 测量变量会发生波动. 为克服这种波动给检测结果带来的负面影响, 本文采用EWMA对统计量进行修正:

    $$ \begin{cases} \overset{ \frown}{I_r^{2}}({{\boldsymbol{x}}_{t}}) = \gamma I_r^{2}({{\boldsymbol{x}}_{t}})+\; (1- \gamma)\overset{ \frown}{I_r^{2}}({{\boldsymbol{x}}_{t-1}}) \\ \overset{ \frown}{Q}_r({{\boldsymbol{x}}_{t}}) = \gamma Q_r^{{}}({{\boldsymbol{x}}_{t}})+\; (1- \gamma )\overset{ \frown}{Q}_r({{\boldsymbol{x}}_{t-1}}) \end{cases} $$ (24)
    $$ \begin{cases} \overset{ \frown}{I_u^{2}}({{\boldsymbol{x}}_{t}}) = \gamma I_u^{2}({{\boldsymbol{x}}_{t}})+(1- \gamma )\overset{ \frown}{I_u^{2}}({{\boldsymbol{x}}_{t-1}})\\ \overset{ \frown}{Q}_u({{\boldsymbol{x}}_{t}}) = \gamma Q_u^{{}}({{\boldsymbol{x}}_{t}})+(1 - \gamma )\overset{ \frown}{Q}_u({{\boldsymbol{x}}_{t-1}}) \end{cases} $$ (25)

    式中, $ \gamma \in [0,\;1] $为遗忘因子, 其值越小表示记忆深度越深. 初值$ \overset{ \frown}{I_r^{2}}({{\boldsymbol{x}}_{0}}) 、$$ \overset{ \frown}{Q}_r({{\boldsymbol{x}}_{0}})、 $$ \overset{ \frown}{I_u^{2}}({{\boldsymbol{x}}_{0}}) $和$ \overset{ \frown}{Q}_u({{\boldsymbol{x}}_{0}}) $用全部训练样本统计量的均值代替.

    为简化诊断逻辑, 用统计量的最大变化率来构建综合检测指标:

    $${{\varphi }_{r}}({{\boldsymbol{x}}_{t}}) = \max \left[ \frac{\overset{ \frown}{I_{r}^{2}}({{\boldsymbol{x}}_{t}})} {I_{\text{r}\_\text{lim}}^{2}}, \; \frac{{{{\overset{ \frown}{Q}}}_{r}}({{\boldsymbol{x}}_{t}})}{Q_{\text{r}\_\text{lim}}^{{}}} \right] $$ (26)
    $$ {{\varphi }_{u}}({{\boldsymbol{x}}_{t}}) = \max \left[ \frac{\overset{ \frown}{I_{u}^{2}}({{\boldsymbol{x}}_{t}})}{I_{\text{u}\_\text{lim}}^{2}},\; \frac{{{{\overset{ \frown}{Q}}}_{u}}({{\boldsymbol{x}}_{t}})}{Q_{\text{u}\_\text{lim}}^{{}}} \right] $$ (27)

    式中, $ {{\varphi }_{r}}({{\boldsymbol{x}}_{t}}) $和$ {{\varphi }_{u}}({{\boldsymbol{x}}_{t}}) $分别表示质量相关和质量无关空间的综合检测指标, 它们的控制限均为1.

    为方便理解所提QRVICA质量相关故障检测方法, 详细的离线建模和在线检测步骤总结如下:

    离线建模:

    1) 将正常工况过程变量矩阵$ X $标准化为零均值单位方差;

    2) 按照式(13)进行特征值分解, 求解得质量关联虚拟变量$ {{\boldsymbol{\alpha}}} $;

    3) 按照图2和式(14) ~ (15)对$ X $和$ {{\boldsymbol{\alpha}}} $进行分块;

    4) 按照式(16)分别计算每个子块对中各变量$ {\overset{ \frown}{\boldsymbol{x}}}_{i}^{j} $与$ {{{\overset{ \frown}{{\boldsymbol{\alpha}}}}}_{i}} $的相关系数$ {r}_{i}^{j} $;

    5) 按照式(17)计算$ t $统计量$ t_{i}^{j} $, 并利用双尾检验求得对应的$ p $值$ {p}_{i}^{j} $;

    6) 对式(19)所示矩阵$ P $按列求均值向量$ \bar{\boldsymbol{P}} = [{\bar{p}}_{{}}^{1},\;{\bar{p}}_{{}}^{2},\;\cdots,\;{\bar{p}}_{{}}^{m}] $;

    7) 利用假设检验, 将$ X $划分为质量相关变量组$ {{X}_r} $和质量无关变量组$ {{X}_{u}} $;

    8) 分别对$ {{X}_{r}} $和$ {{X}_{u}} $建立ICA模型, 计算控制限.

    在线检测:

    1) 对$ t $时刻样本$ {{\boldsymbol{x}}_{t}} $进行标准化;

    2) 根据变量划分结果, 将$ {{\boldsymbol{x}}_{t}} $划分为$ {{\boldsymbol{x}}_{t,\;r}} $和$ {{\boldsymbol{x}}_{t,\;u}} $;

    3) 将$ {{\boldsymbol{x}}_{t,\;r}} $和$ {{\boldsymbol{x}}_{t,\;u}} $分别投影到ICA模型中, 并求得相应的统计量$ \overset{ \frown}{I_r^{2}}({{\boldsymbol{x}}_{t}}) $, $ {{\overset{ \frown}{Q}}_r}({{\boldsymbol{x}}_{t}}) $, $ \overset{ \frown}{I_u^{2}}({{\boldsymbol{x}}_{t}}) $和$ {{\overset{ \frown}{Q}}_u}({{\boldsymbol{x}}_{t}}) $;

    4) 按照式(26) ~ (27)求得综合检测指标$ {{\varphi }_r}({{\boldsymbol{x}}_{t}}) $和$ {{\varphi }_u}({{\boldsymbol{x}}_{t}}) $;

    5) 如果$ {{\varphi }_r}({{\boldsymbol{x}}_{t}})>1 $, $ {{\boldsymbol{x}}_{t}} $为质量相关故障样本; 如果$ {{\varphi }_r}({{\boldsymbol{x}}_{t}})\le 1 $且$ {{\varphi }_u}({{\boldsymbol{x}}_{t}})>1 $, $ {{\boldsymbol{x}}_{t}} $为质量无关故障样本; 如果$ {{\varphi }_r}({{\boldsymbol{x}}_{t}})\le 1 $且$ {{\varphi }_u}({{\boldsymbol{x}}_{t}})\le 1 $, $ {{\boldsymbol{x}}_{t}} $为正常样本.

    基于QRVICA的质量相关故障检测方法流程如图3所示.

    图 3  基于QRVICA的质量相关故障检测流程图
    Fig. 3  Flowchart of quality-related fault detection based on QRVICA

    本节通过数值仿真和田纳西−伊斯曼过程 (Tennessee-Eastman process, TEP)工业基准案例验证所提方法的有效性. 实验主要包括质量相关变量划分、相关性分析和故障检测. 在质量相关变量划分实验中, 选择互信息法[17]作为对比方法. 在故障检测实验中, 为全面评估所提方法的故障检测性能, 我们选择4种质量相关故障检测方法做对比实验, 其中MI-KPCA[17] 为基于变量划分的方法, MKICR[15]和OMDPLS[7] 为基于空间分解的方法, 而VIP-DCPLS[22] 则结合变量划分和空间分解法. 此外, 为验证EWMA在所提QRVICA方法中的作用, 我们进行消融实验, 即去除QRVICA方法中的EWMA部分 (设置遗忘因子$ \gamma = 1 $), 记为QRVICA-without-EWMA. 文献[22]中, VIP-DCPLS通过支持向量数据描述 (Support vector data description, SVDD)整合质量相关和质量无关空间的10个统计量, 形成综合检测指标$ d $, 但该指标$ d $无法区分故障是否与质量相关. 为方便性能对比, 本实验中对VIP-DCPLS进行简单修改: 分别用SVDD处理质量相关空间的5个统计量得到质量相关指标$ {{d}_r} $, 对质量无关空间的5个统计量构建质量无关指标$ {{d}_u} $. 所有方法中控制限的置信限设置为0.95[15], 根据交叉验证设置遗忘因子$ \gamma = 0.2 $. 采用误报率(False alarm rate, FAR)和故障检测率(Fault detection rate, FDR)定量评估各方法的检测性能. 具体计算公式如下:

    $$ \begin{split}&\text{FAR} = \\ &\;\;\;\;\begin{cases} \dfrac{\text{Num}\left\{ {{\varphi }_{r}}({\boldsymbol{x}})>1\left| \boldsymbol{x}\in \text{Normal} \right. \right\}}{\text{Num}\{{\boldsymbol{x}}\in \text{Normal}\}}, &\text{质量相关故障}\\ \dfrac{\text{Num}\left\{ {{\varphi }_{r}}({\boldsymbol{x}})>1 \right\}}{\text{Num}\{{\boldsymbol{x}}\}}, & \text{质量无关故障} \end{cases}\end{split} $$ (28)
    $$ \begin{split} &\text{FDR} =\\ &\;\;\;\;\begin{cases} \dfrac{\text{Num}\left\{ {{\varphi }_{r}}({\boldsymbol{x}})>1\left| {\boldsymbol{x}}\in \text{Fault} \right. \right\}}{\text{Num}\{{\boldsymbol{x}}\in \text{Fault}\}}, & \text{质量相关故障} \\ \dfrac{\text{Num}\left\{ {{\varphi }_{u}}({\boldsymbol{x}})>1\left| {\boldsymbol{x}}\in \text{Fault} \right. \right\}}{\text{Num}\{{\boldsymbol{x}}\in \text{Fault}\}}, & \text{质量无关故障} \end{cases} \end{split} $$ (29)

    式中, $ \text{Num}\left\{{{\varphi }_{r}}(\boldsymbol{x}) > 1\left| \boldsymbol{x}\in \text{Normal} \right. \right\} $是$ {{\varphi }_{r}}(\boldsymbol{x}) > 1 $的正常样本个数; $ \text{Num}\{{{\varphi }_{r}}(\boldsymbol{x}) > 1\left| \boldsymbol{x}\in \text{Fault} \right.\} $ 是$ {{\varphi }_{r}}(\boldsymbol{x}) > 1 $的故障样本的个数; $ \text{Num}\{ {{\varphi }_{u}}(\boldsymbol{x}) > 1\left| \boldsymbol{x}\in \text{Fault}\right.\} $表示$ {{\varphi }_{u}}(\boldsymbol{x}) > 1 $的故障样本的个数; ${\mathrm{Num}}\{x\} $表示所有样本(包括正常样本和故障样本)的个数; $ \text{Num}\{ \boldsymbol{x}\in \text{Normal}\} $和$ \text{Num}\{\boldsymbol{x}\in \text{Fault}\} $则分别表示正常和故障样本的个数.

    一般情况下FAR越低越好, FDR越高越好. 在质量相关故障检测中, 注意以下两点:

    1) 对于质量相关故障, 聚焦于质量相关检测指标. 理想的检测方法的质量相关检测指标需大于对应的控制限, 从而确保对质量相关故障的敏感捕捉与及时响应, 即高FDR.

    2) 对于质量无关故障, 需同时评估质量相关与质量无关两个检测指标. 理想的检测方法应实现以下平衡: 一方面, 质量相关检测指标大于控制限的情形属于误报警, 质量相关检测指标需保持在控制限以下, 以最小化误报, 即低FAR; 另一方面, 质量无关检测指标需高于控制限, 确保对非质量因素导致的潜在问题亦能进行有效预警, 即高FDR.

    按照式(30)建立数值仿真模型[3]:

    $$ \begin{cases} {{\boldsymbol{x}}_{t}} = {{\boldsymbol{z}}_{t}}A+{{\boldsymbol{e}}_{t}}\\ {{\boldsymbol{y}}_{t}} = {{\boldsymbol{x}}_{t}}C+{{\boldsymbol{v}}_{t}} \end{cases} $$ (30)

    式中, $ A = {\begin{bmatrix} 1&3&4&4&0&0&0 \\ 3&1&1&4&1&1&1 \\ 1&1&3&0&0&2&3 \end{bmatrix}} $; $ C = [2\quad 3\quad 1\quad 1 0\quad 0\quad 0]^{\text{T}} $; $ {{\boldsymbol{x}}_{t}} $为过程变量; $ {{\boldsymbol{y}}_{t}} $为质量变量; $ {{\boldsymbol{z}}_{t}}\sim \text{U}(0,\;1) $; $ {{\boldsymbol{e}}_{t}} \sim \text{N}(0,\;{{0.05}^{2}}) $和 $ {{\boldsymbol{v}}_{t}} \sim \text{N}(0,\;{{0.01}^{2}}) $表示随机噪声. $ {{\boldsymbol{x}}^{1}} \sim {{\boldsymbol{x}}^{4}} $为质量相关变量, 而$ {{\boldsymbol{x}}^{5}} \sim {{\boldsymbol{x}}^{7}} $为质量无关变量.

    4.1.1   质量相关变量划分实验

    按照式(30)生成500个正常样本, 采用互信息法[17]作为对比方法验证所提方法的有效性, 实验结果如图4. 图中用橙色标记质量相关变量, 用蓝色标记质量无关变量. 在互信息法中, 计算各过程变量与式(30)中质量变量$ {\boldsymbol{y}}_t $之间的互信息值, 图4(a)中红色虚线表示控制限, 当某一变量与$ {\boldsymbol{y}}_t $的互信息值高于控制限, 该变量被划分为质量相关变量; 在所提方法中设置窗口宽度$ M = 10 $, 按照第2.2节计算所构造QRV与各过程变量之间的相关度, 图4(b)中红色虚线为显著性水平. 按照式(18)假设, 当某一变量的$ p $值低于显著性水平, 则该变量为质量相关变量.

    图 4  数值仿真过程变量划分结果
    Fig. 4  Division results of process variable in numerical simulation

    图4可知, 所提基于QRV的质量相关变量划分方法与互信息法的实验结果一致, 均表明$ {{\boldsymbol{x}}^{1}}\sim {{\boldsymbol{x}}^{4}} $为质量相关变量, 而$ {{\boldsymbol{x}}^{5}}\sim {{\boldsymbol{x}}^{7}} $为质量无关变量, 该结果与实际情况一致. 该一致性说明, 即便在不使用质量变量的情况下, 利用本文所提基于QRV的划分方法, 仍能准确地将过程变量划分为质量相关变量和质量无关变量.

    4.1.2   相关性分析实验

    为进一步阐释所构造QRV可反映质量特性, 我们采用4阶Butterworth低通滤波器分别提取式(30)中质量变量$ {{\boldsymbol{y}}_t} $和质量关联虚拟变量$ {\boldsymbol{\alpha}} $的包络线如图5所示, 以此来直观查看信号随时间的变化趋势. 由图5可知, 两个信号的包络线在时间轴上呈现出近乎一致的变化轨迹, 这意味着QRV可有效跟踪$ {{\boldsymbol{y}}_t} $的变化.

    图 5  变量的变化趋势及其包络线
    Fig. 5  The trend of the variables and their envelopes

    此外, 为定量分析质量变量$ {{\boldsymbol{y}}_t} $及质量关联虚拟变量$ {\boldsymbol{\alpha}} $与各过程变量之间的相关性, 我们计算这些变量之间的皮尔逊相关系数, 并将结果展示如图6. 图中对应元素的值表示两变量之间的相关系数, 如第二行第一列的值表示过程变量$ {{\boldsymbol{x}}^{1}} $与虚拟变量$ {\boldsymbol{\alpha}} $之间的相关系数为0.912 8. 图6结果表明, 质量变量$ {\boldsymbol{y}}_t $与变量 $ {{\boldsymbol{x}}^{1}}\sim {{\boldsymbol{x}}^{4}} $的相关系数均高于其与$ {{\boldsymbol{x}}^{5}}\sim {{\boldsymbol{x}}^{7}} $的相关系数, 这一规律在QRV也同样存在. 该结果与仿真模型(30)的实验设置相符. 更重要的是, 质量变量$ {\boldsymbol{y}}_t $与质量关联虚拟变量$ {\boldsymbol{\alpha}} $的相关系数高达0.930 8, 这一结果充分表明两者之间具有较强的相关性.

    图 6  各变量之间的相关系数
    Fig. 6  Correlation coefficients between variables
    4.1.3   故障检测实验

    在模型(30)基础上注入故障如下:

    $$ {\boldsymbol{x}}_{t}^{} = {\boldsymbol{x}}_{t}^{*}+{{\boldsymbol{\xi}}}$$ (31)

    故障1 $ {{\boldsymbol{\xi}}} = {\begin{bmatrix}3&2&4&3&0&0&0\end{bmatrix}} $;

    故障2 $ {{\boldsymbol{\xi}}} = {\begin{bmatrix}0&0&0&0&1&2&1\end{bmatrix}} $.

    式(31)中$ {\boldsymbol{x}}_{t}^{*} $表示正常样本; $ {\boldsymbol{\xi}} $表示故障分量. 显然, 故障1为质量相关故障, 而故障2为质量无关故障. 每种故障生成1 000个测试样本: 前300个为正常样本, 后700个为故障样本. 用相同的实验数据, 分别采用MI-KPCA, MKICR, VIP-DCPLS, OMDPLS, QRVICA-without-EWMA和QRVICA进行故障检测, 结果如图7图8所示, 图中$ {{\hat{T}}^{2}} $, $ {{\hat{I}}^{2}} $, $ {{d}_r} $, $ {{T}^{2}} $和$ {{{\varphi}}_r} $表示质量相关统计量, 而$ {{\tilde{T}}^{2}} $, $ {{\tilde{I}}^{2}} $, $ {{d}_u} $, $ {{Q}} $ 和$ {{{\varphi}}_u} $表示质量无关统计量.

    图 7  故障1的故障检测结果
    Fig. 7  Fault detection results of fault 1
    图 8  故障2的故障检测结果
    Fig. 8  Fault detection results of fault 2

    图7可知, QRVICA在故障注入之前 (即采样点$ 1\sim300 $), 样本的检测指标均低于控制限, 而故障注入后 (即采样点$ 301 \sim 1\; 000 $), 样本的检测指标均高于控制限. 而其他方法均存在不同程度的误报和漏报. 据统计, MI-KPCA, MKICR, VIP-DCPLS, OMDPLS及QRVICA-without-EWMA对故障1的FDR分别为84.71%, 76.86%, 75.50%, 77.51% 和90.00%.

    图8可知, MI-KPCA和MKICR中部分故障样本的质量无关检测指标低于控制限, 即存在漏报; 而MKICR, VIP-DCPLS, OMDPLS及QRVICA-without-EWMA中一些正常样本的质量相关统计量高于控制限, 导致误报. 相比之下, QRVICA方法对质量相关和质量无关故障均保持零误报率和100% 的FDR. 结合图4可知, 尽管MI-KPCA和QRVICA的变量划分结果一致, 但基于ICA的QRVICA的FDR高于基于PCA的MI-KPCA的FDR. 作为另一种ICA的变体, 基于空间分解的MKICR的FAR高于基于变量划分的QRVICA的FAR, 而FDR低于QRVICA的FDR. 对比图7(e)和图7(f)以及图8(e)和图8(f)可知, 引入EWMA后质量相关和质量无关故障的检测性能均有显著提升.

    综上, QRVICA具有优越检测性能的原因主要包括以下几点: 1) QRVICA作为ICA的变体, 能够充分利用数据的高阶统计信息; 2) QRVICA是基于变量划分思想的质量相关故障检测方法, 其从根本上 (即从建模变量的选择开始) 实现质量相关与质量无关信息的有效分离; 3) EWMA技术通过融入历史样本信息, 显著提升故障检测性能.

    TEP是Eastman公司根据实际化工反应过程开发的仿真平台, 其被广泛用于测试复杂工业过程的故障检测和诊断模型[27]. TEP包含41个测量变量XMEAS (1 ~ 41) 和11个操纵变量XMV (1 ~ 11). 在本实验中, 选择XMEAS (1 ~ 22) 和XMV (1 ~ 11) 组成33个过程变量, XMEAS (35) (主要产物G的浓度) 作为质量变量$ {\boldsymbol{y}} $. 训练集包含500个正常样本, 每种故障的测试样本中前160个为正常样本, 后800个为故障样本.

    4.2.1   质量相关变量划分实验

    按照第2.2节所述质量相关变量划分方法将过程变量划分为质量相关变量组$ {{X}_r} $和质量无关变量组$ {{X}_u} $. 设置窗口宽度$ M = 200 $, 划分结果如图9所示, 图中用橙色标记质量相关变量, 用蓝色标记质量无关变量. 由图9可知, 质量相关变量由测量变量XMEAS (1, 3, 7, 10, 11, 13, 16, 18, 19, 20) 和操纵变量XMV (2, 3, 5, 6, 9) 组成. 文献[17] 计算过程变量与$ {\boldsymbol{y}} $之间的MI值, 据此得出质量相关变量由测量变量XMEAS (1, 7, 10, 11, 13, 16, 18, 19, 20) 和操纵变量XMV (3, 5, 6, 9) 组成. 两种方法中31个变量的划分结果一致, 这表明利用QRV进行变量划分与直接使用$ {\boldsymbol{y}} $的划分结果高度吻合.

    TEP共包括15种已知故障模式, 分别记作IDV (1) ~ IDV (15). 按照文献[6] 的分类准则, IDV (1, 2, 5 ~ 8, 10, 12, 13) 为质量相关故障; IDV (3, 4, 9, 11, 14, 15) 为质量无关故障, 其中IDV (3, 9, 15) 中由于变量的波动幅值很小, 大多数常规方法难以检测到故障, 本文不做讨论.

    图 9  TEP过程变量划分结果
    Fig. 9  Division results of process variable in TEP

    为进一步验证变量划分结果的准确性, 本文以IDV (5)为例, 分别用$ {{X}_r} $和$ {{X}_u} $对质量变量$ {\boldsymbol{y}} $进行最小二乘回归, 回归结果如图10, 图中蓝色线条$ {\boldsymbol{y}} $表示产物G浓度的真实变化趋势, 红色线条$ {{\hat{{\boldsymbol{y}}}}_r} $和绿色线条$ {{\hat{{\boldsymbol{y}}}}_u} $分别表示用$ {{X}_r} $和$ {{X}_u} $进行回归的预测值. 由图可知, $ {{\hat{{\boldsymbol{y}}}}_{r}} $紧密跟随$ {\boldsymbol{y}} $的变化趋势, 这表明$ {{X}_r} $可有效预测$ {\boldsymbol{y}} $; 相反, $ {{\hat{{\boldsymbol{y}}}}_u} $与$ {\boldsymbol{y}} $之间存在显著偏离, 这表明$ {{X}_u} $无法准确预测$ {\boldsymbol{y}} $的变化, 即$ {{X}_u} $与$ {\boldsymbol{y}} $的相关性较小. 这一结果间接验证了变量划分结果的准确性.

    图 10  IDV (5)中不同变量组对质量变量的回归结果
    Fig. 10  Regression results of the quality variable for different variable groups in IDV (5)
    4.2.2   故障检测实验

    1) 质量相关故障检测结果分析

    利用MI-KPCA, MKICR, VIP-DCPLS, OMDPLS, QRVICA-without-EWMA和QRVICA方法, 我们对质量相关故障进行故障检测, 结果如表1所示. 对于质量相关故障, 一般更关注质量相关检测指标, 因此表1中FAR和FDR都是对质量相关检测指标的统计结果. 此外, 表1中所有方法对IDV (5)和IDV (7)的检测率均较低, 这是因为这两种故障属于短期故障. 其特点为故障发生后, 质量变量会出现短暂的波动; 随后, 在容错控制器的负反馈作用下, 质量变量会逐渐恢复到正常状态[14, 17]. 因此, 对于IDV (5)和IDV (7), 并非检测率越高越好, 而是需要在保证检测准确性的同时避免过度检测.

    表 1  质量相关故障的FARs和FDRs (%)
    Table 1  FARs and FDRs of the quality-related faults (%)
    算法
    故障编号
    MI-KPCA MKICR VIP-DCPLS OMDPLS QRVICA-without-EWMA QRVICA
    FAR ($\hat T^2$) FDR (${{\hat{T}}^{2}}$) FAR ($\hat I^2$) FDR (${{\hat{I}}^{2}}$) FAR (${{d}_{r}}$) FDR (${{d}_{r}}$) FAR ($T^2$) FDR ($T^2$) FAR (${\varphi }_r$) FDR (${\varphi }_r$) FAR (${\varphi }_r$) FDR (${\varphi }_r$)
    1 0.30 99.62 0.63 69.13 0.00 99.75 2.50 99.63 0.00 99.75 0.00 99.75
    2 0.00 98.50 0.63 96.88 0.00 96.50 0.63 97.75 0.00 98.25 0.00 98.50
    5 0.00 24.12 0.63 20.62 0.63 24.00 1.25 19.25 0.00 24.13 0.00 25.12
    6 0.00 99.75 0.00 100.00 0.00 100.00 3.13 98.75 0.00 100.00 0.00 100.00
    7 0.00 40.75 0.63 35.13 0.00 40.88 1.87 64.50 0.00 37.00 0.00 37.62
    8 2.40 97.62 3.75 76.00 1.25 97.75 1.25 88.13 0.00 97.63 0.00 97.50
    10 0.00 79.87 0.00 63.38 0.00 55.63 0.63 54.00 0.63 80.63 0.00 84.88
    12 1.25 98.88 21.88 74.13 0.00 98.75 1.25 83.88 0.00 99.25 0.00 99.62
    13 0.00 94.63 1.25 85.38 0.00 95.25 0.63 93.75 0.00 93.75 0.00 94.75
    平均 0.44 81.53 3.27 68.96 0.21 78.72 1.46 77.74 0.07 81.15 0.00 81.97
    下载: 导出CSV 
    | 显示表格

    表1中, 除QRVICA外, 所有其他方法均存在不同程度的误报. 而QRVICA不仅在所有故障中实现零误报, 且在大多数故障中的FDR均达到最高水平. 具体而言, 相较于MI-KPCA, MKICR, VIP-DCPLS, OMDPLS及QRVICA-without-EWMA, QRVICA的平均FDR分别提高0.44, 13.01, 3.25, 4.23和0.82个百分点. 这一优势在IDV (10) 中尤为明显, 如图11所示. 为清晰展示检测结果, 图中对关键区域进行局部放大处理 (如绿色虚线框内所示). 由图11可知, 采用QRVICA方法时仅有少量故障样本的检测指标低于控制限. 而采用其他方法时较多故障样本的检测指标低于控制限, 导致这些方法对IDV (10) 的故障检测率较低. 对比图11(e)和图11(f)可知, 引入EWMA可有效提升故障检测性能, FAR从0.63% 降低至0.00%, 而FDR从80.63% 提高至84.88%.

    图 11  IDV (10)的故障检测结果
    Fig. 11  Fault detection results of the IDV (10)

    2) 质量无关故障检测结果分析

    对于质量无关故障, 我们分别利用MI-KPCA, MKICR, VIP-DCPLS, OMDPLS, QRVICA-without-EWMA和QRVICA方法进行故障检测, 结果如表2所示, 其中粗体表示最佳性能. 分析表2可知, 在处理质量无关故障时, 相较于基于空间分解的MKICR和OMDPLS方法, 基于变量划分的MI-KPCA, VIP-DCPLS和QRVICA方法表现出更低的FAR. 这主要是因为基于空间分解的方法首先建立过程变量和质量变量之间的回归关系, 然后通过对回归矩阵进行奇异值分解 (Singular value decomposition, SVD), 将空间划分为质量相关子空间和质量无关子空间. 这类方法涉及的环节较多, 包括回归关系的建立、SVD分解、故障检测策略等. 任一环节的偏差都可能影响故障检测的精度. 而基于变量划分的方法从建模时便实现质量相关与质量无关信息的有效分离, 只要变量划分足够准确, 就能够有效降低误报率. 所提QRVICA方法在对IDV (4), IDV (11) 和IDV (14) 的检测中零误报, 同时具有最高的故障检测率, 其平均FDR相较其他五种方法分别提高4.62, 0.04, 6.08, 1.45和3.29个百分点.

    表 2  质量无关故障的FARs和FDRs (%)
    Table 2  FARs and FDRs of the quality-unrelated faults (%)
    算法
    故障编号
    MI-KPCA MKICR VIP-DCPLS OMDPLS QRVICA-without-EWMA QRVICA
    FAR ($\hat T^2$) FDR (${{\tilde{T}}^{2}}$) FAR ($\hat I^2$) FDR (${{\tilde{I}}^{2}}$) FAR (${{d}_{r}}$) FDR (${{d}_{u}}$) FAR ($T^2$) FDR ($Q$) FAR (${\varphi }_{r}$) FDR (${\varphi }_{u}$) FAR (${\varphi }_{r}$) FDR (${\varphi }_{u}$)
    4 0.10 100.00 3.75 100.00 1.25 99.00 13.00 100.00 0.10 100.00 0.00 100.00
    11 2.40 69.87 12.00 83.63 2.62 66.50 17.88 79.50 0.31 73.88 0.00 83.75
    14 0.00 100.00 17.88 100.00 0.37 100.00 99.38 99.88 0.21 100.00 0.00 100.00
    平均 0.83 89.96 11.21 94.54 1.41 88.50 43.42 93.13 0.21 91.29 0.00 94.58
    下载: 导出CSV 
    | 显示表格

    为更直观地展示检测效果, 图12展示6种方法对IDV (11)的检测结果. 从图中可以看出, 除QRVICA外其他方法中部分样本的质量相关检测指标超过控制限, 导致对质量无关故障的误报, 从而可能引发不必要的停机. 而所提QRVICA方法的质量相关检测指标$ {\varphi }_r $显著低于控制限, 且大多数故障样本的质量无关检测指标$ {\varphi }_u $ 则高于控制限. 实验结果验证了QRVICA在故障检测中的优越性.

    图 12  IDV (11)的故障检测结果
    Fig. 12  Fault detection results of the IDV (11)

    针对工业过程中质量变量难以直接测量的情况, 本文提出一种基于QRV的质量相关变量划分方法. 该方法通过构造一个QRV作为中间量实现过程变量的划分, 能有效克服传统方法对质量变量的依赖. 所提方法特别适用于那些质量变量难以直接测量情况下的质量相关故障检测. 此外, 该方法也适用于存在多个质量变量的场景, 避免传统方法中需逐一评估每对过程变量和质量变量间关系的繁琐过程, 进而简化计算流程. 将所提质量相关变量划分方法应用到故障检测, 实验结果表明, 无论是针对质量相关还是质量无关的故障场景, 所提QRVICA方法均展现出优越的故障检测性能, 不仅能够有效抑制误报率, 而且在提升故障检测准确率上具有显著优势, 这进一步验证了所提变量划分方法的有效性和可靠性. 这一研究为复杂装备或工业过程的质量相关故障检测提供一种新的可行性方案.

    值得注意的是, 所提方法适用于线性系统, 如何将其扩展到非线性系统尚待研究. 鉴于非线性系统的复杂性和多样性, 未来的研究方向可聚焦于如何将互信息等非线性分析工具有效融入本方法中.


  • 11 红方(Proponents, Pros), 蓝方(Antagonists, Ants)
  • 图  1  EGMF的方法架构(EGMF通过联合极小极大Q函数分解框架进行策略评估, 分解的个体独立Q函数与熵评估函数结合用于策略改进)

    Fig.  1  The architecture of EGMF (EGMF evaluates policies through the joint minimax Q decomposition framework, and combines the factorized individual Q function with the entropy evaluation function for policy improvement)

    图  2  实验验证平台(包括Wimblepong 2v2、MPE 3v3、RoboMaster 2v2和现实世界的RoboMaster 2v2)

    Fig.  2  Experimental verification platform (including Wimblepong 2v2, MPE 3v3, RoboMaster 2v2 and real-world RoboMaster 2v2)

    图  3  训练过程中与基于脚本的智能体进行对抗的结果

    Fig.  3  The result of playing against the rule-based bots during the training process

    图  4  训练过程中多种算法交叉对抗的循环赛回报

    Fig.  4  The cross-play results of RR returns throughout training

    图  5  训练期间EGMF和基线方法的近似NashConv结果

    Fig.  5  Illustration of the approximate NashConv of EGMF and baselines during training

    图  6  EGMF方法在六种场景中的收益矩阵

    Fig.  6  Illustration of the payoff values of EGMF modules in the six scenarios

    图  7  最大熵消融实验过程中与基于脚本的智能体对抗的结果

    Fig.  7  The results with respect to the ablation of maximum entropy by playing against the rule-based bots

    图  8  最大熵优化提升策略的多样性.

    Fig.  8  Maximum entropy optimization enhance the diversity of policy

    图  9  EGMF算法模型部署在实体机器人任务中的演示

    Fig.  9  Demonstration of the continuous real-world robot task based on EGMF model

    表  1  实验中所有方法的重要超参数

    Table  1  Important hyperparameters of all methods in experiments

    算法 超参数 名称 Wimblepong 2v2 MPE 3v3 RoboMaster 2v2
    共用超参数 n_episodes 回合数 13000 13000 80000
    n_seeds 种子数 8 8 8
    $\gamma$ 折扣因子 0.99 0.98 0.99
    hidden_layers 隐藏层 [64, 64] [64, 64] [128, 128]
    mix_hidden_dim 混合网络隐藏层 32 32 32
    learning_rate 学习率 0.0005 0.0005 0.0005
    EGMF (本文) buffer_size 经验池大小 400 000 40 000 400 000
    RADAR[15]/Team-PSRO[16]/NXDO[46] n_genes 迭代数 13 13 10
    ep_per_gene 单次迭代回合 1000 1000 80000
    batch_size 批大小 1000 1000 2000
    buffer_size 经验池大小 200000 20000 200000
    下载: 导出CSV

    表  2  训练结束后各个算法与基于脚本的智能体对抗的结果和循环赛交叉对抗的结果

    Table  2  Performance of all methods at the end of training by playing against the scripted-based bots, and the cross-play results of Round-Robin returns

    指标 算法 场景
    Pong-D MPE-D RM-D Pong-C MPE-C RM-C
    与固定脚本对抗 EGMF (本文) 0.95±0.01 32.3±1.0 0.63±0.03 0.95±0.02 23.0±0.5 0.62±0.03
    RADAR[15] 0.52±0.11 16.3±5.2 0.35±0.02 0.58±0.03 12.5±5.1 0.52±0.02
    Team-PSRO[16] 0.71±0.04 21.2±3.4 0.33±0.01 0.71±0.06 22.1±2.9 0.54±0.03
    NXDO[46] 0.71±0.10 24.1±1.6 0.45±0.02 0.80±0.05 23.0±0.4 0.61±0.01
    循环赛结果 EGMF (本文) 0.92±0.01 12.1±0.3 0.90±0.02 0.91±0.02 7.8±2.2 0.72±0.01
    RADAR[15] 0.45±0.02 −2.4±2.5 0.45±0.04 0.43±0.02 −1.8±1.9 0.50±0.01
    Team-PSRO[16] 0.53±0.02 1.9±1.9 0.49±0.01 0.56±0.04 −3.7±2.8 0.55±0.01
    NXDO[46] 0.51±0.02 2.5±1.2 0.51±0.02 0.63±0.02 2.9±1.9 0.58±0.02
    注: 粗体表示各算法在不同场景下的最优结果.
    下载: 导出CSV

    表  3  EGMF和FM3Q与基于脚本的智能体对抗的结果

    Table  3  Performance of EGMF and FM3Q by playing against the scripted-based bots

    算法 Pong-D MPE-D RM-D
    回合(0.8) 性能 回合(25) 性能 回合(0.6) 性能
    EGMF (本文) 3.0 k 0.95±0.01 2.8 k 32.3±1.0 35 k 0.63±0.03
    FM3Q[17] 3.1 k 0.96±0.03 3.6 k 29.9±1.2 19 k 0.68±0.03
    注: 粗体表示各方法在不同场景下的最优结果.
    下载: 导出CSV
  • [1] Silver D, Huang A, Maddison C J, Guez A, Sifre L, van den Driessche G, et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484−489 doi: 10.1038/nature16961
    [2] 唐振韬, 邵坤, 赵冬斌, 朱圆恒. 深度强化学习进展: 从AlphaGo到AlphaGo Zero. 控制理论与应用, 2017, 34(12): 1529−1546 doi: 10.7641/CTA.2017.70808

    Tang Zhen-Tao, Shao Kun, Zhao Dong-Bin, Zhu Yuan-Heng. Recent progress of deep reinforcement learning: From AlphaGo to AlphaGo Zero. Control Theory and Applications, 2017, 34(12): 1529−1546 doi: 10.7641/CTA.2017.70808
    [3] Sandholm T. Solving imperfect-information games. Science, 2015, 347(6218): 122−123 doi: 10.1126/science.aaa4614
    [4] Tang Z T, Zhu Y H, Zhao D B, Lucas S M. Enhanced rolling horizon evolution algorithm with opponent model learning: Results for the fighting game AI competition. IEEE Transactions on Games, 2023, 15(1): 5−15 doi: 10.1109/TG.2020.3022698
    [5] Guan Y, Afshari M, Tsiotras P. Zero-sum games between mean-field teams: Reachability-based analysis under mean-field sharing. In: Proceedings of the 38th AAAI Conference on Artificial Intelligence. Vancouver, Canada: AAAI, 2024. 9731−9739
    [6] Mathieu M, Ozair S, Srinivasan S, Gulcehre C, Zhang S T, Jiang R, et al. Starcraft II unplugged: Large scale offline reinforcement learning. In: Proceedings of the 35th Conference on Neural Information Processing Systems. Sydney, Australia: NeurIPS, 2021.
    [7] Ye D H, Liu Z, Sun M F, Shi B, Zhao P L, Wu H, et al. Mastering complex control in MOBA games with deep reinforcement learning. In: Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020. 6672−6679
    [8] Littman M L. Markov games as a framework for multi-agent reinforcement learning. In: Proceedings of the 7th International Conference on International Conference on Machine Learning. San Francisco, USA: ACM, 1994. 157−163
    [9] Hu J L, Wellman M P. Nash q-learning for general-sum stochastic games. The Journal of Machine Learning Research, 2003, 4: 1039−1069
    [10] Zhu Y H, Zhao D B. Online minimax q network learning for two-player zero-sum Markov games. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(3): 1228−1241 doi: 10.1109/TNNLS.2020.3041469
    [11] Lanctot M, Zambaldi V, Gruslys A, Lazaridou A, Tuyls K, Pérolat J, et al. A unified game-theoretic approach to multiagent reinforcement learning. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 4193−4206
    [12] Chai J J, Chen W Z, Zhu Y H, Yao Z X, Zhao D B. A hierarchical deep reinforcement learning framework for 6-DOF UCAV air-to-air combat. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2023, 53(9): 5417−5429 doi: 10.1109/TSMC.2023.3270444
    [13] Li W F, Zhu Y H, Zhao D B. Missile guidance with assisted deep reinforcement learning for head-on interception of maneuvering target. Complex and Intelligent Systems, 2022, 8(2): 1205−1216
    [14] Haarnoja T, Moran B, Lever G, Huang S H, Tirumala D, Humplik J, et al. Learning agile soccer skills for a bipedal robot with deep reinforcement learning. Science Robotics, 2024, 9(89): Article No. eadi8022 doi: 10.1126/scirobotics.adi8022
    [15] Phan T, Belzner L, Gabor T, Sedlmeier A, Ritz F, Linnhoff-Popien C. Resilient multi-agent reinforcement learning with adversarial value decomposition. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 11308−11316
    [16] McAleer S, Farina G, Zhou G, Wang M Z, Yang Y D, Sandholm T. Team-PSRO for learning approximate TMECor in large team games via cooperative reinforcement learning. In: Proceedings of the 37th Conference on Neural Information Processing Systems. NeurIPS, 2023.
    [17] Hu G Z, Zhu Y H, Li H R, Zhao D B. FM3Q: Factorized multi-agent MiniMax Q-learning for two-team zero-sum Markov game. IEEE Transactions on Emerging Topics in Computational Intelligence, 2024, 8(6): 4033−4045 doi: 10.1109/TETCI.2024.3383454
    [18] Bai Y, Jin C. Provable self-play algorithms for competitive reinforcement learning. In: Proceedings of the 37th International Conference on Machine Learning. PMLR, 2020. Article No. 52
    [19] Perez-Nieves N, Yang Y D, Slumbers O, Mguni D H, Wen Y, Wang J. Modelling behavioural diversity for learning in open-ended games. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 8514−8524
    [20] Balduzzi D, Garnelo M, Bachrach Y, Czarnecki W, Pérolat J, Jaderberg M, et al. Open-ended learning in symmetric zero-sum games. In: Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: ICML, 2019. 434−443
    [21] McAleer S, Lanier J B, Fox R, Baldi P. Pipeline PSRO: A scalable approach for finding approximate Nash equilibria in large games. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: ACM, 2020. Article No. 1699
    [22] Muller P, Omidshafiei S, Rowland M, Tuyls K, Pérolat J, Liu S Q, et al. A generalized training approach for multiagent learning. In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: ICLR, 2020.
    [23] Marris L, Muller P, Lanctot M, Tuyls K, Graepel T. Multi-agent training beyond zero-sum with correlated equilibrium meta-solvers. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 7480−7491
    [24] Feng X D, Slumbers O, Wan Z Y, Liu B, McAleer S, Wen Y, et al. Neural auto-curricula in two-player zero-sum games. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. NeurIPS, 2021. Article No. 268
    [25] Anagnostides I, Kalogiannis F, Panageas I, Vlatakis-Gkaragkounis E V, Mcaleer S. Algorithms and complexity for computing Nash equilibria in adversarial team games. In: Proceedings of the 24th ACM Conference on Economics and Computation. London, UK: ACM, 2023. Article No. 89
    [26] Zhu Y H, Li W F, Zhao M C, Hao J Y, Zhao D B. Empirical policy optimization for n-player Markov games. IEEE Transactions on Cybernetics, 2023, 53(10): 6443−6455 doi: 10.1109/TCYB.2022.3179775
    [27] Luo G Y, Zhang H, He H B, Li J L, Wang F-Y. Multiagent adversarial collaborative learning via mean-field theory. IEEE Transactions on Cybernetics, 2021, 51(10): 4994−5007 doi: 10.1109/TCYB.2020.3025491
    [28] Lowe R, Wu Y, Tamar A, Harb J, Abbeel P, Mordatch I. Multi-agent actor-critic for mixed cooperative-competitive environments. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: ACM, 2017. 6382−6393
    [29] Sunehag P, Lever G, Gruslys A, Czarnecki W M, Zambaldi V, Jaderberg M, et al. Value-decomposition networks for cooperative multi-agent learning based on team reward. In: Proceedings of the 17th International Conference on Autonomous Agents and MultiAgent Systems. Stockholm, Sweden: ACM, 2018. 2085−2087
    [30] Rashid T, Samvelyan M, De Witt C S, Farquhar G, Foerster J, Whiteson S. Monotonic value function factorisation for deep multi-agent reinforcement learning. The Journal of Machine Learning Research, 2020, 21(1): Article No. 178
    [31] Chai J J, Li W F, Zhu Y H, Zhao D B, Ma Z, Sun K W, et al. UNMAS: Multiagent reinforcement learning for unshaped cooperative scenarios. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(4): 2093−2104 doi: 10.1109/TNNLS.2021.3105869
    [32] Peng B, Rashid T, De Witt C A S, Kamienny P A, Torr P H S, Böhmer W, et al. FACMAC: Factored multi-agent centralised policy gradients. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. NeurIPS, 2021. Article No. 934
    [33] Zhang T H, Li Y H, Wang C, Xie G M, Lu Z Q. FOP: Factorizing optimal joint policy of maximum-entropy multi-agent reinforcement learning. In: Proceedings of the 38th International Conference on Machine Learning. PMLR, 2021. 12491−12500
    [34] Haarnoja T, Tang H R, Abbeel P, Levine S. Reinforcement learning with deep energy-based policies. In: Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: PMLR, 2017. 1352−1361
    [35] Haarnoja T, Zhou A, Abbeel P, Levine S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In: Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018. 1856−1865
    [36] Duan J L, Guan Y, Li S E, Ren Y G, Sun Q, Cheng B. Distributional soft actor-critic: Off-policy reinforcement learning for addressing value estimation errors. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(11): 6584−6598 doi: 10.1109/TNNLS.2021.3082568
    [37] Kalogiannis F, Panageas I, Vlatakis-Gkaragkounis E V. Towards convergence to Nash equilibria in two-team zero-sum games. In: Proceedings of the 11th International Conference on Learning Representations. Kigali, Rwanda: ICLR, 2023.
    [38] Wang J H, Ren Z Z, Liu T, Yu Y, Zhang C J. QPLEX: Duplex dueling multi-agent Q-learning. In: Proceedings of the 9th International Conference on Learning Representations. ICLR, 2021.
    [39] Condon A. On algorithms for simple stochastic games. Advances in Computational Complexity Theory, 1990, 13: 51−72
    [40] Zhou M, Liu Z Y, Sui P W, Li Y X, Chung Y Y. Learning implicit credit assignment for cooperative multi-agent reinforcement learning. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver, Canada: NeurIPS, 2020. Article No. 994
    [41] Ziebart B D, Maas A, Bagnell J A, Dey A K. Maximum entropy inverse reinforcement learning. In: Proceedings of the 23rd AAAI Conference on Artificial Intelligence. Chicago, USA: AAAI, 2008. 1433−1438
    [42] Bellman R. On the theory of dynamic programming. Proceedings of the National Academy of Sciences of the United States of America, 1952, 38(8): 716−719
    [43] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529−533 doi: 10.1038/nature14236
    [44] Terry J K, Black B, Grammel N, Mario Jayakumar M, Ananth Hari A, Sullivan R, et al. PettingZoo: A standard API for multi-agent reinforcement learning. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. NeurIPS, 2021. Article No. 1152
    [45] Hu G Z, Li H R, Liu S S, Zhu Y H, Zhao D B. NeuronsMAE: A novel multi-agent reinforcement learning environment for cooperative and competitive multi-robot tasks. In: Proceedings of the International Joint Conference on Neural Networks (IJCNN). Gold Coast, Australia: IEEE, 2023. 1−8
    [46] McAleer S, Lanier J, Wang K A, Baldi P, Fox R. XDO: A double oracle algorithm for extensive-form games. In: Proceedings of the 35th International Conference on Neural Information Processing Systems. NeurIPS, 2021. Article No. 1771
    [47] Samvelyan M, Khan A, Dennis M, Jiang M Q, Parker-Holder J, Foerster J N, et al. MAESTRO: Open-ended environment design for multi-agent reinforcement learning. In: Proceedings of the 11th International Conference on Learning Representations. Kigali, Rwanda: ICLR, 2023.
    [48] Timbers F, Bard N, Lockhart E, Lanctot M, Schmid M, Burch N, et al. Approximate exploitability: Learning a best response. In: Proceedings of the 31st International Joint Conference on Artificial Intelligence. Vienna, Austria: IJCAI, 2022. 3487−3493
    [49] Cohen A, Yu L, Wright R. Diverse exploration for fast and safe policy improvement. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018. Article No. 351
    [50] Tsai Y Y, Xu H, Ding Z H, Zhang C, Johns E, Huang B D. DROID: Minimizing the reality gap using single-shot human demonstration. IEEE Robotics and Automation Letters, 2021, 6(2): 3168−3175 doi: 10.1109/LRA.2021.3062311
  • 加载中
  • 图(9) / 表(3)
    计量
    • 文章访问数:  64
    • HTML全文浏览量:  38
    • PDF下载量:  6
    • 被引次数: 0
    出版历程
    • 收稿日期:  2024-05-10
    • 录用日期:  2024-10-05
    • 网络出版日期:  2025-02-26

    目录

    /

    返回文章
    返回