2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

深度强化学习的攻防与安全性分析综述

陈晋音 章燕 王雪柯 蔡鸿斌 王珏 纪守领

崔琳琳, 沈冰冰, 葛志强. 基于混合变分自编码器回归模型的软测量建模方法. 自动化学报, 2022, 48(2): 398−407 doi: 10.16383/j.aas.c210035
引用本文: 陈晋音, 章燕, 王雪柯, 蔡鸿斌, 王珏, 纪守领. 深度强化学习的攻防与安全性分析综述. 自动化学报, 2022, 48(1): 21−39 doi: 10.16383/j.aas.c200166
Cui Lin-Lin, Shen Bing-Bing, Ge Zhi-Qiang. A mixture variational autoencoder regression model for soft sensor application. Acta Automatica Sinica, 2022, 48(2): 398−407 doi: 10.16383/j.aas.c210035
Citation: Chen Jin-Yin, Zhang Yan, Wang Xue-Ke, Cai Hong-Bin, Wang Jue, Ji Shou-Ling. A survey of attack, defense and related security analysis for deep reinforcement learning. Acta Automatica Sinica, 2022, 48(1): 21−39 doi: 10.16383/j.aas.c200166

深度强化学习的攻防与安全性分析综述

doi: 10.16383/j.aas.c200166
基金项目: 浙江省自然科学基金(LY19F020025), 宁波市“科技创新2025”重大专项(2018B10063), 科技创新2030—“新一代人工智能”重大项目(2018AAA0100800)资助
详细信息
    作者简介:

    陈晋音:浙江工业大学网络空间安全研究院副教授. 2009年获得浙江工业大学博士学位. 主要研究方向为人工智能安全, 网络数据挖掘, 智能计算, 计算机视觉. 本文通信作者.E-mail: chenjinyin@zjut.edu.cn

    章燕:浙江工业大学信息工程学院硕士研究生. 主要研究方向为人工智能安全, 计算机视觉. E-mail: 2111903240@zjut.edu.cn

    王雪柯:浙江工业大学信息工程学院硕士研究生. 主要研究方向为人工智能安全, 计算机视觉. E-mail: 17660478061@163.com

    蔡鸿斌:华东师范大学软件工程学院硕士研究生. 主要研究方向为深度学习. E-mail: hongbincai5330@163.com

    王珏:浙江工业大学信息工程学院硕士研究生. 主要研究方向为人工智能安全, 计算机视觉. E-mail: 211190321@zjut.edu.cn

    纪守领:浙江大学“百人计划”研究员. 2013年获得佐治亚州立大学计算机科学博士学位, 2015年获得佐治亚理工学院电子与计算机工程博士学位. 主要研究方向为数据驱动的安全性和隐私性, 人工智能安全性, 大数据分析. E-mail: sji@zju.edu.cn

A Survey of Attack, Defense and Related Security Analysis for Deep Reinforcement Learning

Funds: Supported by the Zhejiang Provincial Natural Science Foundation of China (LY19F020025), the Major Special Funding for “Science and Technology Innovation 2025” in Ningbo (2018B10063), and the National Key Research and Development Program of China (2018AAA0100800)
More Information
    Author Bio:

    CHEN Jin-Yin Associate professor at the Institute of Cyberspace Security, Zhejiang University of Technology. She received her Ph.D. from Zhejiang University of Technology in 2009. Her research interest covers teaching and scientific research in artificial intelligence security, network data mining, intelligent computing, and computer vision. Corresponding author of thies paper

    ZHANG Yan Master student at the School of Information Engineering, Zhejiang University of Technology. Her research interest covers artificial intelligence security and computer vision

    WANG Xue-Ke Master student at the School of Information Engineering, Zhejiang University of Technology. Her research interest covers artificial intelligence security and computer vision

    CAI Hong-Bin Master student at the School of Software Engineering, East China Normal University. His main research interest is deep learning

    WANG Jue Master student at the School of Information Engineering, Zhejiang University of Technology. His research interest covers artificial intelligence security and computer vision

    JI Shou-Ling Researcher at the “Hundred Talents Program” of Zhejiang University. He received his Ph.D. degree in electrical and computer engineering from Georgia Institute of Technology, and in computer science from Georgia State University in 2013 and 2015, respectively. His research interest covers data-driven security and privacy, artificial intelligence security, and big data analysis

  • 摘要: 深度强化学习是人工智能领域新兴技术之一, 它将深度学习强大的特征提取能力与强化学习的决策能力相结合, 实现从感知输入到决策输出的端到端框架, 具有较强的学习能力且应用广泛. 然而, 已有研究表明深度强化学习存在安全漏洞, 容易受到对抗样本攻击. 为提高深度强化学习的鲁棒性、实现系统的安全应用, 本文针对已有的研究工作, 较全面地综述了深度强化学习方法、对抗攻击、防御方法与安全性分析, 并总结深度强化学习安全领域存在的开放问题以及未来发展的趋势, 旨在为从事相关安全研究与工程应用提供基础.
  • 在实际工业生产过程中, 需要对一些关键的质量变量进行实时测量, 如产品浓度、过程气体含量、催化剂活性和熔体指数等, 这对实现有效的过程控制和提高产品质量具有重要意义[1-5]. 然而, 由于极端的测量环境、昂贵的仪器成本、大的分析测量延迟等因素, 关键质量变量的物理测量难以实现[6-8]. 因此, 软测量技术应运而生. 软测量是一种虚拟传感器技术, 通过构建数学模型, 以一组容易测量的相关过程变量为输入, 以过程关键质量变量为输出, 来快速准确地估计这些难以直接测量的质量变量[9-11]. 一般来说, 软测量方法可大致分为两种, 模型驱动的软测量和数据驱动的软测量[12-13]. 与前者相比, 数据驱动的软测量方法不需要精准的机理模型和大量的过程专家知识, 更加具有灵活性和实用性. 此外, 随着分布式控制系统(Distributed control systems, DCSs)在现代工业过程中的广泛使用, 收集到的数据也日益增多, 为数据驱动建模方法提供了丰富的数据保证[14]. 因此, 数据驱动的软测量方法受到了越来越多的关注. 经典的基于数据驱动的软测量建模方法有主成分回归分析(Principal component regression, PCR)[15]、偏最小二乘法(Partial least squares, PLS)[16]、支持向量机(Support vector machine, SVM)[17]和人工神经网络(Artificial neural-network techniques, ANN)[18]等.

    近年来, 深度学习作为一种新兴技术, 在图像处理、计算机视觉、自然语言处理等应用领域都取得了很大的进展. 与传统的浅层方法相比, 深度学习方法具有更深的网络结构, 它能够通过多层非线性映射, 从数据中提取更深层的抽象特征, 具有强大的数据建模能力. 因此, 面对越来越复杂的大规模现代工业过程, 深度学习具有不可替代的优势, 已经被应用到了软测量领域当中[19]. 例如, Yao和Ge提出了一种基于分层极限学习机的半监督深度学习软测量模型[20]. Yuan等开发出一种质量相关自动编码器, 用于提取深层次的输出相关特征[21]. Zhang和Ge基于门控循环单元和编码解码网络, 设计了一种深度可迁移动态特征提取器, 并应用于软测量[22]. Zheng等将集成策略、深度信念网络和核学习集成到软测量框架中, 建立了集成深度核回归模型, 并扩展到半监督形式[23]. 然而, 由于过程的随机扰动等原因, 几乎所有的过程数据都会受到随机噪声的污染, 从本质上来说, 过程变量都属于随机变量[14, 24-25]. 最近, Kingma和Welling提出了变分自编码器[26], 一种深度生成模型, 它结合了深度学习和贝叶斯变分推断. 作为一种以深层神经网络为结构的概率框架模型, VAE既具有深度学习的非线性特征提取能力, 又能像概率模型那样对过程不确定性和数据噪声进行建模. 基于这些优点, VAE已经被引入到工业过程中, 并逐渐被用于过程监测和软测量建模等应用场景[27-31].

    尽管目前VAE在软测量应用中取得了一些进展, 但是传统的VAE通常假设其潜在变量分布服从高斯分布, 因此模型学习到的特征表示只能是单峰形式, 难以充分发挥潜在空间编码的能力和灵活性. 这在很大程度上限制了VAE对复杂特性过程数据的描述, 如工业领域广泛存在的多模态数据, VAE的建模性能很难得到有效的保障. 在实际工业过程中, 由于原料比例、产品需求、制造策略等因素的变化, 经常会发生操作条件的转变, 即工况发生变化, 从而使过程数据呈现典型的多模态特性[32-34]. 近年来, 学者们提出了一些VAE变体模型, 通过使用复杂的先验等手段来促进编码的灵活性, 但他们的目标大多是进行无监督聚类[35-37]. 到目前为止, 还没有VAE在多模态工业过程软测量应用中的相关研究报导. 基于以上讨论, 本文结合高斯混合模型的思想, 基于VAE框架提出一种混合变分自编码器回归(MVAER)模型, 用于解决多模态过程的质量预测问题. 该方法采用高斯混合模型来描述VAE的潜在空间变量分布, 分别对应工业过程中的多个模态. 通过非线性映射将复杂多模态数据映射到潜在空间, 学习各模态下的潜在变量, 获取原始数据的有效特征表示. 同时, 建立潜在特征表示与关键质量变量之间的回归模型, 实现软测量应用. 通过一个数值算例和一个实际工业案例, 验证了所提方法的有效性和可行性.

    本文的其余部分组织如下. 在第1节中, 简要回顾了VAE模型. 在第2节中, 介绍了所提出的MVAER模型的主要思想和详细的推导过程, 并介绍了基于MVAER的软测量建模与应用方法. 在第3节中, 通过两个案例对MVAER进行了性能评估. 最后, 在第4节中得出本论文的结论.

    VAE是一种无监督的深度生成模型, 结合了深度学习和贝叶斯概率推断的观点. 它假设数据$ x $是由某个具有不可观测的连续随机隐变量$ z $的随机过程产生的. 观测数据的边际似然可以写为:

    $$ p(x) = \int {{p_\theta}(x|z)p(z){\rm{d}}z} $$ (1)

    其中, $ {p_\theta}(x|z) $是生成模型, 可以被描述为多元高斯分布, $ p(z) $是先验, 通常被简单地设置为标准高斯分布${\rm{N}}(0,1)$.

    根据贝叶斯定理, 可以得到隐变量$ z $的后验分布为$p(z|x) = \dfrac{{{p_\theta }(x|z)p(z)}}{{p(x)}}$. 然而, 由于生成模型的参数$ \theta $和隐变量都是未知的, 这里隐变量的积分和后验概率都是难以处理的. 因此, VAE根据变分推断的思想, 引入一个额外的变分分布$ {q_\phi}(z|x) $作为推断模型, 来近似难解的真实后验. 与生成模型相似, 推断模型$ {q_\phi}(z|x) $也可以描述为多元高斯分布.

    VAE的优化目标是最大化边际似然函数的证据下界.

    $$ L(\theta ,\phi ) = {{\rm{E}}_{{q_\phi }(z|x)}}[\ln {p_\theta }(x|z)] - {{\rm{D}}_{KL}}[{q_\phi }(z|x)||p(z)] $$ (2)

    其中, 等号右边的第一项是给定$ {p_\theta }(x|z) $时, $\ln {p_\theta }(x|z)$ 的期望, 用来保证重建数据与真实数据之间的匹配程度; 第二项是一个Kullback-Leibler (KL)散度项, 可以被看作是一种正则化, 指导近似后验分布尽可能地接近先验分布.

    VAE的模型结构如图1所示. 可以看到, 在VAE中, 推断模型$ {q_\phi}(z|x) $ 被参数化为一个参数为$ \phi $的神经网络, 称为概率编码器. 它将输入数据映射到低维潜在空间, 得到其隐变量表示$ z, $ 这可以看作是对输入数据的特征提取; $ {p_\theta}(x|z) $被参数化为另一个参数为$ \theta $的神经网络, 称为概率解码器, 它从潜在空间中重建原始数据. 通过最小化负变分证据下界, 同时优化模型的参数$ \phi $$ \theta. $ 更多详细内容可以参考文献[26, 38-39].

    图 1  VAE模型结构图
    Fig. 1  Model structure of VAE

    在实际应用中, 传统的基于VAE的软测量方法难以对工业中广泛存在的多模态数据进行有效的特征提取. 为了解决这一问题, 本节将提出一种混合变分自编码器回归模型, 并将其应用于软测量模型的构建. 总体而言, 该方法结合了VAE框架和高斯混合模型, 并将特征提取和回归建模融为一体, 使其对复杂多模态过程的关键质量指标数据具有更好的预测性能.

    混合变分自编码器回归模型本质上是建立在VAE框架上, 同样可以通过生成模型和推断模型来描述.

    模型假设输入数据$ x $由随机连续潜在变量$ z $生成, $ z $在潜在空间中服从高斯混合分布. 为了建立关键质量变量, 即输出变量$ y $的回归模型, 假设$ y $也由潜在变量$ z $生成, 那么生成过程可以描述为:

    $$ \begin{split} &p({c_k} = 1) = {\pi _k}\\ &p(z|{c_k}{\rm{ = }}1) = {\rm{N}}(z|{\mu _k},\sigma _k^2)\\ &{p_{{\theta _x}}}(x|z) = {\rm{N}}(x|{\mu _x},\sigma _x^2)\\ &{p_{{\theta _y}}}(y|z) = {\rm{N}}(y|{\mu _y},\sigma _y^2) \end{split} $$ (3)

    其中$ {\bf{\pi }} = \{ {\pi _k}\} _{k = 1}^K $代表各个高斯成分的混合系数, 满足$ \sum\nolimits_{k = 1}^K {{\pi _k}} = 1 $. 变量$ c $是一个one-hot形式的类别向量, 表示数据样本的潜在成分标签, $ c_k $表示向量$ c $中的第$ k $个元素, $ {c_k} = 1 $则表示选中了潜在空间中的第$ k $个高斯成分, 为了简便, 之后涉及到的$ {c_k} = 1 $都简化为$ c_k $. 假设$ x $$ y $相互条件独立, 当从选择好的高斯类中采样得到隐变量$ z $, 将其经过由$ {\theta_x} $参数化的神经网络(被称为解码器), 生成$ x $: 同时, 经过由$ {\theta_y} $参数化的神经网络(被称为回归器), 则可得到$ y $.

    根据上述生成过程, 生成模型可以用联合概率分布表示并被分解为:

    $$ \begin{split} &{p_\theta }(x,y,z,c) = \sum\limits_{k = 1}^K {{p_{{\theta _k}}}(x,y,z,{c_k})} =\\ &\qquad\sum\limits_{k = 1}^K {{p_{{\theta _x}}}(x|z){p_{{\theta _y}}}(y|z)p(z|{c_k})p({c_k})} \end{split} $$ (4)

    数据样本点的边缘概率$ p(x,y) $$ \log $似然函数可以推导为:

    $$ \begin{split} &\ln p(x,y) = \int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln p(x,y)} } {\rm{d}}z=\\ &\qquad\int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln \frac{{p(x,y,z,{c_k})}}{{p(z,{c_k}|x)}}} } {\rm{d}}z=\\ &\qquad\int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln \frac{{p(x,y,z,{c_k})}}{{p(z,{c_k}|x)}}\frac{{q(z,{c_k}|x)}}{{q(z,{c_k}|x)}}} } {\rm{d}}z=\\ &\qquad\int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln \frac{{p(x,y,z,{c_k})}}{{q(z,{c_k}|x)}}} } {\rm{d}}z+ \\ &\qquad\int_z {\sum\limits_{k = 1}^K {q(z,{c_k}|x)\ln \frac{{q(z,{c_k}|x)}}{{p(z,{c_k}|x)}}} } {\rm{d}}z=\\ &ELBO(\theta ,\phi ;x,y)+ {{\rm{D}}_{KL}}(q(z,c|x)||p(z,c|x)) \end{split} $$ (5)

    其中, $ ELBO(\theta ,\phi ;x,y) $是边缘概率似然函数的证据下界; $ {q_\phi}(z,c|x) $是推断模型, 作为一个额外引入的变分后验, 用来逼近难以计算的真实复杂后验$ p(z,c|x) $, 可以被分解为:

    $$ {q_\phi }(z,c|x) = {q_{{\phi _z}}}(z|x,c){q_{{\phi _c}}}(c|x) $$ (6)

    其中, $ {q_{{\phi _c}}}(c|x) $部分用来计算样本点属于每个混合成分的概率, 可以参数化为最后一层是Softmax层的神经网络; $ {q_{{\phi_z}}}(z|x,c) $部分用于学习每个模态下数据在潜在空间中的特征表示, 同样被参数化为神经网络, 我们称之为编码器. 所提模型的详细结构图如图2所示.

    图 2  混合变分自编码器回归模型结构图
    Fig. 2  Model structure of the MVAER model

    结合式(4) ~ (6), 模型的ELBO可以重写为:

    $$ \begin{split} &ELBO(\theta ,\phi ;x,y)=\\ &\int_z {\sum\limits_{k = 1}^K {{q_\phi }(z,{c_k}|x)\ln \frac{{{p_\theta }(x,y,z,{c_k})}}{{{q_\phi }(z,{c_k}|x)}}} } {\rm{d}}z=\\ &\int_z {\sum\limits_{k = 1}^K {{q_\phi }(z|x,{c_k}){q_\phi }({c_k}|x)\ln \frac{{{p_\theta }(x,y|z)p(z|{c_k})p({c_k})}}{{{q_\phi }(z|x,{c_k}){q_\phi }({c_k}|x)}}} } {\rm{d}}z=\\ &\int_z \sum\limits_{k = 1}^K {q_\phi }(z|x,{c_k}){q_\phi }({c_k}|x)\ln [{p_\theta }(x,y|z) - \frac{{{q_\phi }(z|x,{c_k})}}{{p(z|{c_k})}} - \\ &\frac{{{q_\phi }({c_k}|x)}}{{p({c_k})}}] {\rm{d}}z= \int_z {\sum\limits_{k = 1}^K {{q_\phi }(z|x,{c_k}){q_\phi }({c_k}|x)(\ln {p_{{\theta _x}}}(x|z)} }+ \\ & \ln {p_{{\theta _y}}}(y|z)){\rm{d}}z- \sum\limits_{k = 1}^K {q_\phi }({c_k}|x)\int_z {q_\phi }(z|x,{c_k})\times \\ &\ln \frac{{{q_\phi }(z|x,{c_k})}}{{p(z|{c_k})}}{\rm{d}}z - \sum\limits_{k = 1}^K {q_\phi }({c_k}|x)\ln \frac{{{q_\phi }({c_k}|x)}}{{p({c_k})}}= \\ & \int_z {\sum\limits_{k = 1}^K {{q_\phi }(z|x,{c_k}){q_\phi }({c_k}|x)\ln {p_{{\theta _x}}}(x|z)} } {\rm{d}}z + \\ &\int_z {\sum\limits_{k = 1}^K {{q_\phi }(z|x,{c_k}){q_\phi }({c_k}|x)\ln {p_{{\theta _y}}}(y|z)} } {\rm{d}}z-\\ &\sum\limits_{k = 1}^K {{q_\phi }({c_k}|x)} {{\rm{D}}_{KL}}({q_\phi }(z|x,{c_k})||p(z|{c_k})) -\\ & {{\rm{D}}_{KL}}({q_\phi }(c|x)||p(c))\\[-10pt] \end{split} $$ (7)

    与VAE相似, 为了计算参数$ \phi $$ \theta $, 需要最大化上述的证据下界$ ELBO(\theta ,\phi;x,y) $, 这相当于最大化边缘概率似然函数.

    $$ \begin{split} \mathop {\max }\limits_{\theta ,\phi }& ELBO(\theta ,\phi ;x,y)=\\ & {\mathop {\max }\limits_{\theta ,\phi }} \{ {{\rm{E}}_{{q_\phi }(z|x,c){q_\phi }(c|x)}}[\ln {p_{{\theta _x}}}(x|z)]+\\ &{{\rm{E}}_{{q_\phi }(z|x,c){q_\phi }(c|x)}}[\ln {p_{{\theta _y}}}(y|z)]-\\ &{{\rm{E}}_{{q_\phi }(c|x)}}[{{\rm{D}}_{KL}}({q_\phi }(z|x,c)||p(z|c))] -\\ &{{\rm{D}}_{KL}}({q_\phi }(c|x)||p(c))\} \end{split} $$ (8)

    假定近似后验$ {q_{{\phi _z}}}(z|x,c) $服从高斯分布, 并把$ {p_{{\theta _x}}}(x|z) $$ {p_{{\theta _y}}}(y|z) $分别简化为${p_{{\theta _x}}}(x|z) = {\rm{N}}({\mu _x},I)$${p_{{\theta _y}}}(y|z) = {\rm{N}}({\mu _y},I)$, MVAER模型的损失函数可以被简化为:

    $$ \begin{split} &Loss(\theta ,\phi ) = - ELBO(\theta ,\phi ;x,y)=\\ &\qquad{{\rm{E}}_{{q_\phi }(c|x)}}[||x - {\mu _x}||_2^2] + {{\rm{E}}_{{q_\phi }(c|x)}}[||y - {\mu _y}||_2^2]+\\ &\qquad{{\rm{E}}_{{q_\phi }(c|x)}}[{{\rm{D}}_{KL}}({q_\phi }(z|x,c)||p(z|c))]+ \\ &\qquad{{\rm{D}}_{KL}}({q_\phi }(c|x)||p(c)) \end{split} $$ (9)

    其中, $ {\mu _x} $通过模型解码器得到, $ {\mu _y} $通过模型回归器得到; ${q_\phi }(z|x,c){\rm{ \;=\; }}{\rm{N}}({\mu _{z,c}},\sigma _{z,c}^2)$表示数据在每个模式下的潜在特征所服从的高斯分布, 其均值和方差$ [{\mu _{z,c}}, \sigma _{z,c}^2] $通过模型编码器得到; $ {q_\phi }(c|x) $表示数据属于每个模式的可能性, 通过带有Softmax层的编码器计算得到. 基于最小化损失函数的优化目标, 可以通过随机梯度下降等优化算法, 对模型参数$ \phi $$ \theta $ 进行更新优化.

    损失函数中的前两项是输入数据的重构误差和输出数据的预测误差项, 能够鼓励模型很好地重构输入数据和预测输出数据; 后两项是有关连续潜变量$ z $和离散潜变量$ c $的KL散度项, 有助于将原始数据中的变化传播到潜在空间中的隐变量中去, 并使后验和先验之间更好地匹配. 模型期望潜在空间中的离散隐变量$ c $能够表示与原始混合分布中相对应的数据集群; 潜在空间中的连续隐变量$ z $能够表示每个集群内的数据变化.

    在上一小节中,详细推导了MVAER模型. 当该模型用于工业过程在线软测量时, 就是对当前样本, 表示为$ {x_{new}} $, 提供相应的质量变量预测.

    假设模型中$p(y|z) = {\rm{N}}({\mu _{y,k}},I)$, 其中$z \sim q(z|{x_{new}}, $$ {c_k}),\;k = 1,2, \cdots ,K$, 那么当前数据样本的质量变量预测值计算为:

    $$ \hat y = \sum\limits_{k = 1}^K {q({c_k}|x{}_{new}){\mu _{y,k}}} $$ (10)

    其中, $ q({c_k}|x) $表示当前数据样本属于第$ k $个混合成分的可能性, 可以通过模型中的编码器得到, 计算公式如式(11)所示, 公式中$ f( \cdot \;;\phi _c') $表示该编码器除最后Softmax层之外的部分所代表的函数, $ \phi _c' $则代表该部分的网络参数; $ {\mu _{y,k}} $表示当前样本质量变量$ y $服从的高斯分布的均值, 将其视为$ y $ 的预测值, 可以使用样本的潜在特征$ {z_k} $为输入, 通过模型中的回归器得到, 计算公式如式(12)所示, 公式中$ f( \cdot \;;{\theta _y}) $表示回归器所代表的函数, $ {\theta _y} $则代表回归器的参数. 取所有混合成分下的预测值的加权和作为质量变量的最终预测值.

    $$ q({c_k}|x{}_{new}){\rm{ = }}\frac{{{{\rm{e}}^{{h_k}}}}}{{\sum\limits_{j = 1}^K {{{\rm{e}}^{{h_j}}}} }}{\rm{ = }}\frac{{{{\rm{e}}^{f{{({x_{new}};\phi _c')}_k}}}}}{{\sum\limits_{j = 1}^K {{{\rm{e}}^{f{{({x_{new}};\phi _c')}_j}}}} }} $$ (11)
    $$ {\mu _{y,k}}{\rm{ = }}f({z_k};{\theta _y}) $$ (12)

    接下来,我们详细介绍基于MVAER模型的实际工业过程软测量应用过程. 该过程主要包括两部分, 离线建模和在线预测.

    在离线建模阶段, 首先要根据理论分析和操作经验选择模型的输入变量, 并采集数据(包括输入变量和质量变量). 对收集到的数据进行标准化处理, 然后训练MVAER模型. 当模型训练完成后, 保存模型参数用于在线质量预测. 在线预测时, 对于新采集的待预测样本, 需要对其进行与离线建模时相同的数据预处理, 然后将其送入训练好的模型中, 得到质量变量的预测结果. 所提出的基于MVAER模型的软测量建模算法总结如算法1所示, 并将整个过程直观地体现在如图3所示的流程图中.

    图 3  基于MVAER的软测量建模流程图
    Fig. 3  Flowchart for soft sensor modeling based on the MVAER model

    为了直观地评价模型的性能, 本文使用均方根误差(Root mean squared error, RMSE)和R2系数两个指标来量化模型的预测效果. RMSE和R2定义如下:

    $$ RMSE = \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {{{({y_i} - {{\hat y}_i})}^2}} } $$ (13)
    $$ {R^2} = 1 - \frac{{\sum\limits_{i = 1}^N {{{({y_i} - {{\hat y}_i})}^2}} }}{{\sum\limits_{i = 1}^N {{{({y_i} - \bar y)}^2}} }} $$ (14)

    其中, $ N $是样本个数, $ {y_i} $是第$ i $个样本的实际输出值, $ \hat{y}_i $是第$ i $个样本的预测输出值, $ \bar y $是所有样本实际输出值的平均值. RMSE代表预测误差, R2表示实际值和预测值之间的平方相关关系. 通常, RMSE越小, R2越接近于1, 模型的预测性能越好.

    算法1. 基于MVAER的软测量建模算法

    输入. 训练数据集$ X{\rm{ = \{ }}{x_1},{x_2}, \cdots ,{x_N}\} $, $Y=\{{y_1}, $$ {y_2}, \cdots ,{y_N}\}$; 待预测样本 $ x_{new} $;

    输出. 待预测样本的质量变量预测值$ \hat y $;

    步骤 1. 将过程变量数据集$ X $标准化为$ {X_s} $;

    步骤 2. 确定MVAER的结构参数及混合成分个数$ K $;

    步骤 3. 初始化MVAER的网络结构和连接权重及偏置等参数;

    步骤 4. 使用标准化数据集$ {X_s} $作为MVAER的输入, 计算数据样本的重构值和质量变量预测值;

    1) 使用标准化数据集$ {X_s} $作为第一个编码器的输入, 计算样本属于每个混合成分的概率$ {q_\phi}(c|x) $, 即$q({c_k}|x),k = $$ 1,2, \cdots, K$;

    2) 使用标准化数据集$ {X_s} $作为第二个编码器的输入, 计算每个模式下样本在潜在空间中的特征所服从分布$ {q_\phi}(z|x,c) $ 的均值和方差, 即 $ [{\mu _{z,k}},\sigma_{z,k}^2],k = 1,2, \cdots ,K $;

    3) 使用重参数化技巧, 根据均值和方差$ [{\mu _{z,k}},\sigma _{z,k}^2] $采样得到样本的潜在特征$ {z_k},k = 1,2, \cdots ,K $;

    4) 使用潜在特征$ {z_k} $作为解码器的输入, 计算样本的重构值${p_\theta }(x|{z_k}) = {\rm{N}}({\mu _{x,k}},I),k = 1,2, \cdots ,K$;

    5) 使用潜在特征$ {z_k} $作为回归器的输入, 计算样本的预测值${p_\theta }(y|{z_k}) = {\rm{N}}({\mu _{y,k}},I),k = 1,2, \cdots ,K$;

    步骤 5. 根据步骤4中得到的结果, 计算MVAER的损失函数$ Loss(\theta ,\phi) $, 用随机梯度下降等优化算法更新模型参数;

    步骤 6. 重复步骤4和步骤5训练模型, 并保存训练好的模型参数, 用于在线预测;

    步骤 7. 在线预测时, 根据步骤4计算待预测样本$ x_{new} $的预测值, 并取所有混合成分下预测值的加权和作为质量变量最终预测值$ \hat y $.

    本节设置了一个具有三种运行模式的数值算例$, $ 各个高斯组分和关系的具体情况如表1所示. 每个模式下输入和输出之间的关系都是非线性的. 为了构建模型, 生成500个样本作为训练集用于模型训练, 生成500个样本作为测试集用于模型性能测试. 图4中分别显示了XY的数据分布, 可以直观地看出该算例具有多模态行为.

    表 1  数值算例的配置
    Table 1  Configuration of the numerical example
    变量参数$X({x_1},{x_2})$$Y({y_1})$关系
    $\pi$$\mu$$\Sigma $
    $k = 1$0.3[18 12]$\left[ \begin{aligned} \;\;{7.5}\;\; - 2.5\\{ - 2.5}\;\;\;{4.5}\;\;\end{aligned} \right]$${y_1} = 5{x_1}\sin {x_2}$
    $k = 2$0.4[1 10]$\left[ \begin{aligned} {4.5}\;\;{1.6}\\{1.6}\;\;{6.6}\end{aligned} \right]$${y_1} = {x_1} + x_2^2$
    $k = 3$0.4[12 5]$\left[ \begin{aligned}{8.2}\;\;{ - 2.5}\\{ - 2.5}\;\;\;{6.0}\;\;\end{aligned} \right]$${y_1} = {x_1}{x_2}$
    下载: 导出CSV 
    | 显示表格
    图 4  数值算例的数据模式
    Fig. 4  Data pattern of the numerical example

    为了验证MVAER算法的有效性, 将其与偏最小二乘(Partial least squares, PLS)、高斯混合回归(Gaussian mixture regression, GMR)、自编码器(Auto-encoder, AE)、变分自编码器(Variational auto-encoder, VAE)方法进行比较. 其中, PLS是一种传统回归模型, GMR是一种典型的多模式建模方法, AE是常用的深度学习建模方法, VAE则是所提出的MVAER模型的基础框架.

    在MVAER算法中, 将编码器和译码器设置为具有单层隐藏层, 隐藏层的神经单元个数为6; 潜在变量的维度设为2; 为了方便, 回归网络设为一个全连接层, 即在提取的特征和输出之间建立一个线性关系; 组分个数设为3, 这是已知的. GMR的组分个数设为3. 每个模型在测试集上的数值评价指标在表2中列出.

    表 2  PLS、GMR、AE、VAE和MVAER模型的性能评价指标
    Table 2  Performance evaluation indices of PLS, GMR, AE, VAE and MVAER models
    模型 PLS GMR AE VAE MVAER
    RMSE 33.2076 9.2463 25.0299 25.3014 6.1914
    R2 0.3964 0.9532 0.6571 0.6496 0.9797
    下载: 导出CSV 
    | 显示表格

    从中可以发现, MVAER模型的性能明显优于其他模型. PLS、GMR、AE、VAE和MVAER的详细预测值如图5所示, 散点图如图6所示.

    图 5  PLS、GMR、AE、VAE和MVAER模型的预测结果图
    Fig. 5  Predicted results of PLS, GMR, AE, VAE and MVAER models
    图 6  预测结果散点图
    Fig. 6  The predicted scatter points of different models

    从预测曲线中可以直观地看出, PLS在每个模态下都不能很好对输出值进行预测. 相比之下, AE和VAE模型对于该过程的回归预测效果有所改善, 对第二模态样本有较好的预测效果. 然而, AE和VAE模型对第一模态和第三模态样本具有较差的预测能力, 从图中可以看出在这两个模态下它们的预测结果趋于直线, 这表明模型没有学习到相关的数据特性和耦合关系. GMR和MVAER对所有模式下的数据样本都有良好的拟合能力, 但与GMR相比, MVAER的预测曲线更加贴合真实曲线, 具有更高的预测精度. 从散点图中, 也能得到相似的结论. 散点图结果表明, PLS等模型的预测结果分布较为分散, 存在较大的预测偏差, 而MVAER模型的预测结果更加集中和靠近主对角线, 这意味着它的预测效果最好. 以上比较和分析表明, PLS作为线性模型, 不能有效提取数据中的非线性和多模态特性, 因此不能很好地处理具有复杂特性的过程, 而 AE和VAE模型虽然可以处理非线性关系, 但无法同时对多个模态下的耦合关系进行建模. GMR和MVAER模型则可以较好地适应多模态过程, 并且当输入输出之间非线性相关时, MVAER的性能优于GMR.

    该工业案例取自于合成氨过程中的制氢装置, 氢气是合成氨气的重要原料之一. 根据工艺设计, 氢气生产过程中的关键反应在一段转化炉中进行, 主要是通过脱碳反应将脱硫天然气转化为氢气. 过程的工艺流程图如图7[28]所示. 根据反应机理, 温度对氢气的含量和纯度有很大的影响, 而炉内温度主要取决于稠密燃烧器的燃烧条件. 燃烧条件则是通过调节炉内氧气含量来控制的. 因此, 控制一段炉顶部氧气浓度在规定的范围内是十分重要的. 在实际生产过程中, 氧气含量通常由昂贵的质谱仪测量得到. 为了降低生产成本, 有必要构建一种软传感器在线估计氧气含量.

    图 7  一段炉工艺流程图
    Fig. 7  Flowchart of the primary reformer

    选择13个过程变量作为软测量模型的输入变量, 包括温度、流量和压力, 它们易于测量且和氧气含量变化有关. 这13个过程变量的详细说明列于表3. 收集5000个样本用于构建软测量模型, 其中2500个样本作为训练集, 其余样本作为测试集. 为了展示MVAER的有效性, 构建PLS、GMR和VAE模型进行性能比较. 通过试错方法, 将MVAER的组分个数K设置为4, 编码器的隐藏层神经单元个数设置为32, 隐变量的维度设为10, 解码器的结构与编码器对称, 回归器与上述数值算例中的一样, 是一层全连接层. GMR的组分个数设置为9. VAE模型的结构参数与MVAER中对应的参数保持一致.

    表 3  一段炉过程变量描述
    Table 3  The description of the process instruments in the primary reformer
    标签 名称
    U1 燃料天然气流量
    U2 燃料尾气流量
    U3 E3 出口燃料天然气压力
    U4 PR 出口炉膛烟气压力
    U5 E3 出口燃料尾气温度
    U6 PH 出口燃料天然气温度
    U7 PR 入口工艺气温度
    U8 PR 顶部左侧炉膛烟气温度
    U9 PR 顶部右侧炉膛烟气温度
    U10 PR 顶部混合炉膛烟气温度
    U11 PR 出口转换气温度
    U12 PR 右侧出口转换气温度
    U13 PR 出口转换气温度
    Y 炉内顶部氧气含量
    下载: 导出CSV 
    | 显示表格

    各种方法的性能评价指标, RMSE和R2, 列于表4. 通过比较这些结果可以发现, 多模态建模方法优于非多模态方法, 非线性方法优于线性方法. 其中, MVAER模型的预测性能最好.

    表 4  PLS、GMR、VAE和MVAER模型的性能评价指标
    Table 4  Performance evaluation indices of PLS, GMR, VAE and MVAER models
    模型 PLS GMR VAE MVAER
    RMSE 1.7329 1.0844 1.1379 0.8940
    R2 0.6129 0.8484 0.8331 0.8970
    下载: 导出CSV 
    | 显示表格

    PLS、GMR、VAE和MVAER对氧气浓度的预测结果如图8所示. 直观上, 从图中可以看出, PLS模型的预测结果比较平稳, 不能很好地追踪氧气浓度的变化. 其余三种方法的预测效果都优于PLS模型. 其中, VAE虽然大体上能捕捉氧气浓度的变化趋势, 但其预测波动较大, 预测曲线上有较多的毛刺; 相比之下, GMR模型能较好地对氧气浓度进行预测, 但是其预测曲线存在较多的尖峰现象. 与VAE和GMR相比, MVAER模型的预测效果则有了明显改善. MVAER模型的预测曲线毛刺、尖峰现象更少, 与真实值曲线吻合度较高, 这意味着我们的模型有更强的拟合能力和更高的预测精度. 几种模型的预测误差和预测散点图分别如图9图10所示, 从中也能得到相似的结论. 具体来说, 图9中显示MVAER模型的预测误差小于其他几种方法, 大多处于−2和+2之间. 图10中显示, MVAER模型的预测结果分布更加集中, 并且最为接近主对角线, 这些结果都反映出MVAER模型具有较好的预测性能.

    图 8  PLS、GMR、VAE和MVAER模型的预测结果图
    Fig. 8  Predicted results of PLS, GMR, VAE and MVAER models
    图 9  预测误差图
    Fig. 9  The prediction errors of different models
    图 10  预测结果散点图
    Fig. 10  The predicted scatter points of different models

    总体而言, 以上两个实例的比较和分析表明, 面对复杂多模态过程, 本文所提出的MVAER模型在捕获数据多模态特性和非线性等方面表现出较强的能力, 能够有效地对关键质量变量进行预测.

    本文提出了一种新的混合变分自编码器回归模型, 并将其用于复杂多模态工业过程的产品质量软测量. 通过结合高斯混合模型的思想, 该方法打破了传统VAE中潜在空间单峰分布的限制, 能够有效地提取复杂多模态数据的潜在特征, 并利用潜在特征对产品质量变量进行回归建模. 此外, 该方法由于其混合概率框架, 在不同模态下将会自动进行质量预测. 在两个案例中, 包括一个数值例子和一个合成氨生产过程一段炉实际工业过程, 与其他几种方法相比, 基于混合变分自编码器回归模型的软传感器预测性能最好, 验证了所提方法的有效性和可行性. 最后, 考虑到过程数据中有标签数据稀少的实际情况, 后续研究工作可以结合半监督学习, 将所提方法扩展为半监督软测量方法.

  • 图  1  对DRL系统的不同类型攻击

    Fig.  1  Different types of attacks on DRL system

    图  2  奖励可视化

    Fig.  2  Reward visualization

    图  3  对抗智能体攻击效果

    Fig.  3  Adversarial agent attack

    图  4  基于预测模型的对抗检测

    Fig.  4  Adversarial detection based on prediction model

    图  5  决策树等价模型验证方法流程

    Fig.  5  Process of decision tree equivalent model verification

    表  1  经典深度强化学习算法对比

    Table  1  Comparison of classic deep reinforcement learning algorithm

    分类算法原理贡献不足
    基于
    值函数
    深度Q网络(DQN)[1-2]使用经验回放机制打破样本相关性; 使用目标网络稳定训练过程第一个能进行端到端学习的
    深度强化学习框架
    训练过程不稳定; 无法处理
    连续动作任务
    双重深度Q网络(DDQN)[3]用目标网络来评估价值, 用评估网络选择动作缓解了DQN对价值的过估计问题训练过程不稳定; 无法
    处理连续动作
    优先经验回放Q网络
    (Prioritized DQN)[4]
    对经验池中的训练样本设立优先级进行采样提高对稀有样本的使用效率训练过程不稳定; 无法
    处理连续动作
    对偶深度Q网络
    (Dueling DQN)[5]
    对偶网络结构, 使用状态价值函数, 与相对动作价值函数来评估Q值存在多个价值相仿的动作时
    提高了评估的准确性
    无法处理连续动作
    深度循环Q网络(DRQN)[27]用长短时记忆网络替换全连接层缓解了部分可观测问题完全可观测环境下性能表现不
    足; 无法处理连续动作
    注意力机制深度循环Q
    网络(DARQN)[28]
    引入注意力机制减轻网络训练的运算代价训练过程不稳定; 无法
    处理连续动作
    噪声深度Q网络
    (Noisy DQN)[29]
    在网络权重中加入参数噪声提高了探索效率; 减少了参数设置; 训练过程不稳定; 无法
    处理连续动作
    循环回放分布式深度
    Q网络(R2D2)[30]
    RNN隐藏状态存在经验池中; 采样部分序列产生RNN初始状态 减缓了RNN状态滞后性状态滞后和表征漂移
    问题仍然存在
    演示循环回放分布式深度
    Q网络(R2D3)[32]
    经验回放机制; 专家演示回放缓冲区; 分布式优先采样 解决了在初始条件高度可变
    的部分观察环境中的
    稀疏奖励任务
    无法完成记住和越过
    传感器的任务
    基于策
    略梯度
    REINFORCE[35]使用随机梯度上升法; 累计奖励作为动作价值函数的无偏估计策略梯度是无偏的存在高方差;收敛速度慢
    自然策略梯度(Natural PG)[36]自然梯度朝贪婪策略方向更新收敛速度更快; 策略更新变化小自然梯度未达到有效最大值
    行动者−评论者(AC)[37]Actor用来更新策略; Critic用来评估策略解决高方差的问题AC算法中策略梯度存
    在较大偏差
    确定性策略梯度(DDPG)[38]确定性策略理论 解决了连续动作问题无法处理离散动作问题
    异步/同步优势行动者−评
    论者(A3C/A2C)[6]
    使用行动者评论者网络结构; 异步更新公共网络参数用多线程提高学习效率;
    降低训练样本的相关性;
    降低对硬件的要求
    内存消耗大; 更新策略
    时方差较大
    信任域策略优化(TRPO)[7]用KL散度限制策略更新保证了策略朝着优化的方向更新实现复杂; 计算开销较大
    近端策略优化(PPO)[39]经过裁剪的替代目标函数自适应的KL惩罚系数比TRPO更容易实现;
    所需要调节的参数较少
    用偏差大的大数据批进行学
    习时无法保证收敛性
    K因子信任域行动者评
    论者算法(ACKTR)[8]
    信任域策略优化; Kronecker因子
    算法; 行动者评论者结构
    采样效率高; 显著减少计算量计算依然较复杂
    下载: 导出CSV

    表  2  深度强化学习的攻击方法

    Table  2  Attack methods toward deep reinforcement learning

    分类攻击方法攻击模型攻击策略攻击阶段对手知识
    观测攻击(见2.1)FGSM[19]DQN[1-2]、TRPO[7]、A3C[6]在观测上加上FGSM攻击测试阶段白盒/黑盒
    策略诱导攻击[41]DQN[1-2]训练敌手策略; 对抗样本的转移性训练阶段黑盒
    战略时间攻击[42]DQN[1-2]、A3C[6]在一些关键时间步进行攻击测试阶段白盒
    迷惑攻击[42]DQN[1-2]、A3C[6]通过预测模型诱导智能体做出动作测试阶段白盒
    基于值函数的对抗攻击[44]A3C[6]在值函数的指导下选择部分观测进行攻击测试阶段白盒
    嗅探攻击[45]DQN[1-2]、PPO[39]用观测以及奖励、动作信号来获取代理模型并进行攻击测试阶段黑盒
    基于模仿学习的攻击[46]DQN[1-2]、A2C[6]、PPO[39]使用模仿学习提取的专家模型信息进行攻击测试阶段黑盒
    CopyCAT算法[47]DQN[1-2]使用预先计算的掩码对智能体的观测做出实时的攻击测试阶段白盒/黑盒
    奖励攻击(见2.2)基于对抗变换网络的对抗攻击[21]DQN[1-2]加入一个前馈的对抗变换网络使策略追求对抗奖励测试阶段白盒
    木马攻击[48]A2C[6]在训练阶段用特洛伊木马进行中毒攻击训练阶段白盒/黑盒
    翻转奖励符号攻击[49]DDQN[3]翻转部分样本的奖励值符号训练阶段白盒
    环境攻击(见2.3)路径脆弱点攻击[50]DQN[1-2]根据路径点Q值的差异与直线的夹角找出脆弱点训练阶段白盒
    通用优势对抗样本生成方法[20]A3C[6]在梯度上升最快的横断面上添加障碍物训练阶段白盒
    对环境模型的攻击[51]DQN[1-2]、DDPG[38]在环境的动态模型上增加扰动测试阶段黑盒
    动作攻击(见2.4)动作空间扰动攻击[52]PPO[39]、DDQN[3]通过奖励函数计算动作空间扰动训练阶段白盒
    策略攻击(见2.5)通过策略进行攻击[53]PPO[39]采用对抗智能体防止目标智能体完成任务测试阶段黑盒
    下载: 导出CSV

    表  3  深度强化学习的攻击和攻击成功率

    Table  3  Attack success rate toward deep reinforcement learning

    攻击模型攻击方法攻击阶段攻击策略平台成功率
    DQN[1]CopyCAT算法[47]测试阶段使用预先计算的掩码对智能体的观测做出实时的攻击OpenAI Gym[77]60%~100%
    FGSM攻击[19]训练阶段在观测上加上FGSM攻击OpenAI Gym[77]90% ~ 100%
    策略诱导攻击[41]训练阶段训练敌手策略; 对抗样本的转移性Grid-World map[40]70%~95%
    战略时间攻击[42]测试阶段在一些关键时间步进行攻击OpenAI Gym[77]40步以内达到70%
    PPO[37]通过策略进行攻击[53]测试阶段采用对抗智能体防止目标智能体完成任务OpenAI Gym[77]玩家智能体成功率下降至62%和45%
    下载: 导出CSV

    表  4  深度强化学习的防御方法

    Table  4  Defense methods of deep reinforcement learning

    分类防御方法防御机制防御目标攻击方法
    对抗训练(见3.1)使用FGSM与随机噪声重训练[44, 55]对正常训练后的策略使用对抗样本
    与随机噪声进行重训练
    状态扰动FGSM、经值函数指导的对抗攻击
    (见2.1)
    基于梯度带的对抗训练[50]用单一的优势对抗样本进行对抗训练环境扰动通用优势对抗样本生成方法(见2.3)
    非连续扰动下的对抗训练[23]以一定的攻击概率在训练样本中加入对抗扰动状态扰动战略时间攻击、经值函数指导的
    对抗攻击(见2.1)
    基于敌对指导探索的对抗训练[56]根据对抗状态动作对的显著性调整对状态扰动战略时间攻击、嗅探攻击(见2.1)
    鲁棒学习(见3.2)基于代理奖励的鲁棒训练[57]通过混淆矩阵得到代理奖励值以
    更新动作价值函数
    奖励扰动结合对抗变换网络的对抗攻击(见2.2)
    鲁棒对抗强化学习[58]在有对抗智能体的情境下利用
    博弈原理进行鲁棒训练
    不同场景下的不稳定因素在多智能体环境下的对抗策略(见2.5)
    二人均衡博弈[59]博弈、均衡原理奖励扰动结合对抗变换网络的对抗攻击(见2.2)
    迭代动态博弈框架[60]用迭代的极大极小动态博弈
    框架提供全局控制
    状态扰动FGSM、战略时间攻击、经值函数指导
    的对抗攻击、迷惑攻击(见2.1)
    对抗A3C[24]在有对抗智能体的情境下
    进行博弈鲁棒训练
    不同场景下的不稳定因素在多智能体环境下的对抗策略(见2.5)
    噪声网络[61]使用参数空间噪声减弱对
    抗样本的迁移能力
    状态扰动FGSM、策略诱导攻击、利用模仿
    学习的攻击(见2.1)
    方差层[62]用权重遵循零均值分布, 并且仅
    由其方差参数化的随机层进行训练
    状态扰动FGSM、战略时间攻击、经值函数
    指导的对抗攻击、迷惑攻击(见2.1)
    对抗检测(见3.3)基于元学习的对抗检测[63]学习子策略以检测对抗扰动的存在状态扰动FGSM、战略时间攻击、经值函数
    指导的对抗攻击、迷惑攻击(见2.1)
    基于预测模型的对抗检测[25]通过比较预测帧与当前帧之间
    的动作分布来检测对抗扰动
    状态扰动FGSM、战略时间攻击、经值函数指导
    的对抗攻击、迷惑攻击(见2.1)
    水印授权[54]在策略中加入特有的水印以
    保证策略不被非法修改
    策略篡改CopyCAT攻击、策略诱导攻击(见2.1)
    受威胁的马尔科夫决策过程[68]在马尔科夫决策过程中加入攻击者
    动作集并使用K级思维模式进行学习
    奖励扰动翻转奖励符号攻击(见2.2)
    在线认证防御[69]在输入扰动范围内选择最优动作状态扰动FGSM、战略时间攻击、经值函数指导
    的对抗攻击、迷惑攻击(见2.1)
    下载: 导出CSV

    表  6  深度强化学习的攻击指标

    Table  6  Attack indicators of deep reinforcement learning

    分类 攻击方法 攻击模型 平台 奖励 损失 成功率 精度
    观测攻击 FGSM[19] DQN[1-2]、TRPO[7]、A3C[6] OpenAI Gym[75]
    策略诱导攻击[41] DQN[1-2] Grid-world[40]
    战略时间攻击[42] DQN[1-2]、A3C[6] OpenAI Gym[75]
    迷惑攻击[42] DQN[1-2]、A3C[6] OpenAI Gym[75]
    基于值函数的对抗攻击[44] A3C[6] OpenAI Gym[75]
    嗅探攻击[45] DQN[1-2]、PPO[39] OpenAI Gym[75]
    基于模仿学习的攻击[46] DQN[1-2]、A2C[6]、PPO[39] OpenAI Gym[75]
    CopyCAT算法[47] DQN[1-2] OpenAI Gym[75]
    奖励攻击 基于对抗变换网络的对抗攻击[21] DQN[1-2] OpenAI Gym[75]
    木马攻击[48] A2C[6] OpenAI Gym[75]
    翻转奖励符号攻击[49] DDQN[3] SDN environment[49]
    环境攻击 路径脆弱点攻击[50] DQN[1-2] OpenAI Gym[75]
    通用优势对抗样本生成方法[20] A3C[6] Grid-world[40]
    对环境模型的攻击[51] DQN[1-2]、DDPG[38] OpenAI Gym[75]
    动作攻击 动作空间扰动攻击[52] PPO[37]、DDQN[3] OpenAI Gym[75]
    策略攻击 通过策略进行攻击[53] PPO[39] OpenAI Gym[75]
    下载: 导出CSV

    表  7  深度强化学习的防御指标

    Table  7  Defense indicators of deep reinforcement learning

    分类 防御方法 实验平台 平均回报 成功率 每回合步数
    对抗训练 使用FGSM与随机噪声重训练[44-45] OpenAI Gym[75]
    基于梯度带的对抗训练[50] Grid-world[40]
    非连续扰动下的对抗训练[56] OpenAI Gym[75]
    基于敌对指导探索的对抗训练[57] OpenAI Gym[75]
    鲁棒学习 基于代理奖励的鲁棒训练[58] OpenAI Gym[75]
    鲁棒对抗强化学习[59] OpenAI Gym[75]
    二人均衡博弈[60] Grid-world[40]
    迭代动态博弈框架[61] KUKA youbot[60]
    对抗A3C[24] OpenAI Gym[75]
    噪声网络[62] OpenAI Gym[75]
    方差层[63] OpenAI Gym[75]
    对抗检测 基于元学习的对抗检测[64] OpenAI Gym[75]
    基于预测模型的对抗检测[25] OpenAI Gym[75]
    水印授权[54] OpenAI Gym[75]
    受威胁的马尔科夫决策过程[69] Grid-world[40]
    在线认证防御[70] OpenAI Gym[75]
    下载: 导出CSV

    表  5  深度强化学习的安全性评估指标

    Table  5  Security evaluation indicators of deep reinforcement learning

    分类指标评价机制评价目的
    攻击指标奖励根据模型策略运行多个回合, 计算累积回合奖励或者平均回合奖励用于评估攻击方法对模型整体性能的影响
    损失通过定义含有物理意义的概念来计算其是否到达不安全或者失败场景用于评估攻击方法对模型策略的影响
    成功率攻击方法在一定限制条件内可以达到成功攻击的次数比例用于评估攻击方法的有效性
    精度模型输出的对抗点中可以成功干扰路径规划的比例用于评估攻击方法对模型策略的影响
    防御指标平均回报根据模型策略运行多个回合, 计算平均回合奖励用于评估防御方法对提高模型性能的有效性
    成功率检测攻击者篡改的策略动作用于评估防御方法的有效性
    每回合步数根据模型策略运行多个回合, 记录每个回合的存活步数或者平均回合步数用于评估防御方法对提高模型性能的有效性
    下载: 导出CSV
  • [1] Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou I, Wierstra  D,  et  al.  Playing  atari  with  deep  reinforcement learning. arXiv preprint arXiv: 1312.5602, 2013
    [2] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533 doi: 10.1038/nature14236
    [3] Van Hasselt H, Guez A, Silver D. Deep reinforcement learning with double Q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, Arizona: AAAI, 2016. 2094−2100
    [4] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. arXiv preprint arXiv: 1511.05952, 2016
    [5] Wang Z Y, Schaul T, Hessel M, van Hasselt H, Lanctot M, de Freitas N. Dueling network architectures for deep reinforcement learning. arXiv preprint arXiv: 1511.06581, 2016
    [6] Mnih V, Badia A P, Mirza M, Graves A, Harley T, Lillicrap T P, et al. Asynchronous methods for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. New York, NY, USA: JMLR.org, 2016. 1928−1937
    [7] Schulman J, Levine S, Moritz P, Jordan M, Abbeel P. Trust region policy optimization. In: Proceedings of the 31st International Conference on Machine Learning. Lille, France: JMLR, 2015. 1889−1897
    [8] Wu Y H, Mansimov E, Liao S, Grosse R, Ba J. Scalable trust-region method for deep reinforcement learning using kronecker-factored approximation. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: Curran Associates Inc., 2017. 5285−5294
    [9] Silver D, Huang A, Maddison C J, Guez A, Sifre L, Van Den driessche G, et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489 doi: 10.1038/nature16961
    [10] Berner C, Brockman G, Chan B, Cheung V, Dȩbiak P, Dennison C, et al. Dota 2 with large scale deep reinforcement learning. arXiv preprint arXiv: 1912.06680, 2019
    [11] Fayjie A R, Hossain S, Oualid D, Lee D J. Driverless car: Autonomous driving using deep reinforcement learning in urban environment. In: Proceedings of the 15th International Conference on Ubiquitous Robots (UR). Honolulu, HI, USA: IEEE, 2018. 896−901
    [12] Prasad N, Cheng L F, Chivers C, Draugelis M, Engelhardt B E. A reinforcement learning approach to weaning of mechanical ventilation in intensive care units. arXiv preprint arXiv: 1704.06300, 2017
    [13] Deng Y, Bao F, Kong Y Y, Ren Z Q, Dai Q H. Deep direct reinforcement learning for financial signal representation and trading. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(3): 653-664 doi: 10.1109/TNNLS.2016.2522401
    [14] Amarjyoti S. Deep reinforcement learning for robotic manipulation-the state of the art. arXiv preprint arXiv: 1701.08878, 2017
    [15] Nguyen T T, Reddi V J. Deep reinforcement learning for cyber security. arXiv preprint arXiv: 1906.05799, 2020
    [16] Oh J, Guo X X, Lee H, Lewis R, Singh S. Action-conditional video prediction using deep networks in Atari games. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015. 2863−2871
    [17] Caicedo J C, Lazebnik S. Active object localization with deep reinforcement learning. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2488−2496
    [18] Sutton R S, Barto A G. Reinforcement Learning: An Introduction (Second Edition). Cambridge, MA: MIT Press, 2018. 47−48
    [19] Huang S, Papernot N, Goodfellow I, Duan Y, Abbeel P. Adversarial attacks on neural network policies. arXiv preprint arXiv: 1702.02284, 2017
    [20] Chen T, Niu W J, Xiang Y X, Bai X X, Liu J Q, Han Z, et al. Gradient band-based adversarial training for generalized attack immunity of A3C path finding. arXiv preprint arXiv: 1807.06752, 2018
    [21] Tretschk E, Oh S J, Fritz M. Sequential attacks on agents for long-term adversarial goals. arXiv preprint arXiv: 1805.12487, 2018
    [22] Ferdowsi A, Challita U, Saad W, Mandayam N B. Robust deep reinforcement learning for security and safety in autonomous vehicle systems. In: Proceedings of the 21st International Conference on Intelligent Transportation Systems (ITSC). Maui, HI, USA: IEEE, 2018. 307−312
    [23] Behzadan V, Munir A. Whatever does not kill deep reinforcement learning, makes it stronger. arXiv preprint arXiv: 1712.09344, 2017
    [24] Gu Z Y, Jia Z Z, Choset H. Adversary A3C for robust reinforcement learning. arXiv preprint arXiv: 1912.00330, 2019
    [25] Lin Y C, Liu M Y, Sun M, Huang J B. Detecting adversarial attacks on neural network policies with visual foresight. arXiv preprint arXiv: 1710.00814, 2017
    [26] Watkins C J C H, Dayan P. Q-learning. Machine learning, 1992, 8(3−4): 279−292
    [27] Hausknecht M, Stone P. Deep recurrent Q-learning for partially observable MDPs. In: Proceedings of 2015 AAAI Fall Symposium on Sequential Decision Making for Intelligent Agents. Arlington, Virginia, USA: AAAI, 2015.
    [28] Sorokin I, Seleznev A, Pavlov M, Fedorov A, Ignateva A. Deep attention recurrent Q-network. arXiv preprint arXiv: 1512.01693, 2015
    [29] Plappert M, Houthooft R, Dhariwal P, Sidor S, Chen R Y, Chen X, et al. Parameter space noise for exploration. arXiv preprint arXiv: 1706.01905, 2018
    [30] Kapturowski S, Ostrovski G, Quan J, Munos R, Dabney W. Recurrent experience replay in distributed reinforcement learning. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, LA, USA, 2019.
    [31] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735
    [32] Le Paine T, Gulcehre C, Shahriari B, Denil M, Hoffman M, Soyer H, et al. Making efficient use of demonstrations to solve hard exploration problems. arXiv preprint arXiv: 1909.01387, 2019
    [33] Sutton R S, McAllester D A, Singh S, Mansour Y. Policy gradient methods for reinforcement learning with function approximation. In: Proceedings of the 12th International Conference on Neural Information Processing Systems. Denver, CO: MIT Press, 1999. 1057−1063
    [34] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms. In: Proceedings of the International conference on machine learning. PMLR, 2014: 387−395
    [35] Graf T, Platzner M. Adaptive playouts in monte-carlo tree search with policy-gradient reinforcement learning. In: Proceedings of the 14th International Conference on Advances in Computer Games. Leiden, The Netherlands: Springer, 2015. 1−11
    [36] Kakade S M. A natural policy gradient. In: Advances in Neural Information Processing Systems 14. Vancouver, British Columbia, Canada: MIT Press, 2001. 1531−1538
    [37] Konda V R, Tsitsiklis J N. Actor-critic algorithms. In: Advances in Neural Information Processing Systems 14. Vancouver, British Columbia, Canada: MIT Press, 2001. 1008−1014
    [38] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Tassa Y, et al. Continuous control with deep reinforcement learning. arXiv preprint arXiv: 1509.02971, 2019
    [39] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal policy optimization algorithms. arXiv preprint arXiv: 1707.06347, 2017
    [40] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. arXiv preprint arXiv: 1412.6572, 2015
    [41] Behzadan V, Munir A. Vulnerability of deep reinforcement learning to policy induction attacks. In: Proceedings of the 13th International Conference on Machine Learning and Data Mining in Pattern Recognition. New York, NY, USA: Springer, 2017. 262−275
    [42] Lin Y C, Hong Z W, Liao Y H, Shih M L, Liu M Y, Sun M. Tactics of adversarial attack on deep reinforcement learning agents. arXiv preprint arXiv: 1703.06748, 2019
    [43] Carlini N, Wagner D. MagNet and “efficient defenses against adversarial attacks” are not robust to adversarial examples. arXiv preprint arXiv: 1711.08478, 2017
    [44] Kos J, Song D. Delving into adversarial attacks on deep policies. arXiv preprint arXiv: 1705.06452, 2017
    [45] Inkawhich M, Chen Y R, Li H. Snooping attacks on deep reinforcement learning. arXiv preprint arXiv: 1905.11832, 2020
    [46] Behzadan V, Hsu W. Adversarial exploitation of policy imitation. arXiv preprint arXiv: 1906.01121, 2019
    [47] Hussenot L, Geist M, Pietquin O. CopyCAT: Taking control of neural policies with constant attacks. arXiv preprint arXiv: 1905.12282, 2020
    [48] Kiourti P, Wardega K, Jha S, Li W C. TrojDRL: Trojan attacks on deep reinforcement learning agents. arXiv preprint arXiv: 1903.06638, 2019
    [49] Han Y, Rubinstein B I P, Abraham T, Alpcan T, De Vel O, Erfani S, et al. Reinforcement learning for autonomous defence in software-defined networking. In: Proceedings of the 9th International Conference on Decision and Game Theory for Security. Seattle, WA, USA: Springer, 2018. 145−165
    [50] Bai X X, Niu W J, Liu J Q, Gao X, Xiang Y X, Liu J J. Adversarial examples construction towards white-box Q table variation in DQN pathfinding training. In: Proceedings of the 2018 IEEE Third International Conference on Data Science in Cyberspace (DSC). Guangzhou, China: IEEE, 2018. 781−787
    [51] Xiao C W, Pan X L, He W R, Peng J, Sun M J, Yi J F, et al. Characterizing attacks on deep reinforcement learning. arXiv preprint arXiv: 1907.09470, 2019
    [52] Lee X Y, Ghadai S, Tan K L, Hegde C, Sarkar S. Spatiotemporally constrained action space attacks on deep reinforcement learning agents. arXiv preprint arXiv: 1909.02583, 2019
    [53] Gleave A, Dennis M, Wild C, Kant N, Levine S, Russell S. Adversarial policies: Attacking deep reinforcement learning. arXiv preprint arXiv: 1905.10615, 2021
    [54] Behzadan V, Hsu W. Sequential triggers for watermarking of deep reinforcement learning policies. arXiv preprint arXiv: 1906.01126, 2019
    [55] Pattanaik A, Tang Z Y, Liu S J, Bommannan G, Chowdhary G. Robust deep reinforcement learning with adversarial attacks. In: Proceedings of the 17th International Conference on Autonomous Agents and Multiagent Systems. Stockholm, Sweden: International Foundation for Autonomous Agents and Multiagent Systems, 2018. 2040−2042
    [56] Behzadan V, Hsu W. Analysis and Improvement of Adversarial Training in DQN Agents With Adversarially-Guided Exploration (AGE). arXiv preprint arXiv: 1906.01119, 2019
    [57] Wang J K, Liu Y, Li B. Reinforcement learning with perturbed rewards. arXiv preprint arXiv: 1810.01032, 2020
    [58] Pinto L, Davidson J, Sukthankar R, Gupta A. Robust adversarial reinforcement learning. In: Proceedings of the 34th International Conference on Machine Learning-Volume 70. Sydney, Australia: JMLR.org, 2017. 2817−2826
    [59] Bravo M, Mertikopoulos P. On the robustness of learning in games with stochastically perturbed payoff observations. Games and Economic Behavior, 2017, 103: 41-66 doi: 10.1016/j.geb.2016.06.004
    [60] Ogunmolu O, Gans N, Summers T. Minimax iterative dynamic game: Application to nonlinear robot control tasks. In: Proceedings of the 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain: IEEE, 2018. 6919−6925
    [61] Behzadan V, Munir A. Mitigation of policy manipulation attacks on deep Q-networks with parameter-space noise. In: Proceedings of the International Conference on Computer Safety, Reliability, and Security. Västeras, Sweden: Springer, 2018. 406−417
    [62] Neklyudov K, Molchanov D, Ashukha A, Vetrov D. Variance networks: When expectation does not meet your expectations. arXiv preprint arXiv: 1803.03764, 2019
    [63] Havens A, Jiang Z, Sarkar S. Online robust policy learning in the presence of unknown adversaries. In: Proceedings of the 32nd Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates, Inc., 2018. 9916−9926
    [64] Xu W L, Evans D, Qi Y J. Feature squeezing mitigates and detects Carlini/Wagner adversarial examples. arXiv preprint arXiv: 1705.10686, 2017
    [65] Meng D Y, Chen H. MagNet: A two-pronged defense against adversarial examples. In: Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. Dallas, Texas, USA: ACM, 2017. 135−147
    [66] Feinman R, Curtin R R, Shintre S, Gardner A B. Detecting adversarial samples from artifacts. arXiv preprint arXiv: 1703.00410, 2017
    [67] Uchida Y, Nagai Y, Sakazawa S, Satoh S. Embedding watermarks into deep neural networks. In: Proceedings of the 2017 ACM on International Conference on Multimedia Retrieval. Bucharest, Romania: ACM, 2017. 269−277
    [68] Gallego V, Naveiro R, Insua D R. Reinforcement learning under threats. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 9939-9940
    [69] Lütjens B, Everett M, How J P. Certified adversarial robustness for deep reinforcement learning. arXiv preprint arXiv: 1910.12908, 2020
    [70] Athalye A, Carlini N, Wagner D. Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples. arXiv preprint arXiv: 1802.00420, 2018
    [71] Bastani O, Pu Y W, Solar-Lezama A. Verifiable reinforcement learning via policy extraction. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc., 2018. 2499−2509
    [72] Zhu H, Xiong Z K, Magill S, Jagannathan S. An inductive synthesis framework for verifiable reinforcement learning. In: Proceedings of the 40th ACM SIGPLAN Conference on Programming Language Design and Implementation. Phoenix, AZ, USA: ACM, 2019. 686−701
    [73] Behzadan V, Munir A. Adversarial reinforcement learning framework for benchmarking collision avoidance mechanisms in autonomous vehicles. arXiv preprint arXiv:1806.01368, 2018
    [74] Behzadan V, Hsu W. RL-based method for benchmarking the adversarial resilience and robustness of deep reinforcement learning policies. arXiv preprint arXiv: 1906.01110, 2019
    [75] Brockman G, Cheung V, Pettersson L, Schneider J, Schulman J, Tang J, et al. OpenAI gym. arXiv preprint arXiv: 1606.01540, 2016
    [76] Johnson M, Hofmann K, Hutton T, Bignell D. The Malmo platform for artificial intelligence experimentation. In: Proceedings of the 25th International Joint Conference on Artificial Intelligence (IJCAI-16). New York, USA: AAAI, 2016. 4246−4247
    [77] Lanctot M, Lockhart E, Lespiau J B, Zambaldi V, Upadhyay S, Pérolat J, et al. OpenSpiel: A framework for reinforcement learning in games. arXiv preprint arXiv: 1908.09453, 2020
    [78] James S, Ma Z C, Arrojo D R, Davison A J. Rlbench: The robot learning benchmark & learning environment. IEEE Robotics and Automation Letters, 2020, 5(2): 3019-3026 doi: 10.1109/LRA.2020.2974707
    [79] Todorov E, Erez T, Tassa Y. MuJoCo: A physics engine for model-based control. In: Proceedings of the 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoura-Algarve, Portugal: IEEE, 2012. 5026−5033
    [80] Dhariwal P, Hesse C, Klimov O, et al. Openai baselines. 2017.
    [81] Duan Y, Chen X, Houthooft R, Schulman J, Abbeel P. Benchmarking deep reinforcement learning for continuous control. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: JMLR.org, 2016. 1329−1338
    [82] Castro P S, Moitra S, Gelada C, Kumar S, Bellemare M G. Dopamine: A research framework for deep reinforcement learning. arXiv preprint arXiv: 1812.06110, 2018
    [83] Papernot N, Faghri F, Carlini N, Goodfellow I, Feinman R, Kurakin A, et al. Technical report on the cleverhans v2.1.0 adversarial examples library. arXiv preprint arXiv: 1610.00768, 2018
    [84] Rauber J, Brendel W, Bethge M. Foolbox: A python toolbox to benchmark the robustness of machine learning models. arXiv preprint arXiv: 1707.04131, 2018
  • 期刊类型引用(28)

    1. 王思远,陈荣辉,顾凯,任密蜂,阎高伟. 基于SA-TCN的轴承短期故障预测方法. 太原理工大学学报. 2024(01): 214-222 . 百度学术
    2. 陈启明,文青松,郎恂,谢磊,苏宏业. 一元及多元信号分解发展历程与展望. 自动化学报. 2024(01): 1-20 . 本站查看
    3. 洪浩彦,杨辉,姚秋彦,栗琳. 基于多维指标关联的物联网装备异常预测方法. 兵器装备工程学报. 2024(01): 73-79 . 百度学术
    4. 樊盼盼,袁逸萍,马占伟,高建雄,张育超. 基于预警控制限自学习的滚动轴承早期故障预测. 计算机集成制造系统. 2024(01): 227-238 . 百度学术
    5. 王煜伟,朱静,史曜炜,邓艾东. 基于可迁移注意力和动态卷积的滚动轴承跨工况故障诊断方法. 轴承. 2024(02): 82-88 . 百度学术
    6. 毛文涛,施华东,张艳娜,仲志丹. 轴承在线早期故障检测的无监督张量深度迁移学习方法. 控制与决策. 2024(03): 867-876 . 百度学术
    7. 陈祝云,焦健,纪传鹏,许维冬,贺毅,万海洋. 基于卷积对抗自编码网络的轴承早期故障检测方法. 机电工程技术. 2024(02): 1-7 . 百度学术
    8. 徐承军,于佰宁,秦懿. 基于深度域适应迁移学习的滚动轴承故障诊断方法研究. 起重运输机械. 2024(07): 65-72 . 百度学术
    9. 肖飞,马萍,张宏立,王聪. 无监督健康指标在轴承早期故障检测中的应用. 组合机床与自动化加工技术. 2024(06): 151-155+160 . 百度学术
    10. 辛治铖,汪隆君,刘沈全. 基于迁移学习的海上风电机组轴承早期故障预警策略. 可再生能源. 2024(07): 915-922 . 百度学术
    11. 唐祎晖,王宇钢,杨历夏,张阴硕,穆俊珍. 基于深度迁移混合模型的刀具磨损状态监测方法. 机床与液压. 2024(20): 63-71 . 百度学术
    12. 李兆飞. 数据驱动的轴承早期故障诊断技术综述. 机械传动. 2023(03): 165-176 . 百度学术
    13. 钟麦英,王钦,彭涛,席霄鹏,杨超,薛婷. 高速列车牵引传动系统运行状态监测技术综述. 山东科技大学学报(自然科学版). 2023(02): 88-97 . 百度学术
    14. 王明明,孙寅静,孙晓云,龚芮,王佳浩. 基于深度残差网络与迁移学习的地形识别方法. 科学技术与工程. 2023(09): 3779-3786 . 百度学术
    15. 钱赫,张海龙,常伟,李琳,崔浩. 机器视觉技术在风电机组中的应用. 中国新技术新产品. 2023(03): 5-8 . 百度学术
    16. 张思源,纪洪泉,刘洋. 基于ISCNN-LightGBM的轴承故障诊断. 控制理论与应用. 2023(04): 753-760 . 百度学术
    17. 李海英,孙越,张笑,宋建成. 模态时频图与ResNet50融合的真空接触器故障诊断方法. 高电压技术. 2023(05): 1831-1840 . 百度学术
    18. 雪伟,乐勇,刘子铭,徐乙馨,陈海平. 基于迁移学习的光伏发电组件运行故障检测. 自动化应用. 2023(11): 98-100 . 百度学术
    19. 陆阳. 深沟球轴承剥落故障动力学建模与仿真. 湖北工业大学学报. 2023(04): 34-38+54 . 百度学术
    20. 张龙,刘杨远,吴荣真,王良,承志恒,颜秋宏. 基于MSET重构模型整体优化的轴承性能退化评估方法. 振动与冲击. 2023(16): 251-261 . 百度学术
    21. 康守强,邢颖怡,王玉静,王庆岩,谢金宝,MIKULOVICH Vladimir Ivanovich. 基于无监督深度模型迁移的滚动轴承寿命预测方法. 自动化学报. 2023(12): 2627-2638 . 本站查看
    22. 杨彪,梅子,龙志强. 磁浮列车悬浮系统LSTM与MGD融合的在线异常检测方法. 交通运输工程学报. 2023(06): 216-231 . 百度学术
    23. 李贝贝,彭力. 基于改进自编码网络的轴承振动异常检测. 计算机科学与探索. 2022(01): 163-175 . 百度学术
    24. 邬云飞,栾小丽,刘飞. 基于迁移学习的2, 6-二甲酚纯度近红外光谱在线检测. 化工学报. 2022(02): 782-791 . 百度学术
    25. 赵志宏,李乐豪,杨绍普,李晴. 一种无监督的轴承健康指标及早期故障检测方法. 中国机械工程. 2022(10): 1234-1243 . 百度学术
    26. 赵春晖,胡赟昀,郑嘉乐,陈军豪. 数据驱动的燃煤发电装备运行工况监控——现状与展望. 自动化学报. 2022(11): 2611-2633 . 本站查看
    27. 张伟涛,纪晓凡,黄菊,楼顺天. 航发轴承复合故障诊断的循环维纳滤波方法. 西安电子科技大学学报. 2022(06): 139-151 . 百度学术
    28. 李彦夫,韩特. 基于深度学习的工业装备PHM研究综述. 振动.测试与诊断. 2022(05): 835-847+1029 . 百度学术

    其他类型引用(30)

  • 加载中
图(5) / 表(7)
计量
  • 文章访问数:  3246
  • HTML全文浏览量:  2862
  • PDF下载量:  1271
  • 被引次数: 58
出版历程
  • 收稿日期:  2020-04-01
  • 录用日期:  2020-09-07
  • 网络出版日期:  2021-12-21
  • 刊出日期:  2022-01-25

目录

/

返回文章
返回