A Survey of Attack, Defense and Related Security Analysis for Deep Reinforcement Learning
-
摘要: 深度强化学习是人工智能领域新兴技术之一, 它将深度学习强大的特征提取能力与强化学习的决策能力相结合, 实现从感知输入到决策输出的端到端框架, 具有较强的学习能力且应用广泛. 然而, 已有研究表明深度强化学习存在安全漏洞, 容易受到对抗样本攻击. 为提高深度强化学习的鲁棒性、实现系统的安全应用, 本文针对已有的研究工作, 较全面地综述了深度强化学习方法、对抗攻击、防御方法与安全性分析, 并总结深度强化学习安全领域存在的开放问题以及未来发展的趋势, 旨在为从事相关安全研究与工程应用提供基础.Abstract: Deep reinforcement learning is one of the emerging technologies in the field of artificial intelligence. It combines the powerful feature extraction capabilities of deep learning with the decision-making capabilities of reinforcement learning to achieve an end-to-end framework from status input to the decision output, which also makes it regarded as an important way to general artificial intelligence. However, existing studies have shown that deep reinforcement learning has security vulnerabilities and is vulnerable to adversarial sample attacks. In order to improve the robustness of deep reinforcement learning and realize the security application of the system, this article comprehensively summarizes deep reinforcement learning methods, adversarial attacks, defense methods and security analysis based on existing research work, and summarizes deep reinforcement learning security The open problems in the field and future development trends are intended to provide a basis for relevant safety research and engineering applications.
-
Key words:
- Deep reinforcement learning /
- adversarial attack /
- defense /
- policy attack /
- security
-
随着我国综合实力的提高, 海洋在经济发展、军事安全、科学研究等领域的作用也越来越重要, 因而得到了广泛的关注[1-2]. 传感器作为获取信息的一种重要手段, 在海洋监测方面也发挥着越来越大的作用. 光纤传感器作为一种新型的无源传感器件, 具有灵敏度高、体积小、抗电磁干扰等优点[3-4], 已经在很多领域发挥作用. 近年来, 面向海洋监测应用的光纤传感器也得到了快速发展, 大量的海洋参数传感方案被提出, 目前主要涉及到海洋的温度、盐度和深度三个参数的测量[5]. 由于分布式光纤仅对温度和应变敏感, 目前光纤传感器的温度盐度深度测量以点式传感器为主.
光纤光栅(Fiber bragg grating, FBG)通常结合敏感材料实现对海洋温盐深参数的测量, 通过敏感材料实现灵敏度的放大. 中科院半导体所的Wang等[6]通过将FBG固定在毛细不锈钢管中实现了对FBG的温度增敏, 温度分辨力可以达到0.01 ℃; 通过将FBG和弹性膜片增敏结构相结合可以实现1.57 nm/MPa的压力测量灵敏度[7]; 将FBG和水凝胶相结合[8], 利用水凝胶的水分累积和扩散特性将盐度变化转换为FBG栅区的应变变化, 实现了灵敏度为9.5 nm/‰ 的盐度测量. 由于FBG的光谱形状为一个窄带宽的峰值, 光谱的大范围高分辨率解调实现较为方便, 而且可以通过波分复用技术实现多个传感器的级联. 但是基于该原理的传感器灵敏度普遍偏低.
基于该种情况, 研究者们提出了多种基于干涉原理的高灵敏海水温度盐度测量方案. 2010年, Liao等[9]通过飞秒激光刻蚀技术在光纤上形成Mach-Zehnder干涉仪, 直接将待测介质作为传感臂, 传感器的折射率灵敏度可以达到9148 nm/RIU, 可以实现nm/‰量级的盐度灵敏度. 本课题组提出了一种同一结构中两种干涉效应共存的传感方案[10], 在一个结构中就可以对温度和盐度双参数进行解耦. 之后, 为了方便传感器的布设, 降低外界拉伸对传感器的影响, 将透射式传感结构更改为反射式[11]. 这些基于干涉原理的传感器虽然具有很高的测量灵敏度, 但是传感器的复用比较困难. 基于干涉原理的光纤传感器的光谱在波长域内是准正弦分布的, 传感器的灵敏度和测量范围存在矛盾, 虽然已经通过干涉光谱解调算法解决了基于干涉原理的光纤传感器灵敏度和测量范围之间的矛盾[12-14], 但是同一系统中通过频分复用技术复用的传感器数量也是有限的. 为了解决干涉式光纤传感器的复用问题, 本文提出了一种基于调频连续波(Frequency modulated continuous wave, FMCW)技术的复用方案, 将反射端面返回的光与参考臂的光形成Mach-Zehnder干涉仪, 用于确定传感器的位置; 通过同一传感器不同反射端面间的拍频恢复传感器的光谱. 搭建了用于传感器分布测试的系统, 编写了数据处理软件用于光谱的采集与处理, 通过在系统中接入用于温度盐度测试的级联法布里−珀罗干涉仪(Fabry-Perot interferometer, FPI)探头和用于应变测试的FPI探头, 分别对应海洋环境测试中的温度、盐度、深度这三个基本参数, 并测试了实验系统中传感器的响应特性.
1. 理论介绍
图1给出了FMCW的技术原理图, FMCW技术利用可调谐激光器(Tunable laser source, TLS)发出频率随时间变化的光, 反射光因在光纤中传输表现出相对于参考光的延时特性, 通过探测器(Photoelectric detector, PD)探测到参考光和传感光形成的干涉光, 通过干涉光的频率反推得到反射端面的位置信息[15-16]. 假设入射光是调频速度为$ \gamma $ Hz/s的线性扫频光, 入射光经过耦合器分到参考臂和传感臂上, 参考臂的电场表达式可以写为:
$$ \begin{aligned} E_{\rm{ref}} = \sqrt{a}E_{0}{\rm{e}}^{{\rm{j}}(2 \pi f_{0}t+\pi \gamma t^{2})} \end{aligned} $$ (1) 其中$ f_{0} $表示扫频光的起始频率, $ E_{0} $为入射电场的幅值, $ a $表示耦合器到参考臂的分光比.
当入射光从反射面返回时, 可以表示为一个与入射光存在时间延时的扫频信号:
$$ E_{\rm{sen}} = \sqrt{(1-a)r}E_{0}{\rm{e}}^{{\rm{j}}[2\pi f_{0}(t-\tau)+\pi \gamma (t-\tau)^{2}]} $$ (2) 其中$ \tau $表示由于参考臂与传感臂臂长差造成的时延差, 具体可以计算为$ \tau = 2n\Delta l/c $. $ r $表示传感器端面的反射率. 两束光相干之后通过探测器对相干光进行探测, 探测得到的光强可以表示为:
$$ \begin{split} I=\;& (E_{\rm{ref}}+E_{\rm{sen}})(E_{\rm{ref}}+E_{\rm{sen}})^{*} = \\ &[a+r(1-a)]E_{0}^{2}\;+ \\ &2\sqrt{ar(1-a)}\cos(2\pi \gamma \tau t+2\pi f_{0}\tau-\pi\gamma\tau^{2}) \end{split} $$ (3) 可以看出, 拍频信号与参考光和传感臂间的时延存在线性对应关系, 进而可以通过该方法确定传感臂与参考臂的长度差. 图2给出了参考臂和传感臂光频率的变化情况, 两束具有时延的光形成了一个具有固定频率差的干涉信号, 这与式(3)是相同的. 当系统中的传感臂中存在多个反射面时, 会形成多个与参考臂具有不同光程差的干涉信号, 根据光程差可以确定反射面所处的位置, 通过不同反射端面与参考臂形成的干涉光谱间的拍频, 可以反推得到干涉光谱的信息, 进而可以实现单个传感器干涉光谱的还原.
2. 仿真分析
本文编写了MATLAB代码对基于FMCW技术的传感器复用系统进行了仿真, 仿真中采用的系统如图3所示, 仿真中设置可调谐激光器的波长扫描范围为1530 nm ~ 1570 nm, 扫频速度大致为10 THz/s, 将99%注入到传感系统的传感臂中用于得到较强的反射光. 环形器将光注入到复用在传感臂上的传感器中并收集传感器的反射光. 用于传感器分光的耦合器分光比为95 : 5, 并在系统的4 m、5 m和6 m位置处设置三个FPI传感器, 通过平衡探测器(Balanced photoelectric detector, BPD)对相干光进行探测.
图4给出了系统的仿真光谱, 仿真光谱包含了不同位置处反射面的光谱叠加情况, 从时域光谱上很难区分不同反射面, 采用快速傅里叶变换(Fast Fourier transform, FFT)对叠加光谱进行了频谱分析, 可以得到不同反射端面的位置信息. 图5(a)给出了傅里叶分析的结果, 可以看出, 在频谱的4 m、5 m、6 m位置处出现了3个特征频率, 频谱中的1 m和2 m处的特征频率则是由于3个FPI传感器之间拍频形成的. 由于传感臂的反射光很弱, 因而传感器间拍频信号的强度也会很弱, 可以通过提高参考臂信号强度的方法进一步提高参考光与传感光拍频信号强度, 降低传感器之间光谱拍频对光谱恢复的影响. 由于每个FPI都是由相邻很近的两个反射面构成的, 为了实现对干涉光谱的恢复, 对4 m处的频谱进行了放大, 由图5(b)给出, 发现两个端面在频域是可以区分的, 因而可以实现对传感器光谱的还原.
之后对FPI光谱的恢复方法进行了研究, 利用矩形窗将传感器特征频谱处的复频谱信号截取出来, 补零后对其进行反傅里叶变换, 得到还原光谱, 如图6所示. 信号通过带通滤波器后会产生延时, 延时的大小与滤波器设置的参数有关, 通过将滤波后数据延时点删除可以消除滤波延时的影响. 由于恢复的传感器光谱为同一传感器两个反射面与参考臂形成的干涉光谱间的拍频, 两个信号的延时特性一致, 因而对恢复信号的影响可以忽略. 此外, 由于系统中同一传感器的延时参数是统一的, 即使带通滤波对系统响应光谱有微小影响也是可以忽略的.
虽然真实光谱和还原光谱具有近似的谱形, 但是还原光谱的谷值处较为尖锐, 因为在反傅里叶变换(Inverse FFT, IFFT)后对信号进行取模运算, 导致信号没有负值部分, 这会造成信号的失真. 通过分析, 发现信号在拍频时导致了频率的减半, 具体原因可以由式(4) 给出, 可以看出两个信号在进行拍频之后会形成一个高频和低频信号的乘积, 拍频后的低频信号频率为两个信号频率差的一半. 因而可以通过倍频的方法将信号频率调整为一致, 即对信号做一个平方, 本方案中利用积化和差公式将拍频信号倍频, 使得拍频信号与真实信号频率相同.
$$ \cos \left ( a \right )+\cos \left ( b \right ) = 2\cos \left ( \frac{a+b}{2} \right) \cos \left ( \frac{a-b}{2} \right) $$ (4) 之后对系统中可以复用的传感器数量进行理论计算, 第$ { N} $个端面的反射强度为:
$$ P_{\rm{out}} = P_{\rm{in}}r_{\rm{m}}r_{ c1,N}^{2}(1-\alpha_{N})^{2}\prod\limits_{ n = 1}^{N-1} {r_{ c2,n}^{2}(1-\alpha_{n})^2} $$ (5) 其中$ P_{\rm{in}} $表示输入到参考臂中的光, $ r_{\rm{m}} $表示光纤反射端面的反射率, $ P_{\rm{out}} $是反射面反射到探测器的能量. $ r_{ c1,N} $表示第$ {N} $个耦合器第1个端口的输出能量比, $ r_{c2,n} $表示第$ {n} $个耦合器第2个端口的输出能量比, 平方表示光在耦合器中传播一个来回, $ \alpha_{N} $表示第$N $个耦合器的插入损耗. 假设本系统中采用99 : 1的耦合器将光分配给系统中的传感器, 传感器法兰间的连接没有损耗, 所有FPI传感器端面都置于盐水(折射率近似为1.33)中, 端面的反射率$ r_{\rm{m}} $大概为0.0025, 进入传感臂的光功率为10 mW, 传感器中第500个传感器的反射能量为2.2×$ 10^{-10} $ mW, 如果参考臂的输入光功率为20 μW, 那么两束光相干后的光功率约为4.2 nW. 这个光强度大于探测器的噪声等效功率, 可以通过光电探测器探测得到.
本方案中采用的方案为相干探测方案, 最大的传感长度需要综合考虑系统中光源的线宽、数据采集卡的采样率以及可调谐激光器的波长扫描速度; 根据光源线宽和相干长度之间的关系: $\Delta v = {c}/\left(2nL \right)$, 本方案中采用的可调谐激光器的线宽为60 kHz, 光源的相干长度为1.66 km. 按照本方案中设置的采样率(62.5 MHz)和波长扫描速度(80 nm/s), 为了利用参考干涉仪光谱实现等频率重采样, 参考干涉仪每个周期至少有5个采样点, 根据干涉光谱计算公式$ \Delta \lambda = \lambda^{2}/\left(2nL\right) $, 系统的最大传感距离为125 m.
3. 实验系统搭建
为了对系统的特性进行测试, 搭建了实验测试系统, 为了实现高的距离分辨力, 系统中采用的光频率扫描范围应该设置的尽可能大, 本文采用的可调谐激光器是等波长间隔扫描的, 然而干涉光谱在波长域并不是标准的正弦分布, 根据干涉仪的干涉光谱公式$ y = {\rm{cos}}(2\pi 2nl/\lambda) $, 波长位于正弦函数的分母上, 虽然波长相对于腔长较小, 得到的干涉光谱随波长是一个类正弦信号, 但是这也会导致FFT分析结果不准确, 尤其是在波长范围较大的情况下. 为了消除激光器非线性扫频的影响, 本方案中采用了附加干涉仪作为重采样的标准, 利用干涉光谱在频域是标准三角函数的特点, 三角函数在零点之间的间隔是确定的, 通过利用参考干涉仪的零点实现光谱的等频率间隔重采样.
搭建了实验系统如图7所示的带有附加干涉仪的传感系统. 采用的光源为波长范围为1480 nm ~ 1640 nm, 品牌为Santec, 型号为TSL770的可调谐激光器, 调谐速度为0 ~ 200 nm/s. 系统中使用品牌为Conquer, 型号为KG-PR-200 M的光探测器, 探测带宽为200 MHz, 用于获取参考部分的干涉信号, 所选的PD的波长探测范围为850 nm ~ 1650 nm. 通过 Thorlabs品牌的PDB570C型号的BPD将传感部分的参考臂与传感臂的干涉光进行相干探测. 本方案中采用的BPD工作波长范围可以覆盖1200 nm ~ 1700 nm, 探测带宽可以覆盖0 ~ 400 MHz.
选用Advantech公司的PCIE-1840采集卡(Data acquisition, DAQ)作为信号采集器件将探测器得到的信号读入电脑中, 该采集卡可以实现4通道16位分辨率的信号采集, 每个通道的采样率可以达到125 MHz, 在本实验中将采集卡的采样率设置为62.5 MHz, 实验中可调谐激光器的波长范围为1530 nm ~ 1570 nm, 波长调谐速度为80 nm/s, 数据每次采样时间为0.5 s. 需要用到采集卡的三个通道, 一个通道用作采集卡的触发信号, 一个通道用于参考信号的采集, 一个通道用于传感信号的采集. 在利用参考干涉仪的光谱进行重采样时, 将参考信号作为参考时钟, 信号的等波数采样可以通过硬件法或者软件法实现. 硬件法是通过将PD探测得到的参考信号作为外部时钟信号输入到采集卡中. 软件法则是将PD探测到的参考采样信号和BPD探测到的传感信号同时输入到采集卡的信号通道中. 由于每次扫描产生的参考信号不能连续稳定存在, 因而不能作为一个可靠的外部时钟. 此外, 采集卡对外部时钟的频率是有限制的, 参考时钟的频率应该为10 MHz左右才可以满足外部时钟采集需求. 故采用了软件法对光谱进行重采样.
为了实现对系统光谱的处理与单个传感器的光谱恢复, 基于LabView开发环境编写了用于数据处理的软件, 用于系统光谱的实时显示与处理. 图8给出了数据处理软件的前面板, 前面板包含多个用于设置采集系统的输入控件, 主要包括可调谐激光器的起始扫描波长、终止波长、扫描速度的输入, 采集卡的采样速率也可以通过输入控件进行设置, 信号通道下拉菜单可以对信号的输入通道进行选择. 此外, 为了提高数据的读取效率, 设置了用于调整采样段长与采样段数的输入控件. 为了直观地显示光谱信息, 图中右侧的4个波形图分别用于显示原始采样光谱、重采样后的光谱、重采样光谱的频谱特性图以及还原后传感器的干涉光谱. 理论上可以做到全部传感器光谱的显示, 由于目前复用规模较小, 为了清晰地显示单个光谱的变化情况, 显示面板中只显示了单个传感器光谱的恢复, 之后会考虑进行多个传感器光谱的同时处理, 利用还原光谱显示控件作为带通滤波的参数选择参考, 构建多个传感器光谱滤波参数数组, 实现多个传感器光谱同时恢复.
图9给出了数据采集处理软件的后面板, 后面板中对数据的主要操作包括采集卡配置、信号重采样、FFT频谱分析、IFFT光谱还原以及光谱存储几个部分, 这3个过程都涉及到大量的数据操作, 开始时采用了LabView内置的VI函数对光谱数据进行处理, 由于光谱数据量较大, 处理效率较低. 之后改用LabView内置的MATLAB脚本VI函数作为数据处理函数, 大大地提高了数据处理速度. 本实验中利用参考干涉仪作为参考时钟对传感光谱进行等频率重采样, 为了方便信号采样, 将时钟信号减去基值后通过比较器将波形从正弦波转换为方波, 当方波两个相邻采样点出现正负跳变时, 采集一个传感信号点, 通过该种方法可以实现快速的传感光谱重采样. 利用FFT对重采样的信号进行频谱特征分析, 之后通过矩形窗截取传感光谱的特征频谱, 实现传感器光谱的恢复.
4. 实验验证
在所设计的大容量传感器复用系统中进行了应变和盐度实验. 本文侧重于分布式干涉式光纤传感器的实现, 因而选取了应变模拟压力的测量效果, 海洋的压力通过增敏结构以应变的形式传递到光纤传感器结构上. 在系统中接入了3个传感器, 传感器1和传感器3为常见的基于单模−空心−单模结构的光纤FPI应变传感器, 该传感器通过在单模光纤中间熔接一段空心光纤制作; 传感器2为利用单模光纤错位熔接制作的双FPI级联的温盐传感器, 该传感器的制作方法可以参考本课题组的论文[12]. 首先将传感器接入到FMCW系统中, 经过采集软件的重采样之后, 得到的复合光谱如图10所示.
之后用FFT分析了复合光谱的频率特性, 图11展示出了光谱的频谱特性, 子图中给出了接入3个传感器的频谱情况, 对应整体频谱中蓝色椭圆圈出的部分. 可以看出, 由于本方案中采用的波长扫描范围较大, 所以光谱的频率分辨力较高, 可以区分同一传感器内的不同反射端面. 图中紫色的特征峰值是由于光纤法兰连接处的反射造成的. 可以明显地看出, 传感器3的光强远大于传感器1和传感器2的光强, 这是为了能够区分传感器位置. 传感器3接入的光为95%, 传感器3的反射光强度接近前两个传感器的20倍, 且3个传感器是等间隔分布的, 通过这种方法可以快速地找出系统中3个传感器的特征频率. 图中绿色的特征频率是由于传感器以及法兰之间的反射光拍频形成的.
图12给出了传感器的应力测试系统, 通过三维位移滑台用于固定光纤, 铁架台用于悬挂光纤, 将砝码悬挂在光纤自由端, 用于给传感结构施加定量的应力. 在弹性范围内, 光纤的应力和所施加的质量之间存在线性对应关系. 因为砝码的质量精度可以做到很高, 本文采用砝码悬挂法对光纤实现精确的应变控制.
对传感器中传感器1进行应力测试后, 从数据处理软件上得到了不同应变下的光谱, 对光谱数据进行了处理. 对获取的干涉光谱进行平滑与寻峰操作, 得到了不同质量下的干涉峰值, 对不同质量下的干涉峰值进行拟合, 得到的拟合结果如图13(a)所示, 可以看出, 随着所施加砝码质量的增加, 干涉光谱的峰值波长表现出红移响应, 传感器的灵敏度可以达到23.35 pm/g, 拟合线性度可以达到0.997. 图13(b)给出了传感器1在同一质量下连续监测38次的波长变化情况, 测量标准差(Standard deviation, SD)可以达到40.85 pm, 这可能是由于环境波动以及光源抖动等因素造成的.
之后对双FPI级联的温盐传感器的盐度(折射率)响应特性进行测试, 将传感器2放置于设计的盐度传感平台上. 通过胶头滴管向传感平台一侧滴加盐水, 通过吸水纸从另一侧吸收盐水, 将待测浓度的盐水进行3次冲刷用于减小浓度差的影响. 本方案中采用吸水纸的原因在于盐水的表面张力相对于有机溶液较大, 盐水无法可靠浸入传感结构(或者传感器的响应时间较长), 影响测试结果的准确性. 在实际应用中不需要更换液体, 只需要保证待测液体浸入到传感器即可, 可以考虑事先将传感器结构浸泡于有机溶液中. 由于本传感器结构较小, 浸泡需要的有机溶剂较少, 对实际测量产生的影响可以忽略, 测试环境由图14给出. 盐度测试采用的是海洋国家计量中心生产的中国系列标准海水.
图15给出了传感器的光谱情况, 图15(a)表示传感器的原始光谱, 这包含两个FPI传感器的混叠光谱, 通过带通滤波器将两个传感器的光谱进行恢复, 对盐度敏感的传感器光谱在图15(b)中给出, 对温度敏感的传感器光谱在图15(c)中给出. 可以看出, 使用带通滤波器可以很好地区分两个传感器光谱.
本实验中仅对盐度响应特性进行测试, 对不同盐度下的响应光谱进行了分析. 分析结果在图16中给出, 对光谱的特征峰值与盐水浓度进行了线性拟合, 光谱随着盐度的增加表现出右移响应. 传感器的盐度灵敏度可以达到242.58 pm/‰, 拟合线性度可以达到0.9996, 传感器的盐度和波长之间具有很好的响应特性. 该传感器的盐度灵敏度与文献[17]基本是一致的, 可以认为传感器的性能不受到复用系统影响. 传感器随盐度变化的波长移动量达到9.7 nm, 光谱移动量接近光谱周期的2倍, 采用光谱峰值追踪法无法进行有效的光谱处理. 本次实验中, 结合经验法对光谱进行寻峰, 之后的实验可以考虑采用干涉光谱腔长解调技术对光谱进行解调[12], 就可以实现大动态范围、高分辨力的光谱解调.
图17给出了传感器在同一盐度下光谱特征峰值连续监测的效果, 通过计算得到该传感器的波长标准差为20.68 pm, 对应盐度的标准差为0.085‰. 连续监测结果表明, 传感器在该复用系统中仍然可以实现较好的传感效果.
5. 结论
本文提出了一种基于FMCW原理的干涉式光纤传感器的复用方法, 利用传感器的反射端面和参考臂形成的Mach-Zehnder干涉光谱之间的拍频实现传感器光谱还原, 搭建了用于大容量传感器复用的实验系统, 编写了用于数据采集与处理的软件, 实现了数据的实时采集以及对系统内单个传感器光谱的还原, 测试了系统中传感器的温度和盐度响应特性, 实验结果表明, 该复用系统在实现大容量传感器复用的同时不影响单个传感器的传感性能. 所提出的复用方法可以用于基于光纤传感器阵列的海洋参数立体剖面监测以及多点温度监测等应用场合.
-
表 1 经典深度强化学习算法对比
Table 1 Comparison of classic deep reinforcement learning algorithm
分类 算法 原理 贡献 不足 基于
值函数深度Q网络(DQN)[1-2] 使用经验回放机制打破样本相关性; 使用目标网络稳定训练过程 第一个能进行端到端学习的
深度强化学习框架训练过程不稳定; 无法处理
连续动作任务双重深度Q网络(DDQN)[3] 用目标网络来评估价值, 用评估网络选择动作 缓解了DQN对价值的过估计问题 训练过程不稳定; 无法
处理连续动作优先经验回放Q网络
(Prioritized DQN)[4]对经验池中的训练样本设立优先级进行采样 提高对稀有样本的使用效率 训练过程不稳定; 无法
处理连续动作对偶深度Q网络
(Dueling DQN)[5]对偶网络结构, 使用状态价值函数, 与相对动作价值函数来评估Q值 存在多个价值相仿的动作时
提高了评估的准确性无法处理连续动作 深度循环Q网络(DRQN)[27] 用长短时记忆网络替换全连接层 缓解了部分可观测问题 完全可观测环境下性能表现不
足; 无法处理连续动作注意力机制深度循环Q
网络(DARQN)[28]引入注意力机制 减轻网络训练的运算代价 训练过程不稳定; 无法
处理连续动作噪声深度Q网络
(Noisy DQN)[29]在网络权重中加入参数噪声 提高了探索效率; 减少了参数设置; 训练过程不稳定; 无法
处理连续动作循环回放分布式深度
Q网络(R2D2)[30]RNN隐藏状态存在经验池中; 采样部分序列产生RNN初始状态 减缓了RNN状态滞后性 状态滞后和表征漂移
问题仍然存在演示循环回放分布式深度
Q网络(R2D3)[32]经验回放机制; 专家演示回放缓冲区; 分布式优先采样 解决了在初始条件高度可变
的部分观察环境中的
稀疏奖励任务无法完成记住和越过
传感器的任务基于策
略梯度REINFORCE[35] 使用随机梯度上升法; 累计奖励作为动作价值函数的无偏估计 策略梯度是无偏的 存在高方差;收敛速度慢 自然策略梯度(Natural PG)[36] 自然梯度朝贪婪策略方向更新 收敛速度更快; 策略更新变化小 自然梯度未达到有效最大值 行动者−评论者(AC)[37] Actor用来更新策略; Critic用来评估策略 解决高方差的问题 AC算法中策略梯度存
在较大偏差确定性策略梯度(DDPG)[38] 确定性策略理论 解决了连续动作问题 无法处理离散动作问题 异步/同步优势行动者−评
论者(A3C/A2C)[6]使用行动者评论者网络结构; 异步更新公共网络参数 用多线程提高学习效率;
降低训练样本的相关性;
降低对硬件的要求内存消耗大; 更新策略
时方差较大信任域策略优化(TRPO)[7] 用KL散度限制策略更新 保证了策略朝着优化的方向更新 实现复杂; 计算开销较大 近端策略优化(PPO)[39] 经过裁剪的替代目标函数自适应的KL惩罚系数 比TRPO更容易实现;
所需要调节的参数较少用偏差大的大数据批进行学
习时无法保证收敛性K因子信任域行动者评
论者算法(ACKTR)[8]信任域策略优化; Kronecker因子
算法; 行动者评论者结构采样效率高; 显著减少计算量 计算依然较复杂 表 2 深度强化学习的攻击方法
Table 2 Attack methods toward deep reinforcement learning
分类 攻击方法 攻击模型 攻击策略 攻击阶段 对手知识 观测攻击(见2.1) FGSM[19] DQN[1-2]、TRPO[7]、A3C[6] 在观测上加上FGSM攻击 测试阶段 白盒/黑盒 策略诱导攻击[41] DQN[1-2] 训练敌手策略; 对抗样本的转移性 训练阶段 黑盒 战略时间攻击[42] DQN[1-2]、A3C[6] 在一些关键时间步进行攻击 测试阶段 白盒 迷惑攻击[42] DQN[1-2]、A3C[6] 通过预测模型诱导智能体做出动作 测试阶段 白盒 基于值函数的对抗攻击[44] A3C[6] 在值函数的指导下选择部分观测进行攻击 测试阶段 白盒 嗅探攻击[45] DQN[1-2]、PPO[39] 用观测以及奖励、动作信号来获取代理模型并进行攻击 测试阶段 黑盒 基于模仿学习的攻击[46] DQN[1-2]、A2C[6]、PPO[39] 使用模仿学习提取的专家模型信息进行攻击 测试阶段 黑盒 CopyCAT算法[47] DQN[1-2] 使用预先计算的掩码对智能体的观测做出实时的攻击 测试阶段 白盒/黑盒 奖励攻击(见2.2) 基于对抗变换网络的对抗攻击[21] DQN[1-2] 加入一个前馈的对抗变换网络使策略追求对抗奖励 测试阶段 白盒 木马攻击[48] A2C[6] 在训练阶段用特洛伊木马进行中毒攻击 训练阶段 白盒/黑盒 翻转奖励符号攻击[49] DDQN[3] 翻转部分样本的奖励值符号 训练阶段 白盒 环境攻击(见2.3) 路径脆弱点攻击[50] DQN[1-2] 根据路径点Q值的差异与直线的夹角找出脆弱点 训练阶段 白盒 通用优势对抗样本生成方法[20] A3C[6] 在梯度上升最快的横断面上添加障碍物 训练阶段 白盒 对环境模型的攻击[51] DQN[1-2]、DDPG[38] 在环境的动态模型上增加扰动 测试阶段 黑盒 动作攻击(见2.4) 动作空间扰动攻击[52] PPO[39]、DDQN[3] 通过奖励函数计算动作空间扰动 训练阶段 白盒 策略攻击(见2.5) 通过策略进行攻击[53] PPO[39] 采用对抗智能体防止目标智能体完成任务 测试阶段 黑盒 表 3 深度强化学习的攻击和攻击成功率
Table 3 Attack success rate toward deep reinforcement learning
攻击模型 攻击方法 攻击阶段 攻击策略 平台 成功率 DQN[1] CopyCAT算法[47] 测试阶段 使用预先计算的掩码对智能体的观测做出实时的攻击 OpenAI Gym[77] 60%~100% FGSM攻击[19] 训练阶段 在观测上加上FGSM攻击 OpenAI Gym[77] 90% ~ 100% 策略诱导攻击[41] 训练阶段 训练敌手策略; 对抗样本的转移性 Grid-World map[40] 70%~95% 战略时间攻击[42] 测试阶段 在一些关键时间步进行攻击 OpenAI Gym[77] 40步以内达到70% PPO[37] 通过策略进行攻击[53] 测试阶段 采用对抗智能体防止目标智能体完成任务 OpenAI Gym[77] 玩家智能体成功率下降至62%和45% 表 4 深度强化学习的防御方法
Table 4 Defense methods of deep reinforcement learning
分类 防御方法 防御机制 防御目标 攻击方法 对抗训练(见3.1) 使用FGSM与随机噪声重训练[44, 55] 对正常训练后的策略使用对抗样本
与随机噪声进行重训练状态扰动 FGSM、经值函数指导的对抗攻击
(见2.1)基于梯度带的对抗训练[50] 用单一的优势对抗样本进行对抗训练 环境扰动 通用优势对抗样本生成方法(见2.3) 非连续扰动下的对抗训练[23] 以一定的攻击概率在训练样本中加入对抗扰动 状态扰动 战略时间攻击、经值函数指导的
对抗攻击(见2.1)基于敌对指导探索的对抗训练[56] 根据对抗状态动作对的显著性调整对 状态扰动 战略时间攻击、嗅探攻击(见2.1) 鲁棒学习(见3.2) 基于代理奖励的鲁棒训练[57] 通过混淆矩阵得到代理奖励值以
更新动作价值函数奖励扰动 结合对抗变换网络的对抗攻击(见2.2) 鲁棒对抗强化学习[58] 在有对抗智能体的情境下利用
博弈原理进行鲁棒训练不同场景下的不稳定因素 在多智能体环境下的对抗策略(见2.5) 二人均衡博弈[59] 博弈、均衡原理 奖励扰动 结合对抗变换网络的对抗攻击(见2.2) 迭代动态博弈框架[60] 用迭代的极大极小动态博弈
框架提供全局控制状态扰动 FGSM、战略时间攻击、经值函数指导
的对抗攻击、迷惑攻击(见2.1)对抗A3C[24] 在有对抗智能体的情境下
进行博弈鲁棒训练不同场景下的不稳定因素 在多智能体环境下的对抗策略(见2.5) 噪声网络[61] 使用参数空间噪声减弱对
抗样本的迁移能力状态扰动 FGSM、策略诱导攻击、利用模仿
学习的攻击(见2.1)方差层[62] 用权重遵循零均值分布, 并且仅
由其方差参数化的随机层进行训练状态扰动 FGSM、战略时间攻击、经值函数
指导的对抗攻击、迷惑攻击(见2.1)对抗检测(见3.3) 基于元学习的对抗检测[63] 学习子策略以检测对抗扰动的存在 状态扰动 FGSM、战略时间攻击、经值函数
指导的对抗攻击、迷惑攻击(见2.1)基于预测模型的对抗检测[25] 通过比较预测帧与当前帧之间
的动作分布来检测对抗扰动状态扰动 FGSM、战略时间攻击、经值函数指导
的对抗攻击、迷惑攻击(见2.1)水印授权[54] 在策略中加入特有的水印以
保证策略不被非法修改策略篡改 CopyCAT攻击、策略诱导攻击(见2.1) 受威胁的马尔科夫决策过程[68] 在马尔科夫决策过程中加入攻击者
动作集并使用K级思维模式进行学习奖励扰动 翻转奖励符号攻击(见2.2) 在线认证防御[69] 在输入扰动范围内选择最优动作 状态扰动 FGSM、战略时间攻击、经值函数指导
的对抗攻击、迷惑攻击(见2.1)表 6 深度强化学习的攻击指标
Table 6 Attack indicators of deep reinforcement learning
分类 攻击方法 攻击模型 平台 奖励 损失 成功率 精度 观测攻击 FGSM[19] DQN[1-2]、TRPO[7]、A3C[6] OpenAI Gym[75] √ 策略诱导攻击[41] DQN[1-2] Grid-world[40] √ √ 战略时间攻击[42] DQN[1-2]、A3C[6] OpenAI Gym[75] √ √ 迷惑攻击[42] DQN[1-2]、A3C[6] OpenAI Gym[75] √ √ 基于值函数的对抗攻击[44] A3C[6] OpenAI Gym[75] √ 嗅探攻击[45] DQN[1-2]、PPO[39] OpenAI Gym[75] √ 基于模仿学习的攻击[46] DQN[1-2]、A2C[6]、PPO[39] OpenAI Gym[75] √ CopyCAT算法[47] DQN[1-2] OpenAI Gym[75] √ √ 奖励攻击 基于对抗变换网络的对抗攻击[21] DQN[1-2] OpenAI Gym[75] √ 木马攻击[48] A2C[6] OpenAI Gym[75] √ 翻转奖励符号攻击[49] DDQN[3] SDN environment[49] √ 环境攻击 路径脆弱点攻击[50] DQN[1-2] OpenAI Gym[75] √ √ 通用优势对抗样本生成方法[20] A3C[6] Grid-world[40] √ √ 对环境模型的攻击[51] DQN[1-2]、DDPG[38] OpenAI Gym[75] √ 动作攻击 动作空间扰动攻击[52] PPO[37]、DDQN[3] OpenAI Gym[75] √ 策略攻击 通过策略进行攻击[53] PPO[39] OpenAI Gym[75] √ 表 7 深度强化学习的防御指标
Table 7 Defense indicators of deep reinforcement learning
分类 防御方法 实验平台 平均回报 成功率 每回合步数 对抗训练 使用FGSM与随机噪声重训练[44-45] OpenAI Gym[75] √ 基于梯度带的对抗训练[50] Grid-world[40] √ 非连续扰动下的对抗训练[56] OpenAI Gym[75] √ 基于敌对指导探索的对抗训练[57] OpenAI Gym[75] √ 鲁棒学习 基于代理奖励的鲁棒训练[58] OpenAI Gym[75] √ √ 鲁棒对抗强化学习[59] OpenAI Gym[75] √ 二人均衡博弈[60] Grid-world[40] √ 迭代动态博弈框架[61] KUKA youbot[60] √ 对抗A3C[24] OpenAI Gym[75] √ 噪声网络[62] OpenAI Gym[75] √ 方差层[63] OpenAI Gym[75] √ 对抗检测 基于元学习的对抗检测[64] OpenAI Gym[75] √ 基于预测模型的对抗检测[25] OpenAI Gym[75] √ 水印授权[54] OpenAI Gym[75] √ √ 受威胁的马尔科夫决策过程[69] Grid-world[40] √ 在线认证防御[70] OpenAI Gym[75] √ 表 5 深度强化学习的安全性评估指标
Table 5 Security evaluation indicators of deep reinforcement learning
分类 指标 评价机制 评价目的 攻击指标 奖励 根据模型策略运行多个回合, 计算累积回合奖励或者平均回合奖励 用于评估攻击方法对模型整体性能的影响 损失 通过定义含有物理意义的概念来计算其是否到达不安全或者失败场景 用于评估攻击方法对模型策略的影响 成功率 攻击方法在一定限制条件内可以达到成功攻击的次数比例 用于评估攻击方法的有效性 精度 模型输出的对抗点中可以成功干扰路径规划的比例 用于评估攻击方法对模型策略的影响 防御指标 平均回报 根据模型策略运行多个回合, 计算平均回合奖励 用于评估防御方法对提高模型性能的有效性 成功率 检测攻击者篡改的策略动作 用于评估防御方法的有效性 每回合步数 根据模型策略运行多个回合, 记录每个回合的存活步数或者平均回合步数 用于评估防御方法对提高模型性能的有效性 -
[1] Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou I, Wierstra D, et al. Playing atari with deep reinforcement learning. arXiv preprint arXiv: 1312.5602, 2013 [2] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533 doi: 10.1038/nature14236 [3] Van Hasselt H, Guez A, Silver D. Deep reinforcement learning with double Q-learning. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix, Arizona: AAAI, 2016. 2094−2100 [4] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized experience replay. arXiv preprint arXiv: 1511.05952, 2016 [5] Wang Z Y, Schaul T, Hessel M, van Hasselt H, Lanctot M, de Freitas N. Dueling network architectures for deep reinforcement learning. arXiv preprint arXiv: 1511.06581, 2016 [6] Mnih V, Badia A P, Mirza M, Graves A, Harley T, Lillicrap T P, et al. Asynchronous methods for deep reinforcement learning. In: Proceedings of the 33rd International Conference on Machine Learning. New York, NY, USA: JMLR.org, 2016. 1928−1937 [7] Schulman J, Levine S, Moritz P, Jordan M, Abbeel P. Trust region policy optimization. In: Proceedings of the 31st International Conference on Machine Learning. Lille, France: JMLR, 2015. 1889−1897 [8] Wu Y H, Mansimov E, Liao S, Grosse R, Ba J. Scalable trust-region method for deep reinforcement learning using kronecker-factored approximation. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: Curran Associates Inc., 2017. 5285−5294 [9] Silver D, Huang A, Maddison C J, Guez A, Sifre L, Van Den driessche G, et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489 doi: 10.1038/nature16961 [10] Berner C, Brockman G, Chan B, Cheung V, Dȩbiak P, Dennison C, et al. Dota 2 with large scale deep reinforcement learning. arXiv preprint arXiv: 1912.06680, 2019 [11] Fayjie A R, Hossain S, Oualid D, Lee D J. Driverless car: Autonomous driving using deep reinforcement learning in urban environment. In: Proceedings of the 15th International Conference on Ubiquitous Robots (UR). Honolulu, HI, USA: IEEE, 2018. 896−901 [12] Prasad N, Cheng L F, Chivers C, Draugelis M, Engelhardt B E. A reinforcement learning approach to weaning of mechanical ventilation in intensive care units. arXiv preprint arXiv: 1704.06300, 2017 [13] Deng Y, Bao F, Kong Y Y, Ren Z Q, Dai Q H. Deep direct reinforcement learning for financial signal representation and trading. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(3): 653-664 doi: 10.1109/TNNLS.2016.2522401 [14] Amarjyoti S. Deep reinforcement learning for robotic manipulation-the state of the art. arXiv preprint arXiv: 1701.08878, 2017 [15] Nguyen T T, Reddi V J. Deep reinforcement learning for cyber security. arXiv preprint arXiv: 1906.05799, 2020 [16] Oh J, Guo X X, Lee H, Lewis R, Singh S. Action-conditional video prediction using deep networks in Atari games. In: Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015. 2863−2871 [17] Caicedo J C, Lazebnik S. Active object localization with deep reinforcement learning. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2488−2496 [18] Sutton R S, Barto A G. Reinforcement Learning: An Introduction (Second Edition). Cambridge, MA: MIT Press, 2018. 47−48 [19] Huang S, Papernot N, Goodfellow I, Duan Y, Abbeel P. Adversarial attacks on neural network policies. arXiv preprint arXiv: 1702.02284, 2017 [20] Chen T, Niu W J, Xiang Y X, Bai X X, Liu J Q, Han Z, et al. Gradient band-based adversarial training for generalized attack immunity of A3C path finding. arXiv preprint arXiv: 1807.06752, 2018 [21] Tretschk E, Oh S J, Fritz M. Sequential attacks on agents for long-term adversarial goals. arXiv preprint arXiv: 1805.12487, 2018 [22] Ferdowsi A, Challita U, Saad W, Mandayam N B. Robust deep reinforcement learning for security and safety in autonomous vehicle systems. In: Proceedings of the 21st International Conference on Intelligent Transportation Systems (ITSC). Maui, HI, USA: IEEE, 2018. 307−312 [23] Behzadan V, Munir A. Whatever does not kill deep reinforcement learning, makes it stronger. arXiv preprint arXiv: 1712.09344, 2017 [24] Gu Z Y, Jia Z Z, Choset H. Adversary A3C for robust reinforcement learning. arXiv preprint arXiv: 1912.00330, 2019 [25] Lin Y C, Liu M Y, Sun M, Huang J B. Detecting adversarial attacks on neural network policies with visual foresight. arXiv preprint arXiv: 1710.00814, 2017 [26] Watkins C J C H, Dayan P. Q-learning. Machine learning, 1992, 8(3−4): 279−292 [27] Hausknecht M, Stone P. Deep recurrent Q-learning for partially observable MDPs. In: Proceedings of 2015 AAAI Fall Symposium on Sequential Decision Making for Intelligent Agents. Arlington, Virginia, USA: AAAI, 2015. [28] Sorokin I, Seleznev A, Pavlov M, Fedorov A, Ignateva A. Deep attention recurrent Q-network. arXiv preprint arXiv: 1512.01693, 2015 [29] Plappert M, Houthooft R, Dhariwal P, Sidor S, Chen R Y, Chen X, et al. Parameter space noise for exploration. arXiv preprint arXiv: 1706.01905, 2018 [30] Kapturowski S, Ostrovski G, Quan J, Munos R, Dabney W. Recurrent experience replay in distributed reinforcement learning. In: Proceedings of the 7th International Conference on Learning Representations. New Orleans, LA, USA, 2019. [31] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735 [32] Le Paine T, Gulcehre C, Shahriari B, Denil M, Hoffman M, Soyer H, et al. Making efficient use of demonstrations to solve hard exploration problems. arXiv preprint arXiv: 1909.01387, 2019 [33] Sutton R S, McAllester D A, Singh S, Mansour Y. Policy gradient methods for reinforcement learning with function approximation. In: Proceedings of the 12th International Conference on Neural Information Processing Systems. Denver, CO: MIT Press, 1999. 1057−1063 [34] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms. In: Proceedings of the International conference on machine learning. PMLR, 2014: 387−395 [35] Graf T, Platzner M. Adaptive playouts in monte-carlo tree search with policy-gradient reinforcement learning. In: Proceedings of the 14th International Conference on Advances in Computer Games. Leiden, The Netherlands: Springer, 2015. 1−11 [36] Kakade S M. A natural policy gradient. In: Advances in Neural Information Processing Systems 14. Vancouver, British Columbia, Canada: MIT Press, 2001. 1531−1538 [37] Konda V R, Tsitsiklis J N. Actor-critic algorithms. In: Advances in Neural Information Processing Systems 14. Vancouver, British Columbia, Canada: MIT Press, 2001. 1008−1014 [38] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Tassa Y, et al. Continuous control with deep reinforcement learning. arXiv preprint arXiv: 1509.02971, 2019 [39] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal policy optimization algorithms. arXiv preprint arXiv: 1707.06347, 2017 [40] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. arXiv preprint arXiv: 1412.6572, 2015 [41] Behzadan V, Munir A. Vulnerability of deep reinforcement learning to policy induction attacks. In: Proceedings of the 13th International Conference on Machine Learning and Data Mining in Pattern Recognition. New York, NY, USA: Springer, 2017. 262−275 [42] Lin Y C, Hong Z W, Liao Y H, Shih M L, Liu M Y, Sun M. Tactics of adversarial attack on deep reinforcement learning agents. arXiv preprint arXiv: 1703.06748, 2019 [43] Carlini N, Wagner D. MagNet and “efficient defenses against adversarial attacks” are not robust to adversarial examples. arXiv preprint arXiv: 1711.08478, 2017 [44] Kos J, Song D. Delving into adversarial attacks on deep policies. arXiv preprint arXiv: 1705.06452, 2017 [45] Inkawhich M, Chen Y R, Li H. Snooping attacks on deep reinforcement learning. arXiv preprint arXiv: 1905.11832, 2020 [46] Behzadan V, Hsu W. Adversarial exploitation of policy imitation. arXiv preprint arXiv: 1906.01121, 2019 [47] Hussenot L, Geist M, Pietquin O. CopyCAT: Taking control of neural policies with constant attacks. arXiv preprint arXiv: 1905.12282, 2020 [48] Kiourti P, Wardega K, Jha S, Li W C. TrojDRL: Trojan attacks on deep reinforcement learning agents. arXiv preprint arXiv: 1903.06638, 2019 [49] Han Y, Rubinstein B I P, Abraham T, Alpcan T, De Vel O, Erfani S, et al. Reinforcement learning for autonomous defence in software-defined networking. In: Proceedings of the 9th International Conference on Decision and Game Theory for Security. Seattle, WA, USA: Springer, 2018. 145−165 [50] Bai X X, Niu W J, Liu J Q, Gao X, Xiang Y X, Liu J J. Adversarial examples construction towards white-box Q table variation in DQN pathfinding training. In: Proceedings of the 2018 IEEE Third International Conference on Data Science in Cyberspace (DSC). Guangzhou, China: IEEE, 2018. 781−787 [51] Xiao C W, Pan X L, He W R, Peng J, Sun M J, Yi J F, et al. Characterizing attacks on deep reinforcement learning. arXiv preprint arXiv: 1907.09470, 2019 [52] Lee X Y, Ghadai S, Tan K L, Hegde C, Sarkar S. Spatiotemporally constrained action space attacks on deep reinforcement learning agents. arXiv preprint arXiv: 1909.02583, 2019 [53] Gleave A, Dennis M, Wild C, Kant N, Levine S, Russell S. Adversarial policies: Attacking deep reinforcement learning. arXiv preprint arXiv: 1905.10615, 2021 [54] Behzadan V, Hsu W. Sequential triggers for watermarking of deep reinforcement learning policies. arXiv preprint arXiv: 1906.01126, 2019 [55] Pattanaik A, Tang Z Y, Liu S J, Bommannan G, Chowdhary G. Robust deep reinforcement learning with adversarial attacks. In: Proceedings of the 17th International Conference on Autonomous Agents and Multiagent Systems. Stockholm, Sweden: International Foundation for Autonomous Agents and Multiagent Systems, 2018. 2040−2042 [56] Behzadan V, Hsu W. Analysis and Improvement of Adversarial Training in DQN Agents With Adversarially-Guided Exploration (AGE). arXiv preprint arXiv: 1906.01119, 2019 [57] Wang J K, Liu Y, Li B. Reinforcement learning with perturbed rewards. arXiv preprint arXiv: 1810.01032, 2020 [58] Pinto L, Davidson J, Sukthankar R, Gupta A. Robust adversarial reinforcement learning. In: Proceedings of the 34th International Conference on Machine Learning-Volume 70. Sydney, Australia: JMLR.org, 2017. 2817−2826 [59] Bravo M, Mertikopoulos P. On the robustness of learning in games with stochastically perturbed payoff observations. Games and Economic Behavior, 2017, 103: 41-66 doi: 10.1016/j.geb.2016.06.004 [60] Ogunmolu O, Gans N, Summers T. Minimax iterative dynamic game: Application to nonlinear robot control tasks. In: Proceedings of the 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain: IEEE, 2018. 6919−6925 [61] Behzadan V, Munir A. Mitigation of policy manipulation attacks on deep Q-networks with parameter-space noise. In: Proceedings of the International Conference on Computer Safety, Reliability, and Security. Västeras, Sweden: Springer, 2018. 406−417 [62] Neklyudov K, Molchanov D, Ashukha A, Vetrov D. Variance networks: When expectation does not meet your expectations. arXiv preprint arXiv: 1803.03764, 2019 [63] Havens A, Jiang Z, Sarkar S. Online robust policy learning in the presence of unknown adversaries. In: Proceedings of the 32nd Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates, Inc., 2018. 9916−9926 [64] Xu W L, Evans D, Qi Y J. Feature squeezing mitigates and detects Carlini/Wagner adversarial examples. arXiv preprint arXiv: 1705.10686, 2017 [65] Meng D Y, Chen H. MagNet: A two-pronged defense against adversarial examples. In: Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. Dallas, Texas, USA: ACM, 2017. 135−147 [66] Feinman R, Curtin R R, Shintre S, Gardner A B. Detecting adversarial samples from artifacts. arXiv preprint arXiv: 1703.00410, 2017 [67] Uchida Y, Nagai Y, Sakazawa S, Satoh S. Embedding watermarks into deep neural networks. In: Proceedings of the 2017 ACM on International Conference on Multimedia Retrieval. Bucharest, Romania: ACM, 2017. 269−277 [68] Gallego V, Naveiro R, Insua D R. Reinforcement learning under threats. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 9939-9940 [69] Lütjens B, Everett M, How J P. Certified adversarial robustness for deep reinforcement learning. arXiv preprint arXiv: 1910.12908, 2020 [70] Athalye A, Carlini N, Wagner D. Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples. arXiv preprint arXiv: 1802.00420, 2018 [71] Bastani O, Pu Y W, Solar-Lezama A. Verifiable reinforcement learning via policy extraction. In: Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal, Canada: Curran Associates Inc., 2018. 2499−2509 [72] Zhu H, Xiong Z K, Magill S, Jagannathan S. An inductive synthesis framework for verifiable reinforcement learning. In: Proceedings of the 40th ACM SIGPLAN Conference on Programming Language Design and Implementation. Phoenix, AZ, USA: ACM, 2019. 686−701 [73] Behzadan V, Munir A. Adversarial reinforcement learning framework for benchmarking collision avoidance mechanisms in autonomous vehicles. arXiv preprint arXiv:1806.01368, 2018 [74] Behzadan V, Hsu W. RL-based method for benchmarking the adversarial resilience and robustness of deep reinforcement learning policies. arXiv preprint arXiv: 1906.01110, 2019 [75] Brockman G, Cheung V, Pettersson L, Schneider J, Schulman J, Tang J, et al. OpenAI gym. arXiv preprint arXiv: 1606.01540, 2016 [76] Johnson M, Hofmann K, Hutton T, Bignell D. The Malmo platform for artificial intelligence experimentation. In: Proceedings of the 25th International Joint Conference on Artificial Intelligence (IJCAI-16). New York, USA: AAAI, 2016. 4246−4247 [77] Lanctot M, Lockhart E, Lespiau J B, Zambaldi V, Upadhyay S, Pérolat J, et al. OpenSpiel: A framework for reinforcement learning in games. arXiv preprint arXiv: 1908.09453, 2020 [78] James S, Ma Z C, Arrojo D R, Davison A J. Rlbench: The robot learning benchmark & learning environment. IEEE Robotics and Automation Letters, 2020, 5(2): 3019-3026 doi: 10.1109/LRA.2020.2974707 [79] Todorov E, Erez T, Tassa Y. MuJoCo: A physics engine for model-based control. In: Proceedings of the 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vilamoura-Algarve, Portugal: IEEE, 2012. 5026−5033 [80] Dhariwal P, Hesse C, Klimov O, et al. Openai baselines. 2017. [81] Duan Y, Chen X, Houthooft R, Schulman J, Abbeel P. Benchmarking deep reinforcement learning for continuous control. In: Proceedings of the 33rd International Conference on Machine Learning. New York, USA: JMLR.org, 2016. 1329−1338 [82] Castro P S, Moitra S, Gelada C, Kumar S, Bellemare M G. Dopamine: A research framework for deep reinforcement learning. arXiv preprint arXiv: 1812.06110, 2018 [83] Papernot N, Faghri F, Carlini N, Goodfellow I, Feinman R, Kurakin A, et al. Technical report on the cleverhans v2.1.0 adversarial examples library. arXiv preprint arXiv: 1610.00768, 2018 [84] Rauber J, Brendel W, Bethge M. Foolbox: A python toolbox to benchmark the robustness of machine learning models. arXiv preprint arXiv: 1707.04131, 2018 期刊类型引用(13)
1. 胡蓉,伍星,毛剑琳,钱斌. 融入概率学习的混合差分进化算法求解绿色分布式可重入作业车间调度. 控制理论与应用. 2024(03): 512-521 . 百度学术
2. 杨媛媛,胡蓉,钱斌,张长胜,金怀平. 深度强化学习算法求解动态流水车间实时调度问题. 控制理论与应用. 2024(06): 1047-1055 . 百度学术
3. 郭琴,郑巧仙. 基于历史最优与接受差解的教与学算法. 计算机工程与设计. 2024(11): 3499-3506 . 百度学术
4. 王建华,杨琦,朱凯. 自适应多种群Jaya算法求解绿色并行机调度问题. 计算机集成制造系统. 2023(01): 111-120 . 百度学术
5. 王娟,刘美红,祝世兴,陈文博,李遇贤,孙军锋. 指尖密封结构参数的多目标混合教与学优化方法. 机械工程学报. 2023(09): 157-170 . 百度学术
6. 翟志波,贾国平,王涛,周鹏鹏,闫汝山,戴玉森. 基于拉普拉斯分布与鲍德温效应的教与学算法及其应用. 计算机集成制造系统. 2023(08): 2611-2621 . 百度学术
7. 徐林浩,胡蓉,钱斌,于乃康. 绿色VRP的增强拉格朗日松弛启发式算法. 电子测量技术. 2023(19): 96-103 . 百度学术
8. 陶丽文,刘建胜. 一种多班级离散型教与学算法求解路径规划问题. 南昌大学学报(工科版). 2022(03): 282-288 . 百度学术
9. 宋君乐,陶翼飞,可晓东,丁小鹏. 分区编码HBGWO算法求解并行机分批调度问题. 机械设计. 2022(10): 48-59 . 百度学术
10. 马晓梅,何非. 基于改进遗传算法的标签印刷生产调度技术. 计算机应用. 2021(03): 860-866 . 百度学术
11. 曹劲松,熊福力. 基于离散教与学算法的分布式预制流水车间调度研究. 计算机测量与控制. 2021(12): 166-171+183 . 百度学术
12. 张梓琪,钱斌,胡蓉. 混合交叉熵算法求解复杂零等待流水线调度问题. 控制理论与应用. 2021(12): 1919-1934 . 百度学术
13. 李丽荣,李木子,李崔灿,王培崇. 具有动态自适应学习机制的教与学优化算法. 计算机工程与应用. 2020(19): 62-67 . 百度学术
其他类型引用(17)
-