2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于通用逆扰动的对抗攻击防御方法

陈晋音 吴长安 郑海斌 王巍 温浩

陈晋音, 吴长安, 郑海斌, 王巍, 温浩. 基于通用逆扰动的对抗攻击防御方法. 自动化学报, 2023, 49(10): 2172−2187 doi: 10.16383/j.aas.c201077
引用本文: 陈晋音, 吴长安, 郑海斌, 王巍, 温浩. 基于通用逆扰动的对抗攻击防御方法. 自动化学报, 2023, 49(10): 2172−2187 doi: 10.16383/j.aas.c201077
Chen Jin-Yin, Wu Chang-An, Zheng Hai-Bin, Wang Wei, Wen Hao. Universal inverse perturbation defense against adversarial attacks. Acta Automatica Sinica, 2023, 49(10): 2172−2187 doi: 10.16383/j.aas.c201077
Citation: Chen Jin-Yin, Wu Chang-An, Zheng Hai-Bin, Wang Wei, Wen Hao. Universal inverse perturbation defense against adversarial attacks. Acta Automatica Sinica, 2023, 49(10): 2172−2187 doi: 10.16383/j.aas.c201077

基于通用逆扰动的对抗攻击防御方法

doi: 10.16383/j.aas.c201077
基金项目: 国家自然科学基金(62072406), 浙江省自然科学基金(LY19F020025), 教育部产学合作协同育人项目资助
详细信息
    作者简介:

    陈晋音:浙江工业大学网络空间安全研究院和信息工程学院教授. 2009年获得浙江工业大学博士学位. 主要研究方向为人工智能安全, 图数据挖掘和进化计算. 本文通信作者.E-mail: chenjinyin@zjut.edu.cn

    吴长安:浙江工业大学硕士研究生. 主要研究方向为深度学习, 计算机视觉, 对抗攻击和防御. E-mail: wuchangan@zjut.edu.cn

    郑海斌:浙江工业大学信息工程学院博士研究生. 主要研究方向为深度学习, 人工智能安全, 对抗攻击和防御, 图像识别. E-mail: haibinzheng320@gmail.com

    王巍:中国电子科技集团公司第三十六研究所研究员. 主要研究方向为无线通信分析, 网络安全. E-mail: wwzwh@163.com

    温浩:重庆中科云从科技有限公司高级工程师. 主要研究方向为量子通信, 计算机通信网络与大规模人工智能计算. E-mail: wenhao@cloudwalk.com

Universal Inverse Perturbation Defense Against Adversarial Attacks

Funds: Supported by National Natural Science Foundation of China (62072406), Natural Science Foundation of Zhejiang Province (LY19F020025), and Ministry of Education Industry-University Cooperation Collaborative Education Project
More Information
    Author Bio:

    CHEN Jin-Yin Professor at the Institute of Cyberspace Security and the College of Information Engineering, Zhejiang University of Technology. She received her Ph.D. degree from Zhejiang University of Technology in 2009. Her research interest covers artificial intelligence security, graph data mining, and evolutionary computing. Corresponding author of this paper

    WU Chang-An Master student at the College of Information Engineering, Zhejiang University of Technology. His research interest covers deep learning, computer vision, adversarial attack and defense

    ZHENG Hai-Bin Ph.D. candidate at the College of Information Engineering, Zhejiang University of Technology. His research interest covers deep learning, artificial intelligence security, adversarial attack and defense, and image recognition

    WANG Wei Researcher at the 36th Research Institute of China Electronics Technology Group Corporation. His research interest covers wireless communication analysis and network security

    WEN Hao Senior engineer at Chongqing Zhongke Yuncong Technology Co., Ltd.. His research interest covers guantum communication, computer communication networks, and large-scale artificial intelligence computing

  • 摘要: 现有研究表明深度学习模型容易受到精心设计的对抗样本攻击, 从而导致模型给出错误的推理结果, 引发潜在的安全威胁. 已有较多有效的防御方法, 其中大多数针对特定攻击方法具有较好防御效果, 但由于实际应用中无法预知攻击者可能采用的攻击策略, 因此提出不依赖攻击方法的通用防御方法是一个挑战. 为此, 提出一种基于通用逆扰动(Universal inverse perturbation, UIP)的对抗样本防御方法, 通过学习原始数据集中的类相关主要特征, 生成通用逆扰动, 且UIP对数据样本和攻击方法都具有通用性, 即一个UIP可以实现对不同攻击方法作用于整个数据集得到的所有对抗样本进行防御. 此外, UIP通过强化良性样本的类相关重要特征实现对良性样本精度的无影响, 且生成UIP无需对抗样本的先验知识. 通过大量实验验证, 表明UIP在不同数据集、不同模型中对各类攻击方法都具备显著的防御效果, 且提升了模型对正常样本的分类性能.
  • 随着计算机硬件计算力的发展, 深度学习技术[1]凭借其良好的性能和较强的拟合能力广泛应用于计算机视觉[2]、自然语言处理[3]、语音识别[4]、工业控制[5]等领域. 然而, 近期研究发现, 深度学习模型容易受到精心制作的微小扰动的影响[6]. 对抗攻击可以定义为: 在模型测试阶段, 攻击者通过在原始数据上添加精心设计的微小扰动得到对抗样本, 从而使得深度学习模型完全失效并以较高置信度误判的恶意攻击. 在应用深度模型的各个领域, 对抗样本均可实现较高概率的攻击, 如何设计高效的防御方法提高深度学习模型的鲁棒性是其进一步推广应用的安全保障[7].

    已有大量面向深度学习的对抗攻击研究工作, 根据其对抗样本生成原理不同, 可分为基于梯度的攻击方法、基于优化的攻击方法和其他攻击方法[7]. 其中, 基于梯度的攻击方法利用模型的参数信息, 通过目标损失函数对输入的求导得到梯度信息, 获取对抗扰动, 例如: 快速梯度符号法(Fast gradient sign method, FGSM[8])、动量迭代的快速梯度符号法(Momentum iterative fast gradient sign method, MI-FGSM[9])、基于雅克比的显著图攻击(Jacobian-based saliency map attack, JSMA)[10]等. 基于优化的攻击方法通过多次查询样本的输出置信度或类标, 优化对抗扰动, 或者通过等价的梯度信息进行攻击, 例如: 基于零阶优化的攻击(Zeroth order optimization, ZOO)[11]和基于边界的攻击(Boundary)[12]. 相比于基于梯度的攻击, 基于优化的攻击方法由于需要多次查询计算, 因此算法复杂度和运行成本都较高. 除此之外, 还有基于生成式对抗网络(Generative adversarial network, GAN)的攻击[13]、基于迁移的攻击[14]等.

    随着对抗攻击研究的深入, 相应的对抗攻击防御方法的研究也相继展开, 根据防御方式的差异, 可分为基于数据修改的防御、基于模型修改的防御和基于附加网络的防御[7]. 其中, 基于数据修改的防御对模型的输入进行修改, 包括数据重编码、数据变换、对抗训练等; 基于模型修改的防御包括修改模型的目标损失、在模型中加入随机层、“蒸馏”得到新的网络等; 基于附加网络的防御包括添加扰动整流网络、自编码器网络、生成式对抗网络等. 已有的防御方法研究大多关注防御成功率, 在实际应用中仍面临以下一些挑战:

    1)对抗样本依赖, 即防御的效果依赖于预先已知的对抗样本的数量和质量, 如对抗训练, 当遇到新的攻击方法时防御效果不明显;

    2)影响良性样本的识别精度, 即防御的效果以牺牲良性样本的识别精度为代价, 如随机缩放图像操作虽然能够破坏对抗扰动, 但也干扰了良性样本识别;

    3)参数敏感性与防御实时性, 即需要根据数据集和攻击方法调整参数, 如数据变换中的图像缩放和图像旋转需要多次测试得到合适的参数, 附加网络防御方法增加了计算步骤, 降低了模型的处理速度.

    通用对抗扰动攻击方法[15]是不断对对抗样本的扰动进行叠加和优化, 得到通用扰动, 随后叠加到任意良性样本上都能够实现攻击. 受到通用对抗扰动攻击[15]的启发, 本文提出一种基于通用逆扰动 (Universal inverse perturbution, UIP)的对抗样本防御方法(UIP defense, UIPD), 通过设计具有通用逆扰动的矩阵, 叠加到对抗样本, 实现对抗样本的重识别防御. 此外, 对抗样本鲁棒特征的提出[16], 认为样本包含鲁棒特征和非鲁棒特征, 且都会影响预测结果. 良性样本中两者一致因此得到正确识别结果; 而对抗样本中鲁棒特征不受影响, 非鲁棒特征变化较大, 影响了识别结果. 因此, 可以通过设计强化样本中的非鲁棒特征, 即类相关特征, 实现对对抗样本的防御, 抵消对抗扰动对非鲁棒特征的影响; 而且根据非鲁棒特征在数据分布中的相似性和通用性, 设计生成通用逆扰动进行抵消.

    本文的主要贡献如下:

    1)设计一种基于通用逆扰动的对抗样本防御方法UIPD, 仅依据良性样本即可快速生成通用逆扰动矩阵, 有效防御多种未知的攻击方法;

    2) UIPD不影响良性样本的识别, 在生成UIP的过程中, 通过对良性样本的类相关特征进行强化, 实现良性样本识别精度提升的效果;

    3) UIPD的参数敏感性低且防御速度快, 在多个数据集和多个模型上的实验结果表明了UIPD对各类攻击都具有良好的防御效果.

    本文其余部分结构如下: 第1节介绍了对抗攻防的相关工作; 第2节详细说明了UIPD方法; 第3节实验从多个角度验证UIPD的性能; 最后对全文进行总结和展望, 更多的通用逆扰动可视化图示例参见附录A.

    本节主要介绍实验中涉及到的对抗攻击方法与已有的防御方法.

    已有的对抗攻击方法众多, 根据对抗样本的生成机理, 可以分为以下两类:

    1)基于梯度的攻击: 指在基于梯度的迭代过程中, 寻找图像中关键的像素点进行扰动. Szegedy等[6]首次证明了可以通过对图像添加无法察觉的扰动误导网络做出错误分类. 但由于问题的复杂度太高, 于是转而求解简化后的问题, 将其称为约束型拟牛顿法(Box-constrained limited memory Broyden-Fletcher-Goldfarb-Shanno, L-BFGS). Goodfellow等[8]在此基础上, 提出快速梯度符号法(FGSM), 通过计算单步梯度快速生成对抗样本. Madry等[17]提出投影梯度下降法(Project gradient descent, PGD), 可以将其看作是FGSM的改进版 —— K-FGSM (K表示迭代的次数), 每次迭代都会将扰动限制到规定范围, 提高攻击的有效性. Kurakin等[18]提出基本迭代法(Basic iterative methods, BIM), 将一大步运算扩展为通过多个小步增大损失函数, 从而提高对抗样本的攻击成功率并且减小对抗扰动. Carlini等[19]提出一种对抗攻击方法C&W, 通过梯度迭代优化的低扰动对抗样本生成算法, 限制${L_\infty }$、${L_2}$和${L_0}$范数使得扰动无法被察觉, 但是攻击速度较慢. Moosavi-Dezfooli等[20]提出了深度欺骗攻击(DeepFool), 通过迭代计算的方法生成最小规范对抗扰动, 将位于分类边界内的图像逐步推到边界外, 直到出现错误分类. 此方法添加的对抗性扰动比FGSM更小, 同时能够达到相似的攻击效果. 一般攻击方法均采用限制${L_2}$或${L_\infty }$范数的值控制扰动, 而Papernot等[10]提出基于雅克比的显著图攻击(JSMA), 采取限制${L_0}$范数的方法, 即仅改变良性样本几个像素生成对抗样本, 使得添加的扰动更小. 一般的攻击方法只能针对单个样本生成对抗扰动, Moosavi-Dezfooli等[15]研究并设计了一种通用对抗扰动(Universal adversarial perturbation, UAP)攻击, 与DeepFool攻击相似, 使用对抗扰动将图像推出分类边界, 但是同一个扰动针对的是所有的图像, 结果显示即使是当时最优的深度网络模型也难以抵抗通用扰动的攻击. 此外, 通用的对抗扰动具有很强的迁移性, 即跨数据集、跨模型有效.

    2)基于优化的攻击: 通过将对抗样本的生成问题转化为多目标的优化问题, 使分类模型损失最大化, 对抗扰动最小化, 导致模型分类错误. Brendel等[12]提出边界攻击, 通过对样本引入最小扰动来改变模型对样本的决策. 受C&W攻击的启发, Chen等[11]提出基于零阶优化的攻击(ZOO), 使用对称差商来估计梯度, 进行对抗扰动的优化更新. 通过在样本中添加噪声并进行对抗扰动优化是一种常见的对抗攻击方法, Rauber等[21]提出在样本中添加高斯噪声(Additive Gaussian noise attack, AGNA)使分类器出错, 添加的扰动是通过多次迭代优化直到使分类器出错的最小扰动. 除此以外, Rauber等[21]通过改变添加的噪声类型, 提高攻击的效率, 如添加均匀噪声(Additive uniform noise attack, AUNA)和添加椒盐噪声(Salt and pepper noise attack, SPNA).

    本文提出的UIPD在上述的对抗攻击中均取得了良好的防御效果, 除了上述的对抗攻击方法以外, 还有很多其他优秀的对抗攻击方法: Su等[22]提出单像素攻击(One pixel attack), 使用差分进化算法, 对每个像素进行迭代的修改生成子图像, 并与原图像对比, 根据选择标准保留攻击效果最好的子图像, 仅改变图样本中的一个像素值就可以实现对抗攻击. Baluja等[23]训练了多个对抗性转移网络(Adversarial transformation networks, ATNs)来生成对抗样本, 可用于攻击一个或多个网络模型. Cisse等[24]通过生成特定于任务损失函数的对抗样本实现对抗攻击, 即利用网络的可微损失函数的梯度信息生成对抗扰动. Sarkar等[25]提出了两种对抗攻击算法: 精确目标的通用扰动(Universal perturbations for steering to exact targets, UPSET)攻击和生成恶意图像的对抗网络(Antagonistic network for generating rogue images, ANGRI)攻击. UPSET攻击为针对原始样本生成具有通用扰动的对抗样本, 且可以使模型误分类为指定的目标类别, 而ANGRI攻击为针对原始样本生成具有特定扰动的对抗样本, 且可以使模型误分类为指定的目标类别.

    以上攻击方法都是基于肉眼不可见扰动的对抗攻击, 除了基于对抗扰动的攻击外, 还有一类基于对抗补丁的攻击. Brown等[26]提出一种在物理空间的对抗图像补丁的方法. Karmon等[27]利用修改后的损失函数, 使用基于优化的方法提升对抗补丁的鲁棒性. 为了提高视觉保真度, Liu等[28]提出了PS-GAN框架来生成类似涂鸦的对抗补丁, 以愚弄自动驾驶系统. 为了解决对抗补丁泛化能力差的问题, Liu等[29]利用模型的感知和语义上的偏见, 提出了一个基于偏见的框架生成具有强泛化能力的通用对抗补丁方法. 综上, 基于补丁的对抗攻击也是一种有效的攻击方法.

    根据防御效果, 防御方法可分为仅检测防御和重识别防御, 仅检测防御是对检测出的攻击样本进行甄别, 而不做进一步处理; 重识别防御则是将对抗样本进行还原处理, 重新识别其正确类标, UIPD属于重识别防御方法, 因此在实验中采用的对比算法同样都属于重识别防御. 而根据防御作用对象的不同, 可以进一步分为以下三类:

    1)基于数据预处理的防御: 指在模型训练前, 或模型测试的过程中, 对数据进行预处理, 从而提高模型对于对抗样本的防御性. Xie等[30]研究发现, 对图像进行尺寸变换或者空间变换能有效降低对抗样本的攻击性能, 这是一种非常简单有效的数据预处理防御方法, 但无法从根本上提升模型的防御能力. Song等[31]提出了对抗训练方法, 通过生成的大量对抗样本, 然后将对抗样本作为模型的训练集执行对抗训练, 从而不断提升模型的鲁棒性, 该方法需要使用大量高强度的对抗样本, 并且网络架构要有充足的表达能力, 高度依赖于对抗样本的数量和质量, 面对多种攻击组合时防御的泛化能力较弱. 为此, Miyato等[32]和Zheng等[33]分别提出了虚拟对抗训练和稳定性训练方法提升防御效果. Dziugaite等[34]提出基于数据压缩的方法, 使用JPG图像压缩的方法, 减少对抗扰动对于模型的干扰, 但同时也会降低对良性样本的分类准确率. 此外, Das等[35]通过研究数据中的高频成分, 提出了集成防御技术. Luo等[36]提出基于“Foveation”机制的防御方法提高显著鲁棒性. 对抗训练能够提高深度模型的鲁棒性, 但是需要生成大量的对抗样本, 存在防御代价大、无法防御没有出现过的攻击等问题.

    2)基于网络修正的防御: 指通过添加或者改变多层/子网络、改变损失/激活函数等方式, 改变模型的架构和参数, 从而滤除扰动, 提高模型的防御性. 受到将去噪自编码器(Denoising auto encoders, DAE)堆叠到原来的网络上会使其变得更加脆弱这一特性的启发, Gu等[37]引入深度压缩网络(Deep compression network, DCN), 减少对抗样本的扰动. Rifai等[38]通过添加平滑操作训练DCN滤除扰动. Ross等[39]提出使用输入梯度正则化以提高对抗攻击鲁棒性, 该方法和对抗训练结合有很好的效果, 但防御代价以及防御的复杂度都会提高一倍以上. Hinton等[40]提出可以使用“蒸馏”的方法将复杂网络的知识迁移到简单网络上后, Papernot等[41]基于“蒸馏”的概念设计对抗防御方法, 通过解决数值不稳定问题扩展了防御性蒸馏方法. Nayebi等[42]受生物启发, 使用类似于生物大脑中非线性树突计算的高度非线性激活函数以防御对抗攻击. Cisse等[43]提出了在一层网络中利用全局Lipschitz常数加以控制, 利用保持每一层的Lipschitz常数来减少对抗样本的干扰的防御方法. Gao等[44]提出DeepCloak方法, 在分类层的前一层加上特意为对抗样本训练的额外层以掩盖对抗扰动. 此外, Jin等[45]通过引入前馈神经网络添加额外噪声减轻攻击的影响. Sun等[46]基于统计滤波设计了超网络提高网络鲁棒性. Madry等[17]从鲁棒优化角度研究了对抗防御性. 通过网络修正的方式改变模型内部结构和参数的优化能够有效提高模型的鲁棒性, 采取梯度隐蔽、蒸馏结构、激活函数重设计等措施提高模型防御性能.

    3)基于附加网络的防御: 指在保持原始深度学习模型结构不变的前提下, 添加外部模型作为附加网络来提高原始模型防御性能. 针对对抗攻击的防御, Akhtar等[47]通过添加扰动整流网络, 利用一个单独训练的网络附加到目标网络上, 以抵御通用扰动产生的对抗性攻击, 达到不需要调整原本的网络参数也能对对抗样本产生良好的防御效果的目的. Hlihor等[48]在训练过程中将对抗样本提供给自动编码器, 从而滤除对抗性扰动, 并减少输出样本与干净样本之间的距离. 孔锐等[49]研究了基于GAN框架训练目标模型的鲁棒性. Samangouei等[50]使用GAN生成与对抗样本相似但不含扰动的样本, 实现防御. Lin等[51]在Samangouei等[50]的工作基础上, 在GAN结构中引入自编码器, 提高防御效率. Jin等[52]提出对抗扰动滤除的生成式对抗网络(Adversarial perturbation elimination with GAN, APE-GAN), 利用对抗样本训练基于GAN的防御模型, 达到正确识别对抗样本, 同时不影响干净样本的识别的目的. Xu等[53]提出特征压缩法, 用两个近似模型检测图像中的对抗扰动. Ju等[54]研究了多个模型的集成决策防御, 提出了一种集成对抗防御方法.

    本文提出的通用逆扰动对抗防御方法与贝叶斯案例模型(Bayesian case model, BCM)[55]通过选择数据中具有代表性的典型样本, 然后提取典型样本中的重要特征, 达到对基于案例推理算法和原型分类算法的解释, 在思想上相似, 但是主要任务、技术方法与应用场景均不同.

    通常, 神经网络的前向传播过程表示为$ {f:{{\bf{R}}^M}} \to {{\bf{R}}^N}$, 其中$M$表示输入的维度, $N$表示输出的维度. 进一步, 可以将整个模型表示为: $f(x, \theta ): X\to Y$, 其中$x \in X$表示模型输入, Y表示模型的输出, $\theta $表示模型的内部参数. 进一步将$\theta $表示为深度模型的各层非线性权重与偏置组合: $\theta = w \times \phi (x) + b$, 其中$w$表示权重矩阵, 在训练的过程中更新, $x \in X$表示输入矩阵, 即原始数据集中的良性样本, $b$表示偏置, $\phi (x)$表示输入样本特征. $y \in Y$表示良性样本的真实类标经过one-hot编码后的数组, $l = \arg \max (y)$, $\arg \max ( \cdot )$表示数组元素值最大的位置的坐标作为真实类标, $l \in \{ 0,1,2,\cdots,N - 1\}$. $\hat y = f(x,\theta )$表示良性样本的预测置信度数组, $\hat l = \arg \max (\hat y)$表示预测类标, $\hat l = \{ 0,1,2,\cdots,N - 1\}$. 当$\hat l = l$时, 则预测正确, 反之则预测错误. 以交叉熵为例, 定义模型训练的损失函数为

    $$\begin{split} Los{s_{{\rm{CE}}}} =\;& - \frac{1}{m}\sum\limits_{i = 1}^m \Big[{y^{(i)}}\log {{\hat y}^{(i)}}\; + \\ &(1 - {y^{(i)}})\log (1 - {{\hat y}^{(i)}})\Big] \end{split}$$ (1)

    其中, $m$表示训练样本数, ${y^{(i)}}$和${\hat y^{(i)}}$分别表示数组$y$和$\hat y$在位置$i$处的值, $\log ( \cdot )$表示对数函数. 训练的优化目标是最小化损失, 即${{{\arg\min}}}\;{Los{s_{{\rm{CE}}}}}$, 一般采用梯度下降法, 梯度计算式为

    $${g_w} = \frac{{\partial Los{s_{{\rm{CE}}}}}}{{\partial w}}$$ (2)

    进一步得到权重的更新式为

    $${w_{i + 1}} = {w_i} - lr \times {g_w}$$ (3)

    其中, $lr$表示学习率.

    当模型受到攻击后, 攻击者会在良性样本上添加精心设计的扰动得到对抗样本, 表示为$x^* = x\; + \Delta x$, 其中$\Delta x$表示对抗扰动. 将对抗样本输入模型后, 得到$\hat y^* = f(x^*)$是对抗样本的预测置信度数组, $\hat l^* = \arg \max (\hat y^*)$表示预测类标, $\hat l^* = \{ 0,1, 2,\cdots, N - 1\}$. 当$\hat l^* \ne l$时, 则无目标攻击成功; 当$\hat l^* = {l_t}$时, 其中${l_t}$是攻击者预设的攻击目标, 则目标攻击成功; 当$\hat l^* = l$时, 则攻击失败. 攻击的目的是实现损失的增大, 即${{\arg\max}}\;{Los{s_{{\rm{CE}}}}}$, 同样采用梯度下降计算

    $${g_x} = \frac{{\partial Los{s_{{\rm{CE}}}}}}{{\partial x}}$$ (4)

    进一步得到对抗样本的更新式为

    $$x_{i + 1}^* = x_i^* + \;\varepsilon \times {g_x}$$ (5)

    其中, $\varepsilon $表示迭代步长, “+”运算表示样本与对抗扰动叠加.

    最后, 使用防御方法加固模型后, 重新实现损失的最小化. 根据前面的定义, 可以采用对权重更新, 也可以采用对样本更新, UIPD方法是对样本进行更新实现防御, 恰好是式(5)的逆过程, 可以粗略表示为

    $$x_{i + 1}' = {x_i'} - \varepsilon \times {g_x}$$ (6)

    其中, 为避免混淆, 使用${x_i'}$表示良性样本的更新过程, “−”运算表示良性样本的防御强化, 减少样本中的对抗扰动.

    通用逆扰动的通用性体现在: 测试阶段, 只需单个逆扰动, 就可以对不同攻击方法生成的任意对抗样本实现防御; 训练阶段, 不涉及到攻击方法和对抗样本. 生成过程如图1所示, 其中UIP与训练集样本的尺寸和维度一致, 首先初始化为0; 然后分别和训练集中的每一张样本叠加后输入到深度模型中, 计算损失函数; 最后根据损失的趋势得到逆扰动在特征空间中的位置, 反馈训练更新通用逆扰动.

    图 1  通用逆扰动防御方法框图
    Fig. 1  The framework of UIPD method

    图1的方法框图中包括UIP、良性样本和深度神经网络(Deep neural network, DNN)模型三部分, UIP通过对图像空间的特征进行不断迭代强化, 提取良性样本的特征, 并通过反馈训练对UIP不断进行加强. 在迭代过程中, 图1形象地展示了通用逆扰动与良性样本、特征空间的关系. 在前文中提到, 通用逆扰动强化了良性样本的类相关特征, 因此能够保持良性样本的识别准确率, 甚至在一定范围内提升识别准确率. 但是通用逆扰动不是直接采样自样本空间, 而是通过损失反馈训练学习其在高维特征空间中的分布, 这解释了通用逆扰动对数据样本和攻击方法具有较好的通用性, 但是对同一个数据集的训练模型的通用性则较差.

    根据式(6)和图1的说明可以得到通用逆扰动的生成式. 首先令$x_i' = {x_i} + \rho _i^{{\rm{uip}}}$, 则深度模型变为

    $$f(x) = f({x_i} + \rho _i^{{\rm{uip}}})$$ (7)

    其中, ${x_i}$表示原样本, $\rho _i^{{\rm{uip}}}$表示通用逆扰动矩阵, $x_i'$表示原样本叠加上通用逆扰动矩阵后的样本.

    此时的梯度是损失函数对叠加后的输入进行求导, 得到

    $$g_{{x_i}}^{} = \frac{{\partial Los{s_{{\rm{CE}}}}}}{{\partial ({x_i} + \rho _i^{{\rm{uip}}})}}$$ (8)

    其中, $g_{{x_i}}^{}$表示此时的梯度, $Los{s_{{\rm{CE}}}}$表示交叉熵损失函数.

    进一步得到修改后的UIP迭代式

    $${({x_i} + \rho _i^{{\rm{uip}}})_{{\rm{new}}}} = {({x_i} + \rho _i^{{\rm{uip}}})_{{\rm{old}}}} - {\varepsilon ^{{\rm{uip}}}} \times {g_{{x_i}}}$$ (9)

    因为其中良性样本在迭代前后不变, 所以两边减去一个${x_i}$, 得到最终UIP迭代式

    $$\rho _{i + 1}^{{\rm{uip}}} = \rho _i^{{\rm{uip}}} - {\varepsilon ^{{\rm{uip}}}} \times {g_{{x_i}}}$$ (10)

    其中, ${\varepsilon ^{{\rm{uip}}}}$表示通用逆扰动矩阵的迭代步长.

    需要说明的是, 图1中的UIP即是在ImageNet数据集、VGG19模型上优化得到的通用逆扰动, 为了更好的可视化, 将其归一化到[0, 1]的范围内进行可视化, 原始的UIP的均值为: −0.0137, 方差为: 0.0615, 是十分微小的. UIPD方法的详细伪代码如算法1所示.

      算法 1. UIPD方法

    输入. 良性样本集$X$, 分类器$f(x)$, 逆扰动步长${\varepsilon ^{{\rm{uip}}}}$,    最大epoch数$N$

    输出. 通用逆扰动${\rho ^{{\rm{uip}}}}$

    初始化: $\rho _0^{{\rm{uip}}} = 0$

    For $k = 1:N$ do

     For ${x_i} \in X$ do

      基于式(1)和式(7)计算$Los{s_{{\rm{CE}}}}$

      基于式(8)计算${g_{{x_i}}}$

      基于式(10)计算$\rho _{i + 1}^{{\rm{uip}}}$

     End For

    End For

    对算法的时间复杂度进行分析, UIPD的时间复杂度包括训练时间复杂度和测试时间复杂度, 根据算法1可知, 其训练的时间复杂度和测试的时间复杂度都是${\rm{O}}(n)$, 都是与样本数呈一阶增长关系. 尽管在算法1中存在两个“For”循环语句, 但是最大epoch数是一个常数, 因此训练时间复杂度是${\rm{O}}({n_{{\rm{train}}}})$; 而测试时, 只需要将良性样本与UIP做“+”运算操作(“+”运算操作是指将训练完成的UIP与良性样本进行像素上的叠加, 即将UIP以一种“扰动”的形式添加到良性样本图像上去, 在完成“+”操作的过程中, 需要先将UIP与良性样本转化为数组像素值, 完成“+”操作后再以图像形式输出), 因此也是${\rm{O}}({n_{{\rm{test}}}})$, 其中${n_{{\rm{train}}}}$和${n_{{\rm{test}}}}$表示训练样本数和测试样本数. 相比于数据修改防御中的数据变换操作, 如resize、rotate等, UIPD方法多了训练的时间复杂度, 但是由于UIP能够进行离线训练和在线防御, 训练样本是有限的, 即${n_{{\rm{test}}}} \gg {n_{{\rm{train}}}}$, 因此其训练时间复杂度是可以忽略的; 相比于对抗训练, UIPD方法不需要使用大量的对抗样本进行训练, 节省了大量的对抗样本生成时间.

    分析空间复杂度, 无论是在训练过程, 还是在测试过程, UIPD方法都是只需要占据一个UIP存储的空间, 因此空间复杂度是${\rm{O}}(1)$.

    本文从高维特征的决策边界和样本的鲁棒安全边界两个角度说明通用逆扰动的有效性. 基于样本在高维特征空间中的分布和决策边界, 分析UIP具有防御效果的原因. 如图2所示, UIPD方法不改变模型的决策边界, 因此决策边界是固定的, 但样本在决策空间的位置与决策边界是相对而言的, UIP导致样本在决策空间中的位置发生了变化, 导致样本与决策边界的相对位置发生了变化, 使得原本在错误决策空间的样本重新回到正确决策空间. 当训练好一个模型, 良性样本被正确分为C1类和C2类, 其中还存在C2类的一个样本被误分类为C1 (图中的灰色方块). 当良性样本叠加了UIP后, 能够促使样本在特征空间中的分布向类中心移动, 从而改善良性样本识别结果(即将原本分类错误的样本进行正确识别). 当模型受到攻击, 原本处在决策边界附近的样本越过边界进入错误类的特征空间(即图中的红色圆点). 此时, 当对抗样本叠加了UIP后, 能够重新回到正确的特征空间并向类中心移动.

    图 2  基于特征分布和决策边界的UIPD分析示意图
    Fig. 2  The UIPD analysis based on feature distribution and decision boundary

    基于样本的鲁棒安全边界说明UIP具有防御效果的原因, 具体如图3所示. 最优化观点认为, 模型的鲁棒性可以等价为一个最大最小模型. 最大化攻击者的目标函数, 其物理意义是寻找合适的扰动使损失函数在$(x + \Delta x,y)$这个样本点上的值越大越好; 最小化防御者的目标函数, 其目的是为了让模型在遇到对抗样本的情况下, 整个数据分布上的损失的期望还是最小. 基于最优化观点建模的计算式为

    图 3  基于鲁棒安全边界的UIPD分析示意图
    Fig. 3  The UIPD analysis based on robust security boundaries
    $$\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}}& {\mathop {\min }\limits_w }{\rho (w)} \qquad\qquad\qquad\qquad\qquad\qquad\quad\quad\qquad \end{array}} \\ {\begin{array}{*{20}{c}} &{\rho (w) = {\rm{E}}_{(x,y) \sim D}\left[\mathop {\max }\limits_{\Delta x \in {S_x}} L(w,x + \Delta x,y)\right]} \end{array}} \end{array}$$ (11)

    其中, $\rho ( \cdot )$是需要最小化的防御目标, $w$表示权重矩阵, $x$表示输入矩阵, $y$表示样本标签, ${{\rm{E}}_{(x,y) \sim D}}[ \cdot ]$表示平均损失, $D(x,y)$表示输入和标签所在的联合概率分布, $\Delta x$表示对抗扰动, $L( \cdot , \cdot , \cdot )$表示损失函数. 式中$\Delta x \in {S_x}$, 即此时对抗样本的扰动落在${S_x}$范围内都是安全的, 因此将${S_x}$称为输入扰动的安全边界.

    图3中, 良性样本的安全边界原本是$r$, 即${S_x} \leq r$时为安全; 受到攻击后, 发生了样本点落在半径$r$以外的事件, 但是若此时能够将安全边界由$r$拓展到$R$, 则可以实现新的鲁棒边界; UIPD方法的防御过程就是通过学习数据样本在高维特征空间中的类相关重要特征, 然后反映在图像空间中, 最后等效于将${S_x} \leq r$的安全边界拓展为${S_x} \leq R$.

    本节首先介绍实验基本设置, 包括软硬件环境、数据集、深度模型、攻击方法、防御方法、评价指标等. 然后, 从UIP在攻击方法上的通用性、数据样本上的通用性, 与不同防御方法的防御效果比较, 在良性样本识别中的性能改善、参数敏感性和时间复杂度等方面进行实验和分析.

    1) 实验硬件及软件平台: i7-7700K 4.20 GHz×8 (CPU), TITAN Xp 12GiB×2 (GPU), 16 GB×4 memory (DDR4), Ubuntu16.04 (OS), Python3.7, Tensorflow-gpu 1.1.14, Tflearn 0.3.2.2.

    2) 数据集: 实验采用MNIST、Fashion-MNIST (FMNIST)、CIFAR-10和ImageNet四个公共数据集. 其中, MNIST数据集包括10类共60000张训练样本及10类共10000张测试样本, 样本大小是$28\times 28 $的灰度图像; CIFAR-10数据集由10类共50000张训练样本及10类共10000张测试样本组成, 样本是大小为$32\times 32\times 3 $的彩色图片; FMNIST数据集包括10类共60000张训练样本及10类共10000张测试样本, 样本大小是$28\times 28 $的灰度图像; ImageNet数据集由1000多类共计200多万张样本组成, 本文随机挑选训练集中的10类图片进行实验, 每类1300张样本, 其中70%作为训练样本, 30%作为测试样本. 实验中的所有图像像素值都归一化到[0, 1].

    3) 深度模型: 针对MNIST数据集, 分别使用AlexNet、LeNet和自己搭建的网络结构(M_CNN); 针对FMNIST数据集, 分别使用AlexNet和自己搭建的网络(F_CNN); 针对CIFAR-10和ImageNet数据集, 都使用VGG19网络. 由于MNIST和FMNIST数据集十分相似, 实验中M_CNN和F_CNN使用相同的结构, 如表1所示. 深度模型的训练参数采用Tflearn提供的默认参数.

    表 1  自行搭建的网络模型结构
    Table 1  The network structure built by ourselves
    网络层M_CNN/F_CNN
    Conv + ReLU5 × 5 × 5
    Max pooling2 × 2
    Conv + ReLU5 × 5 × 64
    Max pooling2 × 2
    Dense (Fully connected)1024
    Dropout0.5
    Dense (Fully connected)10
    Softmax10
    下载: 导出CSV 
    | 显示表格

    4) 攻击方法: 为了证明生成的UIP对于不同攻击方法的通用性, 采用了FGSM[8]、BIM[18]、MI-FGSM[9]、PGD[17]、C&W[19]、L-BFGS[6]、JSMA[10]、DeepFool[20]、UAP[15]、Boundary[12]、ZOO[11]、AGAN[21]、AUNA[21]、SPNA[21]共14种攻击方法, 攻击调用foolbox[21]的函数, 参数默认.

    5) 防御方法: 实验选择了8种防御方法作为对比算法, 分别是resize[30]、rotate[30]、Distillation Defense (Distil-D)[41]、Ensemble Defense (Ens-D)[54]、Defense GAN (D-GAN)[50]、添加Gaussian噪声(GN)、DAE[37]和APE-GAN[52]. 为了使对比实验更全面, 选取的对比算法包含了重识别防御的3类防御方法, 其中resize、rotate和GN是基于数据预处理的防御; Distil-D是基于网络修正的防御; Ens-D、D-GAN、DAE和APE-GAN是基于附加网络的防御. 以下对参数进行具体说明, 其中选定的缩放尺寸和旋转角度参数都是经过多次修改测试, 挑选出最优的参数.

    a) resize1: 对于MNIST和FMNIST, 首先将样本缩小为6 × 6, 再放大回28 × 28. 对于CIFAR-10, 首先将样本缩小为16 × 16, 再放大回32 × 32; 对于ImageNet, 首先将样本缩小为128 × 128, 再放大回224 × 224.

    b) resize2: 对于MNIST和FMNIST, 首先将样本放大为32 × 32, 再缩小回28 × 28; 对于CIFAR-10, 首先将样本放大为56 × 56, 再缩小回32 × 32; 对于ImageNet, 首先将样本放大为512 × 512, 再缩小回224 × 224.

    c) rotate: 对于MNIST、FMNIST、CIFAR-10和ImageNet数据集, 首先将样本顺时针旋转45°, 再逆时针旋转45°.

    d) Distil-D: 对于MNIST、FMNIST和CIFAR-10数据集, 蒸馏训练epoch设置为20, 批尺寸为64, 学习率为0.001, 优化器为Adam; 对于ImageNet数据集, 蒸馏训练epoch设置为50, 批尺寸为16, 学习率为0.0001, 优化器为Adam.

    e) Ens-D: 对于MNIST、FMNIST, 集成3种模型: AlexNet、LeNet和M_CNN; 对于CIFAR-10和ImageNet, 集成3种模型: AlexNet、VGG16和VGG19.

    f) D-GAN: 对于MNIST、FMNIST, 训练生成式对抗网络的参数: epoch设置为10, 批尺寸为32, 学习率为0.001, 优化器为Adam; 对于CIFAR-10, 生成式对抗网络的参数: epoch设置为30, 批尺寸为32, 学习率为0.001, 优化器为Adam; 对于ImageNet, 训练生成式对抗网络的参数: epoch设置为50, 批尺寸为16, 学习率为0.001, 优化器为Adam.

    g) GN: 在样本上添加均值为0、方差为1的随机高斯噪声, 作为UIP的对照, 说明UIP具有一定的规律.

    h) DAE: 对于MNIST、FMNIST, 训练编码器和解码器的参数: epoch设置为10, 批尺寸为64, 学习率为0.001, 优化器为Adam; 对于CIFAR-10, 训练编码器和解码器的参数: epoch设置为20, 批尺寸为64, 学习率为0.001, 优化器为Adam; 对于ImageNet, 训练编码器和解码器的参数: epoch设置为50, 批尺寸为32, 学习率为0.001, 优化器为Adam.

    i) APE-GAN: 对于MNIST、FMNIST, 训练生成式对抗网络的参数: epoch设置为20, 批尺寸为32, 学习率为0.001, 优化器为Adam; 对于CIFAR-10, 训练生成式对抗网络的参数: epoch设置为40, 批尺寸为32, 学习率为0.001, 优化器为Adam; 对于ImageNet, 训练生成式对抗网络的参数: epoch设置为50, 批尺寸为16, 学习率为0.001, 优化器为Adam.

    6) 评价指标: 本文采用分类准确率(Accuracy, ACC)、攻击成功率(Attack success rate, ASR)、防御成功率(Defense success rate, DSR)和相对置信度变化(Rconf)来评价UIPD. 具体为

    $$\left\{ \begin{aligned} &ACC = \frac{n^{{\rm{right}}}}{N}\\ &ASR = \frac{n_{{\rm{adv}}}}{n^{{\rm{right}}}}\\ &DSR = \frac{n_{{\rm{adv}}}^{{\rm{right}}}}{n_{{\rm{adv}}}} \end{aligned} \right.$$ (12)

    其中, N表示待分类的良性样本数, ${n^{{\rm{right}}}}$表示分类正确的良性样本数, ${n_{{\rm{adv}}}}$表示攻击成功的对抗样本数, 即成功被深度模型错误识别的样本数量, $n_{\rm{adv}}^{\rm{right}}$表示防御后重新分类正确的对抗样本数量.

    $$\begin{split} Rconf=\;&{{ (confD(}}{l_{{\rm{true}}}}{{) - confA(}}{l_{{\rm{true}}}}{{))}}\;+ \\ & (confA({l_{{\rm{adv}}}}{{) - confD(}}{l_{{\rm{adv}}}}{{))}} \end{split} $$ (13)

    其中, ${{confD(}}{l_{{\rm{true}}}}{\rm{)}}$表示防御后真实类标的预测置信度, ${{confA(}}{l_{{\rm{true}}}}{\rm{)}}$表示攻击后真实类标的预测置信度, ${{confA(}}{l_{{\rm{adv}}}}{\rm{)}}$表示攻击后对抗类标的预测置信度, ${{confD(}}{l_{{\rm{adv}}}}{\rm{)}}$表示防御后对抗类标的预测置信度.

    7) 实验步骤: 首先, 如图1所示, 通过良性样本的特征空间与深度学习模型的损失进行迭代训练, 生成通用逆扰动, 具体算法如算法1所示: 输入包括良性样本集$X$, 分类器$f(x)$, 逆扰动步长${\varepsilon ^{{\rm{uip}}}}$和最大epoch数$N$, 接着初始化通用逆扰动${\rho ^{{\rm{uip}}}}$, 利用良性样本集的样本特征和标签对通用逆扰动进行迭代训练, 训练完成后得到通用逆扰动. 随后, 在不同的攻击算法下针对深度模型分类器$f(x)$生成各类型的对抗样本. 最后, 训练得到的通用逆扰动添加到对抗样本中, 完成识别防御.

    本文主要验证了同一个数据集和模型的UIP在不同攻击方法下的通用性. 具体实验结果如表2所示, 实验中采用DSR来衡量UIPD方法对不同攻击的防御有效性.

    表 2  UIPD针对不同攻击方法的防御成功率(%)
    Table 2  The defense success rate of UIPD against different attack methods (%)
    DSRMNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
    良性样本识别准确率92.3495.7190.4589.0187.4279.5589.00
    FGSM[8]73.3185.2177.3579.1580.0578.1343.61
    BIM[18]99.3093.7399.1195.2897.6185.3272.90
    MI-FGSM[9]69.6590.3298.9988.3585.7556.9344.76
    PGD[17]99.3195.9399.1997.8095.8381.0573.13
    C&W[19]99.3496.0492.1096.4494.4480.6746.67
    L-BFGS[6]98.5870.1267.7966.3571.7568.6931.36
    JSMA[10]64.3355.5976.6172.3169.5160.0437.54
    DeepFool[20]98.9897.9894.5293.5491.6383.1362.54
    UAP[15]97.4697.0999.3997.8596.5583.0772.66
    Boundary[12]93.6394.3895.7292.6791.8876.2168.45
    ZOO[11]77.3875.4376.3968.3665.4261.5854.18
    AGNA[21]75.6976.4081.6064.8072.1462.1055.70
    AUNA[21]74.2073.6578.5365.7562.2062.7052.40
    SPNA[21]92.1088.3589.1777.5874.2672.9060.30
    下载: 导出CSV 
    | 显示表格

    表2可知, 在MNIST、FMNIST和CIFAR-10这三个小数据集上, 每个模型训练得到的UIP在不同攻击方法下都能达到50%以上的防御成功率, 大部分情况下能达到70%以上. 对于ImageNet大数据集, 通用逆扰动防御在不同攻击方法下的防御成功率也能达到30%以上. UIP对不同攻击方法的防御能力在小数据集上普遍优于大数据集, 这是因为小数据集的图像尺寸小, 所包含的特征信息也远小于ImageNet大数据集中的图像, 所以训练UIP时更容易收敛, 而且包含的非鲁棒性特征更加全面, 导致UIP的防御效果更优.

    除此之外, 还可以观察到, 同一个UIP虽然对不同的攻击方法都有效果, 但是防御效果在不同攻击方法上也是有差异的. 同一个UIP在DeepFool和PGD上的防御效果明显优于JSMA, 这是因为不同攻击方法生成的对抗扰动的大小和约束条件不同. DeepFool和PGD要求扰动的$L_2 $范数尽可能小, 这导致了虽然这些攻击方法生成的对抗样本更加隐蔽, 但对抗样本中包含的非鲁棒性特征更容易被UIP抵消, 所以防御效果更好. 但是JSMA的攻击中限制扰动的个数而不限制单个像素点的扰动大小, 攻击时一旦发现非鲁棒性特征的像素点, 就会改变很大的像素值去激活非鲁棒性特征, 所以UIP很难完全抵消被激活的非鲁棒性特征, 这就导致了防御效果更差一点. 基于优化的攻击通过不断优化对抗扰动, 生成扰动较小但攻击性强的对抗样本, 因此, UIPD在针对基于优化的攻击上的防御效果普遍低于基于梯度的攻击.

    在式(11)的基础上, 使用最优化观点看待UIP的防御过程, 具体为

    $$\rho (\Delta x) = \min \left\{ {{\rm E}_{(x,y) \sim D}}\left[\mathop {\min }\limits_{\Delta {x^{{\rm{uip}}}} \in {S_x}} L\left(x + \Delta {x^{{\rm{uip}}}},y\right)\right]\right\} $$ (14)

    其中, $\rho ( \cdot )$是需要最小化的优化目标, $x$表示输入, $y$表示样本标签, ${{\rm{E}}_{(x,y) \sim D}}[ \cdot ]$表示平均损失, $D(x,y)$表示输入和标签所在的联合概率分布, $\Delta {x^{{\rm{uip}}}}$表示通用逆扰动, $L( \cdot , \cdot , \cdot )$表示损失函数. 上述建模中$\Delta {x^{{\rm{uip}}}} \in {S_x}$, 即此时扰动落在${S_x}$范围内都是安全的, 因此将${S_x}$称为安全边界. UIP使用梯度下降的优化算法进行迭代训练, 在已训练好的模型基础上进一步朝着损失函数下降的方向进行UIP的扰动优化, 这一过程中能够提取更多的样本特征, 强化良性样本中的类相关特征, 使得样本向着类中心移动, UIP的训练使用的是全局样本, 即训练集所有样本, 因此同一个全局UIP能够对不同类都能使用.

    综合而言, UIP在不同攻击方法上都有较好的防御效果.

    本节主要介绍UIPD方法在同一个模型和数据集上对所有样本数据的通用性. 表3展示了UIPD在M_CNN模型上、MNIST数据集中不同样本的通用性(更多模型上的数据集通用性展示见附录A). 图4展示了MNIST数据集中不同模型的UIP可视化图(更多数据集中不同模型的UIP可视化图见附录A).

    表 3  UIPD针对不同数据样本的通用性(MNIST, M_CNN)
    Table 3  The universality of UIPD for different examples (MNIST, M_CNN)
    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    01.00001.00050.539000.9804
    11.00011.00080.490610.9848
    21.00021.00010.501520.9841
    31.00031.00070.502930.9549
    41.00041.00090.514640.9761
    51.00051.00030.502050.9442
    61.00061.00040.521260.9760
    71.00071.00030.522570.8960
    81.00081.00060.522880.9420
    91.00091.00070.507690.9796
    下载: 导出CSV 
    | 显示表格

    表3的前两组数据可知, MNIST数据集中0到9个良性样本在加上同一个UIP后, 类标和置信度都没有改变, 体现了UIPD在不损失良性样本分类准确率上的通用性. 表3的第3组表示分类错误的0 ~ 9个对抗样本. 由第4组可知, 在加上同一个UIP后, 9张对抗样本都以较高的置信度重新正确分类, 这体现了UIPD在防御同一数据集中的对抗样本的通用性.

    图4中的UIP可视化图由python中的matplotlib库里面的pyplot以rainbow的涂色形式绘制, 像素值归一化到[0, 1]. 由图4可知, 同一数据集下的不同模型的UIP都不相同, 但是UIP的均值和方差都很小, 所以图像加上UIP后的效果不影响人的视觉感受. 由式(5)和式(6)可知, UIP通过对样本进行更新生成的过程是对抗样本生成的逆过程, 对抗样本与UIP的生成过程都是通过样本反馈到损失函数, 进而完成对模型预测输出的影响, 不同之处在于, 对抗样本生成扰动的方向是损失函数增大的方向, 而UIP生成扰动的方向是损失函数减小的方向, 因此, UIP不仅不会对模型的预测准确率产生不良影响, 反而能够对模型分类精度有一定提升作用. 由算法1可知, 在UIP的迭代过程中, 输入深度模型分类器$f(x)$是已经训练完成的收敛模型, 因此UIP在较小的逆扰动步长${\varepsilon ^{{\rm{uip}}}}$下, 最终生成的UIP的扰动大小在较小范围内就能够使模型达到收敛.

    图 4  MNIST数据集中不同模型的 UIP 可视化图
    Fig. 4  The UIP visualization of MNIST dataset in different models

    在本节中, 本文主要比较了UIPD与其他防御方法针对不同模型、不同数据集, 采用不同攻击方法生成的对抗样本的防御效果. 具体实验结果如表4表5所示, 其中表4是不同防御方法针对基于梯度的各种攻击方法的防御效果, 表5是不同防御方法针对基于优化的各种攻击方法的防御效果. 本文用DSR和Rconf来衡量不同防御方法之间的防御有效性. 表4表5中的DSR均是两类攻击方法中不同攻击的平均防御成功率.

    表 4  不同防御方法针对基于梯度的攻击的防御效果比较
    Table 4  The performance comparison of different defense methods against gradient-based attacks
    MNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
      平均ASR (%)95.4699.6997.8898.7797.5987.6381.79
    DSR (%)resize178.2474.3281.8279.8477.2469.3847.83
    resize278.5464.9478.6479.3469.6564.2643.26
    rotate76.6680.5484.7477.6361.4672.4942.49
    Distil-D83.5182.0880.4985.2482.5575.1757.13
    Ens-D87.1988.0385.2487.7183.2177.4658.34
    D-GAN72.4068.2670.3179.5475.0473.0551.04
    GN22.6030.2627.5627.9622.6023.3513.85
    DAE84.5485.2585.6886.9480.2175.8559.31
    APE-GAN83.4080.7182.3684.1079.4572.1557.88
    UIPD88.9286.8987.4587.7783.9178.2359.91
    Rconfresize10.92310.96310.94240.89330.93840.67420.4442
    resize20.89310.91840.96420.97310.94730.73710.4341
    rotate0.90420.89140.92740.95350.81440.68140.4152
    Distil-D0.92210.90530.91620.93400.92780.67410.4528
    Ens-D0.96230.91730.96860.92100.93310.79940.5029
    D-GAN0.87390.84190.88290.90120.89810.78390.4290
    GN0.14450.17420.24520.16310.18350.12550.0759
    DAE0.94700.93460.96330.94200.93240.77820.5090
    APE-GAN0.89640.92700.94250.88970.90150.63010.4749
    UIPD0.97880.94630.98420.96420.95310.81410.5141
    下载: 导出CSV 
    | 显示表格
    表 5  不同防御方法针对基于优化的攻击的防御效果比较
    Table 5  The performance comparison of different defense methods against optimization-based attacks
    MNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
      平均ASR (%)93.2896.3294.6595.2093.5888.1083.39
    DSR (%)resize178.6570.6279.0974.3766.5465.3138.28
    resize263.1467.9477.1466.9863.0962.6341.60
    rotate76.6272.1971.8466.7564.4265.6042.67
    Distil-D82.3782.2280.4982.4783.2871.1445.39
    Ens-D86.9783.0385.2483.4182.5074.2947.85
    D-GAN82.4380.3486.1379.3580.4770.0843.10
    GN20.1621.8025.3019.6718.6321.4013.56
    DAE83.6684.1786.8882.4083.6674.3051.61
    APE-GAN82.4685.0185.1481.8082.5073.8049.28
    UIPD87.9285.2287.5483.7083.9175.3852.91
    Rconfresize10.85130.86140.84600.79630.8324 0.6010 0.3742
    resize20.78140.88100.86550.82900.84750.63200.3800
    rotate0.85190.83740.83190.81000.80400.64620.4058
    Distil-D0.91410.89130.90330.91350.92000.78210.4528
    Ens-D0.95150.92800.87200.89400.90110.81550.4788
    D-GAN0.85390.87890.88290.87330.88200.74500.4390
    GN0.16300.19200.21520.17610.19710.14500.0619
    DAE0.91200.92900.95100.94200.93240.77820.5090
    APE-GAN0.89640.92700.94250.88970.90150.63010.4749
    UIPD0.92100.93400.95200.95120.97810.80510.5290
    下载: 导出CSV 
    | 显示表格

    首先, 本文比较表4表5中不同防御方法在不同模型和不同数据集下的DSR. 在任意模型和数据集中, UIPD的DSR均高于图像缩放、图像旋转、基于GAN的防御、基于自编码器的防御、高斯噪声、蒸馏防御和集成防御, 本文提出的UIPD不需要依赖大量的对抗样本, 也不改变模型的结构和训练量, 与这些同样不依赖对抗样本的对比算法相比, 本文提出的UIPD防御效果是最好的. 图像缩放和图像旋转这些简单的预处理操作也能对攻击起到较好的防御效果, 这间接说明了造成对抗攻击的非鲁棒性特征的脆弱性, 激活效果能够被UIP所抵消, 说明了UIPD方法的防御可行性. 添加高斯随机噪声起到的防御效果微乎其微, 这体现了用训练的方法获得UIP的必要性. 此外, 小数据集的ASR和DSR均高于大规模的数据集, 这是由于大规模数据集图像所包含的特征信息远多于小数据集中的特征信息.

    其次, 本文比较表4表5中不同防御方法在不同模型和不同数据集中的Rconf指标. 在任意模型数据集下, UIPD的Rconf均高于图像缩放、图像旋转、蒸馏防御、基于GAN的防御、基于自编码器的防御、高斯噪声和集成防御. 置信度变化越大, 表示防御后的对抗样本越鲁棒, 体现了防御的可靠性. 不同防御方法在不同模型数据集下的置信度变化与防御成功率保持高度的一致, 这显示了UIPD在防御成功率和防御可靠性上都有很好的表现. 由表4表5可知集成防御的防御效果也优于其他防御, 但是集成防御需要训练多个模型, 训练代价更大, 所以相较之下, UIPD方法是一个更好的防御选择.

    本节主要分析UIPD与其他防御方法对良性样本识别的准确率的影响. 具体实验结果如表6所示, 本文统计了不同数据集中的良性样本在不同防御方法下的分类准确率(ACC).

    表 6  不同防御方法处理后良性样本的识别准确率 (%)
    Table 6  The accuracy of benign examples after processing by different defense methods (%)
    MNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
    良性样本  92.34  95.71  90.45  89.01  87.42  79.55  89.00
    resize192.27 (−0.07)95.66 (−0.05)90.47 (+0.02)88.97 (−0.04)87.38 (−0.04)79.49 (−0.06)88.98 (−0.02)
    resize292.26 (−0.80)95.68 (−0.30)90.29 (−0.16)88.71 (−0.30)87.38 (−0.04)79.48 (−0.07)87.61 (−1.39)
    rotate92.31 (−0.03)95.68 (−0.03)90.39 (−0.06)88.95 (−0.06)87.40 (0.02)79.53 (−0.02)88.82 (−0.18)
    Distil-D90.00 (−2.34)95.70 (−0.01)90.02 (−0.43)88.89 (−0.12)86.72 (−0.70)76.97 (−2.58)87.85 (−1.15)
    Ens-D94.35 (+2.01)96.15 (+0.44)92.38 (+1.93)89.13 (+0.12)87.45 (+0.03)80.13 (+0.58)89.05 (+0.05)
    D-GAN92.08 (−0.26)95.18 (−0.53)90.04 (−0.41)88.60 (−0.41)87.13 (−0.29)78.80 (−0.75)87.83 (−1.17)
    GN22.54 (−69.80)25.31 (−70.40)33.58 (−56.87)35.71 (−53.30)28.92 (−58.59)23.65 (−55.90)17.13 (−71.87)
    DAE91.57 (−0.77)95.28 (−0.43)89.91 (−0.54)88.13 (−0.88)86.80 (−0.62)79.46 (−0.09)87.10 (−1.90)
    APE-GAN92.30 (−0.04)95.68 (−0.03)90.42 (−0.03)89.00 (−0.01)87.28 (−0.14)79.49 (−0.06)88.88 (−0.12)
    UIPD92.37 (+0.03)95.96 (+0.25)90.51 (+0.06)89.15 (+0.14)87.48 (+0.06)79.61 (+0.06)89.15 (+0.15)
    下载: 导出CSV 
    | 显示表格

    表6可知, 不同数据集的良性样本在UIPD防御和集成防御后分类准确率有了略微的上升, 但在其他防御方法防御后都有了一定程度的下降. 为了抵抗对抗攻击, 各种高性能的防御方法相继提出, 但是防御方法在提供防御有效性的同时, 会牺牲一定程度的良性样本分类精度. 然而UIPD防御后不仅没有损失良性样本的分类性能, 反而有略微的改善效果, 这得益于UIPD在训练时用良性样本作为训练数据集, 进一步的训练提升了原有的分类精度. 集成防御虽然同样能够提高分类准确率, 但是需要训练多个模型, 增大了训练成本.

    在本节中, 主要对UIPD方法迭代步长的敏感性和时间复杂度进行分析.

    图5展示了迭代步长敏感性实验结果, 横坐标表示训练UIPD的迭代步长, 纵坐标表示UIPD的防御成功率. 实验使用MNIST数据集, 目标模型是AlexNet. 本文选择BIM、PGD、C&W、L-BFGS和DeepFool五种方法进行敏感性实验. 从实验的结果可以看出, 当生成UIP的迭代步长变化时, UIPD对于各攻击方法的防御成功率变化幅度都在0.3%以内. 实验结果表明, UIPD是一种稳定的迭代训练方法, 当训练UIPD的迭代步长产生变化, 并不会影响最后UIPD的防御效果. 所以, UIPD是一种稳健的防御方法, 具有一定的鲁棒性.

    图 5  参数敏感性实验结果图
    Fig. 5  The results of Parameter sensitivity experiment

    图6展示了不同防御方法实施1000次防御的测试阶段时间消耗对比, 数据集是MNIST, 采用的模型结构是LeNet. 由图6可知, UIPD所消耗的时间少于或十分接近其他的防御方法, 可知UIPD属于时间复杂度低、防御速度快的一种对抗防御方法.

    图 6  不同防御方法实施1000次防御的时间消耗
    Fig. 6  The time cost in 1000 defenses of different defense methods

    在本节中, 主要对UIPD方法在基于对抗补丁的攻击下的防御进行分析.

    图7是针对基于补丁的攻击的防御结果, 攻击方法是Adversarial-Patch (AP)[26]攻击, 在AP攻击后, 样本识别准确率大幅度下降, 可见基于补丁的对抗攻击是一种强大的攻击方法. UIPD方法对于基于补丁的攻击有着一定的防御效果, 但是相比于基于扰动的防御效果而言, 性能略差. 这是由于基于扰动的对抗攻击生成的扰动是肉眼不可见的, 而基于补丁的攻击添加的扰动是肉眼可见的局部大范围补丁, 两者在扰动的量级上是存在明显差异的.

    图 7  UIPD对AP攻击的防御实验结果
    Fig. 7  The results of UIPD against AP attacks

    本文提出了一种基于通用逆扰动的对抗样本防御方法, 对数据样本、攻击方法都具有通用性. 在训练生成UIP的过程中, 只需要使用良性样本, 不需要任何关于对抗样本的先验知识, 即不依赖于对抗样本; UIP会强化样本的类相关特征, 因此不会影响良性样本的识别, 甚至能够在一定范围内提升良性样本识别精度; UIP的生成涉及到迭代步长的设置, 实验发现在一定范围内, 不同的迭代步长对UIP的防御效果几乎没有影响, 说明参数敏感性低; 在测试过程中, 只需要单个UIP叠加在任意待测试的样本上, 就能实现防御, 只需增加一个矩阵的“+”运算操作, 大大加快了防御速度. 因此, UIPD方法防御对抗攻击是可行且高效的.

    此外, 研究中也发现UIPD方法存在针对基于对抗补丁的攻击防御效果较差的问题, 这是由于基于对抗补丁的攻击生成的是局部大范围的扰动, UIP无法完全抵消由对抗补丁带来的扰动干扰, 如何提升UIP对基于补丁的对抗攻击的防御效果, 是需要在后续工作中继续研究的. 同时, 研究中还发现UIPD方法虽然在数据样本上有较好的通用性, 但在模型间通用性不佳, 这是算法采用迭代优化造成的, 使得对模型具有较好的鲁棒性, 但是模型间泛化能力较差. 因此, 在未来的研究中, 将继续研究基于生成式对抗网络的通用逆扰动生成方法, 改善在模型间的通用性与泛化能力.

    UIPD 方法在不同数据集上针对不同数据样本的通用性比较参见表A1 ~ A3.在不同数据集上, 不同模型的UIP 可视化图见图A1.

    表 A1  UIPD针对不同数据样本的通用性(FMNIST, F_CNN)
    Table A1  The universality of UIPD for different examples (FMNIST, F_CNN)
    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    01.00001.00060.453100.9415
    11.00011.00030.471410.8945
    21.00021.00060.564120.9131
    31.00031.00010.510330.9425
    41.00041.00020.483140.8773
    51.00051.00070.542250.9026
    61.00061.00050.486460.8787
    71.00071.00050.514470.8309
    81.00081.00040.478188.9424
    91.00091.00070.496190.8872
    下载: 导出CSV 
    | 显示表格
    表 A2  UIPD针对不同数据样本的通用性(CIFAR-10, VGG19)
    Table A2  The universality of UIPD for different examples (CIFAR-10, VGG19)
    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    飞机1.000飞机1.0000.4914飞机0.9331
    汽车1.000汽车1.000卡车0.5212汽车0.9131
    1.0001.0000.50310.8913
    1.0001.0000.50410.9043
    鹿1.000鹿1.0000.5010鹿0.8831
    1.0001.0000.53470.9141
    青蛙1.000青蛙1.0000.5314青蛙0.8863
    1.0001.0000.48140.8947
    1.0001.000飞机0.51420.9251
    卡车1.000卡车1.000飞机0.4761卡车0.9529
    下载: 导出CSV 
    | 显示表格
    表 A3  UIPD针对不同数据样本的通用性(ImageNet, VGG19)
    Table A3  The universality of UIPD for different examples (ImageNet, VGG19)
    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    导弹0.9425导弹0.9445军装0.5134导弹0.8942
    步枪0.9475步枪0.9525航空母舰0.4981步枪0.7342
    军装0.9825军装0.9925防弹背心0.5014军装0.8245
    皮套0.9652皮套0.9692军装0.4831皮套0.8074
    航空母舰0.9926航空母舰0.9926灯塔0.4788航空母舰0.8142
    航天飞机0.9652航天飞机0.9652导弹0.5101航天飞机0.7912
    防弹背心0.9256防弹背心0.9159步枪0.4698防弹背心0.8141
    灯塔0.9413灯塔0.9782客机0.5194灯塔0.7861
    客机0.9515客机0.9634坦克0.4983客机0.7134
    坦克0.9823坦克0.9782灯塔0.5310坦克0.7613
    下载: 导出CSV 
    | 显示表格
    图 A1  不同数据集和模型的UIP可视化图
    Fig. A1  The UIP visualization of different datasets and models
  • 图  1  通用逆扰动防御方法框图

    Fig.  1  The framework of UIPD method

    图  2  基于特征分布和决策边界的UIPD分析示意图

    Fig.  2  The UIPD analysis based on feature distribution and decision boundary

    图  3  基于鲁棒安全边界的UIPD分析示意图

    Fig.  3  The UIPD analysis based on robust security boundaries

    图  4  MNIST数据集中不同模型的 UIP 可视化图

    Fig.  4  The UIP visualization of MNIST dataset in different models

    图  5  参数敏感性实验结果图

    Fig.  5  The results of Parameter sensitivity experiment

    图  6  不同防御方法实施1000次防御的时间消耗

    Fig.  6  The time cost in 1000 defenses of different defense methods

    图  7  UIPD对AP攻击的防御实验结果

    Fig.  7  The results of UIPD against AP attacks

    A1  不同数据集和模型的UIP可视化图

    A1  The UIP visualization of different datasets and models

    表  1  自行搭建的网络模型结构

    Table  1  The network structure built by ourselves

    网络层M_CNN/F_CNN
    Conv + ReLU5 × 5 × 5
    Max pooling2 × 2
    Conv + ReLU5 × 5 × 64
    Max pooling2 × 2
    Dense (Fully connected)1024
    Dropout0.5
    Dense (Fully connected)10
    Softmax10
    下载: 导出CSV

    表  2  UIPD针对不同攻击方法的防御成功率(%)

    Table  2  The defense success rate of UIPD against different attack methods (%)

    DSRMNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
    良性样本识别准确率92.3495.7190.4589.0187.4279.5589.00
    FGSM[8]73.3185.2177.3579.1580.0578.1343.61
    BIM[18]99.3093.7399.1195.2897.6185.3272.90
    MI-FGSM[9]69.6590.3298.9988.3585.7556.9344.76
    PGD[17]99.3195.9399.1997.8095.8381.0573.13
    C&W[19]99.3496.0492.1096.4494.4480.6746.67
    L-BFGS[6]98.5870.1267.7966.3571.7568.6931.36
    JSMA[10]64.3355.5976.6172.3169.5160.0437.54
    DeepFool[20]98.9897.9894.5293.5491.6383.1362.54
    UAP[15]97.4697.0999.3997.8596.5583.0772.66
    Boundary[12]93.6394.3895.7292.6791.8876.2168.45
    ZOO[11]77.3875.4376.3968.3665.4261.5854.18
    AGNA[21]75.6976.4081.6064.8072.1462.1055.70
    AUNA[21]74.2073.6578.5365.7562.2062.7052.40
    SPNA[21]92.1088.3589.1777.5874.2672.9060.30
    下载: 导出CSV

    表  3  UIPD针对不同数据样本的通用性(MNIST, M_CNN)

    Table  3  The universality of UIPD for different examples (MNIST, M_CNN)

    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    01.00001.00050.539000.9804
    11.00011.00080.490610.9848
    21.00021.00010.501520.9841
    31.00031.00070.502930.9549
    41.00041.00090.514640.9761
    51.00051.00030.502050.9442
    61.00061.00040.521260.9760
    71.00071.00030.522570.8960
    81.00081.00060.522880.9420
    91.00091.00070.507690.9796
    下载: 导出CSV

    表  4  不同防御方法针对基于梯度的攻击的防御效果比较

    Table  4  The performance comparison of different defense methods against gradient-based attacks

    MNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
      平均ASR (%)95.4699.6997.8898.7797.5987.6381.79
    DSR (%)resize178.2474.3281.8279.8477.2469.3847.83
    resize278.5464.9478.6479.3469.6564.2643.26
    rotate76.6680.5484.7477.6361.4672.4942.49
    Distil-D83.5182.0880.4985.2482.5575.1757.13
    Ens-D87.1988.0385.2487.7183.2177.4658.34
    D-GAN72.4068.2670.3179.5475.0473.0551.04
    GN22.6030.2627.5627.9622.6023.3513.85
    DAE84.5485.2585.6886.9480.2175.8559.31
    APE-GAN83.4080.7182.3684.1079.4572.1557.88
    UIPD88.9286.8987.4587.7783.9178.2359.91
    Rconfresize10.92310.96310.94240.89330.93840.67420.4442
    resize20.89310.91840.96420.97310.94730.73710.4341
    rotate0.90420.89140.92740.95350.81440.68140.4152
    Distil-D0.92210.90530.91620.93400.92780.67410.4528
    Ens-D0.96230.91730.96860.92100.93310.79940.5029
    D-GAN0.87390.84190.88290.90120.89810.78390.4290
    GN0.14450.17420.24520.16310.18350.12550.0759
    DAE0.94700.93460.96330.94200.93240.77820.5090
    APE-GAN0.89640.92700.94250.88970.90150.63010.4749
    UIPD0.97880.94630.98420.96420.95310.81410.5141
    下载: 导出CSV

    表  5  不同防御方法针对基于优化的攻击的防御效果比较

    Table  5  The performance comparison of different defense methods against optimization-based attacks

    MNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
      平均ASR (%)93.2896.3294.6595.2093.5888.1083.39
    DSR (%)resize178.6570.6279.0974.3766.5465.3138.28
    resize263.1467.9477.1466.9863.0962.6341.60
    rotate76.6272.1971.8466.7564.4265.6042.67
    Distil-D82.3782.2280.4982.4783.2871.1445.39
    Ens-D86.9783.0385.2483.4182.5074.2947.85
    D-GAN82.4380.3486.1379.3580.4770.0843.10
    GN20.1621.8025.3019.6718.6321.4013.56
    DAE83.6684.1786.8882.4083.6674.3051.61
    APE-GAN82.4685.0185.1481.8082.5073.8049.28
    UIPD87.9285.2287.5483.7083.9175.3852.91
    Rconfresize10.85130.86140.84600.79630.8324 0.6010 0.3742
    resize20.78140.88100.86550.82900.84750.63200.3800
    rotate0.85190.83740.83190.81000.80400.64620.4058
    Distil-D0.91410.89130.90330.91350.92000.78210.4528
    Ens-D0.95150.92800.87200.89400.90110.81550.4788
    D-GAN0.85390.87890.88290.87330.88200.74500.4390
    GN0.16300.19200.21520.17610.19710.14500.0619
    DAE0.91200.92900.95100.94200.93240.77820.5090
    APE-GAN0.89640.92700.94250.88970.90150.63010.4749
    UIPD0.92100.93400.95200.95120.97810.80510.5290
    下载: 导出CSV

    表  6  不同防御方法处理后良性样本的识别准确率 (%)

    Table  6  The accuracy of benign examples after processing by different defense methods (%)

    MNISTFMNISTCIFAR-10ImageNet
    AlexNetLeNetM_CNNAlexNetF_CNNVGG19VGG19
    良性样本  92.34  95.71  90.45  89.01  87.42  79.55  89.00
    resize192.27 (−0.07)95.66 (−0.05)90.47 (+0.02)88.97 (−0.04)87.38 (−0.04)79.49 (−0.06)88.98 (−0.02)
    resize292.26 (−0.80)95.68 (−0.30)90.29 (−0.16)88.71 (−0.30)87.38 (−0.04)79.48 (−0.07)87.61 (−1.39)
    rotate92.31 (−0.03)95.68 (−0.03)90.39 (−0.06)88.95 (−0.06)87.40 (0.02)79.53 (−0.02)88.82 (−0.18)
    Distil-D90.00 (−2.34)95.70 (−0.01)90.02 (−0.43)88.89 (−0.12)86.72 (−0.70)76.97 (−2.58)87.85 (−1.15)
    Ens-D94.35 (+2.01)96.15 (+0.44)92.38 (+1.93)89.13 (+0.12)87.45 (+0.03)80.13 (+0.58)89.05 (+0.05)
    D-GAN92.08 (−0.26)95.18 (−0.53)90.04 (−0.41)88.60 (−0.41)87.13 (−0.29)78.80 (−0.75)87.83 (−1.17)
    GN22.54 (−69.80)25.31 (−70.40)33.58 (−56.87)35.71 (−53.30)28.92 (−58.59)23.65 (−55.90)17.13 (−71.87)
    DAE91.57 (−0.77)95.28 (−0.43)89.91 (−0.54)88.13 (−0.88)86.80 (−0.62)79.46 (−0.09)87.10 (−1.90)
    APE-GAN92.30 (−0.04)95.68 (−0.03)90.42 (−0.03)89.00 (−0.01)87.28 (−0.14)79.49 (−0.06)88.88 (−0.12)
    UIPD92.37 (+0.03)95.96 (+0.25)90.51 (+0.06)89.15 (+0.14)87.48 (+0.06)79.61 (+0.06)89.15 (+0.15)
    下载: 导出CSV

    A1  UIPD针对不同数据样本的通用性(FMNIST, F_CNN)

    A1  The universality of UIPD for different examples (FMNIST, F_CNN)

    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    01.00001.00060.453100.9415
    11.00011.00030.471410.8945
    21.00021.00060.564120.9131
    31.00031.00010.510330.9425
    41.00041.00020.483140.8773
    51.00051.00070.542250.9026
    61.00061.00050.486460.8787
    71.00071.00050.514470.8309
    81.00081.00040.478188.9424
    91.00091.00070.496190.8872
    下载: 导出CSV

    A2  UIPD针对不同数据样本的通用性(CIFAR-10, VGG19)

    A2  The universality of UIPD for different examples (CIFAR-10, VGG19)

    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    飞机1.000飞机1.0000.4914飞机0.9331
    汽车1.000汽车1.000卡车0.5212汽车0.9131
    1.0001.0000.50310.8913
    1.0001.0000.50410.9043
    鹿1.000鹿1.0000.5010鹿0.8831
    1.0001.0000.53470.9141
    青蛙1.000青蛙1.0000.5314青蛙0.8863
    1.0001.0000.48140.8947
    1.0001.000飞机0.51420.9251
    卡车1.000卡车1.000飞机0.4761卡车0.9529
    下载: 导出CSV

    A3  UIPD针对不同数据样本的通用性(ImageNet, VGG19)

    A3  The universality of UIPD for different examples (ImageNet, VGG19)

    第1组 第2组 第3组 第4组
    良性样本类标置信度 (良性样本 + UIP)类标置信度 对抗样本类标置信度 (对抗样本 + UIP) 类标置信度
    导弹0.9425导弹0.9445军装0.5134导弹0.8942
    步枪0.9475步枪0.9525航空母舰0.4981步枪0.7342
    军装0.9825军装0.9925防弹背心0.5014军装0.8245
    皮套0.9652皮套0.9692军装0.4831皮套0.8074
    航空母舰0.9926航空母舰0.9926灯塔0.4788航空母舰0.8142
    航天飞机0.9652航天飞机0.9652导弹0.5101航天飞机0.7912
    防弹背心0.9256防弹背心0.9159步枪0.4698防弹背心0.8141
    灯塔0.9413灯塔0.9782客机0.5194灯塔0.7861
    客机0.9515客机0.9634坦克0.4983客机0.7134
    坦克0.9823坦克0.9782灯塔0.5310坦克0.7613
    下载: 导出CSV
  • [1] Goodfellow I, Bengio Y, Courville A. Deep Learning. Cambridge: The MIT Press, 2016. 24−45
    [2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: ACM, 2012. 1097−1105
    [3] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks. In: Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2014. 3104−3112
    [4] 袁文浩, 孙文珠, 夏斌, 欧世峰. 利用深度卷积神经网络提高未知噪声下的语音增强性能. 自动化学报, 2018, 44(4): 751-759 doi: 10.16383/j.aas.2018.c170001

    Yuan Wen-Hao, Sun Wen-Zhu, Xia Bin, Ou Shi-Feng. Improving speech enhancement in unseen noise using deep convolutional neural network. Acta Automatica Sinica, 2018, 44(4): 751-759 doi: 10.16383/j.aas.2018.c170001
    [5] 代伟, 柴天佑. 数据驱动的复杂磨矿过程运行优化控制方法. 自动化学报, 2014, 40(9): 2005-2014

    Dai Wei, Chai Tian-You. Data-driven optimal operational control of complex grinding processes. Acta Automatica Sinica, 2014, 40(9): 2005-2014
    [6] Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I J, et al. Intriguing properties of neural networks. In: Proceedings of the 2nd International Conference on Learning Representations. Banff, Canada: ICLR, 2014.
    [7] Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey. IEEE Access, 2018, 6: 14410-14430 doi: 10.1109/ACCESS.2018.2807385
    [8] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015.
    [9] Dong Y P, Liao F Z, Pang T Y, Su H, Zhu J, Hu X L, et al. Boosting adversarial attacks with momentum. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 9185−9193
    [10] Papernot N, McDaniel P, Jha S, Fredrikson M, Celik Z B, Swami A. The limitations of deep learning in adversarial settings. In: Proceedings of the IEEE European Symposium on Security and Privacy (EuroS&P). Saarbruecken, Germany: IEEE, 2016. 372−387
    [11] Chen P Y, Zhang H, Sharma Y, Yi J F, Hsieh C J. ZOO: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models. In: Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. Dallas, USA: ACM, 2017. 15−26
    [12] Brendel W, Rauber J, Bethge M. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018.
    [13] Xiao C W, Li B, Zhu J Y, He W, Liu M Y, Song D. Generating adversarial examples with adversarial networks. In: Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden: IJCAI, 2018. 3905−3911
    [14] Papernot N, McDaniel P, Goodfellow I. Transferability in machine learning: From phenomena to black-box attacks using adversarial samples. arXiv preprint arXiv: 1605.07277, 2016.
    [15] Moosavi-Dezfooli S M, Fawzi A, Fawzi O, Frossard P. Universal adversarial perturbations. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017. 86−94
    [16] Ilyas A, Santurkar S, Tsipras D, Engstrom L, Tran B, Mądry A. Adversarial examples are not bugs, they are features. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: ACM, 2019. Article No. 12
    [17] Madry A, Makelov A, Schmidt L, Tsipras D, Vladu A. Towards deep learning models resistant to adversarial attacks. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018.
    [18] Kurakin A, Goodfellow I, Bengio S. Adversarial examples in the physical world. In: Proceedings of the 5th International Conference on Learning Representations.Toulon, France: ICLR, 2017.
    [19] Carlini N, Wagner D. Towards evaluating the robustness of neural networks. In: Proceedings of the IEEE Symposium on Security and Privacy (SP). San Jose, USA: IEEE, 2017. 39−57
    [20] Moosavi-Dezfooli S M, Fawzi A, Frossard P. DeepFool: A simple and accurate method to fool deep neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 2574−2582
    [21] Rauber J, Brendel W, Bethge M. Foolbox: A python toolbox to benchmark the robustness of machine learning models. arXiv preprint arXiv: 1707.04131, 2017.
    [22] Su J W, Vargas D V, Sakurai K. One pixel attack for fooling deep neural networks. IEEE Transactions on Evolutionary Computation, 2019, 23(5): 828-841 doi: 10.1109/TEVC.2019.2890858
    [23] Baluja S, Fischer I. Adversarial transformation networks: Learning to generate adversarial examples. arXiv preprint arXiv: 1703.09387, 2017.
    [24] Cisse M, Adi Y, Neverova N, Keshet J. Houdini: Fooling deep structured prediction models. arXiv preprint arXiv: 1707.05373, 2017.
    [25] Sarkar S, Bansal A, Mahbub U, Chellappa R. UPSET and ANGRI: Breaking high performance image classifiers. arXiv preprint arXiv: 1707.01159, 2017.
    [26] Brown T B, Mané D, Roy A, Abadi M, Gilmer J. Adversarial patch. arXiv preprint arXiv: 1712.09665, 2017.
    [27] Karmon D, Zoran D, Goldberg Y. LaVAN: Localized and visible adversarial noise. In: Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: ICML, 2018. 2512−2520
    [28] Liu A S, Liu X L, Fan J X, Ma Y Q, Zhang A L, Xie H Y, et al. Perceptual-sensitive GAN for generating adversarial patches. In: Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu, USA: AAAI, 2019. 1028−1035
    [29] Liu A S, Wang J K, Liu X L, Cao B W, Zhang C Z, Yu H. Bias-based universal adversarial patch attack for automatic check-out. In: Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer, 2020. 395−410
    [30] Xie C H, Wang J Y, Zhang Z S, Zhou Y Y, Xie L X, Yuille A. Adversarial examples for semantic segmentation and object detection. In: Proceedings of the International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 1378−1387
    [31] Song C B, He K, Lin J D, Wang L W, Hopcroft J E. Robust local features for improving the generalization of adversarial training. In: Proceedings of the 8th International Conference on Learning Representations. Addis Ababa, Ethiopia: ICLR, 2020.
    [32] Miyato T, Dai A M, Goodfellow I J. Adversarial training methods for semi-supervised text classification. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [33] Zheng S, Song Y, Leung T, Goodfellow I. Improving the robustness of deep neural networks via stability training. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 4480−4488
    [34] Dziugaite G K, Ghahramani Z, Roy D M. A study of the effect of JPG compression on adversarial images. arXiv preprint arXiv: 1608.00853, 2016.
    [35] Das N, Shanbhogue M, Chen S T, Hohman F, Chen L, Kounavis M E, et al. Keeping the bad guys out: Protecting and vaccinating deep learning with JPEG compression. arXiv preprint arXiv: 1705.02900, 2017.
    [36] Luo Y, Boix X, Roig G, Poggio T, Zhao Q. Foveation-based mechanisms alleviate adversarial examples. arXiv preprint arXiv: 1511.06292, 2015.
    [37] Gu S X, Rigazio L. Towards deep neural network architectures robust to adversarial examples. In: Proceedings of the 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015.
    [38] Rifai S, Vincent P, Muller X, Glorot X, Bengio Y. Contractive auto-encoders: Explicit invariance during feature extraction. In: Proceedings of the 28th International Conference on International Conference on Machine Learning. Bellevue, USA: ACM, 2011. 833−840
    [39] Ross A S, Doshi-Velez F. Improving the adversarial robustness and interpretability of deep neural networks by regularizing their input gradients. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Menlo Park, CA, USA: AAAI, 2018. 1660−1669
    [40] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. arXiv preprintarXiv: 1503.02531, 2015.
    [41] Papernot N, McDaniel P, Wu X, Jha S, Swami A. Distillation as a defense to adversarial perturbations against deep neural networks. In: Proceedings of the IEEE Symposium on Security and Privacy (SP). San Jose, USA: IEEE, 2016. 582−597
    [42] Nayebi A, Ganguli S. Biologically inspired protection of deep networks from adversarial attacks. arXiv preprint arXiv: 1703.09202, 2017.
    [43] Cisse M, Adi Y, Neverova N, Keshet J. Houdini: Fooling deep structured visual and speech recognition models with adversarial examples. In: Proceedings of Advances in Neural Information Processing Systems. 2017.
    [44] Gao J, Wang B L, Lin Z M, Xu W L, Qi T J. DeepCloak: Masking deep neural network models for robustness against adversarial samples. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017.
    [45] Jin J, Dundar A, Culurciello E. Robust convolutional neural networks under adversarial noise. arXiv preprint arXiv: 1511.06306, 2015.
    [46] Sun Z, Ozay M, Okatani T. HyperNetworks with statistical filtering for defending adversarial examples. arXiv preprint arXiv: 1711.01791, 2017.
    [47] Akhtar N, Liu J, Mian A. Defense against universal adversarial perturbations. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 3389−3398
    [48] Hlihor P, Volpi R, Malagò L. Evaluating the robustness of defense mechanisms based on autoencoder reconstructions against Carlini-Wagner adversarial attacks. In: Proceedings of the 3rd Northern Lights Deep Learning Workshop. Tromsø, Norway: NLDL, 2020. 1−6
    [49] 孔锐, 蔡佳纯, 黄钢. 基于生成对抗网络的对抗攻击防御模型. 自动化学报, DOI: 10.16383/j.aas.c200033

    Kong Rui, Cai Jia-Chun, Huang Gang. Defense to adversarial attack with generative adversarial network. Acta Automatica Sinica, DOI: 10.16383/j.aas.c200033
    [50] Samangouei P, Kabkab M, Chellappa R. Defense-GAN: Protecting classifiers against adversarial attacks using generative models. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018.
    [51] Lin W A, Balaji Y, Samangouei P, Chellappa R. Invert and defend: Model-based approximate inversion of generative adversarial networks for secure inference. arXiv preprintarXiv: 1911.10291, 2019.
    [52] Jin G Q, Shen S W, Zhang D M, Dai F, Zhang Y D. APE-GAN: Adversarial perturbation elimination with GAN. In: Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, UK: IEEE, 2019. 3842−3846
    [53] Xu W L, Evans D, Qi Y J. Feature squeezing: Detecting adversarial examples in deep neural networks. In: Proceedings of the 25th Annual Network and Distributed System Security Symposium. San Diego, USA: NDSS, 2018.
    [54] Ju C, Bibaut A, Van Der Laan M. The relative performance of ensemble methods with deep convolutional neural networks for image classification. Journal of Applied Statistics, 2018, 45(15): 2800-2818 doi: 10.1080/02664763.2018.1441383
    [55] Kim B, Rudin C, Shah J. Latent Case Model: A Generative Approach for Case-Based Reasoning and Prototype Classification, MIT-CSAIL-TR-2014-011, MIT, Cambridge, USA, 2014.
  • 期刊类型引用(2)

    1. 王璐瑶,曹渊,刘博涵,曾恩,刘坤,夏元清. 时间序列分类模型的集成对抗训练防御方法. 自动化学报. 2025(01): 144-160 . 本站查看
    2. 高程昕,温昕,曹锐. 基于输入通道拆分的无线通信网络对抗攻击多任务防御. 现代电子技术. 2024(11): 13-17 . 百度学术

    其他类型引用(7)

  • 加载中
图(8) / 表(9)
计量
  • 文章访问数:  1502
  • HTML全文浏览量:  1326
  • PDF下载量:  200
  • 被引次数: 9
出版历程
  • 收稿日期:  2020-12-28
  • 录用日期:  2021-04-16
  • 网络出版日期:  2021-06-01
  • 刊出日期:  2023-10-24

目录

/

返回文章
返回