【对抗样本(十九)】Interpreting Attributions and Interactions of Adversarial Attacks

使用沙普利值来解释对抗攻击


摘要

本论文旨在从扰动对对抗攻击任务的贡献来解释对抗攻击。作者基于Shapley value(沙普利值)估计了不同图像区域对降低攻击代价的贡献。作者定义并且狡猾了对抗扰动像素之间的交互,并将整个扰动图分解成相对独立的扰动组件。扰动组件的分解表明,经过对抗训练的DNN在前景中比正常训练的DNN具有更多的扰动分量。此外,与常规方法训练的DNN相比,经过对抗训练的DNN拥有更多的可以降低真实类别得分的组件。上述分析对对抗样本攻击提供了一种新的见解。

引言

不同于以前的涉及更强的攻击或学习更加鲁棒的DNN,在本文,作者旨在解释对抗攻击背后的信号处理行为,即像素级别的扰动如何彼此协作实现攻击。作者从以下几个方面来解释对抗攻击:

  1. 给定一张输入图像,计算对抗性攻击的区域属性,以诊断每个图像区域对降低攻击成本的重要性。如图1a2所示,鸟的头部和颈部对对抗攻击具有很大的贡献。如果这些区域不允许被扰动,那么在其他区域的用以攻击地对抗扰动的强度将会大大地增加。

image-20211123184201432

区域贡献为理解对抗攻击提供了新思路。作者将使用沙普利值来计算这些区域对攻击代价的贡献

  1. 像素层级交互以及对抗攻击中的扰动组件

给定输入图的扰动图,在扰动图上进一步定义和量化了像素扰动间的交互,表示成扰动像素。作者的目的是探索扰动像素如何合作地实现对抗攻击。[45]表示单像素扰动的能量主要依赖于像素的周围,而不是独立地依赖于每个扰动像素。如图1b2,扰动像素A和B无法直接地实现攻击;相反,他们共同作用才构成了对抗攻击。像素扰动间地交互可以定义成博弈理论。

使用沙普利值来解释对抗攻击以及其优势:尽管当前有很多方法用于解释网络行为,如Grad-CAM和GBP,可以用来衡量输入元素地重要性,沙普利值被证明是满足四个理想属性的唯一属性,即线性属性、虚拟属性、对称属性和效率属性[42]。这四条属性被认为是沙普利值坚实地理论支撑。

方法框架图

image-20211123191357454

实验

实验设置

攻击方法:C&W 攻击作为L2攻击, BIM作为L∞攻击

实验结果图

image-20211123191332534

image-20211123191346167

Table of Contents