【对抗样本(十三)】【NeuraIPS2019】Adversarial Examples are not Bugs, they are Features

关键词:这种在二分类问题上做的研究的价值值得商榷。


摘要

作者证明了对抗样本可以直接归因于非鲁棒特征:特征(从数据分布学习来的图案)具有高预测性,但是较脆弱因此难以被人类理解。并在理论框架内证明这些特征,并证明了其在标准数据集上的广泛性。最终,我们提出了一个简单的设置,我们可以将我们在实践中观察到的现象与(人类指定的)稳健性概念与数据的固有几何结构之间的错位严格联系起来。。

相关结论

  1. 作者的假设也能支持对抗迁移性的解释:针对某个模型设计的扰动通常对其他模型也有用的现象。因为任意两个模型更倾向于学习相似的非鲁棒特征,在这些特征上修改扰动将会同时影响二者
  2. 不能独立于模型本身的训练,产生对基础模型保持信任的对人类有意义的解释。

为了证明提出的理论,作者证明了在标准图像分类数据集中的非鲁棒特征解耦鲁棒特征的可能性。

  1. 我们设置中的对抗性脆弱性可以精确量化为固有数据几何形状与对手扰动集几何形状之间的差异。
  2. 鲁棒训练得到的分类器可以利用与这二者相关组合的几何信息。
  3. 标准模型的梯度明显与类内方向不一致,这个现象在以前的研究中也指出了。

鲁棒特征模型

实际上,对抗脆弱性不源于使用特定模型类别或者特定的训练方法,因为在标准“稳健性”数据分布上进行标准训练也可以得到鲁棒模型。同时,非鲁棒模型足以学习到一个好的标准分类器

Table of Contents