【对抗样本(十三)】【NeuraIPS2019】Adversarial Examples are not Bugs, they are Features
关键词:这种在二分类问题上做的研究的价值值得商榷。
摘要
作者证明了对抗样本可以直接归因于非鲁棒特征:特征(从数据分布学习来的图案)具有高预测性,但是较脆弱因此难以被人类理解。并在理论框架内证明这些特征,并证明了其在标准数据集上的广泛性。最终,我们提出了一个简单的设置,我们可以将我们在实践中观察到的现象与(人类指定的)稳健性概念与数据的固有几何结构之间的错位严格联系起来。。
相关结论
- 作者的假设也能支持对抗迁移性的解释:针对某个模型设计的扰动通常对其他模型也有用的现象。因为任意两个模型更倾向于学习相似的非鲁棒特征,在这些特征上修改扰动将会同时影响二者。
- 不能独立于模型本身的训练,产生对基础模型保持信任的对人类有意义的解释。
为了证明提出的理论,作者证明了在标准图像分类数据集中的非鲁棒特征解耦鲁棒特征的可能性。
- 鲁棒分类器的稳健版本。可以从数据集中有效地移除非鲁棒特征。具体地,构建了一个数据集(与原始数据集语义相似),在该数据集上标准训练可以得到在原始数据集上好的鲁棒准确率。这表明对抗鲁棒性与标准训练框架不是必要相关的,更是数据集的一种属性。
- 标准分类器的非鲁棒版本。创建了一个训练集,输入几乎与原始样本相同,但是会出现不正确的标签。实际上,新训练集中的输入仅通过小的对抗性扰动与其标签相关联(因此仅使用非鲁棒性特征)。尽管缺乏任何人类可见的信息,在该数据集上的训练在原始数据集可以得到好的准确率,未更改测试集。这表明了对抗扰动可以引起数据集中特征翻转,对于正确输入分类有益(因此并非纯粹的反常现象)。
- 我们设置中的对抗性脆弱性可以精确量化为固有数据几何形状与对手扰动集几何形状之间的差异。
- 鲁棒训练得到的分类器可以利用与这二者相关组合的几何信息。
- 标准模型的梯度明显与类内方向不一致,这个现象在以前的研究中也指出了。
鲁棒特征模型
- 仅用非鲁棒特征足够实现标准的泛化性—仅在非鲁棒特征上训练的模型可以很好地泛化到其他标准的测试集上。
- 当模型在潜在数据集上学习到很相似的特征,那么就会出现对可迁移性。
- 标准MLE的脆弱性完全依赖于数据分布。
实际上,对抗脆弱性不源于使用特定模型类别或者特定的训练方法,因为在标准“稳健性”数据分布上进行标准训练也可以得到鲁棒模型。同时,非鲁棒模型足以学习到一个好的标准分类器。