模型可解释性

【ICLR2018】ADVERSARIAL SPHERES

一句话概述:作者利用数据流形的维度来研究输入维度的改变对神经网络泛化误差的影响,并表明神经网络对小量对抗性扰动的脆弱性是测试误差的合理反应。


摘要

目前最先进的计算机视觉模型表现出了对微弱对抗性扰动的脆弱性。换句话说,数据分布中的绝大多数图像能够被模型正确分类,而且这些被正确分类的图像与被误分类的图像在视觉上特别相似(人眼无法察觉)。尽管这个现象目前已经存在大量的研究,但是这个现象的成因仍然是很难被理解的。我们假设这个反直觉的现象本身是由于输入数据流形的高维几何特征造成的。作为探索这个假设的第一步,我们研究了在一个简单的合成数据集上对两个高维同心球的分类。我们对这个数据集展示了测试误差和最近误差的平均距离之间的权衡。尤其是,我们证明,任何一个能够将球体的少量点误分类的模型都会在面临 O(1 square root d) 大小的对抗扰动时表现得很脆弱。意外地,当我们在这个数据集上训练几个不同结构的网络时,它们的所有误差都达到了这个理论边界。理论结论是,神经网络对小量对抗扰动的脆弱性是观察到测试误差数量的必然结果。希望我们对这个简单例子的理论分析能够推动这种探索:现实世界中复杂数据集的复杂几何结构是如何导致对抗样本的。

Introduction

近日,Ian Goodfellow 等人提出对抗性同心高维球,他们利用数据流形的维度来研究输入维度的改变对神经网络泛化误差的影响,并表明神经网络对小量对抗性扰动的脆弱性是测试误差的合理反应。

已经有大量工作证明,标准图像模型中存在以下现象:绝大多数从数据分布中随机选择的图片都能够被正确分类,但是它们与那些被错误分类的图片在视觉上很类似(Goodfellow et al., 2014; Szegedy et al., 2014)。这种误分类现象经常被称作对抗样本。这些对抗的错误在角度、方向和缩放方面有着很强的鲁棒性(Athalye & Sutskever, 2017)。尽管已经有了一些理论工作和应对的策略 (Cisse et al., 2017; Madry et al., 2017; Papernot et al., 2016),但是这种现象的成因仍然是很难理解的。

目前有一些针对对抗样本而提出的假设:一个比较常见的假设就是神经网络分类器在输入空间中不同区域的线性特征太强了 (Goodfellow et al., 2014; Luo et al., 2015)。另一个假设认为对抗样本不是数据的主要部分 (Goodfellow et al., 2016; Anonymous, 2018b,a; Lee et al., 2017)。Cisse 等人则认为,内部矩阵中较大的奇异值会让分类器在面临输入中的小波动时变得更加脆弱(2017)。

在尽力解释对抗样本背后的原因时,还有一些工作为增加模型的鲁棒性提出了一些应对方法。有的工作通过改变模型所用的非线性变换来增强鲁棒性 (Krotov & Hopfield, 2017),将一个大型的网络提炼成一个小型网络 (Papernot et al., 2016),或者使用正则化 (Cisse et al., 2017)。其他的工作探索使用另一个统计模型来检测对抗样本((Feinman et al., 2017; Abbasi & Gagné, 2017; Grosse et al., 2017; Metzen et al., 2017))。然而,很多这种方法都被证明是失败的 l (Carlini & Wagner, 2017a,b)。最终,很多例子中出现了使用对抗训练来提升鲁棒性的方法 (Madry et al., 2017; Kurakin et al., 2016; Szegedy et al., 2014; Goodfellow et al., 2014)。尽管对抗训练使得模型在面临对抗扰动时有所进步,但是在超越对抗训练所设计的范围时,局部误差还是会出现(Sharma & Chen,2017)。

这种现象特别有趣,因为这些模型在测试集上具有很高的准确率。我们假设这种现象本质上是由数据流形的高维度造成的。为了着手研究这些假设,我们定义了一个简单的合成任务,来区分两个同心的(concentric)高维球。这使得我们可以研究具有良好数学定义的数据流形中的对抗样本,我们还可以对模型学到的决策边界进行定性地描述。更重要的是,我们可以自然地改变数据流形的维度来研究输入维度的改变对神经网络泛化误差的影响。我们在多个数据集上的实验和理论分析证明以下几点:

与图像模型中类似的现象出现了:大多数从数据分布中随机选择的点被正确分类了,然而未被正确分类的点和不正确的输入很「相近」。即使在测试误差小于百万分之一的时候,这种现象仍然会发生。

【2018NDSS, CCF B】Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks

一句话解释:以为特征压缩可能会是一种压缩神经网络特征(减少通道数)的方法,但是本文的本质上是通过修改输入(减少图片的位深和空域平滑)来提升压缩模型的特征,并没有分析网络特征通道数对性能的影响。最后,利用以下的规则来检测对抗样本。

image-20220128011751917

个人见解:该文从信号处理的角度得到图片在不同位图层级上的语义较为相似,因而减少图片表示的位信息可以减少输入的冗余信息,从而提高模型的鲁棒性。使用了传统的空域平滑来减少输入的噪声。


【2019ICLR】TRAINING FOR FASTER ADVERSARIAL ROBUSTNESS VERIFICATION VIA INDUCING RELU STABILITY

一句话解释:为了提高验证的速度,作者提出了两种策略(网络的两种属性):权重稀疏RELU稳定,对相应的验证任务有巨大的影响。

权重稀疏:使用传统正则化来提升权重的稀疏性。

ReLU稳定:使用如下的损失函数来替换上下界的符号,从而使得该损失函数可导

image-20220128111719308

其中,uij是上界,lij是下界。下图是损失函数的可视化

image-20220128111837609

个人见解:本文更偏重于验证任务。没有讨论网络特征与结构。


【aXiv2019, ICLR2019被拒,citation 3】random mask: towards robust convolutional neural networks

image-20220128010926011

一句话解释:作者提出使用随机mask网络的特征图进行随机mask,从而提升了网络的鲁棒性。并且指出如果针对具有随机mask设计的对抗扰动会存在很严重的扰动,会对图片的语义信息有较大破坏,容易被人类识别。做了大量的实验证明了作者的观点。

个人见解:该文仍然停留在对特征图的操作,并没有上升到通道层。虽然有指出在通道层使用mask会不会破坏特征的对称性,但是给定理由并不充分。其次,对图片语义信息造成较大的破坏也没有对比试验,这种破坏有没有可能是因为攻击方法的允许最大的扰动量较大造成的?最后,审稿人也指出,该文并没有跟SOTA的对抗防御与对抗攻击方法做对比,缺乏对比实验。

Table of Contents