【对抗样本(十八)】Consistency-Sensitivity Guided Ensemble Black-Box Adversarial Attacks in Low-Dimensional Spaces

关键词:输入图像的随机mask;利用模型集成来估计线上模型;

摘要

黑盒攻击方法的中心任务是基于提交到受害网络的反馈结果来估计和表征高维模型空间的受害模型。主要性能目标是实现攻击成功最小查询次数。现有攻击方法直接搜索和提纯极端高维空间的对抗噪声,需要向目标网络查询上百甚至上千次。为了解决这个挑战,作者提出在低维空间探索一种一致性和敏感度指引的集成攻击(CESA)方法。具体地,使用在具有多样化网络结构的代理模型上学习到的线性组合,来估计黑盒的受害模型。在输入图像中使用随机块mask,这些代理模型联合构造并向受害模型提交随机稀疏的查询。基于这些查询结果和一致性约束的指导,使用少量的查询即可训练好代理模型,从而准确地近似高维空间中的受害模型。随机和稀疏查询为构造输入图的攻击敏感性图提供了很重要的帮助,使用该图即可在本地进一步提升攻击成功率。大量的实验证明,作者的方法可以降低查询受害网络的次数,并维持较高的攻击成功率,大幅度优于现有的黑盒攻击方法。

image-20211122004740430

引言

作者指出当前的基于查询的方法存在:需要大量的查询,因为受害模型和输入图像具有很高的维度;而基于梯度搜索和高维空间中攻击噪声优化涉及到大量的搜索步骤和查询。然而,实际上大量查询被攻击受害模型是禁止的和不现实的。

攻击成功率依赖于如何近似受害模型以及如何有效地表征和利用模型对输入图像的响应黑盒攻击的中心问题是高维性[13]。搜索复杂性会随着维度的增加而指数性的增加。在黑盒攻击中,对抗噪声与输入图像的维度一样,非常大。同时,黑盒攻击中,替代模型需要近似的是具有几百万参数的未知受害网络的网络结构。

为解决上述挑战,作者提出一致性和敏感性指导集成攻击(CSEA)来有效搜索和估计高维模型空间的受害网络,中心思想如图1所示。为防止所搜陷入局部最小值,作者使用多样化结构的代理模型的集成来在高维模型空间协同搜索。然后,使用学习到的这些代理模型的线性组合来估计和近似受害网络。在输入图像中使用随机块mask,这些代理模型联合构建和向受害网络提交随机化的和稀疏的查询。基于这些高度差异化查询的反馈结果,替代模型有能力在模型空间中有效地学习和进化。由一致性的指导,学习到的组合有能力在很少的查询下有效地近似受害网络。此外,块层级的随机化和稀疏性查询为估计输入图像敏感图提供了非常重要的信息。使用这些敏感图,可以执行基于块的局部攻击优化来进一步增强攻击成功率。

独特性:

方法

构造集成的随机化搜索

image-20211122011422547

其中Q是代理模型(实验中,使用的代理模型个数是3;作者指出2个或3个集成代理模型足以);t是训练迭代的索引。为确保成功训练和多样化训练样本,提出利用块mask来调制对抗噪声。具体地,作者将输入图像划分成BH x BW的块。实验中,BH和BW设置成16。令$M_\alpha^t$表示在第t次迭代时随机的二值化blackwise的mask,在αxBHxBW块中均为1,其他地方均为0。实验中,α设置为0.15(即被mask掉的区域)。

基于该mask,可以使用当前的白盒攻击方法对图像进行修改,即在图像(i,j)位置处,M=0,则说明没有对抗噪声。假如使用FGSM,那么对抗样本就可以表示成

image-20211122012145207

实验表明,当使用mask时,少量的额外迭代就足以取得很高的攻击成功率。下图展示了集中随机化攻击。

image-20211122012310247

学习代理模型的线性组合

通过在层之间添加随机连接并且在现有层执行dropout,来得到随机化的网络结构。如图3所示,代理模型可以通过对受害模型的查询进行改进。

image-20211122012524129

作者认为这些代理模型的线性组合有能力成功地捕获在对抗攻击下受害网络的行为。需要注意的是,代理网络只能访问一张图像,即当前的测试图像x。使用攻击图像作为输入,查询受害网络并且输出表示成$y^t=T(\hat{x}^t)$,这表示了目标网络在对抗样本攻击下的行为。作者使用该样本来训练代理模型从而使代理模型的输出得分与目标模型的输出得分接近。损失函数定义成

image-20211122012955762

Ω0表示历史查询的x。为得到有效的组合系数,通过最小化以下目标来近似错误率

image-20211122013115286

image-20211122013125129一旦获得组合系数,就能得到代理模型的线性组合。

对抗一致性约束:作者的目标是进化代理模型Q,从而使他们的线性组合可以在高维模型空间中接近目标网络。这意味着代理模型需要收敛到受害模型。即他们应该对不同的对抗攻击展示出相同的反应。作者将这称为一致性约束。注意,当约束对抗一致性时,作者并没有查询受害网络,这是作者的方法能减少查询量的重要原因。为实现该约束,作者利用不同mask和攻击anchor并使用代理模型组合来是生成额外的攻击图像。对抗一致性损失定义如下

image-20211122013548775

综上,代理模型的训练损失表示成

image-20211122013624053

敏感性引导攻击的局部细化

作者发现,使用上述方法后,仍然后3-7%的图像会攻击失败。近期的研究表明利用目标模型的查询反馈修改图像可以提高攻击成功率[9]。但是这需要大量的查询,为解决该问题,作者提出利用已有的随机化查询和学习到的代理模型来生成敏感性图,从而来指引细化对抗噪声

作者的想法是应该局部集中在对网络决或图像识别结果最重要的贡献区域。作者观察到,在对抗攻击时,这些图像区域通常表现出相对较大的攻击,具体地说是更大的梯度响应。为此,作者记录了对各个区域图像的梯度响应,并用其来构建敏感图

作者发现这些对抗块噪声之间的攻击结果高度相关。

image-20211122085642806

红色曲线展示出了如果我们假设邻居块噪声集合相互独立,那么攻击效果就会大大下降,并且他们得分会积累。蓝线展现出利用邻居对抗块噪声,可以积累攻击。可以看出这二者之间存在极大的差异,这表明对抗块噪声之间彼此高度相关。这种相关性为估计每个块对抗噪声的贡献创造了极大的挑战。作者表明,使用随机和稀疏的块mask可以极大地降低块之间的联系。攻击者计算了算函数在层l通道c的位置(i,j)特征图f的梯度,修改后的特征图可以表示成如下

image-20211122091459975

$s^t$表示攻击锚点,Q表示在迭代t次时的网络输出,ε控制攻击噪声的强度。

如果在位置(i,j)处的梯度均值大于(i’, j’),那么从网络攻击角度,位置(i,j)的梯度更重要和敏感。基于这些观察,我们将输入图像的的敏感性图表示成

image-20211122092107828

从图6展示了攻击敏感性图的5个样本。可以看到高度敏感性区域集中在语义结构区域。一旦得到A(i,j),每个(i,j)表示原始图像的块。具体而言,作者将对抗噪声z分成块。对于每个块,作者尝试通过乘以-1的方式修改噪声块以翻转噪声。如果翻转噪声块有助于提升攻击性能,将受害模型的输出得分远离其原始的正确值,那么该噪声块就会翻转。否则,维持原状。

image-20211122092746997

作者认为稀疏性块对抗噪声生成使作者可以估计每个图象块的贡献和攻击敏感性。(注意:但是作者用基于决策黑盒攻击的性能指标与基于迁移黑盒攻击的比较是否公平?)

实验

数据集:CIFAR-10(无穷范数限制8/255),ImageNet(无穷范数限制16/255)

威胁模型:无目标和目标无穷范数攻击

受害者模型:ResNet-Preact-110,DenseNet-BC-110

测试阶段,使用1/255的步长和10攻击迭代的PGD,随机从CIFAR-10的测试集,ImageNet的验证集选择1000张图象。

实验结果(原论文图标的图标有问题)

下述实验比较了查询数量的均值和中值,攻击失败率。

image-20211122095042779

image-20211122095100819

消融实验

下表展示了两阶段攻击的贡献

image-20211122095115632

下面是不同查询次数的攻击效果

image-20211122095131203

总结

优点:

不足之处:

Table of Contents