【对抗样本(九)】【CVPR2019】Once a MAN Towards Multi-Target Attack via Learning Multi-Target Adversarial Network Once
摘要
基于一阶优化攻击方法以及其改进方法提升了对抗攻击的性能和速度。最近,基于生成模型的方法受到很多关注,因为他们可以直接使用前向网络来生成对抗样本,这避免了在基于优化和梯度中time-consuming的迭代攻击过程。然而,当前的生成方法仅能攻击某个特定模型中的特定目标,使其无法应用到数以千计的现实分类系统中。在本文,作者提出了第一个多目标对抗攻击网络,MAN,可以用单个模型生成多目标对抗样本。通过将特定类别的信息结合到中间特征层,在训练时它能够攻击目标分类模型的任意类别。实验结果显示MAN可以构建更强的攻击结果并且拥有更好的迁移性。进一步使用由MAN生成的对抗样本来提升分类模型的鲁棒性。
介绍
现有方法的缺点:
- 基于梯度和优化的方法在攻击某个实时系统时,计算负担很大,不适合该任务。
- 基于生成的方法则直接训练一个生成模型来学东西如何将输入图像转换成对抗样本。
- 然而,现有的生成模型方法的关键缺陷在于他们仅能实现单目标攻击,由单个模型生成的对抗样本仅能使被攻击分类器分类成训练时指定的预设类别。这在现实中成千上百个类的场景中不可行。(注:可使用条件生成网络)
因此,作者提出采用将来自正确类别信息的目标信息嵌入到编解码器中,来生成可以攻击特定目标的对抗样本。
此外, 作者还指出如果要用对抗样本进行对抗训练,需要大量的对抗样本,因此生成对抗样本的速度决定了对抗训练的效率。为此,作者聚焦于如何快速地生成对抗样本来攻击所有类别,并用来训练鲁棒模型。
方法
作者的提出方法的框架如下
MAN网络包括两个分支:
- 一条分支用于从输入图像中提取外观特征,如上图中的2d
- 另一条分支编码目标标签信息
在上述两个分支后接一个信息集成模块,如上图中的2e。其中解码器网络包括6个残差层和2个反卷积层来生成最后的对抗样本。
为了约束网络的学习引入了两个损失:
- 重建损失来保留外观上对抗样本与原始样本的相似性
- 分类损失,用来嵌入目标标签信息到目标样本上。
两种特征集成方法:
-
目标标签t由One-hot向量表示,然后将t从高宽进行拓展得到标签特征图T(高宽与图像得到的特征图的高宽相同)。然后,在通道维度上将二者进行拼接。拼接后的特征图输入到后续的解码层中。称为MANc。
-
受到Squeeze and Excitation Networks[13]的启发,作者认为特征表示的不同通道可以捕获不同类别的多样性特征。因此,采用了channel-wise的乘积,如recalibration operation,来集成标签和图像特征。这种情况下,使用了两层的多层感知机(MLP),后接上一个sigmoid函数。所以t可以表示成
其中δ是ReLU激活函数,$t’ \in R^C$,σ将每个元素的值约束在(0,1)中。最终的集成的特征表示成$M’ = T’ \cdot M$, 其中·表示张量上通道层级的乘积。进一步的有$M’_i = T’_i \cdot M_i$其中$M_i \in R^{H \times W}$。表示成MANr.
实验(存在符号说明不清晰的问题)
测试阶段对扰动的处理
实验结果如下
单目标攻击
作者吹嘘方法的迁移性好,但是使用这种方式生成的对抗样本迁移性为什么好呢?
作者的解释:网络中的一个分支编码目标标签并且在生成更强大的对抗样本上提供了额外的指导。
多目标攻击
MANc的特征组合方式不会受到特征图的影响,因此可以在两个数据集上平行执行。MANr重新校准了特征图的每个通道。