【2022AAAI】对抗样本攻击

CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Combating Deepfakes

概览

image-20220114142102693

通过向图片中添加对抗扰动,使生成式模型失效。攻击的是Deepfakes模型,不是deepfake结果。可以应用于隐私保护,比如说用户将自己的照片发布到网络之前添加这种扰动,就可以避免被deepfake模型使用。

研究背景

deepfake防御分成以下两部分:

Active defense

针对Deepfakes,目前有研究提出使用对抗水印来攻击deepfake模型,从而导致生成失真的输出。但是当前的研究存在两个迁移性问题:

提出方案

方法

框架

image-20220114143620403

两个步骤

算法

image-20220114145340772

针对单个模型生成通用对抗扰动的两阶段办法:

针对当前模型生成的对抗扰动被用于攻击下一个模型的初始化扰动。

攻击单个模型的单张图片

优化目标

image-20220114145519971

其中G(I)为输入图像I时,deepfake模型的输出。使用PGD算法更新对抗样本

image-20220114145557017

对抗扰动融合

image-level

图像级别的融合

image-20220114145836456

取batch中符号的均值,j是图片在batch中的下标

$G_{avg}$ to concentrate more on the common attributes of human faces rather than a specific face’s attributes.

使用PGD算法得到在$G_{avg}$优化下的$P_{avg}$

model-level

模型级别的融合

image-20220114150456801

简单来说通用对抗扰动保留了针对历史模型的攻击信息

基于TPE的自动step size调优

we find that the attack step sizes for different models are also important for the transferability of the generated CMUA-Watermark.

针对基于梯度符号而言,有如下形式

image-20220114151317816

但是在实际计算中,梯度几乎不为0,所以符号的绝对值几乎为1。故基于符号的攻击有以下形式

image-20220114151516108

可见,α决定了更新率,所以影响很大。为此,对于通用攻击而言,有

image-20220114151703797

为此,引入TPE搜索超参a。TPE is a hyper-parameter optimization method based on Sequential Model-Based Optimization (SMBO), which sequentially constructs models to approximate the performance of hyperparameters based on historical measurements, and then subsequently chooses new hyperparameters to test based on this model.

令α为输入参数x,攻击的成功率作为 TPE 的相关质量评分 y。使用P(x y)和P(y)建模P(y x), p(x y)由以下项给出

image-20220114152433264

where y* is determined by the historically best observation, l(x) is the density formed with the observations {x(i)} such that the corresponding loss is lower than y*, and g(x) is the density formed with the remaining observations.

最终,在每次搜索迭代中,通过优化期望提升做为准则来搜索最佳的step sizes,由下式给出

image-20220114153236154

实验

数据

目标网络

参数:

验证指标:

image-20220114154125242

从而,计算损失指标如下

image-20220114154155273

如果大于0.05,就认为保护成功了,SR来衡量保护面部图像成功率。

实验结果

量化结果

image-20220114154731272

对比结果

image-20220114154814220

消融实验

image-20220114154842098

图像质量

image-20220114154936880

实际应用

image-20220114154952695

总结感悟

Table of Contents