2021 December 05 对抗样本，对抗防御，利用鲁棒模型生成样本，能量函数

【对抗样本（二十一）】【ICCV2021】Towards Understanding the Generative Capability of Adversarially Robust Classifiers

关键词：

一句话概述：

摘要

最近，一些工作发现了一个很有趣的现象，对抗鲁棒性分类器可以生成质量与生成模型相当的图片。作者从能量的角度调查了这个问题并提供了一种新颖的解释。作者用能量函数重构了对抗样本生成，对抗训练、和图像生成。作者发现对抗性训练有助于在真实数据周围获得平坦且低能量的能量函数，这是生成能力的关键。基于作者的新发现，进一步提出了更好的对抗训练模型，联合能量对抗训练（JEAT），它可以生成高质量图像并在各种攻击下取得sota的鲁棒性。由JEAT生成图像的Inception score为8.80，高于原始鲁棒分类器。特别地，作者发现JEAT的鲁棒性优于其他混合模型。

引言

一些研究发现了一个有趣的现象，即生成图像可以与GAN相当。分类任务中对抗鲁棒模型的生成能力非常有趣和令人惊讶。在本文，作者旨在从能量角度来理解对抗训练分类器的生成能力并且进一步提升生成图像的质量。对于基于能量的模型，它首先从随机噪声中生成低能量样本，然后通过更新模型的参数来提升生成样本的能量。使用这种方式，EBM可以获得好的能量函数，在真实数据附近能量很低。从而EBM可以利用Langevin Dynamics的好的能量函数生成好的图像。

作者发现对抗性训练的分类器也能获得好的能量函数，即在真实数据附近获得平坦且低能量的能量函数。对于分类器，作者在输出的logit上定义了能量函数。作者给出的解释如下图所示