图像黑盒对抗样本攻击,概述

1、什么是对抗样本?

对抗样本在深度学习网络中,向正常样本添加人眼难以察觉的扰动后导致正常样本被分类网络错分的样本。

2、威胁模型

1)、攻击者的知识

2)、攻击者指定

3、性能指标

4、一些思考

在《深度学习中的图像分类与对抗技术》一书中,黑盒攻击算法中的PSO算法以及CMA算法,假定条件都是攻击者手里有目标图像,如在介绍PSO中,作者将目标图像设置为粒子的初始值,这样可以保证初值被目标模型识别为目标类别。 通过不断地迭代,最终使目标图像逐渐变化成原始图像。该思想同样存在于文献[23]中。我认为这种假设或许不太合理吧。

[11]P.-Y. Chen, H. Zhang, Y. Sharma, J. Yi, and C.-J. Hsieh. Zoo: Zeroth order optimization based black-box attacks to deep neural networks without training substitute models. In Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security, pages 15–26. ACM, 2017. [12]A. Ilyas, L. Engstrom, A. Athalye, and J. Lin. Black-box adversarial attacks with limited queries and information. In ICML, 2018.

[21]W. Brendel, J. Rauber, and M. Bethge. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models. In ICLR, 2018. [22]M. Cheng, T. Le, P.-Y. Chen, J. Yi, H. Zhang, and C.-J. Hsieh. Query-efficient hard-label black-box attack: An optimization-based approach. arXiv preprint arXiv:1807.04457, 2018. [23]

Table of Contents