2021 June 29 camouflages,, adversarial, examples,, objection, detector,, adversarial, example,, adversarial, attack

【对抗样本（六）】Camou Learning a Vehicle Camouflage for Physical Adversarial Attack on Object Detectors in the Wild

导语：这是中佛罗里达大学和美国军方研究所合作的对抗性伪装研究，来攻击车辆检测器。

address：

github：

摘要

在本文中，我们进行了关于物理对抗性攻击在野外的目标检测器。尤其是，我们学到伪装模式来隐藏被基于CNN的SOTA检测器检测到的车辆。我们的方法在两种方法之间交替。首先，我们训练神经近似函数来模仿模拟器将伪装应用到车辆以及车辆检测器在给定的伪装车辆图像上的表现。第二，我们通过搜索最优的伪装来最小化近似检测得分。在很多测试案例中，实验展示了学到的伪装不仅可以隐藏从基于图像检测器检测到的车辆，也能够泛化到环境、车辆和目标检测器。

1 简介

有可能在车身上绘制独一无二的喷绘来隐藏被监控相机检测到的车辆？我们推测回答是肯定的，原因有二：首先，深度神经网络可以广泛地应用到现代监控和用于自动车辆检测的自动驾驶系统。其次，不幸的是，这些神经网络对对抗样本有着耐人寻味的脆弱。

值得注意的是上面提到的对抗样本无法实现物理攻击，如攻击者直接修改图像像素。虽然攻击物理对抗性目标可以说比产生对抗性图像更具挑战性，一些现有的工作展示了对抗性补丁的令人欣喜的结果，停止标志，像棒球一样小对象和3D乌龟模型。

为此，我们关于设计一种特别模式来伪装3D车辆的观念很乐观，为了使其被基于DL的车辆检测器检测的难度更大。

考虑到经济和时间的约束，毫无疑问的在真实世界中进行试验是具有挑战的。在本文，我们证明了使用一个带有高保真3D轿车模型和3DSUV模型的模拟器引擎展示了相反的结果。图1显示了像真实图像的一样的仿真车辆，尽管覆盖有伪装，它仍能被在COCO数据集上训练的Mask R-CNN检测出来。

这个仿真引起允许我们在相当多的环境下（光线，背景，相机到物体的距离，视角，遮挡等）测试物理对抗性车辆。与此相反，现有在物理对抗性攻击的实验均在很简单的场景下进行。Eykholt（2018a, 2018b）和chen等人（2018b）攻击了神经分类器和停止标识符的检测器。他们使用投影变换将平面停止标识符渲染成不同的图像，本文考虑了非平面3D车辆图像。我们学习了一种神经近似函数来替代投影变换。Athalye等人合成物体（棒球，乌龟等），仅在相机到物体很短的范围和视角下才能实现攻击。

在模拟器引起中给定一个3D车辆模型，我们通过由Athalye等人首次提出的EOT算法来学习一种伪装。主要想法是考虑到伪装的不同变换能够一致地从神经检测器下隐藏车辆。一种转换来模拟仿真环境中的成像程序和3D车辆模型的产生图像的过程。如果一种伪装能在训练阶段的很多转换下工作，那么它就有可能应用到测试阶段从未见过的场景。

一个主要的挑战在于模拟器的成像过程不是可微分的。一种看似合理的解决方案是训练一个神经网络来近似这个过程。网络的输入是环境，伪装模式，和3D车辆模型，输出一个与模拟器输出尽可能相似的图像。虽然这个方法是可行的，但是生成高分辨率图像是非常困难的。SOTA方法（RenderNet 2018）可以在不需要任何背景的情况下生成3D物体。

我们通过绘制一下观察结果来解决上述的调整。在EOT中，梯度从检测器/分类器的决策值反向传播至物理对象。如果我们联合将对象检测器和模拟器的成像过程视为完全的黑盒，那么与训练一个图像生成网络相比，很容易学到一个函数来近似这个黑盒的行为。因此，我们学习了一个替代的神经网络，它的输入是伪装、车辆模型和环境，输出的是车辆的检测结果值。配备此替代网络，我们可以很容易地在我们的模拟器上运行EOT算法，来为车辆推测出一种对抗性伪装。

最终，我们对这项工作的重要性和潜在影响发表了一些评论。在现实世界中，多类别视觉检测神经网络已经成为了很多工业应用的基石，如监控系统和自动驾驶系统，以及军事系统。在这些应用之间，车辆是最关键的对象啊。攻击物理世界的车辆检测器非常有价值，并且从恶意攻击者的角度非常有影响。与停止标志相比，在美国在车辆上涂鸦是合法的，然而在停止标识符上涂鸦是犯罪行为。这给自动驾驶系统施加了更重要的威胁，因为任何人都能合法地访问基于公共机器学习的系统。这个观察激励着我们集中注意力在车辆上。我们将对抗伪装限制在合法的绘制车身绘制区域，这意味着我们会留有区别的视角线索，如轮胎，窗户，电线架，灯光等，检测器不变。

2 相关工作

2.1 对抗性攻击及其泛化

当前，对抗攻击足以攻击图像分类网络，目标检测，语义分割，音频十八甚至可以绕过大多数防御机制。主流的对抗性机器学习研究关注扰动的或含补丁的泛化。这种学到的扰动无法应用到真实世界（Lu等人在实验中证明），他们发现几乎所有的扰动方法都无法防止检测器检测出真实的停止标志。

首个物理世界对抗攻击由Kurakin在2016年提出，他们发现扰动在打印出的纸张上仍然有效。Eykholt等人发现了一种训练扰动的方式，该方式可以有效的保留攻击不同视角下真实停止标志的分类器。Athalye等人训练另一种可以成功攻击3D打印物体图像分类器的扰动。然而，Lu等人发现Eykholt等人的扰动无法七篇目标检测器YOLO9000和Faster RCNN。他们认为与欺骗目标检测器相比，欺骗图像分类器是一种不同的并且更加简单的攻击，因为检测器其自身可以提出物体边界框。同时，Lu等人和Chen等人的工作可以更加有效地泛化到物理世界中攻击停止标识符检测器。然而，所有上述的方法的目的均在扰动检测停止标识符。

黑盒攻击是另一个相关主题。在目前黑盒攻击文献中，Papernot等人基于图像和扰动的梯度是可获得的这个假设，训练了一个目标替代模型。由于模拟器是不可微分的，所以我们没有梯度。Chen等人提出了一种坐标梯度下降来攻击模型。然而，我们发现我们的优化问题非常耗时，噪声，非线性和非凸的。时间的限制使这个方法对于我们而言是不可行的，因为它在坐标下降时需要大量的验证。除此之外，坐标梯度下降通常需要在每个数据点进行更加精确的评估。

2.2 仿真辅助机器学习

从深度学习的曙光开始，数据收集一直至关重要，因为深度学习模型的性能通常与使用的训练数据量相关。有时由于不切实际的昂贵标注代价，一些机器学习研究者使用合成数据来训练他们的模型。特别是在计算机视觉应用，因为很多SOTA的计算机生成图像可以达到与真实图像的程度。Ros等人为语义分割提出了合成数据集。Gaidon等人为追踪，分割等人提出合成数据集。Varol等人使用合成数据来研究人类行动学习。Zhang等人采用RL从合成环境追中训练的grasping模型，再应用到真实环境。Tremblay等人使用虚幻引擎训练了一个检测网络，在本文中，我们也使用了虚幻引擎。

3 问题定义

在本文中，我们调查了针对SOTA目标检测网络的物理对抗攻击。目的在于找到一种伪装模式，该伪装模式绘制在车辆上时，Mask R-CNN和YOLO检测器无法检测到经过多种变换的车辆。我们以黑盒的方式来学习伪装，即不需要获得目标检测器网络的结构或权重。

EOT。我们使用Athalye提出的EOT框架对物理对抗攻击问题进行形式化。

t表示变换，将伪装模式c转换到真实图像中（将伪装贴在目标图像上，并不是通常意义上的转换）

这种转换实际上表示了一种过程：将模式绘制到车身上，驱动车辆到不同位置，配置相机，并且拍摄车辆的图像。转换方便地抽象了大量因素（如绘制质量，相机等），每个因素都在这个过程中扮演了一个角色。Vt(c)表示对转换t和伪装c得到图像的检测得分（由Mask RCNN） $arg \min_c E_{t \sim T} V_t(c)$ 其中T表示所有可能转换{t}的分布。换句话说，我们搜寻一个伪装c来最小化车辆检测的期望（最小化被检测为车辆）。

Transformation in simulation 由于经济和时间约束，我们使用有图像一样真实的虚幻4引擎上研究。它给我们提供了足够多的配置参数，如伪装的分辨率和模式，车辆的3D模型，相机参数和环境。图2展示了伪装模式，本文中使用了虚拟城市的角度下放置的凯美瑞的高保真3D模型，最终在将伪装应用到车辆模型并将其开至角落并拍摄图像，换句话说图2中最右侧的图像就是对左侧三个图像进行了转换t 的结果图像。

4 方法

在这部分，我们提出了两项关键技术来解决公式1。

一种技术是通过在很多转换的经验来估计期望E。
另外一种是训练一个网络来克隆黑盒检测器Vt(c)和非微分模拟器的联合行为。

4.1 采样转换来估计期望E

回顾转换t指定一种从应用伪装c到车身上的特别过程，直到被相机拍摄。在仿真引擎的环境下，伪装c首先被处理成纹理，该纹理随后被wrapped到物体的3D模型上。模拟器可以将物体传送到环境中的不同位置。模拟器同样有多个相机从不同的距离和视角来拍摄被传送的物体。

在这个过程中我们确定了一些关键因素，包括车辆，位置，相机到物体的距离和视角。他们的组合也会引起其他维度的变化。例如，一个位置到另一个位置的光照变化。感兴趣的车辆在相机捕获的图像中被不同程度地遮挡。Ts表示所有采样的变换，并被用于学习伪装。

图3展示了相机放置的不同位置。我们可以观察到不同视角和相机到物体的不同距离。绿色的被用于训练，剩余的红色部分被用于测试。由于利用相机的计算代价很高，我们随机将他们安排在不同高度和距离来尽可能使其多样，而不是遍历整个高度-距离组合。

4.2 学习克隆网络$V_\theta(c, t)$来近似V_t(c)

如果我们展开检测得分$V_t(c)$，它包含两个组件。第一个通过遵循变换t指定的过程基于伪装c渲染图像。第二个在渲染的图像上获得车辆检测器的检测得分。第一个组件是不可微分的，实践中第二个组件可以视为一个黑盒。因此，我们提出将他们联合考虑成单个黑盒。进一步的，我们学习一个神经网络$V_\theta(c, t)$来模拟扩展黑盒的输入输出行为。由于转换t本身涉及且难以表示，相反，我们将其结果输入网络：背景图像和车辆裁决后的前景。

图4b展示了网络结构。它将伪装模式c作为输入，由于采样变换t的背景图像，被裁减的前景。网络Vθ仅有一个输出，即Vt(c)的近似得分。

为此，我们为公式1写下了如下的近似形式 $arg \min_c \frac{1}{|T_S|} \sum_{t \in T_S} V_\theta(c,t)$ 由于网络Vθ对于伪装c是可微分的，我们可以通过标准梯度下降算法解决该问题。

需要注意的是，问题2的保真度取决于转换Ts的采样集合的大小和多样性，以及克隆网络的质量。通过随机伪装和转换以及带检测得分的“标注”结果图像为克隆网络生成大规模训练集，当解决问题2时会产生一些差异。换而言之，网络可能无法很好地在最优伪装附近区域近似检测得分。我们通过交替换学习算法来减少这个差异。

4.3 克隆网络和最优伪装的联合学习

我们交替学习克隆网络Vθ和解决问题2。一旦优化问题2找到了一个新的伪装模式，就通过训练转换Ts转换到多张图像。我们通过查询检测器获得了每个图像的得分。伪装模式，与检测得分一致被添加到训练集中训练克隆网络。图4a展示了这个过程。

实现细节 H[p,q]表示交叉熵损失。我们交替地解决如下两个问题：

其中C表示训练集中所有伪装的集合，用于训练克隆网络，s:=Vt(c)是与伪装c和转换t相对于的检测得分。**l2正则化λ

是克隆网络权重，该项非常重要。没有该项，这两项损失函数可能会震荡或者退化。**实验中，我们将λ=10。由于克隆网络在最佳近似伪装附件的近似准确率比其他去更重要，因此我们在每次迭代时将新添加到训练集的样本权重比旧样本高 10倍。附录中算法1给出了更加详细的解散。

5 实验

因为本论文的主要目标是学习伪装模式来欺骗车辆检测器。实验中我们介绍了两个基础伪装模式：6种最受欢迎的汽车配色，不同分辨率的800种随机伪装。然后我们分析了伪装的分辨率如何影响检测性能。对于车辆，我们应用了2个3D模型：2015款丰田凯美瑞和虚拟SUV。除了主要的对比结果，我们同样测试了不同车辆模型、环境、相机位置和目标检测器下学习到的伪装的可转移性。

5.1 实验设置

在本节我们详细介绍了实验设置，包括模拟器，车辆检测器，评估指标和基础位置模式。

5.1.1 模拟器

正如图5a所示，我们使用虚幻引擎来建造我们第一个真实级DownTown环境的模拟器环境。它对纽约曼哈顿城市进行建模。在该环境中包括天空、车辆、交通标志，公园和道路，集成成一个典型的城镇环境。我们采样了32个不同位置和街区。每个位置8个相机，每个相机拍摄图片的分辨率为720x360。相机的相关位置由视角和相机到目标的距离进行索引，如图3所示。此外，我们安装了另外16个相机来测试不同视角和距离下学习到伪装的泛化性。总计，我们分别使用18个位置来进行训练和测试。注意，由于遮挡，有些时候车辆对于相机是不可见的。

我们第二个环境是基于完全不同的乡村场景，称为山地景观，正如图5b所示。道路位于高纬度山地和跨越桥梁，森林，雪和湖。我们使用这个场景来测试伪装跨不同环境的迁移性；这个场景没有用于训练。像城镇环境，我们采样了18个道路位置来进行测试。

两个用于实验中的车辆如图6所示。一个是欧版2015凯美瑞XLE。另外一款是来自AirSim的虚拟SUV。值得一提的是丰田的轿车多次出现在MS-COCO数据集中。因为目标检测器在MS-COCO上训练，相比于隐藏虚拟SUV，隐藏凯美瑞的难度要大的多。

5.1.2 车辆检测器

我们研究了两个SOTA检测器：Mask R-CNN和YOLOv3-SPP。Mask RCNN是公开可用的最强的物体检测器之一。它在MS COCO检测排行榜中排第4。两个检测器均在MS COCO上训练。对于MASK RCNN，我们采用了Abdulla的实现。它的基础模型是ResNet-101。YOLOv3与Mask RCNN的性能相当。它的网络结构与Mask R-CNN非常不同，导致两个检测器之间伪装的迁移性存在挑战。实验中，我们使用YOLOV3的空域金字塔（SSP）变体。

在剩余的论文中，除了迁移实验外，我们使用Mask RCNN进行了实验。

5.1.3 验证指标

我们采取了两个指标来验证检测性能。第一个指标是由Everingham等人提出的IOU。IOU的定义是边界框和真实边界框由$IoU(A,B)=\frace{A \cap B}{A \cup B}$。因为IoU最初提出是为了验证多目标检测的结果，与我们使用的车辆检测不同，我们将其修改来更好的捕获感兴趣的车辆区域，$\max_{p \in P}IoU(p, GT)$，其中P是图像中所有检测到提前框的集合。我们在所有测试图像中评价了这个数量，并用mIOU表示平均值。

我们第二个指标是在0.5处的准确率，即P@0.5。Everingham等人在PASCAL VOC检测挑战赛中将检测IOU的阈值设置为0.5来决定某个检测是否击中了检测目标。我们将所有观察中命中检测的百分比报告为P@0.5。我们还尽可能报告伪装与基线颜色的相对精度下降。

5.1.4 基准

我们第一个基准是车辆涂上受欢迎的真实颜色。我们选择了6个基础的车辆颜色，这6种颜色覆盖了全球90%的车辆的颜色(Axalta)。我们根据X11 颜色名称获得了RGB的值。

第二个基准，我们生成了800张{2^i, 2^i， i ∈[1,8]}之间不同分辨率下随机伪装。因为我们发现带有强对比的伪装可以工作的更好，我们使用[0,255]内的RGB值生成了一半的伪装，另一半使用了{0，255}的RGB值生成的。在我们得到这些伪装和相应的检测得分后，我们使用这些合适的分辨率来初始化训练集，训练克隆网络。

这两个基准部分解决了一个问题，即学习到的伪装成功攻击检测器不是因为它利用了CNN的结构弱点，而是因为它利用了训练检测器与我们使用的模拟数据之间的领域差异来测试检测器。实验结果显示在很多情况下基准无法欺骗检测器，这意味着检测器对于模拟数据与真实数据的领域差异具有相当有弹性。（至少在车辆检测任务中）

5.2 伪装的结果

我们首先报告了随机伪装在城镇场景下将凯美瑞从Master RCNN检测器下隐藏的性能。图7显示了结果。第一个观察是尽管随机伪装看起来与传统车辆喷绘在视角上非常不同，Mask RCNN检测器同样有能力检测出他们中的大部分。另一个稍微违法直觉但有趣的观察结果是，检测器的性能并不总是随着伪装分辨率的提高而降低。这可能是因为高分辨率伪装的一些细粒度图案变得更难从远处观察。超过16x16的高分辨率伪装并没有带来额外的收益，所以我们在实验中使用了16x16尺寸的分辨率。

5.3在城镇环境中伪装丰田凯美瑞

这节我们报道了在城镇环境中检测凯美瑞的结果。表1总结了不同基准颜色、随机伪装和我们学习到的伪装的凯美瑞的结果。我们可以从表中观察到Mask RCNN对于随机伪装非常鲁棒。随机伪装检测得分接近基准颜色。此外，随机伪装得分的标准差非常低，这意味这不同随机伪装不会真正地改变检测的性能。注意到我们将伪装应用到凯美瑞的车身上，留下轮胎，窗户等，作为给检测器的一些线索。尽管如此，我们学习到的伪装在城镇环境下训练和测试阶段可以将基准颜色的检测器减少30%左右。

虚拟SUV。附录A提供了虚拟SUV的结果。学习到的伪装可以将Mask RCNN检测准确率减少40%左右。

5.4 可转移性实验

我们展示了伪装学习到攻击Mask RCNN也可以在一定程度上攻击YOLOv3。结果如表2所示。相似的，附录A到D报道了不同环境，车辆，相机视角和相机到物体距离的伪装的可转移结果。

5.5 定性结果

我们提供了一些在基准颜色、随机伪装和学习到的伪装上的检测结果，如图11所示。

我们从定性结果中绘制了一些未被定量结果展示的有趣的观察。我们发现有3中成功攻击类别：

（1）伪装降低了车辆的目标性并且车辆区域没有被提取出或者仅有部分被提取出作为检测器的分类器候选。
（2）车辆区域被成功提取但是被错误分类，或者分类得分太低而达不到被检测的阈值。
（3）车辆区域被成功地提取和分类，但伪装导致错误检测，，与汽车大部分重叠（参考第5行，其中覆盖汽车的区域被检测为汽车和船）。

因此我们可以观察到上下文和环境在目标检测中扮演了很重要的角色。尽管在相同位置捕获的凯美瑞图像，检测器可能为他们做出完全不同的预测。在山地环境中，我们学习到的伪装与基准模式相比有非常大的不同。然而，检测器有时仍无法检测伪装车辆和SUV。

6 结论

在本文，我们调查了是否有可能物理地应用伪装到复杂形状地3D物体上，如车辆，为了将他们从SOTA的检测器下隐藏起来。我们使用照片一样真实的引擎进行了大量的实验。我们提出使用克隆网络来模仿模拟器和检测器对3D车辆的反应。然后我们同故宫最小化克隆网络对3D车辆的检测得分来得到伪装。我们学习到的伪装可以很大程度上降低丰田凯美瑞和SUV的检测能力。此外，我们也发现伪装可以转移到不同的环境。在未来，我们计划找到一种可能地完全百合的方法来提出一种更有效的伪装。

词汇

conjecture 推测
A seemingly plausible solution 一种看似合理的解决方案
viable 可行的
readily 容易的
dawn 黎明，曙光
data collection has always been of fundamental importance as deep learning model performance 数据收集一直至关重要，因为深度学习模型的性能通常与使用的训练数据量相关。
a wide spectrum of variations 范围广泛的变换
teleport 传送
The combinations of them also give rise to variations along other dimensions. 它们的组合也会引起其他维度的变化。
The vehicle of interest is occluded to different degrees in the images captured by the cameras. 感兴趣的车辆在摄像机捕获的图像中被不同程度地遮挡。
fairly resilient to 相当有弹性