2021 December 19 视觉问答任务

VQA视觉问答任务

【ICCV2021】Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models

一句话概述：作者构建了一个对抗样本视觉问答数据集，该数据集可以使现有的网络里效果变差

摘要

受益于大规模预训练，视觉问答任务上的性能得到了巨大的提升。尽管得到了快速的发展，但是SOTA模型是否在现实世界仍然鲁棒还是一个模糊的问题。为此，作者介绍了对抗VQA,一种大规模VQA基准数据集，迭代地通过对抗的人类-模型过程构建。通过该新基准，作者发现了一些有趣的发现

令人惊讶的，作者发现在数据收集过程中，非专家标注能够很容易地攻击SOTA的VQA模型。
大规模预训练模型和对抗训练方法在基准数据集上取得的性能要远差于在标注VQA上取得的性能。
当使用数据增强时，作者数据集可以有效地促进模型在其他VQA数据集上的性能。

作者希望对抗VQA数据集可以为鲁棒性研究提供一种新的思路，并成为未来工作的有价值的基准。作者提出的数据集的部分样例如下图所示

方法

作者提出的方法如下图所示

数据集的构建步骤如下：

给定一张图像，人类标注者尝试写一些tricky问题，使模型犯错。一旦问题被提交，在线模型的预测结果会立即展示给标注者。然后模型根据标注者的问题回答“绝对正确”，“绝对错误”，”不确信“。如果模型预测”绝对错误“，那么攻击成功，我们就要求标注着提供一个正确的回答。反之，标注者需要重写其他的问题，直到模型错误的错误的回答，或超过了可尝试的最大次数（5次）。未来避免由标注者提供的明显无效的问题（模型预测不真实的判断，与图片内容无关的问题），我们开发了一个标注任务。成功的攻击问题会提供给其他9位标注者来收集额外的回答，以及他们的置信度（确信、可能、不确信）。超过6个确信回答的问题被收集，10位标注者之间没有共同意见的问题被移除。