VQA视觉问答任务

【ICCV2021】Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models

一句话概述:作者构建了一个对抗样本视觉问答数据集,该数据集可以使现有的网络里效果变差


摘要

受益于大规模预训练,视觉问答任务上的性能得到了巨大的提升。尽管得到了快速的发展,但是SOTA模型是否在现实世界仍然鲁棒还是一个模糊的问题。为此,作者介绍了对抗VQA,一种大规模VQA基准数据集,迭代地通过对抗的人类-模型过程构建。通过该新基准,作者发现了一些有趣的发现

作者希望对抗VQA数据集可以为鲁棒性研究提供一种新的思路,并成为未来工作的有价值的基准。作者提出的数据集的部分样例如下图所示

image-20211219192844078

方法

作者提出的方法如下图所示

image-20211219192906129

数据集的构建步骤如下:

给定一张图像,人类标注者尝试写一些tricky问题,使模型犯错。一旦问题被提交,在线模型的预测结果会立即展示给标注者。然后模型根据标注者的问题回答“绝对正确”,“绝对错误”,”不确信“。如果模型预测”绝对错误“,那么攻击成功,我们就要求标注着提供一个正确的回答。反之,标注者需要重写其他的问题,直到模型错误的错误的回答,或超过了可尝试的最大次数(5次)。未来避免由标注者提供的明显无效的问题(模型预测不真实的判断,与图片内容无关的问题),我们开发了一个标注任务。成功的攻击问题会提供给其他9位标注者来收集额外的回答,以及他们的置信度(确信、可能、不确信)。超过6个确信回答的问题被收集,10位标注者之间没有共同意见的问题被移除。

Table of Contents