欺骗你的多模态 LLM 有多容易?对欺骗性提示的实证分析

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战,特别是在处理提示中的欺骗性信息的情况下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型……

来源:Apple机器学习研究

多模态大型语言模型 (MLLM) 的显著进步并没有使它们免受挑战,特别是在处理提示中的欺骗性信息的背景下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面的分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型,例如 LLaVA-NeXT 和 MiniCPM-Llama3。从经验上讲,我们观察到 GPT-4o 与其他模型之间存在显著的性能差距;并且以前的稳健指令调整模型在这个新基准上无效。虽然 GPT-4o 在 MAD-Bench 上的准确率达到了 82.82%,但我们实验中任何其他模型的准确率都在 9% 到 50% 之间。我们进一步提出了一种补救措施,即在欺骗性提示中添加一个额外的段落,以鼓励模型在回答问题之前三思而后行。令人惊讶的是,这种简单的方法甚至可以使准确率提高一倍;然而,绝对数字仍然太低,不能令人满意。我们希望 MAD-Bench 可以作为一个有价值的基准,以激发进一步的研究,以增强模型对欺骗性提示的弹性。