欺骗你的多模态 LLM 有多容易？对欺骗性提示的实证分析 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

欺骗你的多模态 LLM 有多容易？对欺骗性提示的实证分析

2024年12月5日 00:00 33 Comments

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战，特别是在处理提示中的欺骗性信息的情况下，因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性，我们提出了 MAD-Bench，这是一个精心策划的基准，包含 1000 个测试样本，分为 5 个类别，例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析，从 GPT-4v、Reka、Gemini-Pro 到开源模型……

来源:Apple机器学习研究

多模态大型语言模型 (MLLM) 的显著进步并没有使它们免受挑战，特别是在处理提示中的欺骗性信息的背景下，因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性，我们提出了 MAD-Bench，这是一个精心策划的基准，包含 1000 个测试样本，分为 5 个类别，例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面的分析，从 GPT-4v、Reka、Gemini-Pro 到开源模型，例如 LLaVA-NeXT 和 MiniCPM-Llama3。从经验上讲，我们观察到 GPT-4o 与其他模型之间存在显著的性能差距；并且以前的稳健指令调整模型在这个新基准上无效。虽然 GPT-4o 在 MAD-Bench 上的准确率达到了 82.82%，但我们实验中任何其他模型的准确率都在 9% 到 50% 之间。我们进一步提出了一种补救措施，即在欺骗性提示中添加一个额外的段落，以鼓励模型在回答问题之前三思而后行。令人惊讶的是，这种简单的方法甚至可以使准确率提高一倍；然而，绝对数字仍然太低，不能令人满意。我们希望 MAD-Bench 可以作为一个有价值的基准，以激发进一步的研究，以增强模型对欺骗性提示的弹性。

MAD 准确率鼓励 Bench 脆弱性对象 GPT 不存在空间关系基准 4o 有价值提高挑战欺骗性模型提示处理例如 MLLM 定量评估

欺骗你的多模态 LLM 有多容易？对欺骗性提示的实证分析

其他外部链接

Tags

XiaoMi-AI