Loading...
机构名称:
¥ 1.0

摘要 — 最近,在多模态大型语言模型 (MLLM) 进步的推动下,视觉语言动作模型 (VLAM) 被提出以在机器人操作任务的开放词汇场景中实现更好的性能。由于操作任务涉及与物理世界的直接交互,因此确保此任务执行过程中的鲁棒性和安全性始终是一个非常关键的问题。在本文中,通过综合当前对 MLLM 的安全性研究以及物理世界中操作任务的具体应用场景,我们全面评估了面对潜在物理威胁的 VLAM。具体而言,我们提出了物理脆弱性评估管道 (PVEP),它可以结合尽可能多的视觉模态物理威胁来评估 VLAM 的物理鲁棒性。PVEP 中的物理威胁具体包括分布外攻击、基于排版的视觉提示和对抗性补丁攻击。通过比较 VLAM 在受到攻击前后的性能波动,我们提供了关于 VLAM 如何应对不同物理安全威胁的通用分析。我们的项目页面位于此链接

面对威胁的操纵:评估端到端视觉语言动作模型中的物理漏洞

面对威胁的操纵:评估端到端视觉语言动作模型中的物理漏洞PDF文件第1页

面对威胁的操纵:评估端到端视觉语言动作模型中的物理漏洞PDF文件第2页

面对威胁的操纵:评估端到端视觉语言动作模型中的物理漏洞PDF文件第3页

面对威胁的操纵:评估端到端视觉语言动作模型中的物理漏洞PDF文件第4页

面对威胁的操纵:评估端到端视觉语言动作模型中的物理漏洞PDF文件第5页

相关文件推荐

2025 年
¥2.0