关于 RL 微调 VLM 的鲁棒性和思想链一致性 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

关于 RL 微调 VLM 的鲁棒性和思想链一致性

2026年7月2日 00:00 33 Comments

强化学习 (RL) 微调已成为增强推理密集型任务的大型语言模型 (LLM) 的关键技术，并推动其扩展到视觉语言模型 (VLM)。虽然经过 RL 调整的 VLM 改进了视觉推理基准，但它们仍然容易受到视觉基础薄弱、幻觉和过度依赖文本提示的影响。我们证明，简单的、受控的文本扰动——误导性的标题或不正确的思维链 (CoT) 痕迹——会导致鲁棒性和置信度大幅下降，并且当 CoT 一致性为……时，这些影响会更加明显。

来源:Apple机器学习研究

强化学习 (RL) 微调已成为增强推理密集型任务的大型语言模型 (LLM) 的关键技术，并推动其扩展到视觉语言模型 (VLM)。虽然经过 RL 调整的 VLM 改进了视觉推理基准，但它们仍然容易受到视觉基础薄弱、幻觉和过度依赖文本提示的影响。我们证明，简单的、受控的文本扰动——误导性的标题或不正确的思维链 (CoT) 轨迹——会导致鲁棒性和置信度大幅下降，并且当在开源多模态推理模型中考虑 CoT 一致性时，这些影响会更加明显。相比之下，封闭模型表现出类似的故障模式，但保持了明显更高的鲁棒性和推理一致性，这表明这种差距反映了当前开源 RL 微调的缺点，而不是任务的固有限制。为了更好地理解这些漏洞，我们进一步分析了 RL 微调动态并揭示了准确性与可信度的权衡：微调提高了基准准确性，但同时会削弱伴随的 CoT 的可靠性及其对上下文变化的鲁棒性。尽管对抗性增强提高了鲁棒性，但它本身并不能防止忠诚度漂移。结合忠诚意识奖励可以恢复答案和推理之间的一致性，但是当与增强结合使用时，训练有可能陷入捷径策略，而鲁棒性仍然难以捉摸。总之，这些发现凸显了仅准确性评估的局限性，并激发了共同强调基于视觉的推理的正确性、鲁棒性和忠实性的培训和评估协议。

† 哈佛大学

‡ OpenAI

** 在 Apple 期间完成的工作

置信度可靠性评估的伴随的完成的提高模型结合文本 RL 可信度一致性不正确增强类似的 CoT 推理调整的任务局限性视觉变化的开源鲁棒性故障模式正确性 VLM 正确的准确性视觉的不正确的动态关键技术简单的微调

关于 RL 微调 VLM 的鲁棒性和思想链一致性

其他外部链接

Tags

XiaoMi-AI