关于 RL 微调 VLM 的鲁棒性和思想链一致性

强化学习 (RL) 微调已成为增强推理密集型任务的大型语言模型 (LLM) 的关键技术,并推动其扩展到视觉语言模型 (VLM)。虽然经过 RL 调整的 VLM 改进了视觉推理基准,但它们仍然容易受到视觉基础薄弱、幻觉和过度依赖文本提示的影响。我们证明,简单的、受控的文本扰动——误导性的标题或不正确的思维链 (CoT) 痕迹——会导致鲁棒性和置信度大幅下降,并且当 CoT 一致性为……时,这些影响会更加明显。

来源:Apple机器学习研究

强化学习 (RL) 微调已成为增强推理密集型任务的大型语言模型 (LLM) 的关键技术,并推动其扩展到视觉语言模型 (VLM)。虽然经过 RL 调整的 VLM 改进了视觉推理基准,但它们仍然容易受到视觉基础薄弱、幻觉和过度依赖文本提示的影响。我们证明,简单的、受控的文本扰动——误导性的标题或不正确的思维链 (CoT) 轨迹——会导致鲁棒性和置信度大幅下降,并且当在开源多模态推理模型中考虑 CoT 一致性时,这些影响会更加明显。相比之下,封闭模型表现出类似的故障模式,但保持了明显更高的鲁棒性和推理一致性,这表明这种差距反映了当前开源 RL 微调的缺点,而不是任务的固有限制。为了更好地理解这些漏洞,我们进一步分析了 RL 微调动态并揭示了准确性与可信度的权衡:微调提高了基准准确性,但同时会削弱伴随的 CoT 的可靠性及其对上下文变化的鲁棒性。尽管对抗性增强提高了鲁棒性,但它本身并不能防止忠诚度漂移。结合忠诚意识奖励可以恢复答案和推理之间的一致性,但是当与增强结合使用时,训练有可能陷入捷径策略,而鲁棒性仍然难以捉摸。总之,这些发现凸显了仅准确性评估的局限性,并激发了共同强调基于视觉的推理的正确性、鲁棒性和忠实性的培训和评估协议。

  • † 哈佛大学
  • ‡ OpenAI
  • ** 在 Apple 期间完成的工作