详细内容或原文请订阅后点击阅览
BalCapRL:基于 RL 的 MLLM 图像描述的平衡框架
图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……
来源:Apple机器学习研究图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以效用为导向的目标可能会鼓励嘈杂、幻觉或过长的标题,从而改善下游问题的回答,同时损害流畅性,而竞技场风格的目标可能有利于流畅但通用的描述,但实用性有限。为了解决这个问题,我们提出了一个更加平衡的强化学习框架,该框架共同优化实用感知的正确性、参考覆盖率和语言质量。为了有效地优化由此产生的连续多目标奖励公式,我们将 GDPO 式奖励解耦标准化应用于连续值字幕奖励,并表明它比普通 GRPO 提高了性能。此外,我们引入了长度条件奖励屏蔽,为字幕产生更合适的长度惩罚。在 LLaVA-1.5-7B 和 Qwen2.5-VL 3B 和 7B 基本模型中,我们的方法持续提高了字幕质量,不同模型的峰值增益分别为 +13.6 DCScore、+9.0 CaptionQA 和 +29.0 CapArena。
