BalCapRL：基于 RL 的 MLLM 图像描述的平衡框架 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

BalCapRL：基于 RL 的 MLLM 图像描述的平衡框架

2026年5月11日 00:00 33 Comments

图像字幕是计算机视觉中最基本的任务之一。由于其开放性，它在多模态大语言模型（MLLM）时代受到了极大的关注。为了追求更加详细和准确的字幕，最近的工作越来越多地转向强化学习（RL）。然而，现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念，从而导致字幕核心维度之间的权衡。例如，以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……

来源:Apple机器学习研究

图像字幕是计算机视觉中最基本的任务之一。由于其开放性，它在多模态大语言模型（MLLM）时代受到了极大的关注。为了追求更加详细和准确的字幕，最近的工作越来越多地转向强化学习（RL）。然而，现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念，从而导致字幕核心维度之间的权衡。例如，以效用为导向的目标可能会鼓励嘈杂、幻觉或过长的标题，从而改善下游问题的回答，同时损害流畅性，而竞技场风格的目标可能有利于流畅但通用的描述，但实用性有限。为了解决这个问题，我们提出了一个更加平衡的强化学习框架，该框架共同优化实用感知的正确性、参考覆盖率和语言质量。为了有效地优化由此产生的连续多目标奖励公式，我们将 GDPO 式奖励解耦标准化应用于连续值字幕奖励，并表明它比普通 GRPO 提高了性能。此外，我们引入了长度条件奖励屏蔽，为字幕产生更合适的长度惩罚。在 LLaVA-1.5-7B 和 Qwen2.5-VL 3B 和 7B 基本模型中，我们的方法持续提高了字幕质量，不同模型的峰值增益分别为 +13.6 DCScore、+9.0 CaptionQA 和 +29.0 CapArena。

基本的目标实用性计算机语言强化提高质量长度学习方法问题合适的奖励 7B 流畅性字幕框架通用的准确的平衡的多目标导向的质量的正确性标准化模型的覆盖率基本模型可能最近的优化现有的

BalCapRL：基于 RL 的 MLLM 图像描述的平衡框架

其他外部链接

Tags

XiaoMi-AI