RubiCap:用于密集图像字幕的 Rubric 引导强化学习

密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要,但扩展专家质量注释的成本却极其昂贵。虽然通过强大的视觉语言模型 (VLM) 进行合成字幕是一种实用的替代方案,但监督蒸馏通常会产生有限的输出多样性和弱泛化性。强化学习(RL)可以克服这些限制,但迄今为止它的成功主要集中在依赖确定性检查器的可验证领域——这是开放式字幕所不具备的奢侈品。我们……

来源:Apple机器学习研究

密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要,但扩展专家质量注释的成本却极其昂贵。虽然通过强大的视觉语言模型 (VLM) 进行合成字幕是一种实用的替代方案,但监督蒸馏通常会产生有限的输出多样性和弱泛化性。强化学习(RL)可以克服这些限制,但迄今为止它的成功主要集中在依赖确定性检查器的可验证领域——这是开放式字幕所不具备的奢侈品。我们使用 RubiCap 解决了这个瓶颈,这是一种新颖的 RL 框架,可以从 LLM 编写的规则中导出细粒度的、特定于样本的奖励信号。 RubiCap 首先组建了一个由候选人标题组成的多元化委员会,然后聘请法学硕士标题作者来提取共识优势并诊断当前政策中的缺陷。这些见解被转化为明确的评估标准,使法学硕士法官能够分解整体质量评估,并用结构化、多方面的评估取代粗略的标量奖励。在广泛的基准测试中,RubiCap 在 CapArena 上实现了最高的获胜率,优于监督蒸馏、先前的 RL 方法、人类专家注释和 GPT-4V 增强输出。在 CaptionQA 上,它展示了卓越的单词效率:我们的 7B 模型与 Qwen2.5-VL-32B-Instruct 匹配,而我们的 3B 模型超越了其 7B 模型。值得注意的是,使用紧凑型 Rub​​iCap-3B 作为字幕生成器可以产生比使用专有模型字幕进行训练的 VLM 更强的预训练 VLM。

  • † 威斯康星大学麦迪逊分校
  • ** 在 Apple 期间完成的工作