RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning
密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要,但扩展专家质量注释的成本却极其昂贵。虽然通过强大的视觉语言模型 (VLM) 进行合成字幕是一种实用的替代方案,但监督蒸馏通常会产生有限的输出多样性和弱泛化性。强化学习(RL)可以克服这些限制,但迄今为止它的成功主要集中在依赖确定性检查器的可验证领域——这是开放式字幕所不具备的奢侈品。我们……