获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning
图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……