LCAP关键词检索结果

BalCapRL:基于 RL 的 MLLM 图像描述的平衡框架

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……