MLLM领域信息情报检索---XiaoMi-AI

亚马逊云科技 _机器学习

2026年5月20日 18:01

多模态评估器：MLLM 作为 Strands Evals 中图像到文本任务的法官

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

如果您正在构建视觉购物、图像或文档理解或图表分析，您需要一种方法来验证模型的响应是否确实基于源图像。纯文本评估器无法告诉您标题是否忠实地描述了图像、提取的发票总额是否与文档匹配、或者屏幕摘要是否[...]

Apple机器学习研究

2026年5月11日 00:00

BalCapRL：基于 RL 的 MLLM 图像描述的平衡框架

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

图像字幕是计算机视觉中最基本的任务之一。由于其开放性，它在多模态大语言模型（MLLM）时代受到了极大的关注。为了追求更加详细和准确的字幕，最近的工作越来越多地转向强化学习（RL）。然而，现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念，从而导致字幕核心维度之间的权衡。例如，以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……

MLLM关键词检索结果

多模态评估器：MLLM 作为 Strands Evals 中图像到文本任务的法官

BalCapRL：基于 RL 的 MLLM 图像描述的平衡框架