MLLM领域信息情报检索---XiaoMi-AI

2026年1月12日 00:00

DeepMMSearch-R1：在多模式网络搜索中为多模式法学硕士提供支持

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源，并且必须保持对动态且不断变化的现实世界信息的响应，以便解决信息查找和知识密集型用户查询。现有的方法，例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM，通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询，从而导致效率低下和结果不佳。为了解决这些限制，我们提出......

Apple机器学习研究

2026年1月6日 00:00

NarrativeTrack：评估框架之外的视频语言模型

NarrativeTrack: Evaluating Video Language Models Beyond the Frame

多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展，但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础，在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack，这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短剪辑或粗略场景级语义的现有基准不同......

Apple机器学习研究

2025年12月16日 00:00

UniGen-1.5：通过强化学习中的奖励统一增强图像生成和编辑

UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

我们推出 UniGen-1.5，这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上，我们全面增强了模型架构和训练流程，以增强图像理解和生成能力，同时释放强大的图像编辑能力。特别是，我们提出了一种统一的强化学习（RL）策略，通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能，我们提出了一个轻型编辑指令对齐阶段......

MLLM关键词检索结果

DeepMMSearch-R1：在多模式网络搜索中为多模式法学硕士提供支持

NarrativeTrack：评估框架之外的视频语言模型

UniGen-1.5：通过强化学习中的奖励统一增强图像生成和编辑