DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......
NarrativeTrack: Evaluating Video Language Models Beyond the Frame
多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展,但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础,在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack,这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短剪辑或粗略场景级语义的现有基准不同......
我们推出 UniGen-1.5,这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上,我们全面增强了模型架构和训练流程,以增强图像理解和生成能力,同时释放强大的图像编辑能力。特别是,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能,我们提出了一个轻型编辑指令对齐阶段......