详细内容或原文请订阅后点击阅览
DeepMMSearch-R1:在多模式网络搜索中为多模式法学硕士提供支持
现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......
来源:Apple机器学习研究现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们推出了 DeepMMSearch-R1,这是第一个能够执行按需、多轮网络搜索并为图像和文本搜索工具动态创建查询的多模式法学硕士。具体来说,DeepMMSearch-R1可以根据输入图像的相关裁剪启动网络搜索,使图像搜索更加有效,并且可以根据检索到的信息迭代地调整文本搜索查询,从而实现自我反思和自我纠正。我们的方法依赖于两阶段的训练流程:冷启动监督微调阶段,然后是在线强化学习优化。对于训练,我们引入了 DeepMMSearchVQA,这是一种新颖的多模式 VQA 数据集,通过自动化管道与来自网络搜索工具的真实信息混合创建。该数据集包含集成文本和视觉信息的多样化、多跳查询,教导模型何时搜索、搜索什么、使用哪种搜索工具以及如何对检索到的信息进行推理。我们在一系列知识密集型基准上进行了广泛的实验,以证明我们方法的优越性。最后,我们分析结果并提供对于推进多模式网络搜索有价值的见解。
