EAGLE:探索使用混合编码器的多模态大型语言模型的设计空间

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明,增强的视觉感知可显著减少幻觉并提高分辨率敏感任务(例如光学字符识别和文档分析)的性能。最近的几个 MLLM 通过利用视觉编码器的混合来实现这一点。尽管 […]EAGLE:探索使用混合编码器的多模态大型语言模型的设计空间首先出现在 Unite.AI 上。

来源:Unite.AI

准确解释复杂的视觉信息的能力是多模式模型(MLLM)的关键重点。最近的工作表明,增强的视觉感知可显着降低幻觉,并提高对分辨率敏感任务的性能,例如光学特征识别和文档分析。最近的一些MLLM通过利用视觉编码器的混合来实现这一目标。尽管他们取得了成功,但缺乏系统的比较和详细的消融研究,以解决关键方面,例如专家选择和多个愿景专家的整合。本文使用视觉编码器和分辨率的混合物对MLLM的设计空间进行了广泛的探索,这是Eagle框架,试图探索与编码器混合的多模式大语言模型的设计空间。这些发现揭示了各种现有策略共有的几种基本原则,从而导致了简化但有效的设计方法。 Eagle发现,简单地从一组互补的视觉编码器中串联视觉令牌与更复杂的混合体系结构或策略一样有效。此外,Eagle还引入了预一致性,以弥合以视觉编码器和语言令牌之间的差距,从而增强了模型连贯性。由MLLM的由此产生的家族超过了主要的MLLM基准上的其他领先的开源模型。

Eagle:使用编码器的混合物来探索多模式LLMS的设计空间

多模式大语言模型 mllm幻觉

Eagle的研究涵盖了在不同的任务和决议上预先训练的视觉编码的性能,例如视觉对准,自我监督学习,检测,分割和OCR。 Eagle使用圆形旋转方法从基本的剪辑编码器开始,并一次添加一个专家,选择了在每轮中提供最佳改进的专家。

在MLLM培训事项中解锁视力编码器。 mllms