天然多模型模型的缩放定律

建立可以通过多模式信号有效地感知世界的通用模型一直是一个长期目标。当前的方法涉及分别整合预训练的组件,例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率,但仍然是一个悬而未决的问题,这是否本质上是优越的。在这项工作中,我们重新审视了本地多模型(NMM)的建筑设计 - 从头开始​​训练的人 - 并进行广泛的……

来源:Apple机器学习研究

建立可以通过多模式信号有效地感知世界的通用模型一直是一个长期目标。当前的方法涉及分别整合预训练的组件,例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率,但仍然是一个悬而未决的问题,这是否本质上是优越的。在这项工作中,我们重新审视了本地多模型模型(NMM)的建筑设计 - 从头开始​​训练的所有模式 - 并进行了广泛的缩放法律研究,涵盖了457种具有不同架构和培训混合物的训练有素的模型。我们的调查表明,与早期融合构造相比,后期融合架构并不依赖图像编码器,这没有任何固有的优势。相反,早期融合在较低的参数计数上表现出更强的性能,更有效地训练,并且更容易部署。在早期融合体系结构的强劲表现的推动下,我们表明,结合专家的混合物(MOES)允许学习特定于模态权重的模型,从而显着提高了性能。

†在苹果实习期间完成的工作。‡Sorbonne University

†在苹果实习期间完成的工作。 ‡Sorbonne University