MM1.5:多模式LLM微调

我们提出了MM1.5,这是一个新的多模式大语言模型(MLLMS),旨在增强文本丰富的图像理解,视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上,MM1.5采用了以数据为中心的方法来模型培训,系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕,以及用于监督微调的优化视觉指导数据混合物。我们的型号范围为1B…

来源:Apple机器学习研究

我们提出了MM1.5,这是一个新的多模式大语言模型(MLLMS),旨在增强文本丰富的图像理解,视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上,MM1.5采用了以数据为中心的方法来模型培训,系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕,以及用于监督微调的优化视觉指导数据混合物。我们的模型范围从1B到30b参数,包括稠密和混合物(MOE)变体,并证明即使在小尺度(1B和3B)下,仔细的数据策略和训练策略也可以产生强大的性能。此外,我们介绍了两个专门的变体:旨在视频理解的MM1.5-Video和用于移动UI理解的MM1.5-UI。通过广泛的经验研究和消融,我们对培训过程和决策提供了详细的见解,这些培训过程和决策为我们的最终设计提供了信息,为M​​LLM开发中的未来研究提供了宝贵的指导。