MM1.5关键词检索结果

MM1.5:多模式LLM微调

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-Tuning

我们提出了MM1.5,这是一个新的多模式大语言模型(MLLMS),旨在增强文本丰富的图像理解,视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上,MM1.5采用了以数据为中心的方法来模型培训,系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕,以及用于监督微调的优化视觉指导数据混合物。我们的型号范围为1B…