我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。
大型多模型模型(LMM)在单图像视觉语言任务中显示出了很好的结果。但是,他们解决多图像视觉语言任务的能力尚待改进。OpenFlamingo,EMU2和IDEFICS等现有的LMM通过对数亿个既没有有效又不有效的嘈杂的交织图像文本数据进行预训练,从而获得了多图像的能力。在本文中,我们旨在通过使用学术级别的资源进行指导调整来构建强大的多图像LMM。因此,我们精心构建包含721k多图像指导数据的螳螂教学,以培训螳螂模型家族。教学调整使螳螂具有不同的多图像技能,例如共同参考,比较,推理和时间理解。我们评估了8个多图像基准和6个单图像基准的螳螂。Mantis -IDEFICS2可以在所有多图像基准上实现SOTA结果,并击败最强的多图像基线,即IDEFICS2-8B平均13个绝对点。值得注意的是,IDEFICS2-8B已在140m的交织多图像数据上进行了预训练,该数据比Mantis-Instruct大200倍。我们观察到螳螂在持有的基准和持有的基准上表现出色,这表明其概括能力。我们进一步评估了单图像基准上的Mantis,并证明Mantis在与COGVLM和EMU2相当的情况下还保持了强劲的单像性能。我们的结果表明,多图像能力不一定是通过大规模的预训练获得的,而是通过低成本的指导调整可以获得它们。螳螂的培训和评估为未来的工作铺平了道路,以提高LMMS的多图像能力。