我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。
在2023年演奏大型视觉语言模型(LVLM)在AI社区中很流行。但是,相对较大的参数(超过7b)流行的LVLM使训练和部署在消费者GPU上,阻止许多资源有限的研究人员。想象一下在旧的GTX1080TI(我们唯一的游戏卡)上体验当前LVLM的所有功能将有多酷。因此,我们在本报告中介绍了各种大小,而QWEN-1.8B则是基本的“大”语言模型。在Vary Toy中,我们引入了改进的视觉词汇,使该模型不仅具有变化的所有功能,而且还具有更多的一般性。具体来说,我们用由对象检测驱动的正面样本数据代替了自然图像的负面样本,在生成视觉词汇的过程中,更充分地利用了词汇网络的能力,并使其能够有效地编码与自然对象相对应的视觉信息。对于实验,Vary-Toy可以在DOCVQA上获得65.6%的ANL,ChartQA的精度为59.1%,Refcoco的精度为88.1%,MMVET的精度为29%。该代码将在主页上公开可用。
摘要。我们提出了一种新颖的提示范式 DetToolChain,以释放多模态大型语言模型 (MLLM)(例如 GPT-4V 和 Gemini)的零样本物体检测能力。我们的方法包括一个受高精度检测先验启发的检测提示工具包和一个用于实现这些提示的新思路链。具体来说,工具包中的提示旨在引导 MLLM 关注区域信息(例如放大)、根据测量标准读取坐标(例如叠加尺子和圆规)以及从上下文信息中进行推断(例如叠加场景图)。基于这些工具,新的检测思路链可以自动将任务分解为简单的子任务,诊断预测并规划渐进式框细化。我们的框架的有效性在一系列检测任务中得到了证明,尤其是在困难情况下。与现有的最先进方法相比,使用我们的 DetToolChain 的 GPT-4V 可将最先进对象检测器的 AP 50 在 MS COCO Novel 类集(用于开放词汇检测)上提高 21.5%,在 RefCOCO val 集(用于零样本指称表达理解)上提高 24.23%,在 D-cube 描述对象检测 FULL 设置上提高 14.5% AP。代码将在接受后发布。
摘要。复制天生的人类根据任何粒度的自由形式文本检测所有对象仍然是大型视觉语言模型(LVLM)的强大挑战。当前的LVLM主要限制以定位单个预先存在的对象。此限制导致模型设计的妥协,因此需要进行视觉专家模型或定制的头部结构。除了这些约束之外,我们的研究还发现了LVLMS的基本观念能力,从而使它们能够准确地识别并找到感兴趣的对象。基于这种见解,我们引入了一种新颖的语言,促使本地化数据集充分释放了LVLM在细颗粒对象感知和精确的位置意识中的能力。更重要的是,我们提出了纯粹基于LVLM的基线Griffon,它不会引入任何特殊的代币,专家模型或其他分解模块。它通过在各种与本地化相关的方案中统一数据格式,通过统一数据格式保持与人口LVLM的一致结构,并通过设计良好的管道进行了端到端训练。全面的实验表明,格里芬不仅在细粒度的reccoco系列和flickr30k实体上实现了最新的性能,而且还可以在检测基准MSCOCO上更快地接近专家模型的能力。数据,代码和模型在https://github.com/jefferyzhan/griffon上发布。