摘要。复制天生的人类根据任何粒度的自由形式文本检测所有对象仍然是大型视觉语言模型(LVLM)的强大挑战。当前的LVLM主要限制以定位单个预先存在的对象。此限制导致模型设计的妥协,因此需要进行视觉专家模型或定制的头部结构。除了这些约束之外,我们的研究还发现了LVLMS的基本观念能力,从而使它们能够准确地识别并找到感兴趣的对象。基于这种见解,我们引入了一种新颖的语言,促使本地化数据集充分释放了LVLM在细颗粒对象感知和精确的位置意识中的能力。更重要的是,我们提出了纯粹基于LVLM的基线Griffon,它不会引入任何特殊的代币,专家模型或其他分解模块。它通过在各种与本地化相关的方案中统一数据格式,通过统一数据格式保持与人口LVLM的一致结构,并通过设计良好的管道进行了端到端训练。全面的实验表明,格里芬不仅在细粒度的reccoco系列和flickr30k实体上实现了最新的性能,而且还可以在检测基准MSCOCO上更快地接近专家模型的能力。数据,代码和模型在https://github.com/jefferyzhan/griffon上发布。
为了研究LVLMS和人类之间的感知差距,我们引入了MVP-Bench,这是第一个视觉语言基准系统地评估LVLMS的低水平和高级视觉感知。我们在自然图像和合成图像上结构MVP基础,以研究操纵的结合如何影响模型感知。使用MVP-Bench,我们诊断了10个开源的视觉感知和2个封闭源LVLM,表明高级感知任务显着挑战了现有的LVLM。“ gpt-4O”状态仅在“是/否”问题上仅能达到56%的准确性,而低水平场景中的准确性为74%。此外,自然图像和操纵图像之间的性能差距表明,当前的LVLM并不像人类那样理解合成图像的视觉语义。我们的数据和代码可在https://github.com/guanzhenli/mvp-bench上公开获取。
随着大型语言模型(LLM)的出现,具有越来越令人印象深刻的范围,已经提出了许多大型视觉模型(LVLM),以使LLM具有视觉输入。这样的模型在输入显示和文本提示下生成了文本,从而实现了各种用例,例如视觉问答和多模式聊天。虽然先前的研究检查了LLMS产生的文本中所包含的社会偏见,但该主题在LVLM中得到了相对尚未探索的。检查LVLMS中的社会偏见尤其具有挑战性,这是因为在文本和视觉方式中所包含的信息所产生的偏见的混乱贡献。为了解决这个挑战性问题,我们对不同的LVLM产生的文本进行了大规模研究,该文本在反事实上对输入图像进行了更改,从而从流行模型中提出了超过5700万个响应。我们的多维偏见评估框架表明,图像中描述的种族,性别和身体特征等社会属性可能会显着影响有毒内容,能力相关词,有害的立体类型以及个人的数值等级的产生。
最近,大型视觉模型(LVLM)在多模式上下文理解中表现出了令人印象深刻的能力。但是,他们仍然遭受幻觉问题,即与图像内容产生不一致的输出。为了减轻幻觉,先前的研究主要集中于使用自定义数据集对LVLM进行重新培训。al-尽管有效,但它们本质上带有额外的计算成本。在本文中,我们提出了一个无培训的框架MVP,旨在通过通过Multimi-v iew Multi-p ath的理由来减少LVLMS的天生能力来减少幻觉。具体来说,我们首先设计了一种多视图信息寻求信息的策略,以彻底了解IMEAM中的全面信息,该信息丰富了原始愿景编码器在LVLMS中捕获的一般全球信息。此外,在答案解码期间,我们为每种信息视图提出了多路推理,以量化和集结多个解码路径中每个电位的确定性得分,并效法确定输出答案。通过完全掌握图像中的信息,并在解码时仔细考虑了潜在的范围的确定性,我们的MVP可以有效地减少LVLM中的幻觉。广泛的实验证明了我们提出的MVP可以显着减轻四个众所周知的LVLM的幻觉概率。更重要的是,MVP是插件,可以与其他解码方法集成,以进行更多的增强。源代码可在以下网址提供:https://github.com/gasolsun36/mvp。
在2023年演奏大型视觉语言模型(LVLM)在AI社区中很流行。但是,相对较大的参数(超过7b)流行的LVLM使训练和部署在消费者GPU上,阻止许多资源有限的研究人员。想象一下在旧的GTX1080TI(我们唯一的游戏卡)上体验当前LVLM的所有功能将有多酷。因此,我们在本报告中介绍了各种大小,而QWEN-1.8B则是基本的“大”语言模型。在Vary Toy中,我们引入了改进的视觉词汇,使该模型不仅具有变化的所有功能,而且还具有更多的一般性。具体来说,我们用由对象检测驱动的正面样本数据代替了自然图像的负面样本,在生成视觉词汇的过程中,更充分地利用了词汇网络的能力,并使其能够有效地编码与自然对象相对应的视觉信息。对于实验,Vary-Toy可以在DOCVQA上获得65.6%的ANL,ChartQA的精度为59.1%,Refcoco的精度为88.1%,MMVET的精度为29%。该代码将在主页上公开可用。
摘要 - 本文使用3D深度自动编码器和大型视觉语言模型(LVLM)介绍了一种新方法,以弥合视频数据和多模式模型之间的差距,以进行视频异常检测。该研究探讨了先前架构的局限性,尤其是在遇到分布外实例时缺乏专业知识。通过在同一管道中集成自动编码器和LVLM,该方法可以预测异常的存在并提供详细的解释。此外,这可以通过采用二进制分类并自动提示新查询来实现。测试表明,系统的推论能力为工业模型的缺点提供了有希望的解决方案。但是,缺乏用于异常检测的高质量指导遵循视频数据需要一种弱监督的方法。公认的LLM领域的当前局限性,例如物体幻觉和低物理学感知,突出了需要进一步研究以改善视频异常检测域的模型设计和数据质量。
随着大语言模型(LLM)和随后的聊天模型的最新进展,出现了新的大视力 - 语言模型(LVLM)的新浪潮。此类模型除文本外还可以输入输入,并执行诸如视觉问题的任务,图像字幕,故事产生等。在这里,我们根据输入图像中人们的特征来检查此类系统中潜在的性别和种族偏见。为此,我们提出了一个新的数据集对(日常场景的并行图像)。对数据集包含一组人的AI生成图像,因此图像在背景和视觉内容方面非常相似,但沿性别(男人,女人)和种族(黑色,白色)的维度有所不同。通过使用此类图像查询LVLM,我们根据所描绘的人的感知一代或种族观察到响应的显着差异。
大型视觉模型(LVLM)越来越擅长从视觉输入中产生上下文详细且相干的响应。然而,它们在多模态决策和开放式的一代中的应用受到了明显的Hal-Lucinations的限制,因为生成的文本不准确地代表了视觉内容。为了解决这个问题,本文介绍了指令解码(ICD)方法,这是一种旨在减少LVLM推论的幻觉的新颖性。我们的方法的灵感来自我们的观察,即我们所说的干扰指令在多模层融合模块中显着加剧了幻觉。ICD会从标准和指导扰动中进行分布,从而增加对齐不确定性,并有效地从原始分布中减去幻觉的概念。通过对犯罪基准(POPE和MME)和生成基准(Llava-Bench)的全面实验,我们证明ICD显着减轻了对象级别和属性级别的幻觉。此外,我们的方法不仅解决了幻觉,而且还显着增强了LVLMS的一般感知和识别。
大型视觉模型(LVLM)最近引起了极大的关注,许多努力旨在利用其一般知识来增强自主驾驶模型的可靠性和鲁棒性。但是,LVLM通常依靠大型通用数据集,并且缺乏专业驾驶所需的专业专业知识。现有的视觉驱动数据集主要关注场景的理解和决策,而无需提供有关交通规则和驾驶技能的明确指导,这是与驾驶安全直接相关的关键方面。为了弥合这一差距,我们提出了IDKB,这是一个大规模数据集,其中包含从各个国家 /地区收集的一百万个数据项,包括驾驶手册,理论测试数据和模拟道路测试数据。很像获得驾驶执照的过程,IDKB几乎涵盖了从理论到实践所需的所有明确知识。在特殊情况下,我们对IDKB进行了15 lvlms的全面测试,以评估其在自治驾驶的背景下的可靠性,并提供了广泛的分析。我们还微调了流行模型,实现了显着的性能改进,这进一步验证了我们数据集的重要性。项目页面可以在以下网址找到:https:// 4dvlab.github.io/project_page/idkb.html
我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。