最近,大型视觉模型(LVLM)在多模式上下文理解中表现出了令人印象深刻的能力。但是,他们仍然遭受幻觉问题,即与图像内容产生不一致的输出。为了减轻幻觉,先前的研究主要集中于使用自定义数据集对LVLM进行重新培训。al-尽管有效,但它们本质上带有额外的计算成本。在本文中,我们提出了一个无培训的框架MVP,旨在通过通过Multimi-v iew Multi-p ath的理由来减少LVLMS的天生能力来减少幻觉。具体来说,我们首先设计了一种多视图信息寻求信息的策略,以彻底了解IMEAM中的全面信息,该信息丰富了原始愿景编码器在LVLMS中捕获的一般全球信息。此外,在答案解码期间,我们为每种信息视图提出了多路推理,以量化和集结多个解码路径中每个电位的确定性得分,并效法确定输出答案。通过完全掌握图像中的信息,并在解码时仔细考虑了潜在的范围的确定性,我们的MVP可以有效地减少LVLM中的幻觉。广泛的实验证明了我们提出的MVP可以显着减轻四个众所周知的LVLM的幻觉概率。更重要的是,MVP是插件,可以与其他解码方法集成,以进行更多的增强。源代码可在以下网址提供:https://github.com/gasolsun36/mvp。
通知和免责声明英特尔致力于尊重人权并避免在侵犯人权上的同谋。参见英特尔全球人权原则。Intel®产品和软件仅用于不造成或违反国际公认的人权的应用程序。Intel®技术可能需要启用硬件,软件或服务激活。没有绝对安全的产品或组件。您的成本和结果可能会有所不同。英特尔不控制或审核第三方数据。您应该咨询其他来源以评估准确性。©Intel Corporation。英特尔,英特尔徽标和其他英特尔商标是英特尔公司或其子公司的商标。其他名称和品牌可能被称为他人的财产。1124/na/cmd/pdf
尽管最近展示了视力模型的进步,但使用自然语言描述图像中复杂关系的能力,但它们对物体大小和距离进行定量研究的能力仍未得到充实。在这项工作中,我们介绍了一个手动注释的基准Q-As-Spatial Batch,其中有271个问题,旨在定量空间原因,并系统地研究了最新的VLMS对此任务的表现。我们的分析表明,对物体之间的差异的推理对SOTA VLM尤其挑战。但是,有些VLM的表现明显优于其他VLM,两个最佳性能模型之间的差距超过40点。我们还令人惊讶地观察到,当使用参考对象的推理路径在响应中自然出现时,表现最佳VLM的成功率会增加19点。受到这一观察的启发,我们开发了一种零射击提示技术,即“空间”,该技术鼓励VLMS使用参考对象作为视觉提示,从而鼓励VLMS进行定量的空间问题。通过指示VLM通过空间启示,Gemini 1.5 Pro,Gemini 1.5 Flash和GPT-4V在其理性路径中使用参考对象,将其成功率提高了40、20和30点,并显着地提高了其成功率。我们强调,可以获得这些重大改进,而无需更多的数据,模型架构修改或微调。1
在广泛的数据集上预先训练的视觉语言模型(VLMS)可以通过将性别信息与特定对象或场景相关联,无意中地学习偏见。当前方法,该方法着重于修改输入并监视模型的输出概率分数的变化,通常从模型组件的角度来全面地偏见。我们提出了一个框架,该框架结合了因果中介分析,以确保并绘制VLM中偏见产生和传播的途径。我们的框架适用于广泛的视觉语言和多模式任务。在这项工作中,我们将其应用于对象检测任务并将其应用于GLIP模型。这种方法使我们能够确定干预措施对模型偏差的直接影响以及干预措施对通过不同模型组件介导的偏差的间接影响。我们的结果表明,图像效果是偏见的主要因素,其影响明显高于文本特征,特别是占MSCOCO和PASCAL-SONTIC数据集中偏见的32.57%和12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深层融合编码器的贡献。进一步的实验证实,语言和视力方式的贡献是对齐和不集中的。因此,在图像编码器中着重于模糊的性别表示,这对模型偏见做出了最大的贡献,在MSCOCO和PASCAL-SENTENCE数据集中,有效地降低了偏见22.03%和9.04%,并且具有最小的性能损失或增加的计算需求。1
摘要 - 基于学习的方法已经实现了四足动力的强大性能。然而,一些挑战阻止了四足动物学习需要与环境和人类互动的有用室内技能:缺乏操纵的最终效果,仅使用模拟数据使用有限的语义介绍,以及在室内环境中的较低的遍历性和可及性。我们提出了一个在室内环境中进行四足动物移动操作的系统。它使用前式握把进行对象操纵,这是一种低级控制器,在模拟中培训了以egile的深度进行训练,以攀登和全身倾斜等敏捷技能,以及预先训练的视觉语言模型(VLMS),并具有第三人称Fisheye和Egentric RGB摄像头,以探索fishereye和Egincentric RGB摄像头,以进行儿子理解和指挥生成。我们在两个看不见的环境中评估了我们的系统,而没有任何现实数据收集或培训。我们的系统可以零射对这些环境并完成任务,例如遵循用户的命令在攀登女王大小的床上,成功率为60%。
摘要:计算机视觉是医学图像分析中的强大工具,支持对眼部疾病的早期检测和分类。糖尿病性视网膜病(DR)是继发于糖尿病的严重眼科疾病,伴随着危险性疾病的几个早期迹象,例如微型神经疗法(MAS),出血(Hemos)和渗出液(EXS),这些症状已被广泛研究并靶向由计算机视觉模型检测的对象。在这项工作中,我们测试了最先进的Yolov8和Yolov9 Architectures DR Feldus功能分割的表演,而无需编码经验或编程背景。我们从公共Messidor数据库中获取了一百个DR图像,并手动标记并准备了它们以进行像素分割,并测试了不同模型变体的检测能力。我们通过数据增强增加了训练样本的多样性,包括平铺,翻转和旋转眼底图像。在检测诸如MA,Hemo和ex之类的DR病变时,提出的方法达到了可接受的平均平均精度(MAP),以及眼睛后极的标志,例如视盘。我们将我们的结果与涉及不同神经网络的文献中的相关作品进行了比较。我们的结果是有希望的,但尚未准备好进入临床实践。必须进行准确的病变检测,以确保早期和正确的诊断。未来的工作将进一步研究病变检测,尤其是MA分割,并通过改进的提取技术,图像预处理和标准化数据集进行研究。
摘要 - 深度神经网络在大多数计算机视觉问题中一直始终代表最新技术。在这些情况下,较大且更复杂的模型表现出优于较小架构的性能,尤其是在接受大量代表性数据培训时。随着视觉变压器(VIT)架构的最新采用和广告卷积神经网络(CNN),领先的主链体系结构的参数总数从2012年的6200万参数增加到ALEXNET的6200万参数,到2024年AIM-7B的2024年参数。因此,部署这样的深度体系结构在处理和运行时限制的环境中面临挑战,尤其是在嵌入式系统中。本文涵盖了用于计算机视觉任务的主要模型压缩技术,使现代模型可以用于嵌入式系统中。我们介绍了压缩亚地区的特征,比较不同的方法,并讨论如何在各种嵌入式设备上分析它时选择最佳技术和预期变化。我们还共享代码,以协助研究人员和新从业人员克服每个子区域的初始实施挑战,并为模型压缩带来现有趋势。压缩模型的案例研究可在https://github.com/venturusbr/cv-model-compression上获得。索引术语 - 安装系统,模型压缩,知识蒸馏,网络修剪,网络量化
屏幕用户界面(UIS)和信息图表,分享类似的视觉语言和设计原则,在人类通信和人机互动中起重要作用。我们介绍了Screenai,这是一个专门研究UI和信息图表理解的视觉语言模型。我们的模型通过Pix2-Struct的浮雕修补策略改进了Pali体系结构,并通过数据集的独特混合物进行了培训。该混合物的核心是一项新颖的屏幕注释任务,模型必须在其中识别UI元素的类型和位置。我们使用这些文本注释将抄写屏幕屏幕截止到大型语言模型,并通过大规模生成问题索问题(QA),UI导航和摘要培训数据集。我们进行消融研究,以证明这些设计选择的影响。在仅5b个选项中,Screenai在基于UI的和信息图表的任务(乘法DOCVQA,WebSRC和Motif)以及与Simi-lar尺寸的模型相比,在其他基于UI-和信息图表的任务(乘法DOCVQA,WebSRC和Motif)方面取得了新的最先进的结果。最后,我们发布了三个新数据集:一个专注于屏幕注释任务,而两个专注于问题回答的others。
Bistable图像,也称为模棱两可的图像或可逆图像,显示了视觉刺激,尽管观察者并非同时,但可以在两个不同的解释中看到。在这项研究中,我们使用可动的图像对视觉模型进行了最广泛的检查。我们手动收集了一个数据集,其中包括29张Bissable图像以及它们的相关标签,并在亮度,色彩,旋转和分辨率方面进行了121种不同的操作。我们评估了六个模型体系结构的分类和属性任务中的十二个不同模型。我们的发现表明,除了来自Idefics家族和llava1.5-13b的模型外,在模型之间,一个相对于另一个相对于另一个相对于另一个相对于图像操作的差异的明显偏爱,对图像旋转的例外很少。另外,我们将模型的偏好与人类进行了比较,并指出这些模型并没有与人类相同的连续性偏见,并且通常与人类初始解释有所不同。我们还调查了提示中的变化和使用同义标签的影响,发现与图像训练数据相比,这些因素明显更多的是模型的解释,而不是图像较高的图像表现出对Bissable图像解释的影响更高。所有代码和数据都是开源的1。
摘要。SRGB图像现在是计算机视觉研究中预训练视觉模型的主要选择,这是由于它们的易用性和效果存储。同时,原始图像的优点在于它们在可变的现实世界中的较丰富的物理信息。对于基于相机原始数据的计算机视觉任务,大多数现有研究采用了将图像信号处理器(ISP)与后端网络集成的方法,但经常忽略ISP阶段和后续网络之间的相互作用功能。从NLP和CV区域中正在进行的适配器研究中汲取灵感,我们介绍了Raw-Adapter,这是一种旨在将SRGB预先训练的模型调整为相机原始数据的新颖方法。RAW-ADAPTER包括输入级适配器,这些适配器采用可学习的ISP阶段来进行AD-RAW输入,以及模型级别的适配器,以在ISP阶段和随后的高级网络之间建立连接。此外,Raw-Adapter是一个可以在各种Compoter Vision Frameworks中使用的通用框架。在不同的照明条件下进行了丰富的实验,已经显示了我们算法的最先进(SOTA)绩效,证明了其在一系列现实世界和合成数据集中的有效性和效率。代码可在此URL上找到。