一些物种或其他非动物类别。如图2所示,我们显示了仅在视觉上与哺乳动物具有特色的概念,而在鸟类,昆虫和客机上共享的“翅膀”。剪辑[15]模型的示例W.R.T.相同的概念可能在不同类别中有所不同,它们通常与其他概念甚至虚假因素纠缠在一起。相比之下,我们的模型始终定位W.R.T.区域conept的语义含义。例如,尽管“翅膀”概念的外观在鸟类,昆虫和客机之间发生了巨大变化,但我们的概念级解释仍然可以准确地定位于机翼区域。这表明我们的模型具有该概念的真正含义,即使其呈现方式都在类别上发生了巨大变化。
由于防御机制不足。例如,HAL-036语言模型的透明度和幻觉[14]可能会影响037对场景的可靠理解,从而导致机器人系统中不希望的038动作。另一个风险来源是039是LLMS/VLMS无法解决文本或图像提供的040上下文信息的歧义[35,52]。041由于当前语言模型通常遵循模板-042的提示格式来执行任务[16,29],因此缺乏043在解决自然044语言的变体和同义词时缺乏灵活性也可能导致045个提示的误解[24,43]。此外,在提示046中使用多模式的输入增加了上下文理解的难度和047推理的难度,这可能导致更高的失败风险[8,18]。048在实际应用中,这些风险将对机器人系统的鲁棒性和安全构成重大挑战。050我们的目标是分析语言模型和机器人技术的可信度和可靠性051。在这方面,我们的目标是052通过广泛的实验提高对机器人应用程序054的最先进语言模型的安全问题的认识。我们表明,需要对该主题进行进一步的研究055,以安全地部署基于LLM/VLM的056机器人,以实现现实世界应用程序。我们的主要重点是057
医学视觉语言模型 (VLM) 结合了计算机视觉 (CV) 和自然语言处理 (NLP) 来分析视觉和文本医学数据。本文回顾了医疗保健专用 VLM 的最新进展,重点介绍了专为医疗报告生成和视觉问答 (VQA) 设计的模型。我们提供了 NLP 和 CV 的背景知识,解释了如何将这两个领域的技术集成到 VLM 中以实现从多模态数据中学习。我们讨论的关键领域包括医学视觉语言数据集的探索、最近值得关注的医学 VLM 中采用的架构和预训练策略的深入分析,以及对评估 VLM 在医疗报告生成和 VQA 中的表现的评估指标的全面讨论。我们还强调了当前的挑战并提出了未来的方向,包括提高临床有效性和解决患者隐私问题。总体而言,我们的综述总结了开发 VLM 以利用多模态医疗数据来改进医疗保健应用的最新进展。
本文探讨了视觉语言模型 (VLM) 作为操作代理在太空领域的应用,重点关注软件和硬件操作范例。基于大型语言模型 (LLM) 及其多模态扩展的进步,我们研究了 VLM 如何增强太空任务中的自主控制和决策。在软件环境中,我们在 Kerbal 太空计划差分博弈 (KSPDG) 模拟环境中使用 VLM,使代理能够解释图形用户界面的视觉屏幕截图以执行复杂的轨道机动。在硬件环境中,我们将 VLM 与配备摄像头的机器人系统集成在一起,以检查和诊断物理空间物体,例如卫星。我们的结果表明,VLM 可以有效地处理视觉和文本数据以生成适合上下文的操作,在模拟任务中与传统方法和非多模态 LLM 竞争,并在实际应用中显示出良好的前景。
台式标记,以测量VLM的零射门原因和一致性。我们评估了最新的VLM,发现即使表现最佳的模型也无法证明强大的视觉推理能力和一致性,这表明需要进行基础努力以使VLMS能够系统地和始终如一地像人类一样执行视觉推理。作为早期一步,我们提出了一个两阶段的培训框架,旨在提高VLM的推理和一致性而没有人类注释。该框架由两个主要阶段组成:监督的微调和从反馈中学习,以指导VLMS生成既有一致性又扎根的推理链。我们的框架工作在推理性能和一致性方面表现出4%的相对改善。我们在https://github.com/ yangyi-chen/cotconsistency上发布数据集。
尽管最近展示了视力模型的进步,但使用自然语言描述图像中复杂关系的能力,但它们对物体大小和距离进行定量研究的能力仍未得到充实。在这项工作中,我们介绍了一个手动注释的基准Q-As-Spatial Batch,其中有271个问题,旨在定量空间原因,并系统地研究了最新的VLMS对此任务的表现。我们的分析表明,对物体之间的差异的推理对SOTA VLM尤其挑战。但是,有些VLM的表现明显优于其他VLM,两个最佳性能模型之间的差距超过40点。我们还令人惊讶地观察到,当使用参考对象的推理路径在响应中自然出现时,表现最佳VLM的成功率会增加19点。受到这一观察的启发,我们开发了一种零射击提示技术,即“空间”,该技术鼓励VLMS使用参考对象作为视觉提示,从而鼓励VLMS进行定量的空间问题。通过指示VLM通过空间启示,Gemini 1.5 Pro,Gemini 1.5 Flash和GPT-4V在其理性路径中使用参考对象,将其成功率提高了40、20和30点,并显着地提高了其成功率。我们强调,可以获得这些重大改进,而无需更多的数据,模型架构修改或微调。1
语言和视觉模型(LLMS/VLMS)通过产生类似人类的文本和理解图像的能力彻底改变了AI领域,但是确保其可靠性至关重要。本文旨在评估LLM(GPT4,GPT-3.5,Llama2和Palm 2)和VLMS(GPT4V和Gemini Pro Vision)通过提示估算其口头上的不确定性的能力。我们提出了新的日本不确定场景(JUS)数据集,旨在通过困难的查询和对象计数测试VLM功能,以及净校准误差(NCE)来测量错误校准的方向。结果表明,LLMS和VLM都有很高的校准误差,并且大多数时候都过高地表明不确定性估计的能力较差。此外,我们为回归任务开发了提示,并且我们表明,在产生平均/标准偏差和95%置信区间时,VLM的校准较差。
Guest Editors Xiang Li, King Abdullah University of Science and Technology (xiangli92@ieee.org) Xiao Xiang Zhu, Technical University of Munich (xiaoxiang.zhu@tum.de) Gui-Song Xia, Wuhan University (guisong.xia@whu.edu.cn) Sherrie Wang, Massachusetts Institute of Technology (sherwang@mit.edu)武汉大学(balz@whu.edu.cn)蒂莫·巴尔兹(Timo Balz),阿卜杜拉国王科学技术大学(Mohamed.elhaseiny@kaust.edu.sa)Mohamed Elhoseiny,远程传感的视觉语言模型(VLMS)。vlms代表了计算机视觉和自然语言处理技术的开创性整合,旨在通过对视觉和文本信息的更细微的理解来增强与RS数据的解释和互动。通过弥合视觉识别和语义理解之间的差距,VLM提供了一个全面的框架,通过实现复杂的语义分析和自然语言描述功能,超越了传统的视觉任务。更重要的是,通过将视觉模型与LLM相结合,VLM可以利用验证的LLMS中的先验知识来解决复杂的推理任务。
摘要 - 自主驾驶技术的发展需要越来越复杂的方法来理解和预测现实世界的情况。视觉语言模型(VLM)正在成为革命性的工具,具有影响自主驾驶的巨大潜力。在本文中,我们提出了DriveGenVLM框架来生成驾驶视频并使用VLM来理解它们。为了实现这一目标,我们采用了一个基于降级扩散概率模型(DDPM)的视频生成框架,旨在预测现实世界的视频序列。然后,我们通过在Egintric视频(EILEV)上采用预训练的模型,探讨了我们生成的视频在VLM中使用的充分性。通过Waymo打开数据集对扩散模型进行了训练,并使用FR´Echet视频距离(FVD)得分进行了评估,以确保生成的视频的质量和现实性。EILEV为这些生成的视频提供了相应的叙述,这可能对自主驾驶领域有益。这些叙述可以增强交通现场的理解,帮助导航并提高计划功能。在DriveGenVLM框架中将视频生成与VLM的集成代表了利用先进的AI模型来解决自主驾驶中复杂挑战的重要一步。
Lekha Revankar Phd量表 - 遥感中的识别2023-2024 Rajeev Datta Phd变更事件识别2024 Chai-Hsiang Kao Phd Phd遥感问题答复剂2024 Sumit Sarin Masters通过Translation通过翻译2023-2024 Madhav Aggarwal Masters Distection 2024 Nath Natection 2023-24嵌入2024 Snehal Bhagat掌握了有效的变更事件检测2024 Selina Xiao遥感VLMS的概括VLMS 2024 JENNY JIN遥感VLMS 2024 HANGYU ZHOU ZHOU ZHOU本科云的本科生检测和Removal cloud dection and Removal 2021-2024 Aaron yaaron yaaron yaaron Yagraducutnik vlm vnik vlm vnik vlm vnik vlm vlm vlm vlm vlm vlm vlm sait vilmand vlmand vlm sait vilmand vlm saut vlm saT Gunda本科用户界面的卫星图像搜索2024 Anant Shyam本科VLM for Landsat Imagery 2024 JT Klenke本科生开放式Vocabulary细分2024