摘要 - 自主驾驶技术的发展需要越来越复杂的方法来理解和预测现实世界的情况。视觉语言模型(VLM)正在成为革命性的工具,具有影响自主驾驶的巨大潜力。在本文中,我们提出了DriveGenVLM框架来生成驾驶视频并使用VLM来理解它们。为了实现这一目标,我们采用了一个基于降级扩散概率模型(DDPM)的视频生成框架,旨在预测现实世界的视频序列。然后,我们通过在Egintric视频(EILEV)上采用预训练的模型,探讨了我们生成的视频在VLM中使用的充分性。通过Waymo打开数据集对扩散模型进行了训练,并使用FR´Echet视频距离(FVD)得分进行了评估,以确保生成的视频的质量和现实性。EILEV为这些生成的视频提供了相应的叙述,这可能对自主驾驶领域有益。这些叙述可以增强交通现场的理解,帮助导航并提高计划功能。在DriveGenVLM框架中将视频生成与VLM的集成代表了利用先进的AI模型来解决自主驾驶中复杂挑战的重要一步。
在Web-scale数据集中预先训练的视觉语言模型(VLMS)在用最小数据调整时,在下游任务上表现出了显着的功能。但是,许多VLM依赖于专有数据,而不是开源数据,这限制了使用白色框的使用进行精细调整。因此,我们旨在开发一种黑匣子方法来通过自然语言提示来优化VLM,从而避免需要访问模型参数,功能嵌入甚至输出逻辑。我们采用基于聊天的LLMS来搜索VLM的最佳文本提示。特别是,我们采用了一种自动的“爬山”程序,该程序通过评估当前提示的性能并要求LLMS根据文本反馈来对其进行融合,从而将其融合到有效的提示中,所有这些程序都在没有人类的对话过程中进行了反馈。在具有挑战性的1-Shot图像分类设置中,我们的简单方法平均超过了白色框连续提示方法(COP)1。在包括Imagenet在内的11个数据集中有5%。我们的方法还优于人工工程和LLM生成的提示。我们高出了对话反馈的优势,该反馈既不是正面和负面提示,表明LLM可以在文本反馈中利用隐式“梯度”方向,以进行更有效的搜索。此外,我们发现通过我们的策略生成的文本提示不仅更容易解释,而且还以黑盒方式在不同的VLM架构上良好地转移。最后,我们在最先进的Black-Box VLM(DALL-E 3)上演示了我们的框架,以进行文本对图像优化。
诸如大语言模型(LLM)和视觉语言模型(VLM)之类的基础模型已显示出在许多域中的特定于任务特定模型,几乎没有进行微调。这种新的人工智能范式激发了我们将预训练的VLM应用于文本到视频检索。尽管这些模型无法直接处理视频,但我们研究了一个简单的解决方法:提示VLM提供视频帧的详细描述,以生成可用于语义文本搜索的文本文档。我们表明,这种简单的方法为使用MSR-VTT基准测试提供了零拍视频检索的竞争基线,这表明将基础模型应用于视频检索的任务。我们提供了广泛的消融,以了解系统的哪些部分对于性能很重要,并突出了许多将VLMS应用于视频检索的途径。
摘要。近年来,已经在自动驾驶中调查了大型视力和语言模型(VLM),以解决长期存在的问题,包括推理,概括和长尾方案。但是,将VLM的有效整合到自主驾驶框架中仍然是一个悬而未决的问题。在本文中,我们提出了VLP,这是一个新颖的视觉语言规划框架,它利用了大型视觉语言模式来弥合语言理解与自动驾驶之间的差距。VLP是一种训练方法,它通过提出对比度学习目标来提炼VLM的力量到端到端模块化自主驾驶。在开路和闭环任务上进行了广泛的实验,验证了VLP的实用性。尤其是,VLP通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,在Nuscenes数据集上实现了状态的端到端计划绩效。
视觉语言模型(VLM)最近被利用以生成机器人动作,形成视觉语言动作(VLA)模型。然而,直接适应验证的VLM来进行机器人控制仍然具有挑战性,尤其是当受到有限数量的机器人示范限制时。在这项工作中,我们介绍了llara:l arge l arguage and robotics a ssistant,该框架将机器人动作策略作为视觉文本对话制定,并通过视觉视觉视觉中的视觉音调调谐到计算机视觉中的成功激励到有效的VLA中,从而有效地将VLM转移到强大的VLA中。首先,我们提出了一条自动化管道,以生成来自外部行为克隆数据集的机器人的对话风格的指令调整数据,将机器人动作与图像像素辅助材料对齐。此外,我们通过定义六个辅助任务以自我监督的方式增强了此数据集,而无需任何其他操作注释。我们表明,使用有限数量的此类数据集进行的VLM FINETUNENET可以为机器人控制产生有意义的行动决策。通过跨模拟和现实世界的实验,我们证明了Llara在保留大语言模型的概括能力的同时,实现了状态的性能。代码,数据集和预处理的模型可在https://github.com/lostxine/llara上找到。
摘要 - 视觉语言模型(VLMS)在理解图像和文本方面具有出色的熟练程度,并基于此类输入生成文本输出,因为它们在网络规模的数据集上进行了培训。它们的机器人应用潜力特别有趣。一个值得注意的例子是RT-2,它是一个能够从给定指令中以文本格式代表的低级操作的系统,以及一系列历史动作和图像观察。为了刺激该领域的进一步研究,我们引入了用于在基于教学的机器人控制中使用VLM的开源实现。此实现支持各种VLM架构,并促进了新模型的直接集成。我们使用我们的框架来训练多个VLM并在物理机器人上进行评估。结果验证了我们框架的实际功效,从而为增强基于教学的机器人控制系统的理解和能力铺平了道路。代码可在以下网址提供:https://github.com/nicolinho/robobovlm。
当前用于评估视觉模型(VLM)的基准通常集中在其感知或解决问题的能力上,并忽略了其他关键方面,例如公平,多语言或毒性。此外,他们的评估程序和评估范围有所不同,因此很难比较模型。为了解决这些问题,我们将Helm框架扩展到VLM,以介绍视觉语言模型(VHELM)的整体评估。vhelm汇总了各种数据集,以涵盖9个方面的一个或多个:视觉感知,知识,推理,偏见,公平,多语言,稳健性,毒性和安全性。这样做,我们对这些重要因素中VLM的功能产生了全面的多维视图。此外,我们将标准推理参数,提示方法和评估指标标准化,以实现跨模型的公平比较。我们的框架设计为轻巧且自动,因此评估运行既便宜又快。我们的初始运行评估了21个现有数据集上的22个VLM,以提供模型的整体快照。我们发现了新的关键发现,例如,以效率为中心的模型(例如Claude 3 Haiku或Gemini 1.5 Flash)的表现要比其完整模型(例如Claude 3 Opus或Gemini 1.5 Pro)的差异明显差,但在其他方面进行了评估时没有在偏置基准上进行差异。对于透明度,我们发布了原始模型世代,并在网站上的https://crfm.stanford.edu/helm/vhelm/vhelm/v2.0.1上完成了完整的结果。vhelm旨在成为活的基准,我们希望随着时间的推移继续添加新的数据集和模型。
摘要:导航研究中的一个难以捉摸的目标是建立一个智能代理,该智能代理可以理解包括自然语言和IM的多模式说明,并执行有用的导航。为了实现这一目标,我们研究了一个广泛有用的导航任务,我们称之为多模式指令导航,该导航带有恶魔之旅(MINT),其中通过预先录制的演示视频提供了先验的环境。视觉语言模型(VLM)的最新进展在实现这一目标方面表现出了有希望的途径,因为它展示了感知和推理多模式输入的能力。为了解决薄荷,我们提出了移动性VLA,这是一种层次视觉语言行动(VLA)导航政策,将环境理解和长篇小说VLM的常识推理能力结合在一起,以及基于拓扑图的强大的低级导航策略。高级策略由一个长篇小说VLM组成,该VLM将演示游览视频和多模式用户指令作为输入,以在旅行视频中找到目标框架。接下来,一个低级策略使用目标框架和构造的拓扑图来在每个时间步中生成机器人动作。我们在836M 2现实世界环境中评估了移动性VLA,并表明Mobility VLA在以前未解决的多模式指令中具有很高的端到端成功率,例如“我应该在哪里返回?”拿着一个塑料箱。可以在此处找到一个展示移动性VLA的视频:youtu.be/-tof Q8 5S
摘要。缺乏有关乳腺癌检测的计算机辅助诊断(CAD)的大量培训数据一直是阻碍系统采用的问题之一。最近,通过视觉模型(VLM)(例如,剪辑)对大规模图像文本数据集进行预训练,部分解决了计算机视觉(CV)中鲁棒性和数据效率的问题。本文提出了Mammo-CLIP,这是第一个通过大量筛选乳房X线图 - 报告对的VLM,以解决数据集多样性和大小的挑战。我们在两个公共数据集上进行的实验表明,在对乳腺癌检测至关重要的各种乳腺X线学属性时表现出强烈的表现,表明数据效率和鲁棒性与CV中的剪辑相似。我们还提出了一种新型特征归因方法Mammo-Factor,以在乳房X线摄影报告中使用句子级粒度来提供表示表示的空间解释。代码可公开使用:https://github.com/batmanlab/mammo-clip。
我们研究对比视力语言模型(VLM)中的文化和社会经济多样性。使用广泛的基准数据集和评估指标,我们引起了一些重要的发现。首先,将培训数据的常见过滤到英语图像 - 文本对缺点社区的社区较低的社区,并对文化理解产生负面影响。值得注意的是,这种性能差距并未被目前流行的评估指标捕获,而不是与西方以西方为中心的ImageNet和可可数据集衍生的评估指标相矛盾。第二,在对英语内容进行微调之前对全球,未经过滤的数据进行预处理可以提高文化理解,而无需牺牲所述流行基准的表现。第三,我们将地理定位的任务介绍为评估VLM中文化多样性的新型评估指标。我们的工作强调了使用不同数据来创建更具包容性的多模式系统的价值,并为开发更好地代表全球视角的VLM奠定了基础。