摘要 - 在其突出的场景理解和发挥功能的情况下,预先训练的视觉语言模型(VLM)(例如GPT-4V)引起了机器人任务计划中越来越多的关注。与传统的任务计划策略相比,VLM在多模式信息解析和代码生成中很强,并表现出显着的效率。尽管VLM在机器人任务计划中具有巨大的潜力,但它们遭受了幻觉,语义复杂性和有限的背景等挑战。要处理此类问题,本文提出了一个多代理框架,即GameVLM,以增强机器人任务计划中的决策过程。在这项研究中,提出了基于VLM的决策和专家代理人来进行任务计划。具体来说,决策代理人用于计划任务,并采用专家代理来评估这些任务计划。零和游戏理论,以解决不同代理之间的不一致并确定最佳解决方案。对真实机器人的实验结果证明了该框架的功效,平均成功率为83.3%。我们的实验视频可在https://youtu.be/sam-mkcpp7y上找到。索引术语 - 任务计划,多机构,视觉语言模型,零和游戏理论,决策。
近年来,自主代理商在现实世界中的环境(例如我们的房屋,办公室和公共场所)中飙升。但是,自然的人类机器人互动仍然是一个关键挑战。在本文中,我们介绍了一种方法,该方法可以协同利用大语言模型(LLMS)和多模式视觉语言模型(VLMS)的功能,使人能够通过对话通过对话与自主机器人进行互动。我们利用LLM从人类中解码高级自然语言指令,并将其抽象成精确的机器人可操作的命令或查询。此外,我们利用VLMS对机器人任务环境提供了视觉和语义的理解。我们的结果99。13%的命令识别和97。96%的命令执行成功表明,我们的方法可以增强现实世界中的人类机器人相互作用。本文的视频演示可以在https://osf.io/wzyf6上找到,并且代码可在我们的存储库1中找到。
视觉语言模型(VLM)具有重大的概括能力,并且对VLM的迅速学习引起了人们的极大关注,因为它能够使预先训练的VLM适应既定的下游任务。但是,现有的研究主要集中于单模式提示或单向模态互动,从而忽略了视觉和语言方式之间的相互作用所带来的强大对齐效应。为此,我们提出了一种新颖的及时学习方法,称为B i方向i nteraction p rompt(BMIP),该方法通过学习注意力层的信息,增强了与简单的Inforormation聚合方法相比,通过学习注意力层的信息,增强了训练层的信息,增强了运动层的信息,增强了训练层的信息,增强了双向信息。为了评估迅速学习方法的有效性,我们提出了一个更现实的评估范式,称为开放世界概括,补充了广泛采用的跨数据库转移和域通用任务。在各种数据集上进行的综合实验表明,BMIP不仅比所有三种评估范式的当前最新方法都胜过当前的最新方法,而且还足够灵活,可以与其他基于及时的及时性能增强的方法结合使用。
摘要。视频时间基础旨在确定与给定自然语言查询最相关的未修剪视频中的视频片段。现有的视频时间本地化模型依靠特定的数据集进行培训,数据收集成本很高,但在跨数据库和分发(OOD)设置下表现出较差的概括能力。在本文中,我们提出了一种降雨,以利用预先训练的大型模型的能力,从而利用了EDEO T EMPORAL G圆形(TFVTG)方法。天真的基准是在视频中列举建议,并使用预先训练的视觉语言模型(VLM)根据视觉语言对齐来选择最佳建议。然而,大多数Exting VLM都经过图像文本对或修剪的视频剪辑对训练,这使得(1)抓住关系并区分同一视频中多个事件的时间边界; (2)在视频中理解并敏感事件的动态过渡(从一个事件到另一个事件的过渡)。要解决这些问题,首先,我们建议利用大型语言模型(LLMS)分析查询文本中包含的多个子事件,并分析这些事件之间的时间顺序和关系。其次,我们将一个子事件分为动态过渡和静态状态部分,并使用VLMS提出动态和静态评分功能,以更好地评估事件和描述之间的相关性。代码可在https://github.com/minghangz/tfvtg上找到。最后,对于LLMS提供的每个子事件描述,我们使用VLMS定位与描述最相关的TOP-K提案,并利用LLMS提供的子事件的OR-DER和关系来过滤和集成这些建议。我们的方法在Charades-STA和ActivityNet字幕数据集上的零照片视频基础上实现了最佳性能,而无需进行任何培训,并在跨数据库和OOD设置中展示了更好的通用功能。
在本研究中,我们使用视觉语言模型 (VLM) 作为二元成功检测器,给定机器人观察和任务描述,将其表述为视觉问答 (VQA) 问题。我们对开源 MiniGPT-4 VLM 进行了微调,以检测来自 Berkeley Bridge 和 Berkeley AUTOLab UR5 数据集的机器人轨迹上的成功。我们发现,虽然少量测试分布轨迹可以训练出准确的检测器,但由于分布偏移,在不同环境之间迁移学习具有挑战性。此外,虽然我们的 VLM 对语言变化具有鲁棒性,但对视觉变化的鲁棒性较差。未来,更强大的 VLM(例如 Gemini 和 GPT-4)有可能成为更准确、更强大的成功检测器,并且成功检测器可以提供稀疏的二元奖励来改进现有策略。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
诸如大语言模型(LLM)和视觉语言模型(VLM)之类的基础模型已显示出在许多域中的特定于任务特定模型,几乎没有进行微调。这种新的人工智能范式激发了我们将预训练的VLM应用于文本到视频检索。尽管这些模型无法直接处理视频,但我们研究了一个简单的解决方法:提示VLM提供视频帧的详细描述,以生成可用于语义文本搜索的文本文档。我们表明,这种简单的方法为使用MSR-VTT基准测试提供了零拍视频检索的竞争基线,这表明将基础模型应用于视频检索的任务。我们提供了广泛的消融,以了解系统的哪些部分对于性能很重要,并突出了许多将VLMS应用于视频检索的途径。
我们提出了一个由VLM和LLMs组成的p API API,以及一组机器人控制功能。使用此API和自然语言查询提示时,LLM会生成一个程序来积极识别给定输入图像的属性。
在Web-scale数据集中预先训练的视觉语言模型(VLMS)在用最小数据调整时,在下游任务上表现出了显着的功能。但是,许多VLM依赖于专有数据,而不是开源数据,这限制了使用白色框的使用进行精细调整。因此,我们旨在开发一种黑匣子方法来通过自然语言提示来优化VLM,从而避免需要访问模型参数,功能嵌入甚至输出逻辑。我们采用基于聊天的LLMS来搜索VLM的最佳文本提示。特别是,我们采用了一种自动的“爬山”程序,该程序通过评估当前提示的性能并要求LLMS根据文本反馈来对其进行融合,从而将其融合到有效的提示中,所有这些程序都在没有人类的对话过程中进行了反馈。在具有挑战性的1-Shot图像分类设置中,我们的简单方法平均超过了白色框连续提示方法(COP)1。在包括Imagenet在内的11个数据集中有5%。我们的方法还优于人工工程和LLM生成的提示。我们高出了对话反馈的优势,该反馈既不是正面和负面提示,表明LLM可以在文本反馈中利用隐式“梯度”方向,以进行更有效的搜索。此外,我们发现通过我们的策略生成的文本提示不仅更容易解释,而且还以黑盒方式在不同的VLM架构上良好地转移。最后,我们在最先进的Black-Box VLM(DALL-E 3)上演示了我们的框架,以进行文本对图像优化。