机器人技术中的自主导航传统上依赖于预定的航路点和结构化图,从而限制了动态,真实世界环境中的可扩展性。缺乏通知的语言操作数据集进一步使语言驱动的导航模型的发展变得复杂。受到大规模视觉语言模型(VLM),图像生成模型和基于视觉的机器人控制的最新进展的启发,我们提出了使用VLM引导的图像子缘合成(ELVISS)探索探索的框架,以增强使用用户指示的机器人导航任务的勘探。此框架利用VLMS的语义推理将复杂的任务分解为更简单的任务,并通过生成由低级策略执行的与任务相关的图像子搜索来执行它们。我们还结合了一个基于VLM的子量验证循环,以最大程度地减少执行未生成的子观念。实验结果表明,我们的验证循环显着改善了执行操作与我们的指令的对齐,并且我们的结果系统能够执行基于广义的基于搜索的说明。
摘要。体现的场景理解是自主代理人感知,解释和应对开放驾驶场景的基石。这种理解通常建立在视觉模型(VLM)上。尽管如此,现有的VLM仅限于2D领域,没有空间意识和长匹马外推过程。我们重新审视了自主驾驶和适当的专栏的关键方面。特此,我们介绍了体现语言模型(ELM),这是一个针对代理商量身定制的综合框架,该框架对具有较大空间和暂时的跨度的驾驶场景的理解。ELM结合了空间感知的预训练,以赋予代理具有强大的空间定位功能。此外,该模型还采用时间感知的令牌选择来准确询问时间提示。我们可以在重新重新的多面基准上实现Elm,并且在各个方面都超过了先前的最新方法。所有代码,数据和模型均可在https://github.com/opendrivelab/elm上访问。
我们研究对比视力语言模型(VLM)中的文化和社会经济多样性。使用广泛的基准数据集和评估指标,我们引起了一些重要的发现。首先,将培训数据的常见过滤到英语图像 - 文本对缺点社区的社区较低的社区,并对文化理解产生负面影响。值得注意的是,这种性能差距并未被目前流行的评估指标捕获,而不是与西方以西方为中心的ImageNet和可可数据集衍生的评估指标相矛盾。第二,在对英语内容进行微调之前对全球,未经过滤的数据进行预处理可以提高文化理解,而无需牺牲所述流行基准的表现。第三,我们将地理定位的任务介绍为评估VLM中文化多样性的新型评估指标。我们的工作强调了使用不同数据来创建更具包容性的多模式系统的价值,并为开发更好地代表全球视角的VLM奠定了基础。
在本文中,我们为VLM提出了一种新颖的视觉提示方法,我们使用迭代视觉优化(Pivot)称为提示,该方法将任务作为迭代视觉问题的回答。在每次迭代中,图像都用VLM可以参考的建议的可视化表示(例如,候选机器人动作,本地化或轨迹)。VLM然后为任务选择最佳操作。这些建议是迭代的重新编写,使VLM最终可以在最佳的答案中零。我们研究了对现实世界机器人导航的枢纽,图像中的现实世界操纵,仿真中的指令以及其他空间推断任务(例如本地化)。我们发现,令人惊讶的是,我们的方法可以在没有任何机器人培训数据,各种环境中导航以及其他功能的机器人系统进行零射击控制。尽管目前的表现远非完美,但我们的工作突出了这种新制度的潜力和局限性,并在机器人和空间推理域中展示了互联网规模VLM的有前途的方法。
开发可以理解和遵循语言指示的代理商对于有效且可靠的人类协作至关重要。最近的方法使用不经常的环境奖励的强化学习来训练这些代理,这给环境设计师带来了重大负担,以创建语言条件条件的奖励功能。随着环境和指示的复杂性,制作这种奖励功能变得越来越不切实际。为了解决这个问题,我们介绍了V-TIFA,这是一种新型方法,该方法通过利用Vision语言模型(VLMS)的反馈来训练跟随剂。V-TIFA的核心思想是查询VLM,根据语言的结构对整个轨迹进行评分,并使用结果评分直接训练代理。与先前的VLM奖励生成方法不同,V-TIFA不需要手动制作的任务规范,使代理商能够从各种自然语言教学中学习。在体现环境中进行的广泛实验表明,在相同条件下,V-TIFA优于现有的奖励生成方法。
模型。drivelm-agent采用轨迹令牌092,可以应用于任何一般VLM [17、19、23、34],093,以及图形提示方案,该方案模型logi-094 cal依赖关系作为VLMS的上下文输入。结果095是一种简单,优雅的方法,可有效地重新利用096 VLMS用于端到端AD。097我们的实验提供了令人鼓舞的结果。我们发现098在Drivelm上的GVQA是一项具有挑战性的任务,其中Cur-099租金方法获得适中的得分,并且可能需要更好地获得逻辑依赖的100型,以实现101强质量质量质量强大的效果。即使这样,在开放环计划环境中进行测试时,Drivelm-Agent已经有102个已经在最先进的驾驶特定103型型号[13]中竞争性地发挥作用,尽管其任务不合时宜和通用架构,但仍有104个模型。fur-105 Hoperore,采用图形结构可改善零弹性106概括,使Drivelm-Engent在训练或部署期间在108 Waymo DataSet [28]进行训练或仅在NUSCENES [3] 109数据上训练后,在108训练或部署期间都看不见新颖的对象。从这些结果中,我们认为,提高GVQA 110具有建立具有强烈概括的自动驾驶111代理的巨大潜力。112
摘要 - 开放的vocabulary泛化要求机器人系统执行涉及复杂和多样化的环境和任务目标的任务。虽然视觉语言模型(VLMS)的最新进展为解决看不见的问题提供了前所未有的机会,但如何利用其新兴能力来控制物理世界中的机器人仍然是一个悬而未决的问题。在本文中,我们介绍了标记开放式摄影键关键点(MOKA),该方法采用VLMS来解决由自由形式语言描述所指定的机器人操纵任务。我们方法的核心是基于紧凑的负担能力和运动的表示,它桥接了VLM对RGB图像的预测以及机器人在物理世界中的动作。通过在Internet规模数据上提示VLM预先训练的VLM,我们的方法可以通过利用广泛来源的概念理解和常识性知识来预测能力并产生相应的动作。要以零拍打为vlm的推理,我们提出了一种视觉提示技术,可以注释图像上的标记,将关键点和路点的预测转换为一系列视觉问题,以解决VLM可行的问题。我们在自由形式的语言描述(例如工具使用,可变形的身体操纵和对象重排)指定的各种操纵任务上评估和分析了Moka的性能。
摘要 - 人类在循环(HITL)框架上是许多现实世界中的计算机视觉系统的特征,使人类操作员能够在AI帮助的情况下做出明智的决定。共形预测(CP)为标签集提供了严格的基于地面真相包容概率的保证,最近已成为HITL设置中有价值的工具。一个关键的应用领域是视频监视,与人类行动识别(HAR)紧密相关。这项研究探讨了CP在使用广泛预先训练的视觉模型(VLMS)的最先进的方法上的应用。我们的发现表明,CP可以显着减少候选类别的平均数量,而无需修改基础VLM。但是,这些减少通常会导致长尾巴的分布。为了解决这个问题,我们引入了一种基于调整VLM的温度参数以最小化这些尾巴的方法而无需其他校准数据的方法。我们的代码可在github上通过地址https://github.com/tbary/cp4vlm提供。索引项 - 符合预测,温度调整,视觉语言模型,人类行动识别。
摘要。预先训练的视觉模型(VLMS)的出色概括能力使下游零镜头任务的微调VLM是流行的选择。尽管在基础类的专业性中取得了令人鼓舞的表现,但大多数现有的微调方法都遭受了新颖类的特征混乱,导致不满意的可转移性。为了解决这个问题,我们提出了一种称为基于及时的变分适配器(PVA)的分裂和争议方法,该方法通过分开基础和新样本来明确减少预测偏差。指定,我们设计了两个具有可学习的文本令牌的变异适配器,以使共享潜在空间中每种模态的潜在表示。一旦受过训练,我们就可以使用潜在特征的相似性度量,即将混乱任务转换为两个独立的样本(一个用于基本类别,另一个用于新颖的类别)。此外,为了提高新颖类的可传递性,我们通过残留连接进一步完善了具有全局特征的学习适配器的输出特征。我们对广义零射门学习和交叉传输的学习进行了广泛的实验,以证明我们的方法的优势,并在四个流行的基准上建立新的最先进的方法。
大型语言模型(LLM)和视觉语言模型(VLM)在各种任务和域中都具有出色的性能。尽管有希望,空间理解和推理(人类认知的基本组成部分)被认为是探索的。我们提出了Spatialeval,这是一种新颖的基准,涵盖了空间推理的各个方面,例如关系理解,导航和计数。我们对竞争语言和视觉语言模型进行了全面评估。我们的发现揭示了文献中忽略的几种违反直觉的见解:(1)空间推理提出了重大挑战,竞争模型可以落后于随机猜测; (2)尽管有其他视觉输入,但与LLM的同行相比,VLM的表现经常不足; (3)当提供文本和视觉信息时,如果提供了足够的文本线索,多模式的语言模型就会减少视觉信息。此外,我们证明了视觉和文本之间的冗余可以显着提高模型性能。我们希望我们的研究能够为多模式模型的发展提供信息,以改善空间智能并通过人类智能进一步缩小差距。我们的代码可在https://github.com/jiayuww/spatialeval上找到。