摘要 - 开放的vocabulary泛化要求机器人系统执行涉及复杂和多样化的环境和任务目标的任务。虽然视觉语言模型(VLMS)的最新进展为解决看不见的问题提供了前所未有的机会,但如何利用其新兴能力来控制物理世界中的机器人仍然是一个悬而未决的问题。在本文中,我们介绍了标记开放式摄影键关键点(MOKA),该方法采用VLMS来解决由自由形式语言描述所指定的机器人操纵任务。我们方法的核心是基于紧凑的负担能力和运动的表示,它桥接了VLM对RGB图像的预测以及机器人在物理世界中的动作。通过在Internet规模数据上提示VLM预先训练的VLM,我们的方法可以通过利用广泛来源的概念理解和常识性知识来预测能力并产生相应的动作。要以零拍打为vlm的推理,我们提出了一种视觉提示技术,可以注释图像上的标记,将关键点和路点的预测转换为一系列视觉问题,以解决VLM可行的问题。我们在自由形式的语言描述(例如工具使用,可变形的身体操纵和对象重排)指定的各种操纵任务上评估和分析了Moka的性能。
摘要:图表图像分类是自动化数据提取和从可视化的解释的关键任务,这些任务被广泛用于业务,研究和教育等领域。在本文中,我们评估了卷积神经网络(CNN)和视觉模型(VLM)的性能,鉴于它们在各种图像分类和理解任务中的使用越来越多。,我们构建了25种图表类型的不同数据集,每个数据集包含1,000张图像,并培训了多个CNN体系结构,同时还评估了预训练的VLM的零拍概括能力。我们的结果表明,在经过专门用于图表分类的培训时,CNN胜过VLM,尽管如此,它仍显示出有希望的潜力,而无需特定于任务的培训。这些发现强调了CNN在图表分类中的重要性,同时突出了VLM的进一步微调的未开发潜力,这对于推进自动数据可视化分析至关重要。
在本研究中,我们使用视觉语言模型 (VLM) 作为二元成功检测器,给定机器人观察和任务描述,将其表述为视觉问答 (VQA) 问题。我们对开源 MiniGPT-4 VLM 进行了微调,以检测来自 Berkeley Bridge 和 Berkeley AUTOLab UR5 数据集的机器人轨迹上的成功。我们发现,虽然少量测试分布轨迹可以训练出准确的检测器,但由于分布偏移,在不同环境之间迁移学习具有挑战性。此外,虽然我们的 VLM 对语言变化具有鲁棒性,但对视觉变化的鲁棒性较差。未来,更强大的 VLM(例如 Gemini 和 GPT-4)有可能成为更准确、更强大的成功检测器,并且成功检测器可以提供稀疏的二元奖励来改进现有策略。
摘要 - 尽管模型预测控制(MPC)可以有效地预测系统的未来状态,因此广泛用于机器人操纵任务中,但它没有环境知觉的能力,导致在某些复杂情况下失败。为了解决这个问题,我们介绍了视觉语言模型预测性控制(VLMPC),这是一种机器人操纵框架,它利用了视觉语言模型(VLM)的强大感知能力,并将其与MPC集成。具体来说,我们提出了一个有条件的动作采样模块,该模块作为输入目标图像或语言指令,并利用VLM来采样一组候选动作序列。然后,轻质动作条件的视频预测模型旨在生成以候选动作序列为条件的一组未来框架。vlmpc通过层次成本函数在VLM的帮助下产生最佳动作序列,该函数在当前观察和目标图像之间均表达了像素级和知识级的一致性。我们证明,VLMPC在公共基准测试中的最新方法优于最先进的方法。更重要的是,我们的方法在机器人操纵的各种现实世界任务中展示了出色的表现。代码可从https://github.com/ppjmchen/vlmpc获得。
飞翼飞机的商业应用(如本文讨论的 Flying-V)有助于减少航空业产生的碳和氮排放。然而,由于没有尾翼,所有飞翼飞机的可控性都降低了。因此,机翼上控制面的位置和尺寸是一个不小的问题。本文重点介绍如何使用基于认证要求的离线操控质量模拟来解决此问题。在不同的飞行条件下,飞机必须能够执行认证机构定义的一组特定的机动。首先,离线模拟计算执行每个机动所需的升降舵、副翼和方向舵的最小控制权限。然后,根据所有机动的全局最小值,确定控制面的尺寸并沿机翼放置。所采用的气动模型结合使用了雷诺平均纳维-斯托克斯 (RANS) 和涡格法 (VLM) 模拟。使用VLM和用RANS模拟校准的VLM对控制面的控制权限进行评估,发现两者之间存在显著差异。
尽管最近展示了视力模型的进步,但使用自然语言描述图像中复杂关系的能力,但它们对物体大小和距离进行定量研究的能力仍未得到充实。在这项工作中,我们介绍了一个手动注释的基准Q-As-Spatial Batch,其中有271个问题,旨在定量空间原因,并系统地研究了最新的VLMS对此任务的表现。我们的分析表明,对物体之间的差异的推理对SOTA VLM尤其挑战。但是,有些VLM的表现明显优于其他VLM,两个最佳性能模型之间的差距超过40点。我们还令人惊讶地观察到,当使用参考对象的推理路径在响应中自然出现时,表现最佳VLM的成功率会增加19点。受到这一观察的启发,我们开发了一种零射击提示技术,即“空间”,该技术鼓励VLMS使用参考对象作为视觉提示,从而鼓励VLMS进行定量的空间问题。通过指示VLM通过空间启示,Gemini 1.5 Pro,Gemini 1.5 Flash和GPT-4V在其理性路径中使用参考对象,将其成功率提高了40、20和30点,并显着地提高了其成功率。我们强调,可以获得这些重大改进,而无需更多的数据,模型架构修改或微调。1
摘要 - 在其突出的场景理解和发挥功能的情况下,预先训练的视觉语言模型(VLM)(例如GPT-4V)引起了机器人任务计划中越来越多的关注。与传统的任务计划策略相比,VLM在多模式信息解析和代码生成中很强,并表现出显着的效率。尽管VLM在机器人任务计划中具有巨大的潜力,但它们遭受了幻觉,语义复杂性和有限的背景等挑战。要处理此类问题,本文提出了一个多代理框架,即GameVLM,以增强机器人任务计划中的决策过程。在这项研究中,提出了基于VLM的决策和专家代理人来进行任务计划。具体来说,决策代理人用于计划任务,并采用专家代理来评估这些任务计划。零和游戏理论,以解决不同代理之间的不一致并确定最佳解决方案。对真实机器人的实验结果证明了该框架的功效,平均成功率为83.3%。我们的实验视频可在https://youtu.be/sam-mkcpp7y上找到。索引术语 - 任务计划,多机构,视觉语言模型,零和游戏理论,决策。
语言和视觉模型(LLMS/VLMS)通过产生类似人类的文本和理解图像的能力彻底改变了AI领域,但是确保其可靠性至关重要。本文旨在评估LLM(GPT4,GPT-3.5,Llama2和Palm 2)和VLMS(GPT4V和Gemini Pro Vision)通过提示估算其口头上的不确定性的能力。我们提出了新的日本不确定场景(JUS)数据集,旨在通过困难的查询和对象计数测试VLM功能,以及净校准误差(NCE)来测量错误校准的方向。结果表明,LLMS和VLM都有很高的校准误差,并且大多数时候都过高地表明不确定性估计的能力较差。此外,我们为回归任务开发了提示,并且我们表明,在产生平均/标准偏差和95%置信区间时,VLM的校准较差。
台式标记,以测量VLM的零射门原因和一致性。我们评估了最新的VLM,发现即使表现最佳的模型也无法证明强大的视觉推理能力和一致性,这表明需要进行基础努力以使VLMS能够系统地和始终如一地像人类一样执行视觉推理。作为早期一步,我们提出了一个两阶段的培训框架,旨在提高VLM的推理和一致性而没有人类注释。该框架由两个主要阶段组成:监督的微调和从反馈中学习,以指导VLMS生成既有一致性又扎根的推理链。我们的框架工作在推理性能和一致性方面表现出4%的相对改善。我们在https://github.com/ yangyi-chen/cotconsistency上发布数据集。