摘要 - 本文介绍了Robodexvlm,这是一个用于机器人任务计划的创新框架,并掌握了配备灵敏手的协作操纵器的检测。以前的方法着眼于简化且有限的操纵任务,这些任务通常忽略了以长期培训方式抓住各种对象相关的复杂性。相比之下,我们提出的框架利用灵巧的手能够抓住不同形状和大小的对象,同时根据自然语言命令执行任务。所提出的方法具有以下核心组件:首先,设计了一个具有任务级恢复机制的稳健任务计划器,该机制设计了视觉语言模型(VLMS),这使系统能够解释和执行长序列任务。第二,基于机器人运动学和正式方法提出了语言引导的灵活掌握感知算法,该方法是针对带有多种物体和命令的零摄像的灵巧操作量身定制的。全面的实验结果验证了Robodexvlm在处理长层场景和执行灵巧抓握方面的有效性,适应性和鲁棒性。这些结果突出了该框架在复杂环境中运行的能力,展示了其进行开放式灵巧操作的潜力。我们的开源项目页面可以在https://henryhcliu.github.io/robodexvlm上找到。
我们介绍了强大的开源视觉语言基础模型COGVLM。不同于流行的浅对齐方法,该方法将图像映射到语言模型的输入空间中,COGVLM通过注意力和FFN层中的可训练的视觉专家模块在冷冻预处理的语言模型和图像编码器之间存在差距。因此,COGVLM可以深入融合视觉语言功能,而无需牺牲NLP任务的任何性能。CogVLM-17B achieves state-of-the-art performance on 15 classic cross- modal benchmarks, including 1) image captioning datasets: NoCaps, Flicker30k, 2) VQA datasets: OKVQA, ScienceQA, 3) LVLM benchmarks: MM-Vet, MMBench, SEED-Bench, LLaVABench, POPE, MMMU, MathVista, 4) visual接地数据集:refcoco,refcoco+,reccocog,visual7w。代码和检查点可在GitHub上找到。
摘要 - 生成AI系统在创建文本,代码和图像方面表现出了令人印象深刻的功能。受到组装工业设计研究的丰富历史的启发,我们引入了一个新颖的问题:生成设计 - 机器人组装(GDFRA)。任务是基于自然语言提示(例如“长颈鹿”)生成一个组装,以及可用物理组件的图像,例如3D打印的块。输出是一个组件,这些组件的空间排列,也是机器人构建此组件的指令。输出必须1)类似于请求的对象,2)由6 Dof机器人组可靠地组装,并带有吸入抓手。然后,我们提出了Blox-net,这是一种将一般视觉模型与计算机视觉,模拟,扰动分析,运动计划和物理机器人实验的方法相结合的GDFRA系统,以解决最小的人类监督的GDFRA问题。blox-net在其设计的组件的语义准确性中达到了63.5%的前1个精度。这些设计在自动渗透性重新设计后,由机器人可靠地组装,在10个连续的组装迭代中获得了接近完美的成功,仅在组装前重置期间使用人干预。令人惊讶的是,从文本单词到可靠的物理组装的整个设计过程都是通过零人工干预执行的。
摘要 - 关于自动驾驶的大语言模型的重新研究显示了计划和控制方面的希望。然而,高计算需求和幻觉仍然挑战准确的轨迹预测和控制信号基础。确定性算法具有可靠性,但缺乏适应能力,无法复杂驾驶场景,并在上下文和不确定性上挣扎。为了解决这个问题,我们提出了VLM-Auto,这是一种新型的自动驾驶助手系统,以基于对道路场景的理解,以可调节的驾驶行为来赋予自动驾驶汽车。涉及Carla模拟器和机器人操作系统2(ROS2)的管道验证了我们系统的有效性,并利用单个NVIDIA 4090 24G GPU,同时利用视觉语言模型(VLM)的文本输出能力。此外,我们还为包含图像集的数据集和用于微调系统的VLM模块的相应提示集。在卡拉实验中,我们的系统达到了97。我们数据集中5种标签的平均精度为82%。在实际驾驶数据集中,我们的系统实现了96。在夜面场景和令人沮丧的场景中的预测准确性为97%。我们的VLM-AUTO数据集将在https://github.com/ziongo6/vlm-auto上发布。
摘要 - 自主驾驶技术的发展需要越来越复杂的方法来理解和预测现实世界的情况。视觉语言模型(VLM)正在成为革命性的工具,具有影响自主驾驶的巨大潜力。在本文中,我们提出了DriveGenVLM框架来生成驾驶视频并使用VLM来理解它们。为了实现这一目标,我们采用了一个基于降级扩散概率模型(DDPM)的视频生成框架,旨在预测现实世界的视频序列。然后,我们通过在Egintric视频(EILEV)上采用预训练的模型,探讨了我们生成的视频在VLM中使用的充分性。通过Waymo打开数据集对扩散模型进行了训练,并使用FR´Echet视频距离(FVD)得分进行了评估,以确保生成的视频的质量和现实性。EILEV为这些生成的视频提供了相应的叙述,这可能对自主驾驶领域有益。这些叙述可以增强交通现场的理解,帮助导航并提高计划功能。在DriveGenVLM框架中将视频生成与VLM的集成代表了利用先进的AI模型来解决自主驾驶中复杂挑战的重要一步。
在图像1还是图像2中可以更好地实现目标?如果在图像1中更好地实现了目标,请回复0行,如果在图像2中更好地实现了目标。回复-1如果文本不确定或没有区别。
一些物种或其他非动物类别。如图2所示,我们显示了仅在视觉上与哺乳动物具有特色的概念,而在鸟类,昆虫和客机上共享的“翅膀”。剪辑[15]模型的示例W.R.T.相同的概念可能在不同类别中有所不同,它们通常与其他概念甚至虚假因素纠缠在一起。相比之下,我们的模型始终定位W.R.T.区域conept的语义含义。例如,尽管“翅膀”概念的外观在鸟类,昆虫和客机之间发生了巨大变化,但我们的概念级解释仍然可以准确地定位于机翼区域。这表明我们的模型具有该概念的真正含义,即使其呈现方式都在类别上发生了巨大变化。
摘要 - 尽管模型预测控制(MPC)可以有效地预测系统的未来状态,因此广泛用于机器人操纵任务中,但它没有环境知觉的能力,导致在某些复杂情况下失败。为了解决这个问题,我们介绍了视觉语言模型预测性控制(VLMPC),这是一种机器人操纵框架,它利用了视觉语言模型(VLM)的强大感知能力,并将其与MPC集成。具体来说,我们提出了一个有条件的动作采样模块,该模块作为输入目标图像或语言指令,并利用VLM来采样一组候选动作序列。然后,轻质动作条件的视频预测模型旨在生成以候选动作序列为条件的一组未来框架。vlmpc通过层次成本函数在VLM的帮助下产生最佳动作序列,该函数在当前观察和目标图像之间均表达了像素级和知识级的一致性。我们证明,VLMPC在公共基准测试中的最新方法优于最先进的方法。更重要的是,我们的方法在机器人操纵的各种现实世界任务中展示了出色的表现。代码可从https://github.com/ppjmchen/vlmpc获得。
摘要 - 在其突出的场景理解和发挥功能的情况下,预先训练的视觉语言模型(VLM)(例如GPT-4V)引起了机器人任务计划中越来越多的关注。与传统的任务计划策略相比,VLM在多模式信息解析和代码生成中很强,并表现出显着的效率。尽管VLM在机器人任务计划中具有巨大的潜力,但它们遭受了幻觉,语义复杂性和有限的背景等挑战。要处理此类问题,本文提出了一个多代理框架,即GameVLM,以增强机器人任务计划中的决策过程。在这项研究中,提出了基于VLM的决策和专家代理人来进行任务计划。具体来说,决策代理人用于计划任务,并采用专家代理来评估这些任务计划。零和游戏理论,以解决不同代理之间的不一致并确定最佳解决方案。对真实机器人的实验结果证明了该框架的功效,平均成功率为83.3%。我们的实验视频可在https://youtu.be/sam-mkcpp7y上找到。索引术语 - 任务计划,多机构,视觉语言模型,零和游戏理论,决策。
机器人技术中的自主导航传统上依赖于预定的航路点和结构化图,从而限制了动态,真实世界环境中的可扩展性。缺乏通知的语言操作数据集进一步使语言驱动的导航模型的发展变得复杂。受到大规模视觉语言模型(VLM),图像生成模型和基于视觉的机器人控制的最新进展的启发,我们提出了使用VLM引导的图像子缘合成(ELVISS)探索探索的框架,以增强使用用户指示的机器人导航任务的勘探。此框架利用VLMS的语义推理将复杂的任务分解为更简单的任务,并通过生成由低级策略执行的与任务相关的图像子搜索来执行它们。我们还结合了一个基于VLM的子量验证循环,以最大程度地减少执行未生成的子观念。实验结果表明,我们的验证循环显着改善了执行操作与我们的指令的对齐,并且我们的结果系统能够执行基于广义的基于搜索的说明。