摘要 — 最近,在多模态大型语言模型 (MLLM) 进步的推动下,视觉语言动作模型 (VLAM) 被提出以在机器人操作任务的开放词汇场景中实现更好的性能。由于操作任务涉及与物理世界的直接交互,因此确保此任务执行过程中的鲁棒性和安全性始终是一个非常关键的问题。在本文中,通过综合当前对 MLLM 的安全性研究以及物理世界中操作任务的具体应用场景,我们全面评估了面对潜在物理威胁的 VLAM。具体而言,我们提出了物理脆弱性评估管道 (PVEP),它可以结合尽可能多的视觉模态物理威胁来评估 VLAM 的物理鲁棒性。PVEP 中的物理威胁具体包括分布外攻击、基于排版的视觉提示和对抗性补丁攻击。通过比较 VLAM 在受到攻击前后的性能波动,我们提供了关于 VLAM 如何应对不同物理安全威胁的通用分析。我们的项目页面位于此链接
本文提出了一种针对移动操纵器系统(MMS)的新控制策略,该策略集成了基于图像的视觉伺服(IBVS),以解决操作限制和安全限制。基于控制屏障功能(CBF)的概念的拟议方法提供了一种解决方案,以应对各种操作挑战,包括可见性约束,操纵器关节限制,预定义的系统速度界限和系统动态不确定性。提出的控制策略是两层结构,其中第一级CBF-IBVS控制器计算控制命令,并考虑到视野(FOV)约束。通过利用空空间技术,这些命令被转移到MMS的联合配置,同时考虑系统操作限制。随后在第二级中,用于整个MMS使用的CBF速度控制器对关节级的命令进行跟踪,以确保遵守预定义的系统的速度限制以及整个组合系统动力学的安全性。拟议的控制策略提供了出色的瞬态和稳态响应,并提高了对干扰和建模不确定性的弹性。此外,由于其计算复杂性较低,因此可以在板载计算系统上轻松实现,从而促进实时操作。通过仿真结果说明了拟议策略的有效性,与常规IBVS方法相比,该结果揭示了增强的性能和系统安全性。结果表明,所提出的方法可有效解决移动操纵器系统的具有挑战性的操作限制和安全限制,使其适合于实际应用。
摘要:了解机器人必须在给定开放式任务中的非结构化环境中操纵对象。但是,现有的视觉负担预测方法通常仅在一组预定义的任务上手动注释的数据或条件。我们介绍了无监督的负担蒸馏(UAD),这是一种将负担知识从基础模型提炼到任务条件的辅助模型的方法,而无需任何手动注释。通过利用大型视觉模型和视觉模型的互补优势,UAD自动注释了一个具有详细的<指令,Visual Profiseance> Pairs的大规模数据集。仅在冷冻功能上训练一个轻巧的任务条件解码器,尽管仅在模拟中接受了对渲染的对象的培训,但UAD对野外机器人场景和各种人类活动表现出显着的概括。UAD提供的可负担性作为观察空间,我们展示了一项模仿学习政策,该政策证明了有希望的概括,可以看到对象实例,对象类别,甚至在培训大约10次演示后进行任务指令的变化。项目网站:https://gpt-affordance.github.io/。
摘要:从大型多任务演示数据集中学习的模仿学习已成为构建普通能力的机器人的有前途的途径。结果,已经花费了1000个小时来在全球构建如此大规模的数据集上。尽管这种努力不断增长,但我们仍然缺乏对应收集哪些数据来改善机器人数据集的效用的系统性理解,并促进了下游政策学习。在这项工作中,我们进行了一项大规模的数据集组成研究,以回答这个问题。我们开发了一个数据生成框架,以在实际数据集(例如传感器放置,对象类型和安排)中模拟普通多样性,并使用它来生成具有控制组成的大规模机器人数据集,从而实现了在现实世界中会昂贵的数据集组成研究。我们专注于两个实际设置:(1)当未来的研究人员收集大规模的机器人数据集时,应强调哪种类型的多样性,以及(2)当前的从业人员如何从现有数据集中检索相关的演示以最大程度地提高关注任务的下游政策绩效。我们的研究产生了几个关键见解 - 例如,我们发现相机的姿势和空间排列是收集多样性和检索对齐方式的关键维度。在现实世界的机器人学习设置中,我们发现,不仅可以从模拟中进行洞察力,而且我们对现有数据集(例如Droid)的检索策略使我们能够始终如一地超过现有的培训策略高达70%。https://mimiclabs-iclr.github.io/
从使用卷积网络的传统行为克隆[1]到基于变压器的学习结构[2],广泛的研究已经对视觉场景的机器人动作轨迹进行了建模。最新的作品基于扩散模型[3]的成功,以生成运动轨迹以捕获多模式动作分布。流匹配是另一种新颖的生成方法。与随机的扩散概率模型共享理论相似性,流匹配旨在回归确定性矢量场,以将样品流向目标分布。证明,与解决扩散模型中的复杂随机微分方程相比,流动匹配目标的简单性可以在稳定的训练和发电质量中表现出色。尽管在图像生成方面取得了最新进展[4],但在机器人域中的流量匹配的应用仍未得到充满反感[5,6,7]。我们提出了流程匹配策略,以从原始视觉输入中学习模拟和现实世界的机器人行为并进行系统评估。
摘要 —本文介绍了 RoboGrav,这是一项专注于在第 42 次 DLR 抛物线飞行活动期间在零重力条件下测试全扭矩传感机械臂的任务。RoboGrav 与德国航空航天中心 (DLR)、KINETIK Space、iBOSS、慕尼黑工业大学 (TUM) 和 Novespace 合作进行,旨在推进扭矩控制机器人操纵器的开发和测试,用于在轨服务 (OOS) 和空间组装任务。本文强调了扭矩感应的重要作用,它增强了零重力条件下的操纵任务。进行了实验测试,以确保控制器在零重力下的自由空间运动期间的稳定性,使用针状末端执行器进行环境相互作用。采用外力感应来评估机器人在不同控制器上的准确性和性能。这也使得能够比较机器人在零重力和全重力环境中的行为,为将地球开发的算法转移到太空应用提供了宝贵的见解。使用 iBOSS“iSSi”接口进行的模拟卫星对接任务展示了机器人通过阻抗控制管理位置误差的能力,从而提高了操作稳定性。为该项目开发的技术,例如扭矩传感器的集成、所提出的基于 FPGA 的联合控制算法和通信接口、高级控制器和决策算法,可以转移到未来的太空任务中。RoboGrav 的扭矩传感器机械臂为未来的太空服务和太空组装任务提供了宝贵的经验和方法。
图1:我们开发了一个带有自动基础(左)的开源移动操纵器,并证明它可以在真实的公寓房屋(右)中执行各种家庭任务。
摘要:利用最近在模仿学习中进行操作的前进的承诺将需要收集大量的人类引导示范。本文提出了一种开源设计,用于廉价,健壮且灵活的移动操纵器,该设计可以支持任意武器,从而实现了各种各样的现实世界家庭移动操纵任务。至关重要的是,我们的设计使用动力施法者使移动基础能够完全自动,能够同时独立地控制所有平面自由度。此功能使基础更具机动性,并简化了许多移动操作任务,从而消除了在非实体基础中产生复杂且耗时的动作的运动限制。我们为机器人配备了直观的手机遥控接口,以实现简单的数据获取以进行模仿学习。在我们的实验中,我们使用此界面来收集数据,并表明所产生的学习政策可以成功执行各种常见的家庭移动操纵任务。
摘要:空中操纵将飞行平台的多功能性和速度与移动操作的功能能力相结合,由于需要精确的定位和控制,这引起了挑战。在传统上,研究人员依靠卸下感知系统,这些系统涉及昂贵且不切实际的室内环境。在这项工作中,我们引入了一个新颖的平台,用于自主空中操纵,该平台可易于利用板载感知系统。我们的平台可以在各种室内和室外环境中进行空中操纵,而无需依赖外部感知系统。我们的实验结果表明了平台在不同环境中自主掌握各种对象的能力。这一进步可以通过消除昂贵的跟踪解决方案的需求来显着提高空中操纵应用的可扩展性和实用性。为了加速未来的研究,我们开源3我们的ROS 2软件堆栈和自定义硬件设计,使我们的贡献可用于更广泛的研究社区。