摘要 模仿学习已展现出使机器人获得复杂操作行为的巨大潜力。然而,这些算法在长期任务中样本复杂度较高,复合误差会在任务范围内累积。我们提出了 PRIME(基于数据效率的 PRimitive-based IMitation),这是一个基于行为原语的框架,旨在提高模仿学习的数据效率。PRIME 通过将任务演示分解为原语序列来构建机器人任务,然后通过模仿学习学习高级控制策略对原语进行排序。我们的实验表明,PRIME 在多阶段操作任务中实现了显著的性能提升,模拟成功率比最先进的基线高出 10-34%,在物理硬件上的成功率高出 20-48%。1
摘要 - 从人类示威中学习在机器人操纵中取得了显着的成就。但是,挑战仍然是开发一种与人类的能力和数据效率相匹配的机器人系统,尤其是在复杂的,非结构化的现实世界情景中。我们提出了一个处理RGBD视频的系统,以将人类的动作转化为机器人的原语,并使用接地段的任何东西来识别与任务相关的对象的关键姿势。然后,我们考虑了运动学和碰撞几何形状的人类机器人差异,以解决机器人复制人类行为方面的挑战。为了测试系统的有效性,我们进行了专注于手动洗碗的实验。在模型厨房中记录了单个人类的示例,该系统在每个步骤中取得了50-100%的成功,并且在家庭厨房中使用不同对象的整个任务获得了40%的成功率。视频可从https://robot-dishwashing.github.io获得。索引术语 - 动作学习,操纵,从演示中学习
摘要 - 从演示中学习(LFD)是将类似人类技能授予机器人的有效框架。然而,设计一个能够无缝模仿,推广和反应在动态环境中长期地平线操纵任务的干扰的LFD框架仍然是一个挑战。为了应对这一挑战,我们提出了Logic-LFD,该逻辑LFD将任务和运动计划(TAMP)与动态运动原始词(DMP)的最佳控制配方相结合,从而使我们能够合并运动级别的Via-via-via-via-via-via-vie-vie-aint-vie-viarpoint规范并处理任务级别的变化或动态环境中的干扰。我们对我们提出的方法对几个基线进行了比较分析,从而评估了其在三个长马操纵任务中的概括能力和反应性。我们的实验证明了逻辑LFD的快速概括和反应性,用于处理任务级别的变体和长距离操纵任务中的干扰。项目网页:https://sites.google.com/view/logic-lfd
采矿业,特别是钻石钻探行业,涉及重复、几乎持续的手动操作任务,这通常会导致某种形式的肌肉疼痛或损伤。对当前辅助设备和手动操作任务的评估发现,即使有了额外的创新,肌肉拉伤和损伤仍然存在。然而,IISRI 的研究人员认为,FORTIS 的改造可以帮助减少这些手动操作任务对操作员身体的影响。改造 FORTIS 需要完成一系列流程,以确保其安全、移动并将任务负荷转移到地面,而不是操作员的身体。
摘要 — 最近,在多模态大型语言模型 (MLLM) 进步的推动下,视觉语言动作模型 (VLAM) 被提出以在机器人操作任务的开放词汇场景中实现更好的性能。由于操作任务涉及与物理世界的直接交互,因此确保此任务执行过程中的鲁棒性和安全性始终是一个非常关键的问题。在本文中,通过综合当前对 MLLM 的安全性研究以及物理世界中操作任务的具体应用场景,我们全面评估了面对潜在物理威胁的 VLAM。具体而言,我们提出了物理脆弱性评估管道 (PVEP),它可以结合尽可能多的视觉模态物理威胁来评估 VLAM 的物理鲁棒性。PVEP 中的物理威胁具体包括分布外攻击、基于排版的视觉提示和对抗性补丁攻击。通过比较 VLAM 在受到攻击前后的性能波动,我们提供了关于 VLAM 如何应对不同物理安全威胁的通用分析。我们的项目页面位于此链接
摘要 由于能源转型和电力分配,配电系统的重要性日益增加,且运行中出现了新的挑战,因此受到了广泛关注。例如,可再生能源和电动汽车的整合导致系统发生多种变化,例如参与提供辅助服务。为了解决这些挑战,人工智能基于传感器数据和计算能力的增加提供了多种解决方案。本文系统地概述了过去 10 年中发表的一些将人工智能方法应用于配电系统运行的最新研究。在此基础上,制定了一般性指导方针,帮助读者为特定操作任务找到合适的人工智能技术。因此,提出了四个通用指标来指导每个应用的需求。从而可以得出结论,为每个操作任务提供合适的算法。
摘要 - 由于计算机视觉的最新进展,视觉模仿学习在学习一小部分视觉观察中学习的单人操纵任务方面取得了令人印象深刻的进步。然而,从双人视觉演示中学习双人协调策略和复杂的对象关系,并将其推广到新颖的混乱场景中的分类对象仍然是尚未解决的挑战。在本文中,我们将以前的有关基于关键的视觉模仿学习(K-VIL)[1]的工作扩展到了双人操作任务。拟议的BI-KVIL共同提取对象和手,双人协调策略以及子符号任务代表的所谓混合主奴隶关系(HMSR)。我们的双人任务表示形式是以对象为中心的,无独立的和视点为主的,因此可以很好地归因于新颖场景中的分类对象。我们在各种现实世界中评估了我们的方法,展示了其从少数人类演示视频中学习细粒度的双人操作任务的能力。视频和源代码可从https://sites.google.com/view/bi-kvil获得。
本文提出了一种基于并联和串联机器人平台的虚拟水下浮动操作系统 (VSFOS)。其开发的主要目的在于以更简单、更安全的方式进行模拟水下操作实验。该 VSFOS 由一个六自由度 (6-DOF) 并联平台、一个 ABB 串联机械手、一个惯性传感器和一个实时工业计算机组成。6-DOF 平台用于模拟水下航行器的运动,其姿态由惯性传感器测量。由实时工业计算机控制的 ABB 机械手作为操作工具执行水下操作任务。在控制系统架构中,开发了软件来接收惯性传感器收集的数据、进行通信和发送指令。此外,该软件还显示机械手的实时状态。为了验证所提出的系统,进行了两项实验来测试其性能。第一个实验主要测试VSFOS的通信功能,第二个实验主要测试机械臂跟随并联平台运动,在空间中执行模拟操作任务,两个实验的结果证明了VSFOS的有效性和性能。
从人类示威中学习的抽象模仿学习在机器人技术中表现出了令人印象深刻的表现。但是,大多数结果都集中在桌面操纵上,缺乏一般有用的任务所需的活动性和灵巧性。在这项工作中,我们开发了一个模仿手动且需要全身控制的移动操作任务的系统。我们首先提出移动Aloha,这是一种用于数据收集的低成本和全身远程操作系统。它以移动基础和全身远程操作接口增强了Aloha系统[104]。使用与移动Aloha共同指定的数据,然后我们执行超级可见的行为克隆,并发现与现有的静态Aloha数据集共同培训可以提高移动操作任务上的性能。通过每项任务进行50次演示,共同培训可以将成功率提高90%,使移动的Aloha能够完全完全完整的复杂的移动操纵任务,例如炒和供应一块虾,打开了一个两门壁柜,可以将重型厨师,打电话给厨房,并使用厨房使用,并用来供电,并用来供电,并用来供电。