抽象在机器人中实现类似人类的操纵技巧的最关键步骤之一是将合规性纳入机器人控制器中。合规性不仅使机器人的行为安全,而且使其更有效。在这个方向上,可变阻抗控制(VIC)方法为机器人提供了一个框架,以通过采用适应性阻抗法来适应其在执行过程中的合规性。尽管如此,按任务要求的自主调整合规性概况仍然是一个具有挑战性的问题,可以在实践中解决。在这项工作中,我们引入了一种加强学习(RL)的方法,称为DEVILC(数据效率可变阻抗学习控制器),以通过机器人的实际交互来学习可变阻抗控制器。更具体地说,我们使用一种基于模型的RL方法,在每次相互作用之后,机器人迭代地使用高斯过程回归模型学习了其动力学的概率模型。然后,该模型被用来优化调节机器人阻抗的神经网络政策,以使对任务的长期奖励最大化。多亏了基于模型的RL框架,Devilc允许机器人仅通过一些交互学习VIC策略,从而使其对现实世界应用程序实用。在模拟和实验中,我们在Franka Emika Panda机器人操纵器上评估Devilc,以在笛卡尔空间中的不同操纵任务。结果表明,Devilc是通过互动直接在现实世界中自主学习合规技巧的有希望的方向。链接中提供了一个实验的视频:https://youtu.be/_uyr0vye5no。
视觉增强学习(RL)是实现人类智力的有前途的方法。但是,它目前在嘈杂的环境中有效地学习面临挑战。相比之下,人类可以通过应用以前获得的常识来迅速识别到分散注意力的环境中的与任务相关的观察。最近,自然语言处理和计算机视觉中的基础模式取得了巨大的成功,这些模型中的常识可以显着使下游任务培训受益。受这些成就的启发,我们旨在将基础模型的常识不足为视觉RL。我们提出了一种新颖的效果(FTD)框架,使代理可以仅基于与任务相关的对象做出决策。为了实现这一目标,我们引入了一种努力机制,以从基础细分模型返回的对象集中选择与任务相关的对象,仅使用与任务相关的对象进行决策模块的后续培训。此外,我们专门采用了两个通用的自我监督目标来促进这种注意机制的快速学习。基于DeepMind Control Suite和Franka Emika机器人技术的CHALENGING任务的实验结果表明,我们的方法可以快速,准确地在嘈杂的环境中准确指出感兴趣的对象。因此,它对当前的最新算法实现了重大的性能提高。项目页面:https://www.lamda.nju.edu.edu.cn/chenc/ftd.html代码:https://github.com/lamda-rl/ftd
许多手术任务需要总刀具运动,其中工具的移动和定位在宏观尺度(约1厘米)的精度上;例如,将工具插入套筒,交换工具,清洁工具。也存在主要需要这种宏观动作的程序,例如,将安装在机器人上的超声扫描仪移动[1]和牙齿辅助[2]。传统的手术机器人,例如DA Vinci手术系统(Intuitive Surgical,USA),不可用的背态被动被动机制作为工具持有人,并允许外科医生将工具固定。这样的被动机器人可以限制外科医生使其简单而准确的总工具移动的能力,尤其是对于沉重而笨重的工具。作为替代方案,更新的特定和通用宏机器人使用主动的串行机器人和控制器,使外科医生可以手工指导工具。例如,Mako Robot-Arms(美国Stryker)进行膝盖手术,允许手动引导并限制外科医生沿预先计划的手术路径的运动,以确保安全性和准确性。除了这种干预特定的机器人之外,市场上还有通用医学宏观机器人,可以安全的物理人类机器人互动(PHRI),例如,Kuka LBR IIWA Med(Kuka ag ag,kuka ag,德国奥格斯堡,德国)。可以在此类机器人上安装不同的工具;例如,在Laserosteothome [3]中,使用超声扫描[1]和放射治疗[4]。但是,其他针对PHRI安全的宏机器人也用于外科应用研究中;例如,熊猫(德国弗兰卡·埃米卡(Franka Emika))进行牙科辅助[2]和中耳手术[5]或UR 5(UR 5(UNI-VERSAL ROBOTS,丹麦))进行针插入[6]。
改善现实世界中通用机器人操纵的概括能力长期以来一直是一个重大挑战。现有的方法通常依赖于收集大规模机器人数据,这些机器人数据是昂贵且耗时的。但是,由于数据的多样性不足,他们通常会限制其在开放域中的能力,并具有新的对象和不同的环境。在本文中,我们提出了一种新颖的范式,该范式有效地利用了由Internet规模的基础模型生成的语言分割掩码,以调节机器人操纵任务。通过将蒙版模态整合到源自视觉基础模型的语义,几何和时间相关先验中,并将其方法呈现为端到端的策略模型,我们的方法可以有效地感知的对象姿势并启用样本有效的概括性学习,包括新的对象,包括新的对象,包括新的对象,semantic intancics,Semantic类别,语义类别,和统一的背景。我们首先引入了一系列基础模型,以跨多个任务进行基础语言需求。其次,我们基于模仿学习开发了一个两流2D策略模型,该模型可以处理原始图像和对象掩码,以以局部 - 全球知觉方式预测机器人动作。在Franka Emika机器人和低成本双臂机器人上进行的广泛的现实世界实验证明了我们提出的范式和政策的有效性。可以在link1或link2中找到演示,我们的代码将在https://github.com/mcg-nju/tpm上发布。
摘要 - 签名的距离字段(SDF)是机器人技术中流行的隐式形状表示形式,提供有关对象和障碍物的几何信息,形式可以很容易地与控制,优化和学习技术相结合。最常使用SDF来表示任务空间中的距离,这与我们在3D世界中感知到的距离熟悉的概念相对应。但是,可以在数学上使用SDF在其他空间中,包括机器人配置空间。对于机器人操纵器,此配置空间通常对应于机器人的每个关节的关节角度。在机器人计划中习惯表达出配置空间的哪些部分与障碍物相撞,但将此信息视为配置空间中的距离字段并不常见。在本文中,我们演示了在机器人配置空间中考虑SDF进行优化的潜力,我们称之为配置空间距离字段(或简称CDF)。与在任务空间中使用SDF相似,CDF提供了有效的关节角距离查询并直接访问衍生物(关节角速度)。大多数方法将整体计算分为任务空间中的一部分,然后是配置空间中的一部分(评估任务空间的距离,然后使用逆运动学的计算操作)。相反,CDF允许以统一的方式通过控制,优化和学习问题来利用隐式结构。特别是,我们提出了一种有效的算法来计算和融合CDF,可以推广到任意场景。也提出了使用多层感知器(MLP)的相应神经CDF表示,以获得紧凑而连续的表示,同时提高计算效率。我们通过平面避免示例来证明CDF的有效性,以及在逆运动学和操纵计划任务中使用7轴的Franka机器人。项目页面:https://sites.google.com/view/cdfmp/home