• Domain randomization ( dynamics , visuals) • Learning to adapt the textures of the simulator to match the real domain • Learning to adapt the dynamics of the simulator to match the real domain • Learning from label images as opposed to pixel images-> semantic maps between simulation and real world are
摘要 - 在机器人增强学习中,SIM2REAL差距仍然是一个关键的挑战。但是,静态摩擦对SIM2REAL的影响尚未得到充实。常规域随机化方法通常从其参数空间中排除静态摩擦。在我们的机器人加强学习任务中,这种常规域随机方法导致了明显不足的现实世界模型。为了应对这一SIM2REAL挑战,我们采用了执行器网作为常规域随机化的替代方案。虽然这种方法能够成功地转移到平面运动,但在楼梯等复杂地形上失败了。为了研究影响机器人关节中SIM2REAL的物理参数,我们开发了一个控制理论关节模型并进行了系统的参数鉴定。我们的分析表明,机器人关节中出乎意料的高摩擦力比率。为了减轻其影响,我们实施了SIM2Real的静态摩擦域随机化。认识到摩擦建模引入的训练难度增加,我们提出了一种简单新颖的解决方案,以降低学习复杂性。为了验证这种方法,我们进行了比较三种方法的综合SIM2SIM和SIM2REAL实验:常规域随机化(无静态摩擦),执行器NET和我们的静态摩擦感知域随机化。所有实验均利用快速运动适应(RMA)算法。结果表明,我们的方法实现了出色的自适应能力和整体性能。
摘要 - 仿真是机器人技术中广泛使用的工具,可减少硬件消耗并收集大规模数据。尽管为模拟光学触觉传感器做出了预先的努力,但仍在有效合成图像并在不同的接触载荷下复制标记运动方面仍然存在Challenges。在这项工作中,我们提出了一个名为FOTS的快速光学式模拟器,用于模拟光学触觉传感器。我们利用多层感知器映射和平面阴影生成来模拟光学响应,同时采用标记分布近似来模拟由弹性体变形引起的表面标记的运动。实验结果表明,FOT在图像产生质量和渲染速度方面优于其他方法,用于光学仿真的28.6 fps和326.1 fps的单个CPU上的标记运动模拟326.1 fps,而无需GPU加速。此外,我们将FOTS仿真模型与Mujoco等物理引擎集成在一起,而PEG-In-inole任务则证明了我们方法在实现零拍摄的SIM2REAL学习触觉机器人机器人操纵技能方面的有效性。我们的代码可在https://github.com/rancho-zhao/fots上找到。
在陆地机器人自主导航的背景下,创建用于代理动力学和感官的现实模型是机器人文献和商业应用中的广泛习惯,在该习惯中,它们用于基于模型的控制和/或用于本地化和映射。另一方面,较新的AI文献是在模拟器或Ai-thor的模拟器或端到端代理上进行训练的,在这种模拟器中,重点放在照相现实渲染和场景多样性上,但是高效率机器人动作具有较少的特权角色。所得的SIM2REAL差距显着影响训练有素的模型转移到真正的机器人平台。在这项工作中,我们探讨了在设置中对代理的端到端培训,从而最大程度地减少了Sim2real Gap,在感应和驱动中。我们的代理直接预测(离散的)速度命令,这些命令是通过真实机器人中的闭环控制维护的。在修改的栖息地模拟器中鉴定并模拟了真实机器人的行为(包括底盘的低级控制器)。探视和定位的噪声模型进一步促进了降低SIM2REAL间隙。我们在实际导航方案上评估,探索不同的本地化和点目标计算方法,并报告与先前的工作相比的性能和鲁棒性的显着增长。
导入机器人URDF(United Robotics描述格式)文件,对于设置机器人模型必不可少。自动配置模块简化了配置RL参数和设置的过程,以确保为导入的机器人模型正确设置训练和仿真模块。该模块均馈入RL训练模块(支持PPO和SAC等算法)和仿真模块(由Physx提供支持),从而可以进行机器人模型的有效训练和物理模拟。SIM2REAL模块可以通过以太网将电动机命令发送到真实的机器人以进行现实世界实现,从而有助于确保可以轻松地将训练有素的策略部署在物理机器人中。此外,我们开发了一种状态对齐工具,该工具可以实时比较实际机器人和仿真模型之间的状态,从而促进了真实机器人状态与模拟中的模拟态度的一致性,以迅速迁移受过训练的行为。在线学习模块代表了一项新颖的努力,结合了SIM2REAL通信和RL训练模块,以利用现实世界中的机器人运动数据进行培训,从而克服了Sim2real的差异。
6 新比赛设置说明 22 6.1 双赛道比赛 ....................22 6.2 Sim2Real 轨道。。。。。。。。。。。。。。。。。。。。。。。.....22 6.3 辅助轨道 ...........................23 6.4 评估 ..................................24 6.4.1 定量评估参与者的三维评分 24 6.4.2 操作评分 ..........................25 6.4.3 低碳得分 .........................26 6.4.4 助理评分 ..。。。。。。。。。。。............27 6.4.5 其他评价 .......................28 6.5 竞赛组织及材料 ............。28 6.5.1 启动套件。。。。。。。。。。。。。。。。。。。。。。。。。。28 6.5.2 在 CodaLab 上托管。。。。。。。。。。。。。。。。。。。..30 6.5.3 其他可用材料 - GridAlive ..........30
强化学习已成为实现高级机器人控制的最突出的范式之一。一个典型的例子是在具有挑战性的地形上对四足动物的运动,通过RL学到的政策现在正在使用商业机器人平台发货。然而,机器人RL面临特定的挑战,因为它们的物理实施例收集了大量现实的交互数据是不可能的。为了渲染机器人增强学习,可以以各种方式整合先前的信息,从模拟(SIM2REAL),人类演示或校正到生成模型(例如LLMS)。
摘要 - 由于动物形态学适应的必要性,越来越多的工作试图扩大机器人训练,以涵盖机器人设计的物理方面。但是,能够优化机器人3D形态的增强学习方法仅限于重新定位或调整预定和静态拓扑属的四肢。在这里,我们显示了设计具有任意外部和内部结构的自由式机器人的策略梯度。这是通过沉积或去除原子构建块的行动来实现的,以形成高级非参数宏观结构,例如附属物,器官和空腔。尽管仅提供了用于开放循环控制的结果,但我们讨论了如何将此方法用于封闭环控制和SIM2REAL将来转移到实体机器。
