摘要 - 我提出了一种新颖的增强学习方法,用于在模拟环境中训练四足机器人。在动态环境中控制四足机器人的想法非常具有挑战性,我的方法提出了最佳的政策和培训方案,资源有限,并且表现出色。该报告使用RaisimgyMtorch开源库和专有软件Raisim进行模拟Anymal机器人。我的方法以训练时的机器人步行方案的评估为中心,以制定马尔可夫决策过程。使用在Actor-Critic模式下使用的近端策略优化算法来解决结果的MDP,并使用一台台式机收集了数千个状态转换。这项工作还提出了一个控制器方案,该计划在模拟环境中显示了数千个时间步骤。这项工作还为早期研究人员提供了他们喜欢的算法和配置的基础。
摘要 - 识别周围环境的物理特性对于机器人的运动和导航对于处理非几何危害(例如湿滑和可变形地形)至关重要。机器人在接触之前预测这些极端的物理特性将是很大的好处。但是,从视力中估算环境物理参数仍然是一个开放的挑战。动物可以利用他们先前的经验以及对自己所看到的东西和感受的了解来实现这一目标。在这项工作中,我们为基于视觉的环境参数估计提出了一个跨模式的自我监督学习框架,这为未来的物理范围内的运动和导航铺平了道路。我们弥合了在模拟中训练和识别视力的物理地形参数的现有政策之间的差距。我们建议在模拟中训练物理解码器,以预测多模式输入的摩擦和刚度。训练有素的网络允许以自我监督的方式将现实世界图像标记,以在部署过程中进一步训练视觉网络,这可以密集地预测图像数据的摩擦和僵硬。我们使用四倍的Anymal机器人在模拟和现实世界中验证物理解码器,表现优于现有基线方法。我们表明,我们的视觉网络可以预测室内和室外实验中的物理特性,同时允许快速适应新环境。- 项目页面https://bit.ly/3xo5aa8 -
摘要 - 识别周围环境的物理特性对于机器人的运动和导航对于处理非几何危害(例如湿滑和可变形地形)至关重要。机器人在接触之前预测这些极端的物理特性将是很大的好处。但是,从视力中估算环境物理参数仍然是一个开放的挑战。动物可以利用他们先前的经验以及对自己所看到的东西和感受的了解来实现这一目标。在这项工作中,我们为基于视觉的环境参数估计提出了一个跨模式的自我监督学习框架,这为未来的物理范围内的运动和导航铺平了道路。我们弥合了在模拟中训练和识别视力的物理地形参数的现有政策之间的差距。我们建议在模拟中训练物理解码器,以预测多模式输入的摩擦和刚度。训练有素的网络允许以自我监督的方式将现实世界图像标记,以在部署过程中进一步训练视觉网络,这可以密集地预测图像数据的摩擦和僵硬。我们使用四倍的Anymal机器人在模拟和现实世界中验证物理解码器,表现优于现有基线方法。我们表明,我们的视觉网络可以预测室内和室外实验中的物理特性,同时允许快速适应新环境。- 项目页面https://bit.ly/3xo5aa8 -