要继续遵循可持续和灵活的道路,NASA需要应对在目的地收集和移动大量岩石的挑战。NASA的Regolith Advanced Surface Systems操作机器人(Rassor)[1]主要旨在挖掘和运送Regolith,以用于现场资源利用率(ISRU)处理。Rassor的设计使其能够有效地收集和存入Regolith,返回收集的处理材料以及无数相关的ISRU活动。要可靠地在月球表面执行这些操作,Rassor软件和感觉系统需要稳健,并最大化从减少的传感器有效载荷中提取的信息。在此,我们介绍了智能可增强的Rassor项目的初步发现[2]。我们创建了减少阶的仿真环境,以通过增强学习和原型状态估计架构来开发自主沟通控制器。强化学习的目的是让代理通过与环境的互动来学习政策(任务策略)。当代理执行诉讼时,会在环境状态下发生更改,并收到数值奖励,该奖励告知代理商是否良好。由于增强学习算法通过反复试验学习,因此模拟是开发和学习的最佳环境。我们开发了两个模拟,第一个是为促进参数选择而开发的2D挖掘模拟,并使用游戏物理发动机开发了3D模拟,以模拟简化的土壤相互作用并增加机器人代理动力学模型的实现。这种3D仿真的开发使得在粒状力学和操作水平上都可以培训其他感应能力和研究。我们探索了各种虚拟传感器有效载荷,以识别启用了有效发掘操作和学习的组合。我们的奖励功能是基于每个步骤授予多少材料。离开挖掘地点并平滑鼓臂的加速度也受到了罚款。我们实施了伪随机传感器,以报告从每个鼓到地面的距离和地面上方的高度,这比现有解决方案更加有效。我们的发现表明,自主行动的强化学习在我们简化的2D环境中学习了3000个培训事件中的可行沟渠策略,并有助于确定所需的感应能力,安排和考虑因素,例如交流时间传感器的位置。未来的工作包括将我们的模拟扩展到更复杂的环境和场景,以及将学习从模拟转移到Rassor 2.0硬件,以在NASA的肯尼迪航天中心的Regolith Test bin中进行部署。