需要强大的相对导航系统和传感器来确保成功完成航天器与小天体(小行星、彗星)的自主会合操作、航天器近端/对接机动以及行星体进入、下降和着陆 (EDL) 任务。在过去 5 年内,全局快门闪光激光雷达已成为这些相对导航任务领域的首选传感器。与其他激光雷达模式相比,全局快门闪光激光雷达具有出色的尺寸、重量和功率 (SWaP) 性能,能够生成实时组织的点云并同时跟踪多个物体。首批使用由 Advanced Scientific Concepts LLC (ASC) 设计和制造的全局快门闪光激光雷达相对导航传感器的两个作战太空计划是 NASA/洛克希德马丁 OSRIS-Rex 和 NASA/波音的 CST-100 Starliner(载人航天运输)任务。 OSIRS-REx 任务尤其令人感兴趣,因为这是首次收集闪光激光雷达深空可靠性数据。
I. 引言随着火星立方体一号 (MarCO) 任务的成功和小型化技术的进步,小型卫星不再局限于在低地球轨道 (LEO) 运行。相反,通过低推力小型卫星进行深空探索、技术演示和有针对性的科学任务可能很快就会成为现实。事实上,即将到来的任务,如月球冰立方、LunaH-map 和 NEA Scout,将把小型卫星作为次要有效载荷搭载在 Artemis 1 上,部署到多体重力环境内的各种位置[1-3]。然而,混沌多体系统中航天器的轨迹和机动设计本质上是一个高维问题,而且由于结合了与低推力小型卫星相关的约束而变得更加复杂:有限的推进能力、运行调度约束以及固定但不确定的初始条件。虽然存在多种基于最优控制和动态系统理论 (DST) 的数值方法,用于在多体系统的近似动力学模型中构建低推力轨迹和机动剖面,但自主和稳健设计策略的开发需要一种替代方法。强化学习 (RL) 是天体动力学界越来越感兴趣的一类用于实现轨迹和机动设计的自主性的算法。RL 算法通常涉及代理与环境交互,通过对动态状态采取行动来最大化奖励函数。代理会探索环境,直到确定了决定每个状态下最佳动作的策略。如果制定得当,这些算法可以探索许多状态-动作对以确定最佳动作,同时限制对次优动作的探索。RL 方法已用于天体动力学中各种应用和动力学模型的轨迹和机动设计。例如,Dachwald 探索使用人工神经网络和进化算法设计配备低推力航天器到水星的转移 [ 4 ]。Das-Stuart、Howell 和 Folta 近期提出的方法利用 RL 和基本动力学结构来设计圆形限制三体问题 (CR3BP) 中周期轨道之间的复杂转移轨迹 [ 5 ]。此外,Scorsoglio、Furfaro、Linares 和 Massari 还使用演员-评论家深度强化学习 (DRL) 方法来开发地月空间近直线轨道航天器的对接机动 [ 6 ]。最近,Miller 和 Linares 应用著名的近端策略优化 (PPO) 算法来设计地月系统中遥远逆行轨道之间的转移,通过 CR3BP 进行建模 [ 7 ]。这些研究的成功为天体动力学界继续探索和扩展 RL 在多体轨迹设计策略中的应用奠定了宝贵的基础。具体来说,本文以这些先前的研究为基础,重点关注实施基于 RL 的轨迹设计方法的一个重要组成部分:制定一个奖励函数,该函数既反映了设计目标,也反映了影响恢复机动轮廓操作可行性的约束。该分析是在低推力 SmallSat 的轨迹设计背景下进行的,以快速访问位于与 CR3BP 中的周期轨道相关的稳定流形上的附近参考轨迹。