摘要。自主火箭着陆是航空航天工程中的关键里程碑,这是实现安全且具有成本效益的太空任务的关键。本文介绍了一种开创性的方法,该方法采用了强化学习方法来提高火箭着陆程序的精确性和效率。基于逼真的Falcon 9模型,该研究集成了复杂的控制机制,包括推力矢量控制(TVC)和冷气推进器(CGT),以确保敏捷推进和平衡调整。观察数据,传递关键参数,例如火箭位置,方向和速度,指导强化学习算法做出实时决策以优化着陆轨迹。通过战略实施课程学习策略和近端政策优化(PPO)算法,火箭代理进行了迭代培训,稳步提高了其在指定垫上执行软着陆的能力。实验结果强调了所提出的方法的疗效,在实现精确和受控下降方面表现出非常熟练的能力。这项研究代表了自主着陆系统的进步,准备彻底改变太空探索任务,并在商业火箭企业中解锁新的边界。
主要关键词