在复杂环境中无人驾驶汽车(UAV)的自主导航仍然是一个挑战性的领域。将无人机的实时感知视为一项顺序决策挑战,研究人员越来越多地采用基于学习的方法,利用机器学习来增强复杂环境中的导航。在本文中,已经提出了一种新颖的深入加强学习(DRL)模型,以使无人机的平稳导航。本文提供了现有技术的概述,为我们提出的工作奠定了基础,这不仅解决了某些局限性,而且还显示了复杂环境中的卓越性能。模拟环境是使用虚幻引擎构建的,并且已经使用AirSim API建立了连接。由于其在不关OFT策略,基于价值的方法中,选择了TD3算法在连续动作空间中的特殊适应性,从而提高了稳定性和样本效率,而PPO算法的实施是由于其实用方法引起的,因此导致稳定学习无需进行价值功能估计而导致其实施。我们的模型在定制的景观山区环境中接受了培训,并且在严格的培训后获得的结果得到了彻底分析。使用石灰和外形技术解释了我们训练的TD3代理的状态行动对。本文通过提出了有希望的方向,以进一步探索和进步。
主要关键词