获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
强化学习越来越多地应用于飞行控制任务,目的是开发真正自主的飞行器,能够穿越高度变化的环境并适应未知情况或可能的故障。然而,这些日益复杂的模型和算法的开发进一步降低了我们对其内部工作原理的理解。这会影响算法的安全性和可靠性,因为很难甚至不可能确定它们的故障特征以及它们在从未测试过的情况下会如何反应。通过开发可解释的人工智能和可解释的强化学习方法(如 SHapley 加法解释),可以弥补这种理解的不足。此工具用于分析 Actor-Critic 增量双启发式编程控制器架构在非线性飞行条件下(例如在高攻角和大侧滑角下)执行俯仰速率或滚转速率跟踪任务时学习的策略。之前曾使用相同的分析工具对相同的控制器架构进行过探索,但仅限于标称线性飞行状态,并且观察到控制器学习了线性控制律,即使其人工神经网络应该能够近似任何函数。有趣的是,这篇研究论文发现,即使在非线性飞行状态下,这种控制器架构学习准线性控制律仍然是更理想的,尽管它似乎不断修改线性斜率,就好像它是增益调度技术的一个极端情况一样。