高速喷气式飞机的飞行员需要经过多年的高级训练才能获得出色的操控能力。如果能够将飞行员和其他领域专家的技能、知识和偏好提炼成一个能够捕捉真实操控行为的软件模型,那么这种方法将具有重大的实用价值。这种模型的可扩展性将使其可用于战略规划演习、培训以及其他软件系统的开发和测试。这将使人类驾驶专业知识这一稀缺资源获得更大的回报。这一愿景面临着实际挑战,即准确地获取所需知识以将其编入自动化系统。在许多需要直觉决策和快速运动控制的情况下,专家们一看到良好的操控性就知道,但并不总是能用形式或语言术语表达原因 [1]。∗ 显性知识获取策略也可能非常耗时,任何依赖专家演示的方法也是如此。这促使人们采用一种使用稀疏数据源的基于学习的方法。鉴于透明度对于安全至关重要的航空应用的重要性 [2、3],任何此类方法都必须学习一个可解释(即人类可读和可理解)的专家知识模型,以促进信任和验证。本文提出了一种可能的解决方案。我们使用人工智能强化学习 (RL) 代理来生成模拟飞行轨迹数据集,然后咨询专家以获得对这些轨迹的成对偏好,表明哪一个是针对给定感兴趣任务的首选解决方案。众所周知,成对偏好引出具有稳健性和时效性,并为组合来自多个专家的数据提供了基础,而无需就共同的评分系统达成一致。然后,我们使用统计学习算法以基于规则的树结构形式构建收集到的偏好的可解释解释模型。反过来,该树被用作奖励函数来训练代理生成更高质量的轨迹,并迭代该过程直至收敛。最终结果是两个不同的输出,它们可以形成未来规划、培训和开发软件的宝贵组成部分:
高速喷气式飞机的飞行员需要经过多年的高级训练才能获得出色的操控能力。如果能够将飞行员和其他领域专家的技能、知识和偏好提炼成一个能够捕捉真实操控行为的软件模型,那么这种方法将具有重大的实用价值。这种模型的可扩展性将使其可用于战略规划演习、培训以及其他软件系统的开发和测试。这将使人类驾驶专业知识这一稀缺资源获得更大的回报。这一愿景面临着实际挑战,即准确地获取所需知识以将其编入自动化系统。在许多需要直观决策和快速运动控制的情况下,专家一看到良好的操控性就知道,但并不总是能用形式或语言术语表达原因 [1]。∗ 显性知识获取策略也可能非常耗时,任何依赖专家演示的方法也是如此。这促使人们采用使用更稀疏数据源的基于学习的方法。鉴于透明度对于安全关键型航空应用的重要性 [ 2 , 3 ],任何此类方法都必须学习可解释(即人类可读和可理解)的专家知识模型,以促进信任和验证。本文提出了一个可能的解决方案。我们使用人工强化学习 (RL) 代理来生成 si 数据集