高速喷气式飞机的飞行员需要经过多年的高级训练才能获得出色的操控能力。如果能够将飞行员和其他领域专家的技能、知识和偏好提炼成一个能够捕捉真实操控行为的软件模型,那么这种方法将具有重大的实用价值。这种模型的可扩展性将使其可用于战略规划演习、培训以及其他软件系统的开发和测试。这将使人类驾驶专业知识这一稀缺资源获得更大的回报。这一愿景面临着实际挑战,即准确地获取所需知识以将其编入自动化系统。在许多需要直观决策和快速运动控制的情况下,专家一看到良好的操控性就知道,但并不总是能用形式或语言术语表达原因 [1]。∗ 显性知识获取策略也可能非常耗时,任何依赖专家演示的方法也是如此。这促使人们采用使用更稀疏数据源的基于学习的方法。鉴于透明度对于安全关键型航空应用的重要性 [ 2 , 3 ],任何此类方法都必须学习可解释(即人类可读和可理解)的专家知识模型,以促进信任和验证。本文提出了一个可能的解决方案。我们使用人工强化学习 (RL) 代理来生成 si 数据集