3 方法论 17 3.1 惯性估算. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ...飞行员和强化学习代理同时学习飞行技能,形成共生关系。训练强化学习代理的情节可以由飞行员在模拟器中模拟,也可以使用计算机上的游戏进行无人驾驶。在典型的情节中,强化学习代理为飞行员提供了一系列要遵循的操作。这些指令会产生两种结果之一,即成功或失败。代理观察飞行员的心理反应以及飞行环境,并获得正面或负面的奖励。经过训练的强化学习代理代表了一种新型的人工智能,可在飞行的各个阶段协助飞行员。