摘要:加强学习的最新进步使得培养足球代理人,以模仿人类球员的行为。但是,现有方法成功复制现实的玩家行为仍然具有挑战性。实际上,代理商表现出诸如在球周围聚集或过早射击之类的行为。此问题的一个原因在于奖励功能总是为某些行动分配巨大的奖励,例如得分目标,无论情况如何,这种情况都会使代理人偏向高奖励行动。在这项研究中,我们将相对位置奖励和拍摄的位置重量纳入用于增强学习的奖励功能中。相对位置奖励,源自球员,球和目标的位置,是使用逆强化学习在真正的足球游戏数据集中估算的。拍摄的位置重量类似地基于这些游戏中观察到的实际射击位置。通过在真正的足球游戏中获得的数据集中进行实验,我们证明了相对位置奖励有助于使代理商的行为与人类玩家的行为更加紧密地保持一致。
13. 摘要(最多 200 个字)无人机系统 (UAS) 的普及加剧了恶意行为者利用该技术进行恶作剧或伤害的不对称威胁。现有的地面解决方案受到视线的限制,而人工操作的响应无人机响应速度较慢且劳动强度较大。因此,需要具备基于视觉的自主追击和拦截未经授权的无人机的能力。为了解决这个问题,作者开发了一种计算机视觉 (CV) 算法,用于在现场条件下检测、跟踪和估计悬停和移动的空中小型 UAS 目标的相对位置和范围。将基于 CV 的测量结果与 GPS 数据进行比较,以评估 CV 算法的范围和角度估计性能。然后,飞行控制算法利用简单的角度制导原理处理 CV 估计的范围和角度信息以追击和拦截目标。使用原型无人机对该算法进行了现场测试。这项研究将为商用现货反无人机能力的概念设计和硬件实现选择提供参考。更广泛地说,这项研究为自主物体跟踪应用的知识体系做出了贡献。