摘要 本文回顾了游戏人工智能领域,该领域不仅涉及创建可以玩特定游戏的代理,还涉及自动创建游戏内容、游戏分析或玩家建模等多种领域。虽然游戏人工智能长期以来并未得到更广泛的科学界的认可,但它已成为开发和测试最先进人工智能算法的研究领域,涵盖掌握《星际争霸 2》和《雷神之锤 III》等视频游戏进展的文章出现在最负盛名的期刊上。由于该领域的发展,一篇评论无法完全涵盖它。因此,我们重点关注近期的重要发展,包括游戏人工智能的进展开始扩展到游戏以外的领域,例如机器人技术或化学品合成。在本文中,我们回顾了为这些突破铺平道路的算法和方法,报告了游戏 AI 研究的其他重要领域,并指出了游戏 AI 未来令人兴奋的方向。
舰队在可行性的早期阶段评估了各种技术。零发射电池电力校车历史上一直困扰着更高的成本,低可靠性,低范围和低技术可转移性。这些障碍尚未得到充分解决,因为该技术的开发是昂贵,风险的,并且车辆量太低,无法带来足够的资本,尽管有机会减少,空气质量改进,社区健康福利和运营储蓄机会。现有的车辆制造商通过汽油和柴油发动机(例如汽油和柴油发动机)来控制市场,而没有激励开发可以取代其当前业务模型的技术。需要正确的合作伙伴关系和技术来利用传统校车已经存在的资本强度生产线来生产电池电力校车。技术,例如Motive Electric驱动的智能底盘,这些传统的校车线路很容易整合零排放电池电力电动机。该项目允许Motion Power Systems通过Starcraft Quest XL主体利用福特F-59平台上的技术进入校车应用程序,并探索与化石燃料动力的校车相比,电动校车的投资回报率。该项目允许销售合作伙伴,Creative Bus Sales扩展其电动汽车产品,包括Starcraft Quest School Bus。该项目导致在Colton Unified学区使用公共汽车。公共汽车的演示导致在加利福尼亚和伊利诺伊州提供了18辆Starcraft Quest校车。
[7] O. Vinyals、I. Babuschkin、W. M. Czarnecki 等人。, “使用多智能体强化学习在星际争霸 II 中达到大师级水平”,《自然》,
发表了深Q-Networks(DQN)[Mnih等。,2013年],从其人工智能(AI)冬季唤醒了增强学习(RL),这表明一般基于神经网络的算法可以在一系列复杂的任务中实现专家级的性能。在后来的几年中,深度神经网络的RL导致特工在Go Silver等人中击败了专业人士。[2017],Dota 2 Berner等。[2019],Starcraft 2 [Vinyals等。 ,2019年]以及更多。 因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。 同时,Openai Gym [Brockman等。 ,2016年]成为第一个广泛采用的普通API。 体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。[2019],Starcraft 2 [Vinyals等。,2019年]以及更多。因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。同时,Openai Gym [Brockman等。,2016年]成为第一个广泛采用的普通API。体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。
星际争霸 II 中的经典对抗类型,由 AlphaStar 扮演,由两名玩家在资源有限的特定环境中相互对抗 — 参见“迷你地图”(图 I)。这代表两个个体之间的生态竞争,可以是种内竞争,也可以是种间竞争,这取决于玩家是否选择同一种族。地图显示了整个环境,但玩家的视野仅限于各自单位和建筑物周围较浅的圆形区域。资源是浅蓝色形状,深蓝色和红色形状是双方的建筑物和单位(Protoss 为蓝色,Terran 为红色)。可以通过这个迷你地图监控竞争的进展和结果,它显示了新资源斑块的殖民和开发、环境探索以及通常的生态崩溃。这张地图可用于监控更现实的生态模型。例如,几个玩家可以在更大且完全不可预测的环境中相互竞争,这将使我们能够研究人口和社区规模的生态过程。我们还可以设置场景,在游戏过程中人为地修改环境条件,然后评估对生态系统功能和生物多样性动态的影响。请注意,使用游戏参数可以轻松量化几个生态过程,如特征变化或权衡修改。图 I. 星际争霸 II 标准游戏的迷你地图。
对自动驾驶汽车(AV)的研究取得了显着的进步,而深度学习的最新进展(DL),尤其是在车辆感知堆栈上。尽管有一些令人鼓舞的结果和演示,但DL在车辆计划和控制堆栈中的应用仍然有限。深度强化学习(DRL)是一种在序列过程中生成控制策略的方法,并且能够自动从数据学习和适应数据,从而强大地应对不同的操作条件和任务。与传统的基于模型的控制方法相比,这提供了更高的性能计划或控制解决方案,该方法依赖于系统的数学模型。最近通过示例的DRL分解包括Alphastar(Arulkumaran等,2019),该模型旨在播放Starcraft II和端到端的自动驾驶汽车延续(Kendall等,2019)。
网络防御是与试图利用弱点并在数字系统中引起意外行为的攻击者的动态和不断发展的对抗的一方。从历史上看,攻击者和捍卫者都依靠人类的创造力和智力来超越彼此,以竞争性,新兴,临时课程学习彼此的策略。现代网络战斗人员越来越依赖各种自动化工具,机器学习;也许更令人惊讶的是,游戏在追求目标。虽然基于深厚的强化学习的自主代理人在玩复杂的策略游戏(如GO,Starcraft和Stratego)中取得了巨大的突破,但在网络防御游戏中几乎没有得到相对较少的进展以及他们与他们相关的现实世界中的问题。我们强调了网络防御中的自治药物的现状,预示着其巨大的未来潜力,并确定了近乎近外的关键研究挑战。
AFRL 正在使用名为强化学习 (RL) 的机器学习工具来训练智能代理在环境中采取行动,目标是最大化整体长期回报。RL 基于操作性条件作用的心理学概念,例如,可用于通过正强化和负强化来训练狗。由于 RL 在具有高维状态空间、复杂规则结构和未知动态的环境中表现出色,因此在本项目中使用了 RL。使用传统的、强大的决策工具很难制定可靠且高性能的解决方案。然而,RL 已证明能够在从围棋等棋盘游戏、星际争霸等实时战略游戏到阿尔法空战等军事交战场景等突破性领域创造出优于人类的代理。
强化学习是一项令人兴奋的新兴技术,可广泛适用于国防部 (DoD) 的一系列任务领域。它是一种机器学习的形式,其中根据代理的表现通过奖励和惩罚来训练代理。深度强化学习 (DRL) 已显示出在复杂和高维环境中找到有效策略的能力,例如学习玩《星际争霸》或《古代防御》等策略游戏。因此,国防部正在投资模拟环境,以训练自主代理解决具有挑战性的国防部问题。例如,该实验室帮助开发了美国陆军环境,用于训练人工智能代理以防御无人机系统、火箭、火炮和迫击炮威胁。同样,国防高级研究计划局开发了 AlphaDogfight 环境来训练完全自主的飞行员进行空战。