摘要 本文回顾了游戏人工智能领域,该领域不仅涉及创建可以玩特定游戏的代理,还涉及自动创建游戏内容、游戏分析或玩家建模等多种领域。虽然游戏人工智能长期以来并未得到更广泛的科学界的认可,但它已成为开发和测试最先进人工智能算法的研究领域,涵盖掌握《星际争霸 2》和《雷神之锤 III》等视频游戏进展的文章出现在最负盛名的期刊上。由于该领域的发展,一篇评论无法完全涵盖它。因此,我们重点关注近期的重要发展,包括游戏人工智能的进展开始扩展到游戏以外的领域,例如机器人技术或化学品合成。在本文中,我们回顾了为这些突破铺平道路的算法和方法,报告了游戏 AI 研究的其他重要领域,并指出了游戏 AI 未来令人兴奋的方向。
[7] O. Vinyals、I. Babuschkin、W. M. Czarnecki 等人。, “使用多智能体强化学习在星际争霸 II 中达到大师级水平”,《自然》,
星际争霸 II 中的经典对抗类型,由 AlphaStar 扮演,由两名玩家在资源有限的特定环境中相互对抗 — 参见“迷你地图”(图 I)。这代表两个个体之间的生态竞争,可以是种内竞争,也可以是种间竞争,这取决于玩家是否选择同一种族。地图显示了整个环境,但玩家的视野仅限于各自单位和建筑物周围较浅的圆形区域。资源是浅蓝色形状,深蓝色和红色形状是双方的建筑物和单位(Protoss 为蓝色,Terran 为红色)。可以通过这个迷你地图监控竞争的进展和结果,它显示了新资源斑块的殖民和开发、环境探索以及通常的生态崩溃。这张地图可用于监控更现实的生态模型。例如,几个玩家可以在更大且完全不可预测的环境中相互竞争,这将使我们能够研究人口和社区规模的生态过程。我们还可以设置场景,在游戏过程中人为地修改环境条件,然后评估对生态系统功能和生物多样性动态的影响。请注意,使用游戏参数可以轻松量化几个生态过程,如特征变化或权衡修改。图 I. 星际争霸 II 标准游戏的迷你地图。
我是计算机科学博士学位的研究员,游戏设计师和首席执行官。我共同创立了Östergötland的两家领先的游戏开发公司:Dimfrost Studio AB(2020年由纳斯达克上市的Maximum Entertainment完全收购)和Pugstorm AB(私人持有)。我还是斯坦福大学算法游戏理论实验室的邀请研究员,我是Core Keeper的游戏总监,这是一款拥有超过200万玩家的游戏。我对人工智能,计算机科学和计算机游戏的贡献为我赢得了奖项,包括Lilla Polhemspriset和年轻的年轻企业家。在业余时间,我喜欢创作艺术,游戏和音乐。我也喜欢创意写作和举重,而且我是实时策略游戏《星际争霸II》的前大师。
AFRL 正在使用名为强化学习 (RL) 的机器学习工具来训练智能代理在环境中采取行动,目标是最大化整体长期回报。RL 基于操作性条件作用的心理学概念,例如,可用于通过正强化和负强化来训练狗。由于 RL 在具有高维状态空间、复杂规则结构和未知动态的环境中表现出色,因此在本项目中使用了 RL。使用传统的、强大的决策工具很难制定可靠且高性能的解决方案。然而,RL 已证明能够在从围棋等棋盘游戏、星际争霸等实时战略游戏到阿尔法空战等军事交战场景等突破性领域创造出优于人类的代理。
强化学习是一项令人兴奋的新兴技术,可广泛适用于国防部 (DoD) 的一系列任务领域。它是一种机器学习的形式,其中根据代理的表现通过奖励和惩罚来训练代理。深度强化学习 (DRL) 已显示出在复杂和高维环境中找到有效策略的能力,例如学习玩《星际争霸》或《古代防御》等策略游戏。因此,国防部正在投资模拟环境,以训练自主代理解决具有挑战性的国防部问题。例如,该实验室帮助开发了美国陆军环境,用于训练人工智能代理以防御无人机系统、火箭、火炮和迫击炮威胁。同样,国防高级研究计划局开发了 AlphaDogfight 环境来训练完全自主的飞行员进行空战。
人工智能的最新进展已经产生了可以在围棋、星际争霸和 Dota2 等游戏中击败人类世界冠军的代理。然而,这些模型中的大多数似乎并没有以类似人类的方式进行游戏:人们从他人的行为中推断出他们的意图,并利用这些推断来策划和制定战略。在这里,我们使用贝叶斯心智理论 (ToM) 方法,研究了在合作游戏中明确表达他人意图对提高表现的程度。我们比较了人类在具有和不具有 ToM 的最佳规划代理的情况下在合作游戏中的表现,玩家必须灵活合作才能实现共同目标。我们发现,在与所有类型的合作伙伴(非 ToM、ToM 以及人类玩家)合作时,拥有 ToM 代理的团队表现明显优于非 ToM 代理,并且 ToM 代理越多,ToM 的好处就越大。这些发现对于设计更好的合作代理具有重要意义。
简介 游戏长期以来一直是人工智能的流行基准。许多研究人员研究了各种算法和技术,试图在国际象棋、围棋、赛车游戏、吃豆人小姐、实时战略 (RTS) 游戏和超级马里奥兄弟等不同的计算机游戏中逼近最佳玩法。有时,这些研究主题伴随着某种竞赛,在统一的基准中测试不同的方法。游戏研究使算法 AI 取得了一些有趣的进展,例如使用并行 Alpha-Beta 剪枝(在国际象棋中),或在围棋游戏中看到的游戏 AI 中最流行的算法之一蒙特卡洛树搜索 (MCTS) 的进展。虽然特定游戏研究的贡献确实很重要,但特定游戏竞赛由于其固有结构而存在一个问题:提出的大多数解决方案往往过于专注于它们所应用的领域。换句话说,挑战的性质,甚至是赢得比赛的斗争,都鼓励参与者为算法提供高度定制的启发式方法,这些启发式方法仅适用于用于挑战的游戏。例如,世界冠军星际争霸代理
2019 年 8 月 - 至今 博士研究(机器学习、自然语言处理、计算机视觉)普渡大学(指导老师:David Inouye 博士),印第安纳州西拉斐特 • • 创建一个因果基础的生成式 AI 模型,该模型生成反事实示例来回答以下问题“如果发生 X 而不是 Y,情况会是什么样子?” (例如,如果我在 B 医院而不是 A 医院拍摄的胸部 X 光片会是什么样子。) • 派生出可解释领域翻译的方法,用于向人类操作员解释分布变化,可用于系统监控或知识发现。 • 根据《星际争霸 II》的人类比赛构建了一个新的大规模多智能体计算机视觉 (CV) 数据集,该数据集表现出复杂且不断变化的智能体行为,产生了 180 万张具有多种数据表示的图像,例如可以用作 CIFAR10 和 MNIST 的替代品。 • 创建了一种轻量级机器学习算法,该算法使用深度密度模型来检测分布的变化,并将变化定位到导致变化的特定问题特征,从而允许以很少的额外开销进行在线监控。
这段对话来自 2014 年电影《机械姬》的早期场景,其中内森邀请凯勒布判断内森是否成功创造出了人工智能。1 强大的通用人工智能的成就长期以来一直吸引着我们的想象力,不仅因为它令人兴奋和担忧的可能性,也因为它为人类带来了一个全新的未知时代。斯图尔特·罗素在 2021 年 BBC 里斯讲座“与人工智能共存”的开场白中指出,“通用人工智能的最终出现将是人类历史上最大的事件。”2 在过去十年中,一系列令人印象深刻的成果引起了公众对强大人工智能可能性的广泛关注。在机器视觉方面,研究人员展示了在某些情况下可以像人类一样甚至比人类更好地识别物体的系统。然后是游戏。复杂的策略游戏长期以来都与超强的智能联系在一起,因此当人工智能系统在国际象棋、雅达利游戏、围棋、将棋、星际争霸和 Dota 中击败最优秀的人类玩家时,全世界都注意到了。这不仅仅是人工智能击败了人类(尽管这在第一次发生时令人震惊),而是他们如何做到这一点的不断进步:最初是通过向人类专家学习,然后是自我学习,然后是从头开始自学游戏原理,最终产生单一系统,