AFRL 正在使用名为强化学习 (RL) 的机器学习工具来训练智能代理在环境中采取行动,目标是最大化整体长期回报。RL 基于操作性条件作用的心理学概念,例如,可用于通过正强化和负强化来训练狗。由于 RL 在具有高维状态空间、复杂规则结构和未知动态的环境中表现出色,因此在本项目中使用了 RL。使用传统的、强大的决策工具很难制定可靠且高性能的解决方案。然而,RL 已证明能够在从围棋等棋盘游戏、星际争霸等实时战略游戏到阿尔法空战等军事交战场景等突破性领域创造出优于人类的代理。
摘要。超人 AI 引擎的广泛使用正在改变我们玩围棋这项古老游戏的方式。AlphaGo 系列之后开发的开源软件包将重点从生产强大的游戏实体转移到提供分析游戏的工具。在这里,我们描述了第二代引擎的创新(例如分数估计、可变贴目)如何用于定义有助于加深我们对游戏理解的新指标的两种方式。首先,我们研究搜索组件除了原始神经网络策略输出之外还贡献了多少信息。这为神经网络提供了内在强度测量。其次,我们通过分数估计的差异来定义移动的影响。这为玩家提供了细粒度的、逐步表现评估。我们用它来应对检测在线作弊的新挑战。
讲座很长的一章!我们详细讨论战略游戏的话题有两个原因:一方面,在伴随讲座的实习期间,黑白棋游戏程序逐渐以小组形式开发,并在学期末的锦标赛中相互竞争 -基础理论和实际应用概念的知识是必不可少的,当然也是有用的。另一方面,游戏程序有着令人着迷的近代历史:许多著名的数学家和计算机科学家(包括查尔斯·巴贝奇、艾伦·图灵、约翰·冯·诺伊曼、康拉德·祖斯、克劳德·香农和诺伯特·维纳)都曾研究过它们;此外,还开发了许多游戏程序(最初是针对策略和算法要求不高的儿童游戏,例如 Nim 或 Tic-Tac-Toe,后来也针对“困难”且受到社会尊重的游戏,例如国际象棋和围棋)...
人工智能旨在模仿人类智能。随着技术的发展,最新版本的人工智能在许多领域都表现出超越人脑的强大计算机处理能力。人类智能的一个重要方面是其适应能力、从例子中学习新概念的能力以及利用先前知识实现新解决方案的能力(Barbey,2018)。这种能力被称为认知灵活性,而据报道,人工智能缺乏这种能力。以 AlphaGo 为例。在 AlphaGo 击败人类围棋世界冠军后,其母公司未能进一步改进人工智能,因为 AlphaGo 无法自行适应或学习新动作(Silver & Hassabis,2017)。考虑到人工智能的认知局限性,当人类工作者定期与人工智能(一种认知不灵活的大脑版本)互动和协作时,会发生什么?
讲座很长的一章!我们详细讨论战略游戏的话题有两个原因:一方面,在伴随讲座的实习期间,黑白棋游戏程序逐渐以小组形式开发,并在学期末的锦标赛中相互竞争 -基础理论和实际应用概念的知识是必不可少的,当然也是有用的。另一方面,游戏程序有着令人着迷的近代历史:许多著名的数学家和计算机科学家(包括查尔斯·巴贝奇、艾伦·图灵、约翰·冯·诺伊曼、康拉德·祖斯、克劳德·香农和诺伯特·维纳)都曾研究过它们;此外,还开发了许多游戏程序(最初是针对策略和算法要求不高的儿童游戏,例如 Nim 或 Tic-Tac-Toe,后来也针对“困难”且受到社会尊重的游戏,例如国际象棋和围棋)...
机器学习已经在图像分类[1]、视频识别[2]、自然语言处理(NLP)[3]和游戏策略[4]等众多应用中取得了最先进的性能。此外,深度神经网络(DNN)甚至可以在一些任务中超越人类水平的表现,例如ImageNet分类[5]和棋盘游戏围棋[4]。同时,神经网络的复杂度和参数大小在过去几年中飙升。尽管通用图形处理单元(GPGPU)取得了快速发展,但其能源效率仍然远低于终极“智能”——人脑,后者包含10 10个神经元和10 14个突触,但仅消耗约20瓦[6]。其中一个瓶颈来自于冯诺依曼架构将内存和处理单元分开的事实,从而引入了大量的数据移动能量以及数据访问延迟[7]。
福山。近 25 年后,我们或多或少成功地与 Siri、Cortana 及其虚拟朋友聊天,并且迫不及待地想要拥有价格实惠的自动驾驶汽车。围棋通常被认为是最抽象、最复杂的棋盘游戏;尽管如此,AlphaGo Zero 在 2017 年的精彩表现几乎没有给广大公众留下深刻印象,对大多数象棋选手来说绝对不是一个大惊喜。显然,人类已经无法赢得比赛了。这种认识引出了一个问题:剩下的人类象棋选手发生了什么。是否还有人真的在认真下棋,还是只是出于无聊,因为象棋不再是“国王的游戏”,而是一种大富翁或妙探寻凶?现实是惊人的;从来没有这么多人下棋,也从来没有人下得这么好!因此,这绝对不是象棋历史的终结。
许多人认为,通用智能(即解决任意可解问题的能力)是人工可构建的。狭义智能(即解决特定特别困难问题的能力)最近取得了令人瞩目的发展。值得注意的例子包括自动驾驶汽车、围棋引擎、图像分类器和翻译器。通用人工智能 (AGI) 具有狭义智能所不具备的危险:如果在各个领域都比我们聪明的东西对我们的担忧无动于衷,那么它将对人类构成生存威胁,就像我们虽然没有恶意,却威胁着许多物种一样。甚至连如何保持 AGI 的目标与我们自己的目标一致的理论也被证明是难以捉摸的。我们提出了我们所知的第一个渐近无野心的 AGI 算法,其中“无野心”包括不寻求任意权力。因此,我们发现了工具收敛论题的一个例外,大致就是默认情况下,AGI 会寻求权力,包括对我们拥有权力。
摘要 人工智能 (AGI) 在许多应用中表现出越来越高的性能 - 在国际象棋和围棋中击败人类,使用知识库和文本源回答问题,甚至通过学校学生考试。在本文中,我们描述了 AI Journey 的结果,AI Journey 是一场旨在提高 AI 在语言知识评估、推理和文本生成方面表现的 AI 系统竞赛。竞争系统通过了俄罗斯统一国家考试 (USE),包括多种语法任务(测试和开放式问题)和一篇论文:由表现最佳的模型组成的组合解决方案取得了 69% 的高分,其中 68% 是人类的平均成绩。在比赛期间,提出了任务和论文部分的基线,并提交了 98 个系统,展示了解决任务和推理的不同方法。所有数据和解决方案都可以在 github 上找到 https://github.com/sberbank-ai/combined_solution_aij2019
摘要 — 人们已经投入了数十年的研究来开发用于玩国际象棋和围棋等游戏的计算机程序。本文重点介绍一款新游戏俄罗斯方块链接,这是一款仍然缺乏任何科学分析的棋盘游戏。俄罗斯方块链接具有很大的分支因子,阻碍了传统的启发式规划方法。我们探索启发式规划和另外两种方法:强化学习、蒙特卡洛树搜索。我们记录了我们的方法并报告了它们在锦标赛中的相对表现。奇怪的是,启发式方法比规划/学习方法更强大。然而,经验丰富的人类玩家很容易赢得与启发式规划 AI 的大多数比赛。因此,我们推测俄罗斯方块链接比预期的更难。我们将我们的研究结果提供给社区作为改进的挑战。索引术语 — 俄罗斯方块链接、启发式、蒙特卡洛树搜索、强化学习、RL 环境、OpenAI Gym