人工智能代理能够快速适应不断变化的环境

DeepMind 的开放式学习团队开发了一种训练游戏 AI 系统的新方法。 DeepMind 团队没有像其他 AI 游戏系统那样基于数千个之前的游戏会话来训练系统,而是为新 AI 系统的代理提供了一组最低限度的技能,让他们用来实现一个简单的目标(例如,检测虚拟世界中的另一个玩家),然后开发它们。

来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)

DeepMind 的开放式学习团队开发了一种训练游戏 AI 系统的新方法。 DeepMind 团队没有像其他 AI 游戏系统那样基于数千个之前的游戏会话来训练系统,而是为新 AI 系统的代理提供了一组最低限度的技能,让他们用来实现一个简单的目标(例如,检测虚拟世界中的另一个玩家),然后开发它们。

研究人员创建了一个名为 XLand 的丰富多彩的虚拟世界。其中,人工智能玩家(研究人员称之为代理)被派去实现一个共同的目标,当他们实现这个目标时,他们获得了可以用来实现其他目标的技能。然后,研究人员改变了游戏,给智能体一个新的目标,但允许他们保留在之前的游戏中学到的技能。

一个示例涉及代理尝试到达无法直接访问的虚拟位置的最高点。翻箱倒柜后,特工发现他可以移动他找到的扁平物体并将其用作坡道,从而向上走。为了使智能体能够获得更多技能,研究人员创建了 700,000 个场景,在这些场景中智能体面临大约 340 万个独特的任务。

使用这种方法,智能体能够学习玩各种游戏,例如捉人游戏、夺旗游戏和捉迷藏游戏。研究人员称他们的方法无限复杂。 XLand 的另一个有趣的方面是,有一位主管监视代理并记录他们学到的技能,然后创建新游戏来强化他们的技能。通过这种方法,代理只要被赋予新任务就会学习。

研究人员在一份文档 (PDF) 中详细介绍了他们的工作。

文档

视频