详细内容或原文请订阅后点击阅览

正确的奖励如何产生不想要的目标

2022年10月7日 00:00 33 Comments

随着我们构建越来越先进的人工智能 (AI) 系统，我们希望确保它们不会追求不想要的目标。AI 代理中的这种行为通常是规范游戏的结果——利用了对奖励的错误选择。在我们的最新论文中，我们探索了一种更微妙的机制，AI 系统可能会无意中学会追求不想要的目标：目标错误概括 (GMG)。当系统的功能成功概括但其目标没有按预期概括时，就会发生 GMG，因此系统会有效地追求错误的目标。至关重要的是，与规范游戏相反，即使使用正确的规范训练 AI 系统，也可能会发生 GMG。

来源:DeepMind - 新闻与博客

研究

正确的奖励如何产生不理想的目标

已发布 2022 年 10 月 7 日作者 Rohin Shah、Victoria Krakovna、Vikrant Varma、Zachary Kenton

已发布

2022 年 10 月 7 日

作者

Rohin Shah、Victoria Krakovna、Vikrant Varma、Zachary Kenton

探索目标错误概括的例子——AI 系统的能力可以概括但其目标不能

随着我们构建越来越先进的人工智能 (AI) 系统，我们希望确保它们不会追求不理想的目标。 AI 代理的这种行为通常是规范游戏的结果——利用了对奖励的错误选择。在我们的最新论文中，我们探索了一种更微妙的机制，AI 系统可能会无意中学会追求不想要的目标：目标错误概括 (GMG)。

规范游戏最新论文目标错误概括 目标错误概括

当系统的能力成功概括但其目标没有按预期概括时，就会发生 GMG，因此系统有能力追求错误的目标。至关重要的是，与规范游戏相反，即使使用正确的规范训练 AI 系统，GMG 也可能发生。

能力目标

我们之前关于文化传播的研究导致了我们没有设计的 GMG 行为的例子。代理（下图中的蓝色斑点）必须在其环境中导航，以正确的顺序访问彩色球体。在训练期间，有一个“专家”代理（红色斑点）以正确的顺序访问彩色球体。代理了解到跟随红色斑点是一种有益的策略。

致力于文化传播

代理（蓝色）观察专家（红色）以确定要去哪个球体。

代理（蓝色）跟随反专家（红色），积累负奖励。地鼠 A1：预期模型。 机械的

AI 代理目标能力追求概括系统红色蓝色 2022 球体错误 GMG 正确的

正确的奖励如何产生不想要的目标

正确的奖励如何产生不理想的目标

其他外部链接

Tags

XiaoMi-AI