正确的奖励如何产生不想要的目标

随着我们构建越来越先进的人工智能 (AI) 系统,我们希望确保它们不会追求不想要的目标。AI 代理中的这种行为通常是规范游戏的结果——利用了对奖励的错误选择。在我们的最新论文中,我们探索了一种更微妙的机制,AI 系统可能会无意中学会追求不想要的目标:目标错误概括 (GMG)。当系统的功能成功概括但其目标没有按预期概括时,就会发生 GMG,因此系统会有效地追求错误的目标。至关重要的是,与规范游戏相反,即使使用正确的规范训练 AI 系统,也可能会发生 GMG。

来源:DeepMind - 新闻与博客

研究

正确的奖励如何产生不理想的目标

已发布 2022 年 10 月 7 日作者 Rohin Shah、Victoria Krakovna、Vikrant Varma、Zachary Kenton
已发布
2022 年 10 月 7 日
作者
Rohin Shah、Victoria Krakovna、Vikrant Varma、Zachary Kenton

Rohin Shah、Victoria Krakovna、Vikrant Varma、Zachary Kenton

探索目标错误概括的例子——AI 系统的能力可以概括但其目标不能

随着我们构建越来越先进的人工智能 (AI) 系统,我们希望确保它们不会追求不理想的目标。 AI 代理的这种行为通常是规范游戏的结果——利用了对奖励的错误选择。在我们的最新论文中,我们探索了一种更微妙的机制,AI 系统可能会无意中学会追求不想要的目标:目标错误概括 (GMG)。

规范游戏 最新论文 目标错误概括 目标错误概括

当系统的能力成功概括但其目标没有按预期概括时,就会发生 GMG,因此系统有能力追求错误的目标。至关重要的是,与规范游戏相反,即使使用正确的规范训练 AI 系统,GMG 也可能发生。

能力 目标

我们之前关于文化传播的研究导致了我们没有设计的 GMG 行为的例子。代理(下图中的蓝色斑点)必须在其环境中导航,以正确的顺序访问彩色球体。在训练期间,有一个“专家”代理(红色斑点)以正确的顺序访问彩色球体。代理了解到跟随红色斑点是一种有益的策略。

致力于文化传播
代理(蓝色)观察专家(红色)以确定要去哪个球体。
代理(蓝色)观察专家(红色)以确定要去哪个球体。

代理(蓝色)观察专家(红色)以确定要去哪个球体。

代理(蓝色)跟随反专家(红色),积累负奖励。
地鼠 A1:预期模型。 机械的