详细内容或原文请订阅后点击阅览
正确的奖励如何产生不想要的目标
随着我们构建越来越先进的人工智能 (AI) 系统,我们希望确保它们不会追求不想要的目标。AI 代理中的这种行为通常是规范游戏的结果——利用了对奖励的错误选择。在我们的最新论文中,我们探索了一种更微妙的机制,AI 系统可能会无意中学会追求不想要的目标:目标错误概括 (GMG)。当系统的功能成功概括但其目标没有按预期概括时,就会发生 GMG,因此系统会有效地追求错误的目标。至关重要的是,与规范游戏相反,即使使用正确的规范训练 AI 系统,也可能会发生 GMG。
来源:DeepMind - 新闻与博客研究
正确的奖励如何产生不理想的目标
- 已发布 2022 年 10 月 7 日作者 Rohin Shah、Victoria Krakovna、Vikrant Varma、Zachary Kenton
Rohin Shah、Victoria Krakovna、Vikrant Varma、Zachary Kenton
探索目标错误概括的例子——AI 系统的能力可以概括但其目标不能
随着我们构建越来越先进的人工智能 (AI) 系统,我们希望确保它们不会追求不理想的目标。 AI 代理的这种行为通常是规范游戏的结果——利用了对奖励的错误选择。在我们的最新论文中,我们探索了一种更微妙的机制,AI 系统可能会无意中学会追求不想要的目标:目标错误概括 (GMG)。
规范游戏 最新论文 目标错误概括 目标错误概括当系统的能力成功概括但其目标没有按预期概括时,就会发生 GMG,因此系统有能力追求错误的目标。至关重要的是,与规范游戏相反,即使使用正确的规范训练 AI 系统,GMG 也可能发生。
能力 目标我们之前关于文化传播的研究导致了我们没有设计的 GMG 行为的例子。代理(下图中的蓝色斑点)必须在其环境中导航,以正确的顺序访问彩色球体。在训练期间,有一个“专家”代理(红色斑点)以正确的顺序访问彩色球体。代理了解到跟随红色斑点是一种有益的策略。
致力于文化传播代理(蓝色)观察专家(红色)以确定要去哪个球体。