如何通过正确的奖励

当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。当系统的能力成功推广但其目标并未按照期望概括时,就会发生GMG,因此该系统胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。

来源:DeepMind - 新闻与博客

研究

如何通过正确的奖励

出版了20022年10月7日,维多利亚·克拉科夫纳(Victoria Krakovna),维克兰特·瓦尔玛(Vikrant Varma)
已发布
2022年10月7日
作者
Rohin Shah,Victoria Krakovna,Vikrant Varma,Zachary Kenton

探索目标误差的示例 - AI系统的能力概括,但其目标不是

当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。

规格游戏 最新纸 目标差异化

gmg发生在系统的能力成功概括但其目标并未根据需要推广时就会发生,因此该系统能够胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。

功能 目标

我们较早的文化传播工作导致了我们没有设计的GMG行为的例子。代理(下面的蓝色斑点)必须在其环境周围导航,以正确的顺序访问彩色球体。在培训期间,有一个“专家”代理(红色斑点)以正确的顺序访问彩色球体。代理商了解到,遵循红色斑点是一种有益的策略。

在文化传播上工作
代理(蓝色)观看专家(红色)以确定要去哪个领域。

不幸的是,虽然代理商在训练过程中表现良好,但在训练后,我们用“反专家”替换专家时,以错误的顺序访问球体。

代理(蓝色)遵循抗专家(红色),积累了负面奖励。
Gopher

在我们的论文中,我们在其他学习设置中提供了其他示例。

A1:预期的模型。