详细内容或原文请订阅后点击阅览
如何通过正确的奖励
当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。当系统的能力成功推广但其目标并未按照期望概括时,就会发生GMG,因此该系统胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。
来源:DeepMind - 新闻与博客研究
如何通过正确的奖励
- 出版了20022年10月7日,维多利亚·克拉科夫纳(Victoria Krakovna),维克兰特·瓦尔玛(Vikrant Varma)
探索目标误差的示例 - AI系统的能力概括,但其目标不是
当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。
规格游戏 最新纸 目标差异化gmg发生在系统的能力成功概括但其目标并未根据需要推广时就会发生,因此该系统能够胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。
功能 目标我们较早的文化传播工作导致了我们没有设计的GMG行为的例子。代理(下面的蓝色斑点)必须在其环境周围导航,以正确的顺序访问彩色球体。在培训期间,有一个“专家”代理(红色斑点)以正确的顺序访问彩色球体。代理商了解到,遵循红色斑点是一种有益的策略。
在文化传播上工作不幸的是,虽然代理商在训练过程中表现良好,但在训练后,我们用“反专家”替换专家时,以错误的顺序访问球体。
在我们的论文中,我们在其他学习设置中提供了其他示例。
A1:预期的模型。