详细内容或原文请订阅后点击阅览

如何通过正确的奖励

2022年10月7日 00:00 33 Comments

当我们构建越来越高级的人工智能（AI）系统时，我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中，我们探讨了一种更微妙的机制，通过该机制，AI系统可能会无意中学会追求不希望的目标：目标差异化（GMG）。当系统的能力成功推广但其目标并未按照期望概括时，就会发生GMG，因此该系统胜任地追求错误的目标。至关重要的是，与规范游戏相比，即使对AI系统进行了正确的规范训练，GMG也会发生。

来源:DeepMind - 新闻与博客

研究

如何通过正确的奖励

出版了20022年10月7日，维多利亚·克拉科夫纳（Victoria Krakovna），维克兰特·瓦尔玛（Vikrant Varma）

已发布

2022年10月7日

作者

Rohin Shah，Victoria Krakovna，Vikrant Varma，Zachary Kenton

探索目标误差的示例 - AI系统的能力概括，但其目标不是

当我们构建越来越高级的人工智能（AI）系统时，我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中，我们探讨了一种更微妙的机制，通过该机制，AI系统可能会无意中学会追求不希望的目标：目标差异化（GMG）。

规格游戏最新纸目标差异化

gmg发生在系统的能力成功概括但其目标并未根据需要推广时就会发生，因此该系统能够胜任地追求错误的目标。至关重要的是，与规范游戏相比，即使对AI系统进行了正确的规范训练，GMG也会发生。

功能目标

我们较早的文化传播工作导致了我们没有设计的GMG行为的例子。代理（下面的蓝色斑点）必须在其环境周围导航，以正确的顺序访问彩色球体。在培训期间，有一个“专家”代理（红色斑点）以正确的顺序访问彩色球体。代理商了解到，遵循红色斑点是一种有益的策略。

在文化传播上工作

代理（蓝色）观看专家（红色）以确定要去哪个领域。

不幸的是，虽然代理商在训练过程中表现良好，但在训练后，我们用“反专家”替换专家时，以错误的顺序访问球体。

代理（蓝色）遵循抗专家（红色），积累了负面奖励。 Gopher

在我们的论文中，我们在其他学习设置中提供了其他示例。

A1：预期的模型。

代理商奖励目标游戏人工智能错误的系统专家红色高级的重要的预期的 GMG 正确的 AI 代理有益的追求斑点下面的系统的希望的设计的根据示例顺序球体

如何通过正确的奖励

如何通过正确的奖励

其他外部链接

Tags

XiaoMi-AI