GMG领域信息情报检索---XiaoMi-AI

2022年10月7日 00:00

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能（AI）系统时，我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中，我们探讨了一种更微妙的机制，通过该机制，AI系统可能会无意中学会追求不希望的目标：目标差异化（GMG）。当系统的能力成功推广但其目标并未按照期望概括时，就会发生GMG，因此该系统胜任地追求错误的目标。至关重要的是，与规范游戏相比，即使对AI系统进行了正确的规范训练，GMG也会发生。

DeepMind - 新闻与博客

2022年10月7日 00:00

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能（AI）系统时，我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中，我们探讨了一种更微妙的机制，通过该机制，AI系统可能会无意中学会追求不希望的目标：目标差异化（GMG）。当系统的能力成功推广但其目标并未按照期望概括时，就会发生GMG，因此该系统胜任地追求错误的目标。至关重要的是，与规范游戏相比，即使对AI系统进行了正确的规范训练，GMG也会发生。

DeepMind - 新闻与博客

2022年10月7日 00:00

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能（AI）系统时，我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中，我们探讨了一种更微妙的机制，通过该机制，AI系统可能会无意中学会追求不希望的目标：目标差异化（GMG）。当系统的能力成功推广但其目标并未按照期望概括时，就会发生GMG，因此该系统胜任地追求错误的目标。至关重要的是，与规范游戏相比，即使对AI系统进行了正确的规范训练，GMG也会发生。

DeepMind - 新闻与博客

2022年10月7日 00:00

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能（AI）系统时，我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中，我们探讨了一种更微妙的机制，通过该机制，AI系统可能会无意中学会追求不希望的目标：目标差异化（GMG）。当系统的能力成功推广但其目标并未按照期望概括时，就会发生GMG，因此该系统胜任地追求错误的目标。至关重要的是，与规范游戏相比，即使对AI系统进行了正确的规范训练，GMG也会发生。

GMG关键词检索结果

如何通过正确的奖励

如何通过正确的奖励

如何通过正确的奖励

如何通过正确的奖励