GMG关键词检索结果

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。当系统的能力成功推广但其目标并未按照期望概括时,就会发生GMG,因此该系统胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。当系统的能力成功推广但其目标并未按照期望概括时,就会发生GMG,因此该系统胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。当系统的能力成功推广但其目标并未按照期望概括时,就会发生GMG,因此该系统胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。

如何通过正确的奖励

How undesired goals can arise with correct rewards

当我们构建越来越高级的人工智能(AI)系统时,我们希望确保他们不追求不希望的目标。 AI代理中的这种行为通常是规格游戏的结果 - 利用他们奖励的不良选择。在我们的最新论文中,我们探讨了一种更微妙的机制,通过该机制,AI系统可能会无意中学会追求不希望的目标:目标差异化(GMG)。当系统的能力成功推广但其目标并未按照期望概括时,就会发生GMG,因此该系统胜任地追求错误的目标。至关重要的是,与规范游戏相比,即使对AI系统进行了正确的规范训练,GMG也会发生。