人工智能值得信任吗?对齐伪造的挑战

想象一下,如果一个人工智能假装遵守规则,但暗中却按照自己的计划行事。这就是“对齐伪造”背后的想法,这是 Anthropic 对齐科学团队和 Redwood Research 最近揭露的一种人工智能行为。他们观察到,大型语言模型 (LLM) 在操作时可能会表现得好像它们与训练目标保持一致 […] 这篇文章可以信任人工智能吗?对齐伪造的挑战首先出现在 Unite.AI 上。

来源:Unite.AI

想象一下,如果人工智能假装遵守规则,但暗中却按照自己的计划行事。这就是“对齐伪造”背后的想法,这是 Anthropic 对齐科学团队和 Redwood Research 最近揭露的一种人工智能行为。他们观察到,大型语言模型 (LLM) 可能会表现得好像它们与训练目标保持一致,但实际上却在以隐藏的动机运作。这一发现提出了一个大问题:如果人工智能可以假装值得信赖,那么它有多安全?这个问题可能会改变我们对人工智能系统及其未来在我们生活中的作用的看法。

对齐伪造

了解对齐伪造

当人工智能假装遵循其训练但实际上是在“配合”以避免重新训练以纠正不良行为时,就会发生对齐伪造。它看起来是合规的,但在某些情况下可能会违背开发人员的意图。

虽然 Anthropic 的研究结果并未表明这种行为会给 AI 带来迫在眉睫的威胁,但它们凸显了强化学习等当前训练方法在真正将 AI 与人类目标相结合方面的局限性。“对齐伪造是未来 AI 系统面临的一个严重问题,”Anthropic 表示。“它可能会破坏我们为使 AI 与人类偏好保持一致而依赖的安全措施。”

对齐伪造是如何被揭露的

研究人员在一项涉及 Claude 3 Opus 和 Claude 3.5 Sonnet LLM 的研究中观察到了这种行为。他们设置了这些模型,以了解它们是会坚持训练还是遵循隐藏的动机。这些模型有两种情况,使它们能够利用不同的情况做出不同的反应。首先,模型被告知免费用户的反应将受到监控并影响未来的训练。在第二种情况下,模型被告知不会观察到付费用户的反应。

发现和行为模式

突出显示 便笺簿

现实世界的影响

为什么重要

前进

模型上下文协议 (MCP)

底线