OpenAI 和 Google 是否有意降级他们的模型？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

OpenAI 和 Google 是否有意降级他们的模型？

2026年3月12日 09:00 33 Comments

是的，OpenAI 和 Google 降低了他们的模型。 OpenAI 否认后又承认静默更新。双子座重定向模型。有充分证据。

来源:Nanonets

GPT-5.4 刚刚发布，我的提要立即充满了镜头。过去六个月里对克劳德信誓旦旦的开发商突然开始对冲。 “这是一台主力，”一个人写道。 “不是纯种马，但我正在使用它。”另一个人说，现在 Claude 和 GPT 的比分是 50/50，而一个月前他们的比分是 90/10。

这种情况每次都会发生。新车型问世，旧车型开始给人一种不同的感觉。也许慢一点。不太锋利。你开始注意到以前没有注意到的事情。

明显的解释是您正在将其与更好的东西进行比较。但这也提出了一个没有人真正明确回答的问题：新车型推出后，旧车型是否真的变得更糟？或者你只是得到了一个更好的参考点，而现在相比之下，之前的一切都显得愚蠢？

我去寻找一个真正的答案。

第一个裂缝出现在 2023 年

2023 年 7 月，斯坦福大学和加州大学伯克利分校的研究人员进行了一项看似简单的测试。他们采用了 GPT-4 - 相同的模型，使用相同的名称，并在两个时间点运行相同的提示：2023 年 3 月和 2023 年 6 月。

GPT-4 识别素数的准确率从 84% 下降到 51%。 GPT-4 的可直接执行的代码输出份额从 52% 下降到 10%。该论文的作者之一 James Zou 描述了这在实践中的含义：“如果您在某种软件堆栈或工作流程中依赖这些模型的输出，那么模型会突然改变行为，而您不知道发生了什么，这实际上可能会破坏您的整个堆栈。”

他们将这种现象命名为 LLM 漂移。行为改变，无需版本更改。模型移至开发人员下方。

当这篇论文被删除时，OpenAI 产品副总裁 Peter Welinder 在 Twitter 上回复道：“不，我们并没有让 GPT-4 变得更愚蠢。恰恰相反：我们让每个新版本都比前一个版本更聪明。目前的假设：当你更频繁地使用它时，你会开始注意到以前没有看到的问题。”潜台词很简单。是你，不是我们。

这实际上意味着什么

明显的比分版本参考点注意到新车型答案模型的 50 2023 意味着 GPT 在实践中论文不同的相同的研究人员突然开始执行的真正的开发人员删除进行简单的副总裁堆栈开发商模型问题回答的实际上提要时间点车型没有