AI 模型发布跟踪器:Opus 4.8 的错位率与 Claude Mythos 预览类似

并非所有新型号都如其所吹捧的那样。我们的跟踪器将每个版本与同类版本保持一致,以便您知道哪些模型值得您花时间。

来源:ZDNet | 机器人新闻

关注 ZDNET:将我们添加为 Google 上的首选来源。

人工智能实验室正在不间断地推出新模型。然而,除了比前代产品更好更快之外,尽管公司的公关可能对它们充满诗意,但并不能保证每一款新车型都会带来重大的改变。模型优势真正在上下文中显现:竞争对手的模型在哪里缺乏或优于哪里?哪些型号具有突出的专业性,哪些型号刚刚赶上行业标准?

另外:我们如何在 ZDNET 测试 AI

我们的模型发布跟踪器可帮助您了解模型之间的相对位置,以及它们是否值得深入研究。虽然我们不会测试此列表中的每个模型或模型更新,但我们将始终包含您需要了解的关键要素,以及我们的实践专家测试(如果适用)。我们还为某些型号提供了专家评分。对我们如何测试人工智能感到好奇吗?查看我们流程的细分。

以下是 2026 年迄今为止发布的一些最重要的模型以及有关它们的信息。每当有值得注意的新型号到来时,我们都会更新此列表。

克劳德作品 4.8

人择 | 2026 年 5 月 28 日

它的作用:根据 Anthropic 的说法,从今天开始(价格相同),Opus 4.8 提供更快的思维模式,而成本仅为早期版本的三分之一。与大多数 Anthropic 模型一样,4.8 优先考虑编码能力,在两个编码基准上得分高于 4.7,但并未完全超越 OpenAI 的 GPT 5.5。该公司在新闻稿中指出,它还“在我们对亲社会特征的衡量上达到了新高,例如支持用户自主权和以用户最大利益行事”,尽管其含义的定义仍然模糊。

另外:Anthropic 推出 Opus 4.8,以诚实为杀手锏

GPT-5.5 即时

OpenAI | 2026 年 5 月 5 日

另外:AI 安全机构报告称,Anthropic 的神话发展速度比预期更快

Nemotron 3 Nano Omni

Nvidia | 2026 年 4 月 28 日

另外:人工智能是一场军备竞赛,美国需要 90 亿美元的 Nvidia 超级芯片才能跟上

GPT-5.5

专家评分:93/100