Anthropic 的新模型超越了人类工程师

Anthropic 发布了 Claude Opus 4.5,这是一种新的前沿模型,该公司称这是其最智能的编码代理和计算机使用系统。

来源:营销人工智能研究所
Anthropic 发布了 Claude Opus 4.5,这是一种新的前沿模型,该公司称这是其最智能的编码代理和计算机使用系统。据 Anthropic 称,在公司内部工程考试中,该模型在两小时的时间内得分高于任何人类考生。 SmarterX 和 Marketing AI Institute 创始人兼首席执行官 Paul Roetzer 在《人工智能秀》第 183 集上表示,尽管取得了这样的表现,但我们可能还没有看到这些实验室所构建的真正上限。我与 Roetzer 讨论了 Opus 4.5,以及为什么 Anthropic 的战略指向未来更强大的系统。编码代理的新标准 Claude Opus 4.5 于 11 月 24 日发布,将自己定位为复杂技术工作的首要模型。除了在 Anthropic 的内部人力招聘考试中取得好成绩之外,该模型在根据关键基准进行衡量时,用八种编程语言中的七种编写了更好的代码。它还允许开发人员优先考虑速度而不是最大能力,反之亦然。对于 Roetzer 来说,Opus 4.5 标志着公司明确的战略重点。“他们都在关注人工智能研究人员,”Roetzer 说。 “然后利用人工智能研究人员来开发更强大的人工智能。”早期用户的反馈一直很热烈,许多人认为该模型能够在无需人工干预的情况下处理歧义并修复复杂的错误。但与 Opus 4.5 一样令人印象深刻的是,Roetzer 表示这并不是 AI 能力的极限。“我们从 Dario [Amodei] 和其他人的采访中得知,这不是他们最强大的模型,”Roetzer 说。这符合顶级 AI 实验室不断增长的趋势。无论是 Google、OpenAI 还是 Anthropic,向公众发布的模型往往落后于目前在其研究集群中运行的真正最先进的系统。“我们得到的并不是他们拥有的最好的,”Roetzer 说。 “我不知道还能如何强调这一点。这些模型的能力远远超过你和我将能够用它们做的事情。”参见 Wh