这是人工智能中最容易被误解的图

麻省理工学院技术评论解释:让我们的作者解开复杂、混乱的技术世界,帮助您了解接下来会发生什么。您可以在此处阅读该系列的更多内容。每当 OpenAI、Google 或 Anthropic 推出新的前沿大型语言模型时,AI 社区都会屏住呼吸。直到 METR,一个人工智能,它才呼出……

来源:MIT Technology Review _人工智能

Claude Opus 4.5 就是这样,它是 Anthropic 最强大模型的最新版本,于 11 月底发布。去年 12 月,METR 宣布 Opus 4.5 似乎能够独立完成人类需要大约五个小时的任务,这比指数趋势的预测有了巨大的进步。一位人类安全研究人员在推特上表示,他将根据这些结果改变他的研究方向;公司的另一名员工简单地写道:“妈妈来接我,我很害怕。”

但事实比那些戏剧性的反应所暗示的要复杂得多。一方面,METR 对特定模型能力的估计存在很大的误差线。正如 METR 在 X 上明确指出的那样,Opus 4.5 可能只能定期完成人类需要大约两小时的任务,或者它可能会成功完成人类长达 20 小时的任务。鉴于该方法固有的不确定性,不可能确定。

“人们通过多种方式过度解读图表,”METR 技术人员 Sydney Von Arx 说道。

更根本的是,METR 图并没有大规模地衡量人工智能的能力,它也没有声称这样做。为了构建图表,METR 主要在编码任务上测试模型,通过测量或估计人类完成任务所需的时间来评估每个任务的难度,但并非每个人都接受这一指标。 Claude Opus 4.5 或许能够完成人类需要 5 个小时才能完成的某些任务,但这并不意味着它接近取代人类工人。

尽管如此,METR团队确实认为该情节对人工智能进步的轨迹有一些有意义的意义。 “你绝对不应该把你的生活与这张图联系起来,”冯·阿克斯说。 “而且,”她补充道,“我打赌这种趋势将会持续下去。”