详细内容或原文请订阅后点击阅览
《神鬼寓言 5》刚刚创下了新的 AI 自由职业绩效记录 - 但它还无法取代人类
新恢复的人择模型在自动化工作方面名列前茅。这对未来意味着什么。
来源:ZDNet | 机器人新闻关注 ZDNET:将我们添加为 Google 上的首选来源。
ZDNET 的关键要点
经过短暂的停顿后,Anthropic 广受好评的《神鬼寓言 5》模型又回来了,它正在重新设定自动化工作的标准。
美国政府于 6 月 30 日重新授权了该模型,Anthropic 表示该模型与 Mythos 5 具有相似的功能,但仍仅供特定组织使用。但在该模型被撤下之前,人工智能安全中心 (CAIS) 在 2025 年 10 月发布的远程劳动力指数 (RLI) 上测试了 Fable 5。它击败了 Anthropic 的 Opus 4.8 和 OpenAI 的 GPT-5.5,这两个模型都相对较新且经过深思熟虑。令人印象深刻,出水。
另外:如何击败人工智能算法并获得梦想的工作
CAIS 在研究中解释道,RLI 衡量的是“人工智能代理能够以付费客户实际接受的质量完成真正的、具有经济价值的自由项目的频率。”这些可以包括计算机辅助和图形设计、数据分析、视频工作等等。与其他类似的人类能力测试一样,模型创建的每个可交付成果都由人类根据专业标准可交付成果进行评估。由此产生的自动化率反映了评估者发现人工智能生产的项目与人类专业工作一样好或更好的项目分布。
CAIS 要求 Fable 5、GPT-5.5 和 Opus 4.8 设计订婚戒指的 3D 模型、制作视频广告、绘制平面图以及其他测试。研究人员为每个模型提供了人工生成的输入文件以开始使用,类似于如何为人类自由职业者准备相关的文档和信息来完成工作。
另外:AI 安全机构报告称,Anthropic 的神话发展速度比预期更快
CAIS 根据其 RLI 基准衡量的自动化率。
