新基准显示人工智能代理在自动化实际工作时表现不佳

人工智能安全和规模人工智能中心的一篇新论文介绍了远程劳动力指数(RLI),这是第一个旨在衡量人工智能代理执行有偿远程工作能力的基准。

来源:营销人工智能研究所
AI 安全和规模 AI 中心的一篇新论文介绍了远程劳动力指数 (RLI),这是第一个旨在衡量 AI 代理执行有偿远程工作能力的基准。RLI 基准包括来自自由职业平台的真实项目,涵盖游戏开发、架构、数据分析和视频制作等复杂领域。这些不是简单的任务:这些项目代表了 6,000 多个小时的人力工作,价值超过 140,000 美元。结果如何?当前的 AI 代理表现不佳。Manus 是表现最好的代理,只能自动化 2.5% 的工作。其他顶级型号,例如 Grok 4 和 Sonnet 4.5,仅占 2.1%,而 GPT-5 则达到 1.7%,Gemini 2.5 Pro 则低于 1%。研究人员指出,失败源于不完整的可交付成果、损坏的文件以及不符合专业标准的低质量工作。虽然这些较低的数字可能会让人类工人放心,但它们并不能说明全部情况。为了了解这些发现对人工智能未来在劳动力中的真正意义,我在《人工智能秀》第 178 集中与 SmarterX 和 Marketing AI Institute 创始人兼首席执行官 Paul Roetzer 进行了讨论。为什么通用代理是错误的衡量标准 Roetzer 对自动化率低并不感到惊讶,他指出基准测试的通用代理没有专门针对这些复杂的工作进行过培训。真正且更快的进展正在专业代理身上发生。他举了一些例子,其中包括据报道 OpenAI 雇佣高盛银行家来训练模型来完成投资银行家的工作。他说:“我的猜测是,OpenAI 在这一具体事情上的进展远远超过 2.5%。”这凸显了我们应该如何看待人工智能能力的一个关键区别。 RLI 为一般模型提供了有价值的基准,但真正的经济影响可能来自于专注于特定工作的模型。擅长 Jobs 尚未擅长的任务Roetzer 解释