AI每隔几个月就可以处理两倍的任务。这种指数增长对我们的使用意味着什么?

ais可以轻松地在短任务上胜过人类,但是在我们认为它们是真正智能系统之前,更长的障碍是要克服的真正障碍。

来源:LiveScience

科学家设计了一种新的方法来衡量人工智能(AI)系统的能力(他们可以在具有挑战性的任务中)击败或与人类竞争的速度。

人工智能

AIS通常可以在文本预测和知识任务中胜过人类,而当给予更多实质性的项目(例如远程执行协助)时,它们的效率较小。

为了量化AI模型中的这些性能提高,一项新的研究提出了根据他们可以完成的任务持续时间来测量AIS,而不是人类需要多长时间。研究人员于3月30日在预印度数据库ARXIV上发布了他们的发现,因此尚未经过同行评审。

arxiv

“我们发现,测量模型可以完成的任务长度是了解当前AI功能的有用镜头。这是有道理的:AI代理通常似乎在将更长的动作序列串在一起而不是缺乏解决单一步骤所需的技能或知识的更长的动作序列。

模型评估与威胁研究(METR) 博客文章

研究人员发现,AI模型完成的任务将使人类不到四分钟,成功率接近100%。但是,对于花费四个多小时的任务而言,这降至10%。较旧的AI模型在任务更长的任务中的性能要比最新系统差。

这是可以预期的,这项研究强调,在过去的六年中,通才的任务长度大约每七个月大约每七个月加倍。

相关:科学家发现了人类和人工智能“思考”的主要差异 - 含义可能是重要的

相关: 科学家发现了人类和人工智能“思考”的主要差异 - 含义可能很重要
将世界上最有趣的发现直接传递到您的收件箱中。
hcast re-Bench

评估AI的新领域?