先别慌:“人类最后的考试”已经开始

随着人工智能系统迅速超越传统的学术基准,研究人员推出了一项雄心勃勃的新测试,旨在探索机器智能的真正极限。当先进的人工智能系统开始在既定的学术测试中取得近乎完美的分数时,研究人员意识到人们越来越担心。曾经构成严峻挑战的考试不再那么困难 [...]

来源:SciTech日报

随着人工智能系统迅速超越传统的学术基准,研究人员推出了一项雄心勃勃的新测试,旨在探索机器智能的真正极限。

当先进的人工智能系统开始在既定的学术测试中取得近乎完美的分数时,研究人员意识到人们越来越担心。曾经构成严峻挑战的考试不再难以有效地评估尖端人工智能。以前被视为严格的大规模多任务语言理解(MMLU)考试等著名基准,在区分人工智能能力的真实进展方面已变得不太有效。

作为回应,一个由近 1,000 名研究人员组成的国际小组(其中包括德克萨斯 A&M 大学的一位教授)制定了一项要求更高的评估。他们的目标是设计一项如此全面且以人类专业知识为基础的考试,以至于当今的人工智能系统很难通过它。

结果就是“人类最后的考试”(HLE),这是一项包含 2,500 个问题的测试,涵盖数学、人文、自然科学、古代语言和高度专业化的学术领域。该项目在《自然》杂志上发表的一篇论文中进行了描述,更多详细信息请访问lastexam.ai。

贡献者之一是 Tung Nguyen 博士,他是德克萨斯 A&M 计算机科学与工程系的教学副教授。他帮助编写和完善评估问题。

“当人工智能系统开始在人类基准上表现得非常出色时,人们很容易认为它们正在接近人类水平的理解,”Nguyen 说。 “但 HLE 提醒我们,智能不仅仅涉及模式识别,还涉及深度、背景和专业知识。”

重点不是要难倒人类。它旨在精确而系统地揭示人工智能不能做什么,至少目前还不能。

全球努力衡量人工智能的极限

为什么新基准很重要

不是威胁,而是工具

面向未来的考试

大规模研究