详细内容或原文请订阅后点击阅览
人类的最后一次考试是一种干扰
本文深入探讨了最终的人工智能系统评估基准,概述了创建它的原因,收集了该领域专家组对此的不同意见,最后总结了最广泛接受的结论。
来源:KDnuggets简介
Humanity's Last Exam (HLE) 是一个基准测试,旨在衡量大多数现代人工智能系统的推理和深度知识能力。它的决定性特征是:它的基本评价被推向了极端。可以将其视为几十年前诞生的图灵测试的当今演变。
本文对这个基准进行了深入探讨,概述了创建它的原因,收集了该领域专家组对此的不同意见,最后总结了最广泛接受的结论。
为什么建造它,它由什么组成?
经典人工智能系统中使用的传统测试方法随着这些系统的发展而变得过时,并且开始不费吹灰之力就获得完美得分。因此,人工智能安全中心在世界专家的帮助下,与 Scale AI 一起创建了一个名为 HLE 的新颖基准。该基准于 2026 年 1 月在迄今为止最负盛名的科学期刊《自然》上发表。它经过精心设计,以避免像以前的评估框架那样重复模式。
那么,HLE 是关于什么的?嗯,这是一项由最先进的人工智能系统(如语言模型)进行的考试,由 2,500 多个专家级问题组成,涵盖一百多个学科,包括但不限于物理、数学、生物、人文学科等等。重要的是,这些问题不能通过记忆来回答,也不局限于简单的信息检索或选择题回答。相反,他们需要复杂的演绎推理和深刻的理解。
这是两个此类问题的示例:
权威专家对HLE有何看法?
诚实的答案是:对此几乎没有达成共识。技术界、开发者界和学术界的观点存在相当大的分歧,但有一种微妙的、占主导地位的倾向,即接受 HLE 的一些真正实用性。不过,也存在一些关键的细微差别。
从总体上看,关于 HLE 存在三个主要观点:
