在这项新的人工智能考试中取得好成绩(其创建者称这是世界上最难的考试)可能会表明 AGI 的初步迹象

Humanity’s Last Exam是一个博士级基准测试,旨在测试人工智能推理的极限。尽管谷歌的Gemini 3得分达到了惊人的48.4%,但专家强调,这并不表明通用人工智能(AGI)的到来。

来源:LiveScience

人工智能安全和规模人工智能中心的研究人员发布了“人类的最后考试”——一项旨在衡量当今最强大的人工智能 (AI) 模型在多个领域达到或超过人类知识水平的程度的测试。

该测试于 2025 年 1 月启动,但科学家们在 1 月 28 日发表在《自然》杂志上的一项新研究中首次概述了其设计背后的框架及其思考。它包含涵盖 100 多个主题的 2,500 个问题的语料库,来自 50 个国家/地区 500 个机构的 1,000 多名主题专家的意见。

考试由多项选择题和简答题组成,每个题目都有一个已知的解决方案,“明确且易于验证,但无法通过互联网检索快速回答”。

发布时,研究人员测试了 OpenAI 的 GPT-4o 和 o1 模型、Google 的 Gemini 1.5 Pro、Anthropic 的 Claude 3.5 Sonnet 和 DeepSeek R1。 OpenAI 的 o1 系统以 8.3% 的得分位居榜首。

尽管表现不佳,研究人员当时写道,“鉴于人工智能发展的快速步伐,到 2025 年底,模型在 HLE 上的准确度可能会超过 50%。”

截至 2026 年 2 月 12 日,迄今为止取得的最高分数为 48.4%,由 Google Gemini 3 Deep Think 设定。与此同时,人类专家在各自领域的得分约为 90%。

测试世界上最智能的机器

人类的最后考试被故意设计得对人工智能模型来说极其困难。在早期开发过程中,研究人员向全球征集多个领域的主题专家提交意见。

将世界上最迷人的发现直接发送到您的收件箱。

提交的每个问题都会被输入到人工智能模型中。该团队自动拒绝了模型可以正确回答的任何问题。

考试中的一个琐事问题的例子是:“在希腊神话中,杰森的外曾祖父是谁?”