在这项新的人工智能考试中取得好成绩（其创建者称这是世界上最难的考试）可能会表明 AGI 的初步迹象 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在这项新的人工智能考试中取得好成绩（其创建者称这是世界上最难的考试）可能会表明 AGI 的初步迹象

2026年2月27日 20:11 33 Comments

Humanity’s Last Exam是一个博士级基准测试，旨在测试人工智能推理的极限。尽管谷歌的Gemini 3得分达到了惊人的48.4%，但专家强调，这并不表明通用人工智能（AGI）的到来。

来源:LiveScience

人工智能安全和规模人工智能中心的研究人员发布了“人类的最后考试”——一项旨在衡量当今最强大的人工智能 (AI) 模型在多个领域达到或超过人类知识水平的程度的测试。

该测试于 2025 年 1 月启动，但科学家们在 1 月 28 日发表在《自然》杂志上的一项新研究中首次概述了其设计背后的框架及其思考。它包含涵盖 100 多个主题的 2,500 个问题的语料库，来自 50 个国家/地区 500 个机构的 1,000 多名主题专家的意见。

考试由多项选择题和简答题组成，每个题目都有一个已知的解决方案，“明确且易于验证，但无法通过互联网检索快速回答”。

发布时，研究人员测试了 OpenAI 的 GPT-4o 和 o1 模型、Google 的 Gemini 1.5 Pro、Anthropic 的 Claude 3.5 Sonnet 和 DeepSeek R1。 OpenAI 的 o1 系统以 8.3% 的得分位居榜首。

尽管表现不佳，研究人员当时写道，“鉴于人工智能发展的快速步伐，到 2025 年底，模型在 HLE 上的准确度可能会超过 50%。”

截至 2026 年 2 月 12 日，迄今为止取得的最高分数为 48.4%，由 Google Gemini 3 Deep Think 设定。与此同时，人类专家在各自领域的得分约为 90%。

人类的最后考试被故意设计得对人工智能模型来说极其困难。在早期开发过程中，研究人员向全球征集多个领域的主题专家提交意见。

将世界上最迷人的发现直接发送到您的收件箱。

提交的每个问题都会被输入到人工智能模型中。该团队自动拒绝了模型可以正确回答的任何问题。

考试中的一个琐事问题的例子是：“在希腊神话中，杰森的外曾祖父是谁？”

领域超过背后的 OpenAI 人工智能模型输入语料库 500 问题 2025 考试强大的专家准确度 o1 人类科学家互联网主题的提交回答的测试设计已知的发展的机构的水平的 Google 中心的研究人员机器人