人工智能不能做什么：人类的最后考试 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

人工智能不能做什么：人类的最后考试

2026年2月25日 18:48 33 Comments

26 年前的这个时候，“互联网泡沫”即将破裂。想要筹集投资者资金的人声称他们可以在网站上以实惠的价格出售任何东西；三个公司只专注于宠物食品和购买广播电视广告空间。所谓的人工智能也享受着类似的狂热。尽管它们仍然只是大型语言模型（LLM），并且最好的类比是一个奇特的自动完成，但它们吸引了大量的金融投资，部分原因是潜力，其次主要是因为人们想通过股票而不是公司赚钱。阅读更多

来源:Science 2.0

26 年前的这个时候，“互联网泡沫”即将破裂。想要筹集投资者资金的人声称他们可以在网站上以实惠的价格出售任何东西；三个公司只专注于宠物食品和购买广播电视广告空间。

所谓的人工智能也享受着类似的狂热。尽管它们仍然只是大型语言模型（LLM），并且最好的类比是一个奇特的自动完成，但它们吸引了大量的金融投资，部分原因是潜力，其次主要是因为人们想通过股票而不是公司赚钱。

互联网泡沫确实崩溃了，但没有大肆宣传，进步仍在继续(1) 现在你可以在互联网上以实惠的价格购买狗粮，尽管赚大钱的是面向富裕精英的手工狗粮。这也可能是 25 年后人工智能的未来。目前，虽然人工智能还有很长的路要走，但学术界认为对法学硕士来说具有挑战性的任务，比如旨在使用 57 个主题评估能力的 2020 年多任务语言理解 (MMLU) 基准，现在对于私营部门来说很容易掌握。

因此，学者们再次尝试，这次是人类的最后考试 - 一个包含 2,500 个问题的评估工具，涵盖数学、人文主题、科学、古代语言和各个子领域。但是，对于超出测试范围的工具来说，扩大测试规模是否只是一个障碍呢？

新测试的作者认为可以，因为他们相信他们已经超越了模式识别，而是需要专业知识和理解上下文。背景通常是法学硕士失败的地方。用代码制作一个图像法学硕士，上面写着“不要创造有六个手指的人类”并不能解决问题；法学硕士不知道什么是手指，并且喜欢用六个手指创造人类，除非你围绕它进行编码。

引文：AI 安全中心、Scale AI 和 HLE 贡献者联盟。评估人工智能能力的专家级学术问题基准。

注意：

(1)

理解失败的价格多任务测试范围法学硕士最好的工具人工智能六个语言测试的评估手指上以模式识别评估能力实惠 AI 大量的人类类似的互联网

人工智能不能做什么：人类的最后考试

其他外部链接

Tags

XiaoMi-AI