数学家设计了新问题来挑战高级 AI 的推理能力——他们几乎在每项测试中都失败了 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

数学家设计了新问题来挑战高级 AI 的推理能力——他们几乎在每项测试中都失败了

2024年11月19日 12:00 33 Comments

当前的 AI 模型难以解决研究级数学问题。

来源:LiveScience

数学家们用一系列令人费解的新数学问题难倒了最先进的生成人工智能 (AI) 模型。

人工智能人工智能

据研究机构 Epoch AI 称，这些问题通常需要博士级数学家花费数小时到数天的时间来解决。但在新的测试中，市场上最先进的 AI 模型对这些问题的正确答案不到 2%。

Epoch AI Epoch AI

在过去十年中，已经开发了许多 AI 测试来确定这些模型返回的答案是否真正正确。在许多情况下，AI 模型现在轻松通过了这些基准测试。

例如，在常用的测量大规模多任务语言理解 (MMLU) 基准测试中，当今的 AI 模型正确回答了 98% 的数学问题。

Epoch AI 的数学家 Elliot Glazer 及其同事在预印本数据库 arXiv 上发布的新论文中写道，这些基准测试中的大多数都是为了测试 AI 进行高中和大学水平数学运算的能力。（该论文尚未经过同行评审或在科学期刊上发表。）

arXiv arXiv

相关：科学家设计新的“AGI 基准”，表明任何未来的 AI 模型是否可能造成“灾难性损害”

相关： 科学家设计新的“AGI 基准”，表明任何未来的 AI 模型是否可能造成“灾难性损害” 科学家设计新的“AGI 基准”，表明任何未来的 AI 模型是否可能造成“灾难性损害” 科学家设计新的“AGI 基准”，表明任何未来的 AI 模型是否可能造成“灾难性损害”

这套名为 FrontierMath 的新基准旨在实现更高水平的推理。 Epoch AI 在数学教授的帮助下设计了这些问题，其中包括一些菲尔兹奖的获得者，菲尔兹奖可能是数学界最负盛名的奖项。这些问题涵盖了从数论到代数几何等广泛的子领域，可在 Epoch AI 的网站上找到。

Epoch AI 的网站

一系列损害未来的科学家多任务测试设计人工智能是否模型同行评审灾难性问题 AGI 数据库大规模基准造成可能 AI 研究机构 Epoch