详细内容或原文请订阅后点击阅览
AI 在迄今为止最难的数学测试中获得“C-”
第二批“首次证明”问题旨在评估人工智能对研究级数学的有用性。最好的模型在 10 个问题中基本答对了六七个
来源:科学美国人迄今为止最好的人工智能数学能力测试已经发布了第一轮正式结果。结论是,大型语言模型(LLM)正在成为数学研究的有用助手(尽管存在严重缺陷)。
由顶级数学家团队组织的“First Proof”项目是对人工智能公司越来越注重使用高等数学作为其产品基准的回应——无论这些指标是否反映了专业数学家真正关心的问题。二月份的一轮试点结果好坏参半,公司不透明的内部努力远远超过了他们的公开模式。
这最新一批测试涉及更广泛的数学问题,并为参与者提供更严格的协议——只有 OpenAI 和三个学术团体同意。结果再次喜忧参半,10 个问题中有 6 到 7 个基本上被至少一个人工智能正确回答。尽管峰值性能不断提高,但模型也会产生大量垃圾作为副产品,需要英勇的干预才能从废品中筛选出有意义的东西。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过订阅来支持我们屡获殊荣的新闻事业。通过购买订阅,您将有助于确保有关塑造当今世界的发现和想法的影响力故事的未来。
“我们强烈地感觉到,如果我们要为更大的社区提供公共服务,我们需要测试公开可用的模型,”哈佛大学数学家、First Proof 团队成员 Lauren Williams 说道。这限制了 OpenAI 的 ChatGPT-5.5 Pro 以及由瑞士苏黎世联邦理工学院 (ETH Zurich) 和丹麦奥胡斯大学、加州大学洛杉矶分校和普林斯顿大学的团队构建的三个模型的参赛者。
