详细内容或原文请订阅后点击阅览
随着人工智能的不断进步,数学家们很难预测自己的未来
第一个证明旨在了解法学硕士是否能为纯数学研究做出有意义的贡献。第一轮尘埃落定,结果令人惊讶
来源:科学美国人在人工智能公司接管纯数学的持续运动中,新一轮的攻势正在拉开帷幕。
First Proof 背后的团队已经宣布了下一次考试,该团队致力于对大型语言模型 (LLM) 为研究级数学做出贡献的能力进行基准测试。对于计划在未来几个月内推出的第二轮,该团队要求任何想要参与的人工智能公司提供访问权限和透明度。
这是在数学研究发生巨变的情况下发生的。在过去的几个月里,最好的公开模型已经开始为工作数学家实际使用的小定理生成有效的证明。对于一些专家来说,第一个证明的首轮是这个正在进行的故事的关键时刻。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过订阅来支持我们屡获殊荣的新闻事业。通过购买订阅,您将有助于确保有关塑造当今世界的发现和想法的影响力故事的未来。
“人工智能模型的表现给我们留下了深刻的印象,”哈佛大学数学家、First Proof 团队成员 Lauren Williams 说道。 “我们提出的问题确实是人工智能模型(或许与专家一起)可以解决的最前沿问题。”
First Proof 的诞生源于其 11 人团队在人工智能方面令人大开眼界(尽管有时令人沮丧)的经历。现有的基准似乎不足以测试法学硕士作为数学家助理的能力。原则上,法学硕士可以通过证明较小的“引理”来节省时间,即沿着数学家发展更有趣的更大定理的道路上的中间命题。然而,在实践中,这种人工智能辅助往往会出错。
朦胧但充满希望的未来
无法解释的差距
这就是第二轮要解决的问题,威廉姆斯说。 “这是一个实验,”她说,“为了从社区获得反馈,以找出如何进行更正式的一轮。”
