AI在加利福尼亚州的秘密会议上与全球最高数学家的30名相距

全球领先的数学家对人工智能的熟练工作感到震惊。

来源:LiveScience

在五月中旬的一个周末,一个秘密的数学会议召集了。世界上最著名的数学家中有30名前往加利福尼亚州伯克利,其中一些人来自英国。该组织的成员在与“推理”聊天机器人的摊牌中面对面,该聊天机器人的任务是解决他们为测试其数学梅特尔而设计的问题。在将教授级问题提出了两天之后,研究人员被惊呆了,发现它能够回答世界上一些最难的解决问题。弗吉尼亚大学的数学家,会议上的领导者兼法官肯·奥诺(Ken Ono)说:“我有同事从字面上说这些模式接近数学天才。”

“推理”聊天机器人 世界上最困难的解决问题

所讨论的聊天机器人由所谓的大型语言模型(LLM)O4-Mini提供动力。它通过Openai培训,能够进行高度复杂的扣除额。 Google的等效Gemini 2.5 Flash具有类似的能力。就像较早版本的Chatgpt供电的LLM一样,O4-Mini学会了按顺序预测下一个单词。但是,与较早的LLM相比,O4-Mini及其等效物是重量较轻,更灵活的模型,可以在专业数据集上训练,并具有更强的人类增强。该方法导致聊天机器人能够比传统LLM更深入地研究数学中的复杂问题。

O4-Mini 双子座2.5闪存 传统LLM 为了跟踪O4-Mini的进度,OpenAI先前任命Epoch AI(一个基准LLMS的非营利组织)提出了300个数学问题,这些问题尚未发布。甚至传统的LLM也可以正确回答许多复杂的数学问题。然而,当Epoch AI问几个这样的模型时,这些问题与受过培训的问题不同时,最成功的人能够解决不到2%的问题,表明这些LLM缺乏推理能力。但是O4-Mini将被证明是非常不同的。 x O4-Mini 双子座2.5闪存

传统LLM

为了跟踪O4-Mini的进度,OpenAI先前任命Epoch AI(一个基准LLMS的非营利组织)提出了300个数学问题,这些问题尚未发布。甚至传统的LLM也可以正确回答许多复杂的数学问题。然而,当Epoch AI问几个这样的模型时,这些问题与受过培训的问题不同时,最成功的人能够解决不到2%的问题,表明这些LLM缺乏推理能力。但是O4-Mini将被证明是非常不同的。x