隐形的协调者:ChatGPT-5 如何重新定义科学再现性

ChatGPT-5 标志着人工智能的新篇章。但新模型并没有实现人们期待已久的通用人工智能 (AGI) 的飞跃,而是将自己呈现为一个隐形的协调者。拉斐尔·卡多佐·桑帕约(Rafael Cardoso Sampaio)研究了这种内在逻辑如何破坏学术诚信的基础。

来源:Elephant in the Lab

在万众期待之后,ChatGPT-5 已经到来。 OpenAI 没有提供备受吹捧的通用人工智能 (AGI),而是提供了一种更智能的协调器模型,该模型现在可以在内部选择适当的子模型来执行给定任务。对于简单的请求,它会选择更小、更快的模型。对于复杂的模型,它将采用需要更多计算时间的模型。系统同样会决定是否访问互联网。这一变化解决了 OpenAI 的一个长期存在的问题,其不同模型(4o、4-mini-high、3.5、4.1、4.1-mini 等)的激增给许多用户带来了困惑。虽然这似乎是一个积极的进展,但现在提供明确的总体评估还为时过早。但是,可以说的是,ChatGPT 5 的支撑逻辑给学术研究带来了重大挑战。

大型语言模型和学术界

在之前的工作中,我讨论了大型语言模型给科学研究带来的一些主要问题,这些问题直接破坏了学术诚信的基础,特别是在透明度、可靠性和可重复性方面(Sampaio et. al, 2024)。然而,在这里我想重点关注可重复性。这是科学探究的基本原则。前提很简单。如果在相似的条件下应用相同的数据和方法,应该可以获得相同的或至少高度相似的结果,特别是在可比较的背景下。这也许是使用语言模型时最严重的问题,因为传统的学术软件包都有一个可以追踪的版本。例如,假设 SPSS 由于统计进步而从版本 32 开始更改了其计算线性回归的方法。要重现以前的结果,只需下载并使用 SPSS 版本 31 或更早版本即可解决该问题。对于语言模型,这种可追溯性完全消失了。

ChatGPT-5 的发布