在一项研究中,AI 模型 OpenScholar 综合科学研究并像人类专家一样准确地引用资料来源

华盛顿大学和 Ai2 研究团队构建了 OpenScholar,这是一个专门为综合当前科学研究而设计的开源人工智能模型。在测试中,OpenScholar 引用的资料来源与人类专家一样准确,并且 16 名科学家在 51% 的情况下更喜欢其回应而不是学科专家撰写的回应。

来源:华盛顿大学

跟上最新研究对于科学家来说至关重要,但考虑到每年发表数百万篇科学论文,这可能很困难。人工智能系统有望快速合成海量信息,但它们仍然倾向于编造事实或“产生幻觉”。

例如,当华盛顿大学和艾伦人工智能研究所 (Ai2) 的研究人员领导的团队研究最近的 OpenAI 模型 GPT-4o 时,他们发现该模型 78-90% 的研究引用都是捏造的。像 ChatGPT 这样的通用人工智能模型通常无法访问收集训练数据后发表的论文。

因此,UW 和 Ai2 研究团队构建了 OpenScholar,这是一个专门为综合当前科学研究而设计的开源 AI 模型。该团队还创建了第一个大型多领域基准,用于评估模型综合和引用科学研究的效果。在测试中,OpenScholar 引用的资料来源与人类专家一样准确,并且 16 名科学家在 51% 的情况下更喜欢其回应而不是学科专家撰写的回应。

该团队于 2 月 4 日在《自然》杂志上发表了研究结果。该项目的代码、数据和演示是公开的并且可以免费使用。

“在我们开始这项工作后,我们将演示放在网上,很快我们就收到了很多询问,远远超出了我们的预期,”华盛顿大学 Paul G. Allen 计算机科学与工程学院副教授兼 Ai2 高级总监 Hannaneh Hajishirzi 说道。“当我们开始查看回复时,我们意识到我们的同事和其他科学家正在积极使用 OpenScholar。这确实说明了对这种可以综合研究”。

为了测试他们的系统,该团队创建了 ScholarQABench,这是一个用于测试科学搜索系统的基准。他们收集了计算机科学、物理学、生物医学和神经科学领域的专家撰写的 3,000 个查询和 250 个长篇答案。