在一项研究中，AI 模型 OpenScholar 综合科学研究并像人类专家一样准确地引用资料来源 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在一项研究中，AI 模型 OpenScholar 综合科学研究并像人类专家一样准确地引用资料来源

2026年2月4日 16:02 33 Comments

华盛顿大学和 Ai2 研究团队构建了 OpenScholar，这是一个专门为综合当前科学研究而设计的开源人工智能模型。在测试中，OpenScholar 引用的资料来源与人类专家一样准确，并且 16 名科学家在 51% 的情况下更喜欢其回应而不是学科专家撰写的回应。

来源:华盛顿大学

跟上最新研究对于科学家来说至关重要，但考虑到每年发表数百万篇科学论文，这可能很困难。人工智能系统有望快速合成海量信息，但它们仍然倾向于编造事实或“产生幻觉”。

例如，当华盛顿大学和艾伦人工智能研究所 (Ai2) 的研究人员领导的团队研究最近的 OpenAI 模型 GPT-4o 时，他们发现该模型 78-90% 的研究引用都是捏造的。像 ChatGPT 这样的通用人工智能模型通常无法访问收集训练数据后发表的论文。

因此，UW 和 Ai2 研究团队构建了 OpenScholar，这是一个专门为综合当前科学研究而设计的开源 AI 模型。该团队还创建了第一个大型多领域基准，用于评估模型综合和引用科学研究的效果。在测试中，OpenScholar 引用的资料来源与人类专家一样准确，并且 16 名科学家在 51% 的情况下更喜欢其回应而不是学科专家撰写的回应。

该团队于 2 月 4 日在《自然》杂志上发表了研究结果。该项目的代码、数据和演示是公开的并且可以免费使用。

“在我们开始这项工作后，我们将演示放在网上，很快我们就收到了很多询问，远远超出了我们的预期，”华盛顿大学 Paul G. Allen 计算机科学与工程学院副教授兼 Ai2 高级总监 Hannaneh Hajishirzi 说道。“当我们开始查看回复时，我们意识到我们的同事和其他科学家正在积极使用 OpenScholar。这确实说明了对这种可以综合研究”。

为了测试他们的系统，该团队创建了 ScholarQABench，这是一个用于测试科学搜索系统的基准。他们收集了计算机科学、物理学、生物医学和神经科学领域的专家撰写的 3,000 个查询和 250 个长篇答案。

在一项研究中，AI 模型 OpenScholar 综合科学研究并像人类专家一样准确地引用资料来源

其他外部链接

Tags

XiaoMi-AI