事实接地:评估大语言模型的事实的新基准

我们的全面基准和在线排行榜提供了急需的衡量标准,以衡量其在提供的原始材料中的响应程度准确地基础,并避免幻觉

来源:DeepMind - 新闻与博客

责任与安全

事实接地:评估大语言模型的事实的新基准

于2024年12月出版了2017年12月factsfacts
已发布
2024年12月17日
作者
事实团队

我们的全面基准和在线排行榜提供了急需的衡量标准,以衡量其在提供的原始材料中的响应程度准确地基础,并避免幻觉

大型语言模型(LLM)正在改变我们访问信息的方式,但他们对事实准确性的控制仍然不完美。他们可以“幻觉”虚假信息,尤其是在给出复杂的输入时。反过来,这可能会侵蚀对LLM的信任,并限制其在现实世界中的应用。

今天,我们正在介绍事实基础,这是评估LLM产生响应能力的全面基准,这些响应不仅在给定的输入方面是准确的,而且还足够详细地提供了对用户查询的满意答案。

事实接地

We hope our benchmark will spur industry-wide progress on factuality and grounding.为了跟踪进度,我们还在Kaggle上启动了事实排行榜。我们已经使用事实接地测试了领先的LLM,并以其接地分数填充了初始排行榜。随着领域的发展,我们将维护和更新排行榜。

kaggle上的事实排行榜
当前排行榜排名

事实接地数据集

要准确评估任何给定LLM的事实和接地,接地数据集的事实包括1,719个示例,每个示例都经过精心制作,需要在提供的上下文文档中基于的长格式响应。每个示例包括一个文档,一个系统指令,要求LLM专门引用提供的文档以及随附的用户请求。

事实接地数据集的示例
发布公共集

领导LLMS的集体判断

在我们的论文中

事实接地将继续发展

参与事实接地

致谢