详细内容或原文请订阅后点击阅览

FACTS Grounding：评估大型语言模型真实性的新基准

2024年12月17日 15:29 33 Comments

我们全面的基准和在线排行榜提供了急需的衡量标准，可以衡量法学硕士 (LLM) 如何准确地根据提供的源材料做出反应并避免产生幻觉

来源:DeepMind - 新闻与博客

责任与安全

FACTS 基础：评估大型语言模型事实性的新基准

已发布 2024 年 12 月 17 日作者 FACTS 团队

已发布

2024 年 12 月 17 日

作者

FACTS 团队

我们全面的基准和在线排行榜提供了急需的衡量标准，可以衡量 LLM 如何准确地根据提供的源材料做出回应并避免产生幻觉

大型语言模型 (LLM) 正在改变我们获取信息的方式，但它们对事实准确性的把握仍然不完美。它们可能会“产生幻觉”虚假信息，尤其是在给出复杂输入时。反过来，这会削弱人们对 LLM 的信任，并限制其在现实世界中的应用。

今天，我们推出了 FACTS Grounding，这是一个全面的基准，用于评估 LLM 生成响应的能力，这些响应不仅在给定输入方面具有事实准确性，而且足够详细，可以为用户查询提供令人满意的答案。

FACTS Grounding

我们希望我们的基准能够推动整个行业在事实性和基础性方面的进步。为了跟踪进展，我们还在 Kaggle 上推出了 FACTS 排行榜。我们已经使用 FACTS Grounding 测试了领先的 LLM，并在初始排行榜上填充了它们的基础分数。随着该领域的发展，我们将维护和更新排行榜。

Kaggle 上的 FACTS 排行榜

当前排行榜排名

为了准确评估任何给定 LLM 的事实性和依据，FACTS Grounding 数据集包含 1,719 个示例，每个示例都经过精心设计，要求以提供的上下文文档为基础的长格式响应。每个示例都包含一个文档、一个要求 LLM 专门引用所提供文档的系统指令以及随附的用户请求。

来自 FACTS Grounding 数据集的示例

发布公共集

FACTS 提供 LLM 幻觉事实数据集不完美 12 排名排行榜事实性 17 Grounding 准确性文档产生示例 2024 输入系统指令基准