使用 SAFE 在 ChatGPT 等法学硕士中进行高效事实核查

Google 的 DeepMind 开发了一种用于大型语言模型中长篇事实性的新方法——搜索增强事实性评估器 (SAFE)。该 AI 事实核查工具表现出令人印象深刻的准确率,优于人类事实核查员。

来源:Qudata

使用 SAFE 在 ChatGPT 等 LLM 中高效进行事实核查

随着 AI 语言模型变得越来越复杂,它们在各个领域的文本生成中发挥着至关重要的作用。然而,确保它们生成的信息的准确性仍然是一个挑战。错误信息、无意错误和有偏见的内容可以迅速传播,影响决策、公共话语和用户信任。

Google 的 DeepMind 研究部门推出了一款专为大型语言模型 (LLM) 设计的强大 AI 事实核查工具。该工具名为 SAFE(语义准确性和事实评估),旨在提高 AI 生成内容的可靠性和可信度。

AI 事实核查工具

SAFE 采用多方面的方法,利用先进的 AI 技术来细致地分析和验证事实主张。该系统的细粒度分析将从 LLM 生成的长文本中提取的信息分解为不同的独立单元。每个单元都经过严格验证,SAFE 利用 Google 搜索结果进行全面的事实匹配。SAFE 的独特之处在于它结合了多步推理,包括生成搜索查询和随后分析搜索结果以确定事实准确性。

在大量测试期间,研究团队使用 SAFE 验证了几个 LLM 给出的输出中包含的大约 16,000 个事实。他们将结果与人工(众包)事实核查员的结果进行了比较,发现 SAFE 与专家的发现相符的概率为 72%。值得注意的是,在出现差异的情况下,SAFE 的表现优于人类准确性,准确率达到了惊人的 76%。

虽然 SAFE 代表了 LLM 进一步发展的重要一步,但挑战依然存在。确保该工具始终与不断发展的信息保持同步,并在准确性和效率之间保持平衡是一项持续的任务。

在 GitHub 上