详细内容或原文请订阅后点击阅览
使用 SAFE 在 ChatGPT 等法学硕士中进行高效事实核查
Google 的 DeepMind 开发了一种用于大型语言模型中长篇事实性的新方法——搜索增强事实性评估器 (SAFE)。该 AI 事实核查工具表现出令人印象深刻的准确率,优于人类事实核查员。
来源:Qudata使用 SAFE 在 ChatGPT 等 LLM 中高效进行事实核查
随着 AI 语言模型变得越来越复杂,它们在各个领域的文本生成中发挥着至关重要的作用。然而,确保它们生成的信息的准确性仍然是一个挑战。错误信息、无意错误和有偏见的内容可以迅速传播,影响决策、公共话语和用户信任。
Google 的 DeepMind 研究部门推出了一款专为大型语言模型 (LLM) 设计的强大 AI 事实核查工具。该工具名为 SAFE(语义准确性和事实评估),旨在提高 AI 生成内容的可靠性和可信度。
AI 事实核查工具SAFE 采用多方面的方法,利用先进的 AI 技术来细致地分析和验证事实主张。该系统的细粒度分析将从 LLM 生成的长文本中提取的信息分解为不同的独立单元。每个单元都经过严格验证,SAFE 利用 Google 搜索结果进行全面的事实匹配。SAFE 的独特之处在于它结合了多步推理,包括生成搜索查询和随后分析搜索结果以确定事实准确性。
在大量测试期间,研究团队使用 SAFE 验证了几个 LLM 给出的输出中包含的大约 16,000 个事实。他们将结果与人工(众包)事实核查员的结果进行了比较,发现 SAFE 与专家的发现相符的概率为 72%。值得注意的是,在出现差异的情况下,SAFE 的表现优于人类准确性,准确率达到了惊人的 76%。
虽然 SAFE 代表了 LLM 进一步发展的重要一步,但挑战依然存在。确保该工具始终与不断发展的信息保持同步,并在准确性和效率之间保持平衡是一项持续的任务。
在 GitHub 上