详细内容或原文请订阅后点击阅览
通过 LLM 辩论提高事实一致性
在这篇文章中,我们使用具有基本事实的监督数据集展示了大型语言模型 (LLM) 辩论的潜力。在这篇文章中,我们将通过有说服力的 LLM 来指导 LLM 辩论技巧,其中包括两名专家辩论者 LLM(Anthropic Claude 3 Sonnet 和 Mixtral 8X7B)和一名评委 LLM(Mistral 7B v2),以衡量、比较和对比其与其他技巧(如自洽(与天真的和专家评委)和 LLM 咨询)的表现。
来源:亚马逊云科技 _机器学习在这篇文章中,我们展示了使用具有基本事实的监督数据集进行大型语言模型 (LLM) 辩论的潜力。在这场 LLM 辩论中,我们有两个辩手 LLM,每个人都站在一个论点的一边,并根据 N(=3) 轮之前的论点为其辩护。这些论点被保存下来,以供法官 LLM 审查。在 N(=3) 轮之后,同一个法官 LLM 无法访问原始数据集,但只能使用 LLM 论点来决定哪一方是正确的。
可以使用这种技术解决的一个具有挑战性的用例是扩大无监督和原始数据集的基本事实策展/对齐过程。我们可以从人工注释开始标记基本事实,但这可能成本高昂、速度慢、难以扩展,并且可能无法达成共识。我们还可以使用这场 LLM 辩论生成的合成基本事实数据来构建和预训练更大、更强大的 LLM。
这篇文章和随后的代码实现受到了国际机器学习会议 (ICML) 2024 年 LLM 辩论最佳论文之一《与更有说服力的 LLM 辩论可得出更真实的答案》的启发。它使用了不同的数据集 TofuEval。
与更有说服力的 LLM 辩论可得出更真实的答案 TofuEval请注意,对于每种技术,向评委 LLM 提出的问题始终相同:“这些摘要中的哪一个是最符合事实的?” 答案是二进制的。摘要 A 或摘要 B 都是正确的。对于每种技术,都使用相同的评委 LLM 来给出最终答案。
与现有方法(如 LLM 咨询和具有自洽性的独立 LLM 推理)相比,LLM 辩论技术可以更符合事实(真实)。为了证明这一点,我们在本文中比较了下面提到的四种技术:
自洽性 四