详细内容或原文请订阅后点击阅览
推理的剃刀:推理提高了准确性,但会损害安全和幻觉检测中关键操作点的回忆
推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......
来源:Apple机器学习研究推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成提高了整体准确性,但在实际使用所必需的低 FPR 阈值上表现不佳。相比之下,Think Off(推理过程中不进行推理)在这些对精度敏感的体系中占主导地位,只有当较高的 FPR 可接受时,Think On 才会超越。此外,我们发现对于精度敏感的部署,基于令牌的评分大大优于自我语言的置信度。最后,两种模式的简单组合恢复了每种模式的优点。总而言之,我们的研究结果将推理定位为一种双刃工具:有利于平均精度,但通常不适合需要严格精度的应用。
思考 思考- ‡ 同等贡献† 马里兰大学学院公园分校** 在 Apple 期间完成的工作
