推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......
TASER: Translation Assessment via Systematic Evaluation and Reasoning
我们引入 TASER(通过系统评估和推理进行翻译评估),这是一种使用大型推理模型 (LRM) 进行自动翻译质量评估的指标。 TASER 利用 LRM 的显式推理能力对翻译质量进行系统、逐步的评估。我们在基于参考和无参考场景的 WMT24 指标共享任务上评估 TASER,展示了最先进的性能。在系统级评估中,TASER 在基于参考和无参考的设置中均实现了最高的软成对精度……