基准的关键词检索结果

推理的剃刀:推理提高了准确性,但会损害安全和幻觉检测中关键操作点的回忆

Reasoning’s Razor: Reasoning Improves Accuracy but Can Hurt Recall at Critical Operating Points in Safety and Hallucination Detection

推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......

外国债券仍然是2025年的获胜贸易

Foreign Bonds Remain A Winning Trade In 2025

对非美国债券的倾斜投资组合一直是2025年固定收入分配的成功策略。美联储最近削减速度的枢纽可能会使趋势在今年余下的时间里嗡嗡作响。基于昨天的一系列ETF,外国债券的表现优于美国固定收益基准的年度。