误报率领域信息情报检索---XiaoMi-AI

2025年10月29日 00:00

推理的剃刀：推理提高了准确性，但会损害安全和幻觉检测中关键操作点的回忆

Reasoning’s Razor: Reasoning Improves Accuracy but Can Hurt Recall at Critical Operating Points in Safety and Hallucination Detection

推理已成为大型语言模型 (LLM) 的核心范式，不断提高各种基准的准确性。然而，它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率（FPR）制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型（LRM）在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡：Think On（推理增强）生成改进......

亚马逊云科技 _机器学习

2025年10月6日 19:14

负责人AI：Powerschool如何使用Amazon Sagemaker AI

Responsible AI: How PowerSchool safeguards millions of students with AI-powered content filtering using Amazon SageMaker AI

在这篇文章中，我们演示了 PowerSchool 如何使用 Amazon SageMaker AI 构建和部署自定义内容过滤解决方案，该解决方案在保持较低误报率的同时实现了更高的准确性。我们将详细介绍微调 Llama 3.1 8B 的技术方法、我们的部署架构以及内部验证的性能结果。

误报率关键词检索结果

推理的剃刀：推理提高了准确性，但会损害安全和幻觉检测中关键操作点的回忆

负责人AI：Powerschool如何使用Amazon Sagemaker AI