推理已成为大型语言模型 (LLM) 的核心范式,不断提高各种基准的准确性。然而,它是否适合精度敏感的任务仍不清楚。我们提出了第一个在严格的低误报率(FPR)制度下分类任务推理的系统研究。我们的分析涵盖两项任务——安全检测和幻觉检测——使用标准法学硕士和大型推理模型(LRM)在微调和零样本设置下进行评估。我们的结果揭示了一个明显的权衡:Think On(推理增强)生成改进......
在这篇文章中,我们演示了 PowerSchool 如何使用 Amazon SageMaker AI 构建和部署自定义内容过滤解决方案,该解决方案在保持较低误报率的同时实现了更高的准确性。我们将详细介绍微调 Llama 3.1 8B 的技术方法、我们的部署架构以及内部验证的性能结果。