详细内容或原文请订阅后点击阅览
共形思维:计算预算推理的风险控制
推理大型语言模型 (LLM) 可实现测试时间扩展,随着令牌预算的增加,数据集级别的准确性也会提高,从而激励自适应推理——在可靠性提高时使用令牌,并在额外计算不太可能有帮助时提前停止。然而,设置代币预算以及自适应推理的阈值是一项实际挑战,需要进行基本的风险与准确性权衡。我们将预算设置问题重新定义为风险控制,限制错误率,同时最大限度地减少计算量。我们的框架引入了一个上限,可以阻止......
来源:Apple机器学习研究推理大型语言模型 (LLM) 可实现测试时间扩展,随着令牌预算的增加,数据集级别的准确性也会提高,从而激励自适应推理——在可靠性提高时使用令牌,并在额外计算不太可能有帮助时提前停止。然而,设置代币预算以及自适应推理的阈值是一项实际挑战,需要进行基本的风险与准确性权衡。我们将预算设置问题重新定义为风险控制,限制错误率,同时最大限度地减少计算量。我们的框架引入了一个上限阈值,当模型有信心时停止推理(存在错误输出的风险),以及一个新颖的参数下限阈值,可以抢先停止无法解决的实例(存在过早停止的风险)。给定目标风险和验证集,我们使用无分布风险控制来优化指定这些停止机制。不同推理任务和模型的实证结果证明了我们的风险控制方法的有效性,证明了从较低阈值和集成停止机制中获得的计算效率增益,同时遵守用户指定的风险目标。代码可在 https://github.com/xidulu/reasoning_risk_control/ 获取。
