获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
AdaBoN: Adaptive Best-of-N Alignment
测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段估计……