AdaBoN:自适应 Best-of-N 对齐

测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段估计……

来源:Apple机器学习研究

测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段使用较小的探索预算估计每个提示的奖励分布,第二阶段使用这些估计自适应地分配剩余预算。我们的方法简单、实用,并且与任何 LM-RM 组合兼容。来自 AlpacaEval、HH-RLHF 和 PKU-SafeRLHF 数据集的 12 个 LM/RM 对和 50 个不同批次的提示的实证结果表明,在相同的推理预算下,我们的自适应策略优于统一分配。此外,我们表明,我们的自适应策略相对于推理预算增加 20% 的统一分配仍然具有竞争力,并且随着批量大小的增加而提高性能。