Making AI smarter without more training data
UCR 研究人员开发了一种称为“测试时间匹配”的方法,这种方法可以显着改善人工智能系统解释文本和图像之间关系的方式,尤其是在呈现不熟悉的组合时。
AdaBoN: Adaptive Best-of-N Alignment
测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段估计……