AdaBoN: Adaptive Best-of-N Alignment
测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段估计……
Pakistan recalls Shadab Khan for T20 series in Sri Lanka
巴基斯坦召回了即将在斯里兰卡举行的 T20 系列赛的全能选手沙达布·汗 (Shadab Khan),而未上场的击球手哈瓦贾·纳菲 (Khawaja Nafay) 也获得了首次征召。选择者在 T20 世界杯之前采用轮换政策,让巴巴尔·阿扎姆、哈里斯·拉乌夫和沙欣·沙阿夫里迪等关键球员休息。