图3:生成验证者的例证,即GenRM和GenRM-Cot。给出了一个问题和候选解决方案,genRM直接对llm进行了填补,以回答“答案正确(是/否)吗?”的问题。通过sft对对应于“是”或“否”的下一步响应。在推断期间,通过提取“是”令牌(4)的概率获得验证者分数。相比,GenRM-COT FINETUNES llm在产生最终的是/否代币之前产生验证链(COT)的基本原理。在测试时间时,我们采样了多个COT理由,并使用多数投票来计算“是”的平均概率,从而使GenRM-COT能够利用其他推理计算以更好地验证。