详细内容或原文请订阅后点击阅览
九位法官,两张有效票:相关错误破坏了法学硕士评估小组
法学硕士评委小组汇总来自多个模型的投票,期望不同的模型能产生更可靠的评估。我们开发了一个框架来衡量此类小组的真实信息价值,并量化其可靠性与独立投票理想的差距有多大。在三个自然语言推理数据集(每个项目有 100 个人类注释)上测试来自 7 个模型系列的 9 名前沿法学硕士小组,我们发现 9 名评委实际上只提供了大约 2 个独立投票的信息。大约四分之三的专家组名义上的独立性......
来源:Apple机器学习研究法学硕士评委小组汇总来自多个模型的投票,期望不同的模型能产生更可靠的评估。我们开发了一个框架来衡量此类小组的真实信息价值,并量化其可靠性与独立投票理想的差距有多大。在三个自然语言推理数据集(每个项目有 100 个人类注释)上测试来自 7 个模型系列的 9 名前沿法学硕士小组,我们发现 9 名评委实际上只提供了大约 2 个独立投票的信息。由于模型在相同的项目上犯了相同的错误,该小组大约四分之三的名义独立性丧失了。后果是显而易见的:专家组的实际准确性比独立投票所能达到的目标低 8-22 个百分点,而最好的单一法官在所有条件下都与整个专家组相匹配或优于整个专家组。添加更多法官或使用更智能的聚合算法都无济于事——即使可以获取正确答案,现有方法最多也只能弥补 11% 的差距。我们使用基什有效样本量 (n_eff) 和孔多塞零模型对这些发现进行量化,并表明在提示变量、温度、思维链推理和成对偏好任务 (RewardBench) 方面,赤字是稳健的。瓶颈在于相关的法官,而不是聚合算法,这意味着扩大小组规模不能替代真正的独立评估。
