外部验证工具可以改善LLM-AS-A-Gudge的注释质量

对模型响应的成对偏好被广泛收集,以评估和提供大型语言模型(LLMS)的反馈。给定两个对同一输入的替代模型响应,人类或AI注释者选择``更好''响应。这样的数据可以在很难获得传统硬编码指标的域中提供反馈信号(例如,聊天互动的质量),从而帮助衡量模型进度或模型微调(例如,通过从人类反馈中的增强型RLHF学习,RLHF)。但是,对于某些域而言,在…

来源:Apple机器学习研究

对模型响应的成对偏好被广泛收集,以评估和提供大型语言模型(LLMS)的反馈。给定两个对同一输入的替代模型响应,人类或AI注释者选择``更好''响应。这样的数据可以在很难获得传统硬编码指标的域中提供反馈信号(例如,聊天互动的质量),从而帮助衡量模型进度或模型微调(例如,通过从人类反馈中的增强型RLHF学习,RLHF)。但是,对于某些领域而言,从人类或AI中获得高质量的成对比较可能很棘手。例如,对许多(可能是错误的)事实陈述或复杂(可能是错误的)代码的长期响应代表了AI和人类注释者的重大挑战。在这项工作中,我们使用其他工具来探索增强标准AI注释系统,以提高三个具有挑战性的领域的性能:长期事实,数学和代码任务。我们建议使用工具的代理系统来增强现有注释者,以在这些域中提供更高质量的反馈。我们的系统使用网络搜索和代码执行来基于外部验证,与LLMS内部偏见无关。我们提供了广泛的实验结果,以根据奖励基台亚群来评估三个任务域以及室外任务的方法,我们旨在避免降低性能。我们共享所有代码以将实验复制为开源软件包。

    *在Apple