大型语言模型 (LLM) 已显示出作为评估 AI 系统生成的答案质量的自动评估器的前景。然而,基于 LLM 的评估器在用于评估成对比较中的候选答案时表现出位置偏差或不一致性,无论内容如何,都会偏向第一个或第二个答案。为了解决这个限制,我们提出了 P ORTIA,这是一个基于对齐的系统,旨在模仿人类的比较策略,以轻量级但有效的方式校准位置偏差。具体来说,P ORTIA 将答案分成多个部分,同时考虑长度和语义,然后将它们合并回单个提示以供 LLM 评估。对 6 个 LLM 对 11,520 个答案对进行的大量实验表明,P ORTIA 显着提高了所有模型和比较形式的一致性率,平均相对提高 47.46%。它还使 P ORTIA 增强型 GPT-3.5 能够实现与 GPT-4 相当的与人类的一致率,并将 GPT-4 的一致率提高到 98%。后续的人工评估表明,P ORTIA 增强型 GPT-3.5 模型在与人类评估者的一致性方面甚至可以超越独立的 GPT-4,凸显了 P ORTIA 纠正立场偏见、提高 LLM 一致性和提高性能的同时保持成本效率的能力。
主要关键词