GPT-5高于Harvey的BigLaw Bench eval

昨晚分享的是,哈维(Harvey)和其他公司(Harvey)已迅速进入GPT-5。 Genai先驱分析了新的LLM ...

来源:Artificial Lawyer

昨晚分享的是,哈维(Harvey)和其他公司(Harvey)已迅速进入GPT-5。 Genai先驱分析了新的LLM的输出,并使用其“ BigLaw Bench” AI评估系统将其标记为表现最好的OpenAI模型。总体得分为89.22%。

该公司去年推出了Biglaw Bench(请参阅AL文章),以帮助衡量Genai回应的质量,尤其是相对于律师期望可以接受的阅读回应的方式。

al Artics

当时他们解释了 - ‘Biglaw Bench中的每个任务均使用定制设计的标准来评估:

    答案质量:根据有效的任务完成必不可少的特定标准评估模型对响应的完整性,准确性和适当性。source:评估模型的可靠性:评估模型提供可验证并正确引用其断言的来源,提高信任和促进验证的能力。SSCORESsode and sode and sectos for Secor and secor and secles corsect and efors e eRSER(eRSEC)(ersect)(ersec)(ersec)(ersect)(ersect)(ersec)(误解)。然后将分数表示为百分比。'
  • 答案质量:根据有效完成任务完成必不可少的特定标准,评估模型响应的完整性,准确性和适当性。
  • 来源可靠性:评估模型提供可验证并正确引用其主张来源的能力,增强信任并促进验证。
  • 分数是通过结合满足任务要求的正积分和错误或失误的负数(例如幻觉)来计算的。
  • 然后将这些分数表示为百分比。’
  • 及以下是他们提供的图表。如您所见,GPT-5的得分为89.22%,在显示的下一个最接近的结果中显着提高了约5%,这是另一种OpenAI模型O3,为84.13%。 (注意:Harvey使用其他公司的模型,不仅是OpenAi,而且在此不显示这些模型。)

    哈维数据,2025年8月。
    但是,我们正在朝正确的方向移动