Harvey 推出法律 GenAI 评估系统:BigLaw Bench

Harvey 已公开推出 BigLaw Bench,这是他们自己的方法,用于评估 genAI 工具在法律任务中使用时的准确性,测量“百分之多少......

来源:Artificial Lawyer

Harvey已公开推出了BigLaw Bench,他们自己的方法是评估Genai工具在法律任务时的准确性,测量“律师质量的工作产品的百分比是为用户完成的?”。

这是一个大胆的步骤,因为他们不仅公开了他们的方法论(请参见下面的更多),还包括自己的分数。当针对GPT-4O等一般LLMS测量时,Harvey在交易和诉讼任务中总体上为答复总体答复得分74%。

Harvey数据。

相比之下,GPT-4O(Openai的Generai of LLM的最新版本)在法律任务上获得了61%的答案得分。

公司还为他们称为“源分数”的方法,即提供具有正确来源的可验证答案的能力,实际上是该模型的抹布能力。在这种情况下,Harvey的总分为68%,而General LLMS在正确地提出答案方面的表现非常出色,GPT-4O仅获得24%,而Claude 3.5的得分非常低8%。

这是他们制定评估的方式:

‘BigLaw Bench中的每个任务都是使用定制设计的标准的评估:

答案质量:根据有效完成任务完成必不可少的特定标准,评估模型响应的完整性,准确性和适当性。

来源可靠性:评估模型提供可验证并正确引用其主张来源的能力,增强信任并促进验证。

分数是通过结合满足任务要求的正积分以及错误或失误的负数(例如幻觉)来计算的。’

这些分数然后表示为百分比,如上所述。

以及有关模型的问题以及其工作原理的更深入细节,请参阅他们的博客和github页面(请参见下面的链接)。

模态

这是他们说的:

及以下是他们列出的任务。

vals

-

这是什么意思?

法律Genai准确性小组

链接到博客

博客

链接到GitHub页面