AI基准测试绳索:从良好意图到金标准

计划制定“ Vals 2”法律AI基准项目项目,它一定会引发辩论。就像许多...

来源:Artificial Lawyer

合同网络首席执行官吉姆·瓦格纳(Jim Wagner)

“ Vals 2”法律AI基准测试项目已计划,它一定会引发辩论。正如许多人所记得的那样,“ Vals 1”远非平稳 - 公司撤回,参与者质疑该方法。我支持Legal AI的透明度,但是过去在包括Vals 1的行业中的基准努力最多产生了不同的结果。

在执行良好时,基准测试提供了真正的见解。它使法律专业人士充满信心地选择工具,轻推供应商来改进,在极少数情况下,将整个领域向前推动(再次感谢您,Maura Grossman和Gordon Cormack)。

Maura Grossman和Gordon Cormack

仍然,法律AI中真正有效的基准测试仍然难以捉摸。内部和外部法律的事先尝试通常会产生比光多的云,这使得采用者不确定这些工具在实际情况下可以完成什么。

“足够好”的危险 - 当基准跌落时

即使是善意的研究也可能误导。我们看到了第一个Vals Legal AI报告(“ Vals 1”)。在开创性的同时,它在三个问题上挣扎:

vals Legal AI报告

结果的及时性。 AI景观以惊人的速度移动。正如Vecflow在对Vals 1的评论中指出的那样,其产品在六个月内“大幅提高”,将数据收集与出版物分开。当读者看到数字时,他们落后于现实。

结果的及时性。

样本量和范围。 一些任务面临有关数据集是否足够大以支持广泛结论的问题。 Noah Waisberg的“错过的MFN -GATE”分析认为,数据萃取测试应涵盖更大的文档,以绘制出可靠的准确性图片。

样本量和范围。 感知的利益冲突。

边境模型因子

我们如何交流结果

真实世界的基准测试挑战:沟渠的教训

在为法律界建立和评估AI工具后,我遇到了两个持续的障碍:

-