详细内容或原文请订阅后点击阅览
AI might not be coming for lawyers’ jobs anytime soon
当生成式人工智能热潮在 2022 年兴起时,鲁迪·米勒 (Rudi Miller) 和她法学院的同学突然陷入了焦虑之中。 “毕业前,我们讨论了如果人工智能被采用,我们的就业市场会是什么样子,”她回忆道。因此,当需要选择专业时,米勒——现在是一名初级律师……
来源:MIT Technology Review _人工智能但新的基准旨在更好地衡量模型在现实世界中开展法律工作的能力。 ScaleAI 在 11 月发布的专业推理基准评估了领先的法学硕士在由该领域专业人士设计的法律和财务任务方面的表现。研究发现,这些模型在专业采用的可靠性方面存在严重差距,表现最好的模型在最困难的法律问题上得分仅为 37%,这意味着它只满足了评估标准的三分之一以上的分数。这些模型经常做出不准确的法律判断,即使它们确实得出了正确的结论,也是通过不完整或不透明的推理过程得出的。
“这些工具实际上并不能基本上替代你的律师,”该论文的主要作者 Afra Feyza Akyurek 说。 “尽管很多人认为法学硕士对法律掌握得很好,但它仍然落后。”
本文建立在其他基准的基础上,衡量模型在具有经济价值的工作上的表现。数据公司 Mercor 于 9 月发布并于 12 月更新的人工智能生产力指数发现,这些模型在执行法律工作方面存在“重大局限性”。表现最好的模型在法律任务上得分为 77.9%,这意味着它满足了大约五分之四的评估标准。该研究的早期版本指出,具有这样分数的模型可能会在某些行业产生巨大的经济价值,但在错误代价高昂的领域,它可能根本没有用处。
专业基准是评估法学硕士实际能力的一大进步,但它们可能仍然无法反映律师的实际工作。华盛顿大学法学院法学教授 Jon Choi 表示:“这些问题虽然比过去的基准更具挑战性,但仍然没有完全反映律师在现实生活中解决的主观且极具挑战性的问题。”他在 2023 年与人合着了一项关于法律基准的研究。
