详细内容或原文请订阅后点击阅览
合法的人工智能基准揭示了模型名称没有揭示的内容
作者:Daniel Lewis,LegalOn 首席执行官。基础模型正在迅速改进。一项有用的衡量标准是软件工程:前沿模型可以完成的编码任务的长度......
来源:Artificial Lawyer作者:Daniel Lewis,LegalOn 首席执行官。
基础模型正在快速改进。一个有用的衡量标准是软件工程:前沿模型可以完成的编码任务的长度现在大约每四个月翻一番。
变化的速度对于合法的人工智能来说很重要。但一般模型的进展并不能告诉法律团队他们需要了解的关于这些模型在专门法律工作中的表现的一切信息。尤其是合同审查,需要精确的语言、阈值、交叉引用、缺失的条款和多部分标准。
因此,LegalOn 发布了 2026 年合同审查基准,对领先的人工智能模型在合同审查方面的表现进行了深入评估。该基准测试通过 3,282 次面对面评审和 21 条精度关键指南测试了 11 个人工智能模型。我们以原始形式测试模型,并根据它们放置在 LegalOn 的框架中时的表现进行测试,LegalOn 是一个专门为内部法律工作设计的结构化系统,构建在基础模型之上。
我们并不期望法律技术的买家或用户像我们一样密切关注模型发布。我们也不期望人们毫无怀疑地接受供应商基准。问题是该基准测试是否能够衡量真实的东西,以帮助法律团队了解人工智能可以做什么和不能做什么。
我们认为这个基准测试强调了四个值得关注的事情。
首先:领先模型仍然无法独自完成重要的合同审查任务。
所测试的条款并不晦涩。其中包括转让权、PHI 所有权语言、NDA 目的条款、SOW 合并要求和稿件审查时间表。这些是常见的合同审查问题。在此类问题中,错误的答案可能会带来真正的法律或商业风险。
我们一致发现,通用模型经常识别出正确的主题,但未达到法律标准。
第二:模型周围的线束很重要。很多。
第三:LegalOn 对该系统的投资体现在结果中。
最终想法
