详细内容或原文请订阅后点击阅览
Crosby 启动合同基准,成立代理研究小组
NewMod 律师事务所 Crosby 推出了“多轮谈判基准”,这是人工智能输出的合同谈判基准。他们还推出了 Crosby Intelligence,一项研究......
来源:Artificial LawyerNewMod 律师事务所 Crosby 推出了“多轮谈判基准”,这是人工智能输出的合同谈判基准。他们还推出了 Crosby Intelligence,这是一家专注于法律代理人的研究机构。
首先是基准测试,也称为 Redline:Crosby 和 micro1 将发布一个基准测试“评估前沿模型如何在现场环境中执行高级商业律师的工作流程”。
‘该基准将合同谈判衡量为一系列判断调用,而不是一组孤立的条款编辑。每个回合都需要律师或模特来决定什么是重要的、什么是不应该发生的、推动的力度以及如何随着谈判的进展进行调整,”他们补充道。
他们解释说,这是因为“合同修订不是一项单轮起草任务:它需要了解交易背景、各方的商业杠杆、进行合法合理的编辑、预测交易对手的反应,并保持交易执行的动力”。
到目前为止,他们的发现是 ChatGPT 5.5 在基准测试中总体表现最好,得分为 50.5%,其次是 Gemini 3.5 Flash(45.1%)和 Claude Opus 4.8(44.4%)。 《克劳德神鬼寓言 5》的总体得分为 47.3%,尽管访问很快就被切断了,所以他们希望以后能回到《神鬼寓言 5》进行多次测试,以获得更平衡的结果。
有趣的是,尽管有些人可能会这么想,但所有模型之间的距离并没有那么远——至少相对而言是这样。克罗斯比还发现,目前人类律师仍然更擅长在谈判中寻找“解决问题的新途径”,而人工智能工具往往会陷入最初的立场——AL 认为,这表明此类工具仍然缺少“判断层”。至此,律师们可以松一口气了。
与此同时,Crosby Intelligence 是一个由研究人员、应用人工智能工程师和技术律师组成的团队,“为 Crosby 律师事务所打造代理律师”。
这有什么大不了的吗?
有关克罗斯比的更多信息请点击此处。
