Vals Legal AI 研究评估 – 后果

最新的瓦尔斯法律人工智能报告(VLAIR)已发布,重点关注法律研究。这当然引起了关注,因为主要参与者没有参加......

来源:Artificial Lawyer

最新的瓦尔斯法律人工智能报告(VLAIR)已发布,重点关注法律研究。这当然引起了人们的关注,因为关键参与者没有参与,而人工智能显然“击败”了人类律师。 AL 来看看这一切意味着什么。

首先,什么是Vals?这是一家致力于评估人工智能系统的美国企业。这里对法律研究的关注只是他们开展的众多项目之一。他们邀请了一批合法的人工智能公司和一些人类律师,并针对通用模型进行了测试。在本例中,评估的产品是 Alexi、Counsel Stack、Midpage 以及 ChatGPT。至少有一家主要供应商确实参与了其中,但随后不希望其结果公开(更多内容见下文)。

Vals 如何比较人类律师的工作与人工智能的工作?他们解释说,他们“建立了一个基准衡量标准,衡量普通律师在没有生成式人工智能的帮助下所完成的工作质量。”为了实现这一目标,我们与一家美国律师事务所合作,该律师事务所提供的律师在为客户事务进行法律研究方面经验丰富。律师被要求根据为人工智能产品提供的完全相同的说明和上下文来回答数据集问题。”

至于这一切是如何进行的,“回答收集是在 2025 年 7 月的前三周内进行的。所有问题都通过 API 作为零样本提示提交给每个产品。”因此,从那时起,公司和通用模型可能有所改进,因为三个月对于 genAI 来说是很长的时间。此外,测试并不是关于人们如何使用人工智能工具以及随之而来的应用程序层,它实际上专注于直接的问题/答案方法,没有后续操作。

所有问题均通过 API 作为零样本提示提交给每个产品 真正专注于直接的问题/回答方法,没有后续内容

‘- 准确性:回答是否实质上正确,没有错误元素(平均加权分数的 50%)

AI 在这三项比赛中均获胜。

AL 视图

“人工智能在法律研究方面比律师更好”

不是

主要使用