哈维推出“法律代理席”

代理……听起来很棒,但这些自主程序真的能做你想做的事吗?它们准确吗?他们可靠吗?输入 Harvey 的《法律代理基准》...

来源:Artificial Lawyer

代理……听起来很棒,但这些自主程序真的能做你想做的事吗?它们准确吗?他们可靠吗? Harvey 推出的 Legal Agent Benchmark 得到了 Nvidia、OpenAI、Anthropic、Mistral 和 DeepMind 等一系列知名公司的支持。

想想哈维用于测试人工智能输出的“大法律台”,现在想想用来衡量代理性能的东西。简而言之,就是这样。

那么,“法律代理人席”(LAB) 是如何运作的?

首先,它将是开源的,开放给每个人来测试他们的代理。

LAB 的第一个版本包括 24 个法律实践领域的 1,200 多个代理任务,并根据 75,000 多个专家编写的标准进行评估。

正如 Harvey 应用研究主管 Niko Grupen 告诉《AL》:“你可以将你的代理带到实验室来解决任务。”

这些任务,每项都有一个专门设计的标题——或者如 AL 建议的“特工攻击课程”——测试特工并展示它的表现。正如 Grupen 解释的那样,这可能是一项并购交易,代理人必须在合成数据中找到关键条款,考虑这些条款的重要性,然后撰写报告。

Grupen 表示,将代理视为跨三个主要领域工作是有用的:规划、交互和适应。

‘代理将分解任务,执行它,与数据、工具以及其他代理和人类交互,以寻求帮助和审查。他说,代理人可能需要了解更多信息,还需要进行适应。

他指出,他们还在测试材料中添加了问题,看看特工是否会发现它们。

简而言之,想象一下给员工一堆文件、一些关于如何工作的规则以及一些具体说明。告诉他们可以向谁寻求帮助,以及在哪里可以找到更多信息,然后说:“开始,完成后告诉我,或者如果遇到困难。”

未来几周还将推出排行榜,以便您可以了解哪些人工智能系统最适合支持某些代理任务。

以及,