详细内容或原文请订阅后点击阅览
哈维推出“法律代理席”
代理……听起来很棒,但这些自主程序真的能做你想做的事吗?它们准确吗?他们可靠吗?输入 Harvey 的《法律代理基准》...
来源:Artificial Lawyer代理……听起来很棒,但这些自主程序真的能做你想做的事吗?它们准确吗?他们可靠吗? Harvey 推出的 Legal Agent Benchmark 得到了 Nvidia、OpenAI、Anthropic、Mistral 和 DeepMind 等一系列知名公司的支持。
想想哈维用于测试人工智能输出的“大法律台”,现在想想用来衡量代理性能的东西。简而言之,就是这样。
那么,“法律代理人席”(LAB) 是如何运作的?
首先,它将是开源的,开放给每个人来测试他们的代理。
LAB 的第一个版本包括 24 个法律实践领域的 1,200 多个代理任务,并根据 75,000 多个专家编写的标准进行评估。
正如 Harvey 应用研究主管 Niko Grupen 告诉《AL》:“你可以将你的代理带到实验室来解决任务。”
这些任务,每项都有一个专门设计的标题——或者如 AL 建议的“特工攻击课程”——测试特工并展示它的表现。正如 Grupen 解释的那样,这可能是一项并购交易,代理人必须在合成数据中找到关键条款,考虑这些条款的重要性,然后撰写报告。
Grupen 表示,将代理视为跨三个主要领域工作是有用的:规划、交互和适应。
‘代理将分解任务,执行它,与数据、工具以及其他代理和人类交互,以寻求帮助和审查。他说,代理人可能需要了解更多信息,还需要进行适应。
他指出,他们还在测试材料中添加了问题,看看特工是否会发现它们。
简而言之,想象一下给员工一堆文件、一些关于如何工作的规则以及一些具体说明。告诉他们可以向谁寻求帮助,以及在哪里可以找到更多信息,然后说:“开始,完成后告诉我,或者如果遇到困难。”
未来几周还将推出排行榜,以便您可以了解哪些人工智能系统最适合支持某些代理任务。
—
以及,
