哈维推出“法律代理席” XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

哈维推出“法律代理席”

2026年5月6日 15:31 33 Comments

代理……听起来很棒，但这些自主程序真的能做你想做的事吗？它们准确吗？他们可靠吗？输入 Harvey 的《法律代理基准》...

来源:Artificial Lawyer

代理……听起来很棒，但这些自主程序真的能做你想做的事吗？它们准确吗？他们可靠吗？ Harvey 推出的 Legal Agent Benchmark 得到了 Nvidia、OpenAI、Anthropic、Mistral 和 DeepMind 等一系列知名公司的支持。

想想哈维用于测试人工智能输出的“大法律台”，现在想想用来衡量代理性能的东西。简而言之，就是这样。

那么，“法律代理人席”(LAB) 是如何运作的？

首先，它将是开源的，开放给每个人来测试他们的代理。

LAB 的第一个版本包括 24 个法律实践领域的 1,200 多个代理任务，并根据 75,000 多个专家编写的标准进行评估。

正如 Harvey 应用研究主管 Niko Grupen 告诉《AL》：“你可以将你的代理带到实验室来解决任务。”

这些任务，每项都有一个专门设计的标题——或者如 AL 建议的“特工攻击课程”——测试特工并展示它的表现。正如 Grupen 解释的那样，这可能是一项并购交易，代理人必须在合成数据中找到关键条款，考虑这些条款的重要性，然后撰写报告。

Grupen 表示，将代理视为跨三个主要领域工作是有用的：规划、交互和适应。

‘代理将分解任务，执行它，与数据、工具以及其他代理和人类交互，以寻求帮助和审查。他说，代理人可能需要了解更多信息，还需要进行适应。

他指出，他们还在测试材料中添加了问题，看看特工是否会发现它们。

简而言之，想象一下给员工一堆文件、一些关于如何工作的规则以及一些具体说明。告诉他们可以向谁寻求帮助，以及在哪里可以找到更多信息，然后说：“开始，完成后告诉我，或者如果遇到困难。”

未来几周还将推出排行榜，以便您可以了解哪些人工智能系统最适合支持某些代理任务。

—

以及，

设计的一系列多个代理任务 AL 输出的特工测试支持人工智能运作的代理人具体说明 LAB 条款代理简而言之 Harvey 建议的主程序想想 Grupen 有用的进行根据工作的应用研究实验室重要性