Harvey 通过“Harness Engineering”推动法律代理人学习 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Harvey 通过“Harness Engineering”推动法律代理人学习

2026年4月7日 11:09 33 Comments

Harvey 阐述了如何进行一项新实验来提高法律代理人的绩效，该实验使用“利用工程”来获得更好的结果。那...

来源:Artificial Lawyer

Harvey 阐述了如何进行一项新实验来提高法律代理人的绩效，该实验使用“利用工程”来获得更好的结果。这反过来又为我们如何真正大规模部署法律代理人指明了道路。

Harvey 应用研究主管 Niko Grupen 在 X 上发表的一篇新论文中发表了这些发现。好的，我们开始吧。

事情是这样的，至少在非常广泛的意义上是这样：

他们进行了一项实验来提高代理技能的获取。

它是以下内容的组合：自动研究，代理运行自己的实验循环；和利用工程，其中代理的能力既受到其环境和反馈循环的影响，也受到模型权重更新的影响。

他们对 Harvey 内部代理基准测试中的 12 项任务进行了实验。

该数据集中的法律任务涵盖复杂的法律任务，例如商业租赁审查、投诉起草、税务备忘录、披露时间表、尽职调查问卷答复等等。

每个任务都附带源文档、说明和详细的评分标准；代理人需要通过创建真实合法的工作产品来完成任务。

到目前为止还好吗？好的。我们继续吧。

完成上述设置后，实验进行了以下操作，这些是真正产生影响的步骤：

‘在代理尝试完成一项任务后，法学硕士法官会根据其评分标准对其进行评分，并提供书面反馈，说明代理做对了什么、错过了什么以及其推理不正确的地方。

此设置类似于评估器-优化器工作流程：生成、评估、细化，并在评估标准足够清晰以支持迭代改进时重复。

编码代理读取法官的反馈，对失败进行聚类，形成关于哪些线束改进将有帮助的假设，构建或编辑相关组件，然后重新运行任务。

当然，那么你可能会问：如果它自己教的话，它学到了多少？嗯，很多！

‘十二人中有七人完成了 90% 以上。其中一项已完成 100%。”

结论

—

–

复杂的集中的改进调查问卷合法的代理人提高代理的 Harvey 循环的备忘录评估标准不正确反过来反馈时间表数据集发表任务评分标准一项自己的代理详细的更新的正确的完成任务实验大规模法律不正确的评估器广泛的进行模型权重根据应用研究工作