Harvey 通过“Harness Engineering”推动法律代理人学习

Harvey 阐述了如何进行一项新实验来提高法律代理人的绩效,该实验使用“利用工程”来获得更好的结果。那...

来源:Artificial Lawyer

Harvey 阐述了如何进行一项新实验来提高法律代理人的绩效,该实验使用“利用工程”来获得更好的结果。这反过来又为我们如何真正大规模部署法律代理人指明了道路。

Harvey 应用研究主管 Niko Grupen 在 X 上发表的一篇新论文中发表了这些发现。好的,我们开始吧。

事情是这样的,至少在非常广泛的意义上是这样:

  • 他们进行了一项实验来提高代理技能的获取。
  • 它是以下内容的组合:自动研究,代理运行自己的实验循环;和利用工程,其中代理的能力既受到其环境和反馈循环的影响,也受到模型权重更新的影响。
  • 他们对 Harvey 内部代理基准测试中的 12 项任务进行了实验。
  • 该数据集中的法律任务涵盖复杂的法律任务,例如商业租赁审查、投诉起草、税务备忘录、披露时间表、尽职调查问卷答复等等。
  • 每个任务都附带源文档、说明和详细的评分标准;代理人需要通过创建真实合法的工作产品来完成任务。
  • 到目前为止还好吗?好的。我们继续吧。

    完成上述设置后,实验进行了以下操作,这些是真正产生影响的步骤:

  • ‘在代理尝试完成一项任务后,法学硕士法官会根据其评分标准对其进行评分,并提供书面反馈,说明代理做对了什么、错过了什么以及其推理不正确的地方。
  • 此设置类似于评估器-优化器工作流程:生成、评估、细化,并在评估标准足够清晰以支持迭代改进时重复。
  • 编码代理读取法官的反馈,对失败进行聚类,形成关于哪些线束改进将有帮助的假设,构建或编辑相关组件,然后重新运行任务。
  • 当然,那么你可能会问:如果它自己教的话,它学到了多少?嗯,很多!

    ‘十二人中有七人完成了 90% 以上。其中一项已完成 100%。”

    结论