详细内容或原文请订阅后点击阅览
Screens 发布 Redlining GenAI 准确性
随着提高法律 genAI 准确性透明度和理解度的运动不断发展,总部位于美国的 Screens 发布了另一项深入的绩效研究,这次研究针对的是...
来源:Artificial Lawyer随着提高法律 genAI 准确性透明度和理解度的运动不断发展,总部位于美国的 Screens 发布了另一项深入的性能研究,这次是关于其红线功能。
正如 Artificial Lawyer 今年夏天所探索的那样,Screens(专注于合同的 TermScout 的姊妹公司,由首席执行官 Otto Hanson 和首席技术官 Evan Harris 创建)已经公开了其 genAI 准确性的其他方面,(见此处。)
Artificial Lawyer Otto Hanson Evan Harris 见此处现在他们正在研究 Screens 的红线方面,并且他们再次详细说明了他们如何实现准确性得分。
以下是该研究的简介,您可以在此处查看完整分析。
完整分析在此大图
大图首先,如果人们开放并共享信息,我们才会为法律工作中的 genAI 准确性制定共享基准和协议。所以,这非常有帮助。
现在,正如之前所探讨的那样,每个用例可能都有不同的准确性需求和期望。然而,红线是你真正希望看到高准确度数字并且 genAI 输出可直接应用的用例之一,即这不像要求文档的一般摘要,而是“告诉我到底需要更改什么”——因此准确性在这方面真的很重要。
告诉我到底需要更改什么话虽如此,主观性可能会影响它。一位律师的红线可能与另一位律师的不同。但是,如果您随后添加一个明确定义的剧本,那么公式又会发生变化,因为目标是符合剧本。
只要他们充分解释他们是如何达到这些目标的,另外,如前所述,经验科学要求任何人都可以重复任何测试,并且您会得到类似的结果。通过准确发布他们如何获得结果,这在这方面确实很有帮助。
经验科学要求任何人都可以重复任何测试,并且您会得到类似的结果。 完整分析在这里—
屏幕红线准确性报告
—