详细内容或原文请订阅后点击阅览
法律人工智能支架改变一切 - 克劳德研究
咨询公司 Legal Nodes(其中包括 MikeOSS)的一项研究表明,无论通用模型看起来有多好,它都是合法的人工智能......
来源:Artificial Lawyer咨询公司 Legal Nodes(包括 MikeOSS)的一项研究表明,无论通用模型看起来有多好,在性能方面真正发挥作用的是合法的人工智能“支架”。
法律 AI 专家 Nestor Dubnevych 告诉 Artificial Lawyer,该研究着眼于 Claude Opus 4.8,然后使用不同的设置(见下文)在法律任务上对其进行测试,并参见 AL 采访(见下文)。
他发现:“同一模型在不同的支架上表现不同。这意味着仅模型评估无法全面了解合法的人工智能性能。
“在法律工作中,输出的质量不仅取决于基本模型,还取决于它周围的支架:上下文、工作流程逻辑、利用可用技能进行及时改进、规划、代理循环、检索、工具调用。”
AL 采访 Legal Nodes 的 Nestor Dubnevych
请告诉读者你是谁,你做什么。
Legal Nodes 是一家技术支持的法律咨询公司。当我们开始在法律工作中使用人工智能后,我们意识到要正确理解它的能力,我们需要学习如何评估它。
这就是我们创办 LN 实验室的方式。我们的研究部门专注于根据我们的法律专家每天处理的现实世界法律任务对人工智能模型和法律人工智能系统进行基准测试。
您为何决定进行这些评估?
最近,Harvey 和 Crosby 发布了 LAB 和 RedlineBench。他们还发布了排行榜,模型的分数勉强通过了 10 分(满分 100 分)。
通过这些评估,尚不清楚人工智能性能在多大程度上取决于模型自身的能力与支架工程。
OpenAI 最近提到,特定领域的脚手架允许团队发挥模型的全部功能。
所以我们的问题是:如果特定领域的脚手架影响模型功能,为什么几乎没有人围绕模型对合法脚手架(或包装器)进行基准测试?
为什么选择这些系统?
–
还有:
—
AL 评论:
