详细内容或原文请订阅后点击阅览
AgentEval启动开源AI基准测试计划
Agenseval是一项新计划,旨在为法律市场提供可以自由使用的Genai基准的开源集合,并且也是...
来源:Artificial LawyerAgenseval是一项新倡议,旨在为法律市场提供可以自由使用的Genai基准的开源集合,并正在建立一个社区来共享数据,想法和协议,以评估合法的AI工具。
在该项目的领导下是Darius Emrani,他是Scorecard的首席执行官,他是一家专注于支持基于LLM的产品开发的初创公司。他告诉人造律师:‘这个想法是提供许多基准和最佳实践。我们希望让人们参与并成为AI基准的值得信赖的来源。'
darius Emrani 人造律师本网站询问他为什么选择专注于法律技术。艾姆拉尼(Emrani)说,这个想法是为了帮助“基本服务”,其中包括健康和金融,满足了人工智能的需求。核心是评估准确性或围绕准确性发展最佳实践 - 因此,Agenteval进入的地方。
他补充说,在理解准确性方面,AI的代理方面也是关键组成部分。
Emrani还强调,目标是保持开源和社区驱动,并且(请参阅社区访问链接)他渴望与Litig和全世界其他专注于法律AI基准测试的项目互动。
请参阅社区访问链接组织说:‘因为某些基准测试工作通常依赖于专有的数据集,封闭的方法和限制访问,因此研究人员和开发人员很难复制结果,公平地比较模型以及完善的系统。
‘与此同时,我们已经看到了成功的公开评估框架 - 从NIST和ISO标准到MLCommons,LLMSYS CHATBOT ARENA和LEGALBENCH等计划 - 表明了这种协作,开放式的进购方法可实现更好的基准实践。’
他们继续说这有帮助:
,这是他们的目标的摘要:
任务
-
-