AgentEval启动开源AI基准测试计划

Agenseval是一项新计划,旨在为法律市场提供可以自由使用的Genai基准的开源集合,并且也是...

来源:Artificial Lawyer

Agenseval是一项新倡议,旨在为法律市场提供可以自由使用的Genai基准的开源集合,并正在建立一个社区来共享数据,想法和协议,以评估合法的AI工具。

在该项目的领导下是Darius Emrani,他是Scorecard的首席执行官,他是一家专注于支持基于LLM的产品开发的初创公司。他告诉人造律师:‘这个想法是提供许多基准和最佳实践。我们希望让人们参与并成为AI基准的值得信赖的来源。'

darius Emrani 人造律师

本网站询问他为什么选择专注于法律技术。艾姆拉尼(Emrani)说,这个想法是为了帮助“基本服务”,其中包括健康和金融,满足了人工智能的需求。核心是评估准确性或围绕准确性发展最佳实践 - 因此,Agenteval进入的地方。

他补充说,在理解准确性方面,AI的代理方面也是关键组成部分。

Emrani还强调,目标是保持开源和社区驱动,并且(请参阅社区访问链接)他渴望与Litig和全世界其他专注于法律AI基准测试的项目互动。

请参阅社区访问链接

组织说:‘因为某些基准测试工作通常依赖于专有的数据集,封闭的方法和限制访问,因此研究人员和开发人员很难复制结果,公平地比较模型以及完善的系统。

‘与此同时,我们已经看到了成功的公开评估框架 - 从NIST和ISO标准到MLCommons,LLMSYS CHATBOT ARENA和LEGALBENCH等计划 - 表明了这种协作,开放式的进购方法可实现更好的基准实践。’

他们继续说这有帮助:

  • '律师事务所 - 获得一种清晰,标准化的方式来比较法律AI解决方案并为其需求选择最佳工具。
  • '律师事务所 法律AI供应商 学者与决策者 更广泛的AI行业

    ,这是他们的目标的摘要:

    任务

    -

    -