AgentEval启动开源AI基准测试计划 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AgentEval启动开源AI基准测试计划

2025年2月26日 07:50 33 Comments

Agenseval是一项新计划，旨在为法律市场提供可以自由使用的Genai基准的开源集合，并且也是...

来源:Artificial Lawyer

Agenseval是一项新倡议，旨在为法律市场提供可以自由使用的Genai基准的开源集合，并正在建立一个社区来共享数据，想法和协议，以评估合法的AI工具。

在该项目的领导下是Darius Emrani，他是Scorecard的首席执行官，他是一家专注于支持基于LLM的产品开发的初创公司。他告诉人造律师：‘这个想法是提供许多基准和最佳实践。我们希望让人们参与并成为AI基准的值得信赖的来源。'

darius Emrani 人造律师

本网站询问他为什么选择专注于法律技术。艾姆拉尼（Emrani）说，这个想法是为了帮助“基本服务”，其中包括健康和金融，满足了人工智能的需求。核心是评估准确性或围绕准确性发展最佳实践 - 因此，Agenteval进入的地方。

他补充说，在理解准确性方面，AI的代理方面也是关键组成部分。

Emrani还强调，目标是保持开源和社区驱动，并且（请参阅社区访问链接）他渴望与Litig和全世界其他专注于法律AI基准测试的项目互动。

请参阅社区访问链接

组织说：‘因为某些基准测试工作通常依赖于专有的数据集，封闭的方法和限制访问，因此研究人员和开发人员很难复制结果，公平地比较模型以及完善的系统。

‘与此同时，我们已经看到了成功的公开评估框架 - 从NIST和ISO标准到MLCommons，LLMSYS CHATBOT ARENA和LEGALBENCH等计划 - 表明了这种协作，开放式的进购方法可实现更好的基准实践。’

他们继续说这有帮助：

'律师事务所 - 获得一种清晰，标准化的方式来比较法律AI解决方案并为其需求选择最佳工具。

'律师事务所 法律AI供应商 学者与决策者 更广泛的AI行业

，这是他们的目标的摘要：

任务

共享数据律师产品开发访问基准的比较法合法的人工智能事务所专有的标准化的测试的完善的执行官社区实践数据集为什么询问开发人员目标的使用的决策者封闭的标准化供应商评估进入的研究人员专注 Emrani 准确性基准法律广泛的 AI 开放式请参阅