S3启动 - LLM评估“针对任何司法管辖区,语言 +模型”

著名法律技术专家雷蒙德·布莱德(Raymond Blyd)已推出了针对法律需求的新的LLM评估框架S3,该框架着重于“确定核心缺陷而不是……

来源:Artificial Lawyer

雷蒙德·布莱德(Raymond Blyd)是著名的法律技术专家,已推出了针对法律需求的新的LLM评估框架S3,该框架着重于“识别核心缺陷,而不是熟练性”。

正如Blyd向AL解释的那样,S3的创建是为了校准和比较Sabaio(他的AI较早公司)开发期间的开源模型,以准确性和幻觉为目标。

它提供:

    '标准化评估指标:实现为法律任务量身定制的行业标准基准和自定义指标。可重复可调制的工作流程:确保可以重复和验证其他人的评估过程。可扩展的架构:轻松添加新的评估模块或与其他法律上的工具集成。
  • '标准化评估指标:实施用于法律任务的行业标准基准和定制指标。
  • 可再现的工作流程:确保其他人可以重复和验证评估过程。
  • 可扩展的体系结构:轻松添加新的评估模块或与其他法律技术工具集成。
  • 透明的报告:生成清晰,可审核的报告,以进行监管和内部审查。
  • 布莱德评论说:“我需要一种一致的方法来评估核心模型功能的改进。例如,许多模型未能引用正确的文章或参考号。为了进行测试,我通过抵消法律文章编号来检查模型准确性,从而开发了一个简单的“草莓”测试。大多数模型都失败了,暴露了它们的不可靠性。

    ‘这个洞察力导致创建用于模型测试的及时模板。该模板使用固定的结构 - 管辖权,代码,文章编号,偏移和法律主题 - 确保一致性。这允许对语言和法律体系的模型性能进行可衡量的可重复比较。

    以下是Blyd关于项目的方式和原因的更深入的采访。

    为什么这样做?

    您怎么能说出什么是准确的?

    Emma Kelly

    -