详细内容或原文请订阅后点击阅览
S3启动 - LLM评估“针对任何司法管辖区,语言 +模型”
著名法律技术专家雷蒙德·布莱德(Raymond Blyd)已推出了针对法律需求的新的LLM评估框架S3,该框架着重于“确定核心缺陷而不是……
来源:Artificial Lawyer雷蒙德·布莱德(Raymond Blyd)是著名的法律技术专家,已推出了针对法律需求的新的LLM评估框架S3,该框架着重于“识别核心缺陷,而不是熟练性”。
正如Blyd向AL解释的那样,S3的创建是为了校准和比较Sabaio(他的AI较早公司)开发期间的开源模型,以准确性和幻觉为目标。
它提供:
- '标准化评估指标:实现为法律任务量身定制的行业标准基准和自定义指标。可重复可调制的工作流程:确保可以重复和验证其他人的评估过程。可扩展的架构:轻松添加新的评估模块或与其他法律上的工具集成。
布莱德评论说:“我需要一种一致的方法来评估核心模型功能的改进。例如,许多模型未能引用正确的文章或参考号。为了进行测试,我通过抵消法律文章编号来检查模型准确性,从而开发了一个简单的“草莓”测试。大多数模型都失败了,暴露了它们的不可靠性。
‘这个洞察力导致创建用于模型测试的及时模板。该模板使用固定的结构 - 管辖权,代码,文章编号,偏移和法律主题 - 确保一致性。这允许对语言和法律体系的模型性能进行可衡量的可重复比较。
以下是Blyd关于项目的方式和原因的更深入的采访。
为什么这样做?
您怎么能说出什么是准确的?
Emma Kelly-