详细内容或原文请订阅后点击阅览
在 RAG 中对幻觉检测方法进行基准测试
评估增强 LLM 生成响应可靠性的方法。未经检查的幻觉仍然是当今检索增强生成应用中的一个大问题。本研究评估了 4 个公共 RAG 数据集中流行的幻觉检测器。使用 AUROC 和精确度/召回率,我们报告了 G-eval、Ragas 和可信语言模型等方法自动标记不正确的 LLM 响应的能力。使用各种幻觉检测方法识别 RAG 系统中的 LLM 错误。我目前在 Cleanlab 担任机器学习工程师,我为本文讨论的可信语言模型的开发做出了贡献。我很高兴介绍这种方法并在以下基准测试中与其他方法一起对其进行评估。问题:RAG 系统中的幻觉和错误众所周知,当被问到训练数据中没有很好支持的问题时,大型语言模型 (LLM) 会产生幻觉,产生错误的答案。检索增强生成 (RAG) 系统通过增强 LLM 从特定知识数据库中检索上下文和信息的能力来缓解这种情况。虽然组织正在迅速采用 RAG 将 LLM 的功能与他们自己的专有数据配对,但幻觉和逻辑错误仍然是一个大问题。在一个备受关注的案例中,一家大型航空公司 (加拿大航空) 败诉,因为他们的 RAG 聊天机器人幻觉了他们退款政策的重要细节。要理解这个问题,让我们首先回顾一下
来源:走向数据科学rag中的基准测试幻觉检测方法
评估方法以提高LLM生成反应的可靠性。
未经检查的幻觉仍然是当今检索的一代应用程序中的一个大问题。这项研究评估了4个公共抹布数据集中流行的幻觉探测器。使用AUROC和PRECISION/REMENT,我们报告了G-eval,Ragas和值得信赖的语言模型之类的方法能够自动标记不正确的LLM响应。
自动标记错误的LLM响应我目前正在清洁行业担任机器学习工程师,在那里我为在本文中讨论的值得信赖的语言模型的开发做出了贡献。我很高兴能在以下基准中与其他方法一起对其进行评估。
问题:抹布系统中的幻觉和错误
大型语言模型(LLM)被认为是幻觉错误的答案,当提出问题在其培训数据中没有得到很好的支持时。检索增强生成(RAG)系统通过增强LLM的能力从特定知识数据库中检索上下文和信息来减轻这种情况。尽管组织迅速采用抹布将LLM的力量与自己的专有数据配对,但幻觉和逻辑错误仍然是一个大问题。在一个高度宣传的案件中,一家大型航空公司(加拿大航空公司)在其破烂的聊天机器人幻觉其退款政策的重要细节后,丢失了法院案件。
幻觉 检索“这是否有资格退款?”
检索
上下文
生成