如何衡量大型语言模型响应的可靠性
大型语言模型 (LLM) 的基本原理非常简单:根据训练数据中的统计模式预测单词序列中的下一个单词(或标记)。然而,当它可以执行许多令人惊叹的任务(例如文本摘要)时,这种看似简单的功能却变得非常复杂 […] 如何衡量大型语言模型响应的可靠性一文首先出现在 Towards Data Science 上。
来源:走向数据科学大型语言模型 (LLM) 的基本原理非常简单:根据训练数据中的统计模式预测单词序列中的下一个单词(或标记)。然而,当这种看似简单的功能可以执行许多令人惊叹的任务(例如文本摘要、创意生成、头脑风暴、代码生成、信息处理和内容创建)时,它却变得异常复杂。话虽如此,LLM 没有任何记忆,它们实际上并不“理解”任何东西,除了坚持其基本功能:预测下一个单词。
预测下一个单词下一个单词预测的过程是概率性的。LLM 必须从概率分布中选择每个单词。在此过程中,它们通常会生成虚假、捏造或不一致的内容,以试图产生连贯的响应并用看似合理但不正确的信息填补空白。这种现象称为幻觉,这是 LLM 不可避免的众所周知的特征,需要对其输出进行验证和证实。
检索增强生成 (RAG) 方法使 LLM 与外部知识源协同工作,确实在一定程度上减少了幻觉,但无法完全消除幻觉。尽管高级 RAG 可以提供文内引用和 URL,但验证这些引用可能非常繁琐且耗时。因此,我们需要一个客观标准来评估 LLM 响应的可靠性或可信度,无论它是由其自身知识还是外部知识库 (RAG) 生成的。
在本文中,我们将讨论如何通过可信语言模型评估 LLM 输出的可信度,该模型为 LLM 的输出分配分数。我们将首先讨论如何使用可信语言模型为 LLM 的答案分配分数并解释可信度。随后,我们将使用 LlamaParse 和 Llamaindex 开发一个示例 RAG,以评估 RAG 答案的可信度。
GitHub -