法学硕士的护栏:衡量 AI 的“幻觉”和冗长

本文讨论如何实现用于测量和控制过于冗长的 LLM 响应的基础设施。

来源:KDnuggets

简介

大型语言模型 (LLM) 喜欢在响应中使用“华丽”、有时过于冗长的语言。问一个简单的问题,你很可能会被过于详细、热情和复杂的散文段落淹没。这种常见的行为植根于他们的训练,因为他们被优化为尽可能提供帮助和对话。

不幸的是,冗长是一个需要注意的严重方面,并且可以说通常与一个主要问题的可能性增加相关:幻觉。回复中产生的单词越多,偏离基础知识并冒险进入“制造艺术”的机会就越大。

总之,需要强大的护栏来防止这种双面问题,从冗长的检查开始。本文介绍如何使用 Textstat Python 库来衡量可读性并在到达最终用户之前检测过于复杂的响应,从而迫使模型优化其响应。

使用 Textstat 设置复杂性预算

Textstat Python 库可用于计算分数,例如自动可读性指数 (ARI);它估计理解一段文本(例如模型响应)所需的年级(学习水平)。如果此复杂性指标超过预算或阈值(例如 10.0,相当于 10 年级的阅读水平),则可以自动触发重新提示循环,以要求更简洁、更简单的响应。这种策略不仅消除了华丽的语言,还可能有助于降低幻觉风险,因为该模型因此更严格地遵循核心事实。

实现LangChain Pipeline

首先,安装必要的库:

!pip install textstat langchain_huggingface langchain_community

以下代码是 Google Colab 特定的,如果您在不同的环境中工作,您可能需要进行相应的调整。它专注于恢复存储的 API 令牌:

总结