详细内容或原文请订阅后点击阅览
LLM 摘要器跳过识别步骤
一位从业者的论点是,当你跳过询问数据可以支持什么的部分时,会议总结者会以同样的方式回归会失败。LLM 总结者跳过识别步骤的帖子首先出现在走向数据科学上。
来源:走向数据科学进行五分钟的交换并返回八个干净的部分。决定。行动项目。风险。开放式问题。每个部分读起来都像是由专心致志的人写的。
不过,阅读底层的文字记录,您会发现其中两个部分是从一个不明确的句子推断出来的,一个部分是完全发明的,另外三个部分是根据模型的先验内容对会议摘要应包含的内容进行模式匹配的。自信、有条理、在结构上与实际发生的会议的总结没有区别。
这不是通常意义上的幻觉问题。该模型并没有捏造关于世界的事实。这是捏造有关会议的事实。并且故障模式在输出中不可见。这只是听起来很自信的文本,读者无法轻易验证其来源。
这种故障模式在另一个领域有一个名称,它比语言模型更古老。当你在没有识别的情况下进行估计时就会发生这种情况。
这篇文章并不是一个新的总结基准。这是一种设计模式的论据,我没有将其视为人工智能工程文献中的中心设计约束:将法学硕士生成的摘要视为对来源的结构化声明,要求每个声明声明其支持类别,并限制审查阶段,以便它们只能削弱不受支持的声明,而不是使输出更平滑。我将介绍它在实践中的样子、它产生什么以及它在哪里出现问题。
缺少的步骤
在观察环境中工作的从业者将大部分时间花在识别上。他们绘制因果图。他们争论混杂因素。他们区分数据可以支持什么和数据不能支持什么。当评估步骤最终到来时,通常是最容易的部分。
LLM 摘要的行为类似于观察分析,但通常在部署时没有任何类似于识别步骤的内容。
