详细内容或原文请订阅后点击阅览
为什么法学硕士在您委托时会损坏您的文档?
分析要求法学硕士为我们进行复杂文档编辑时可能发生结构性内容衰减的几个原因。
来源:KDnuggets授权腐败
我们正在进入一个新的人工智能时代,交互变成工作委托。用户不仅与回答他们问题的人工智能聊天:他们越来越多地委派长期任务——从编辑源代码到格式化专业文本,甚至管理会计账簿。因此,他们以前所未有的水平信任人工智能系统,以在多次交互中保持文件(如文档)的完整性。
然而,最近的一项研究揭示了一个问题。当将任务委派给大型语言模型 (LLM) 时,它可能会默默地损坏您交给它的文档。为了理解这个问题,本研究中的科学家们构建了一个严格的评估框架,称为“DELEGATE-52”,我们对其研究结果进行了总结。该基准测试涵盖 52 个专业领域:从法律文本到 Python 编码、乐谱或晶体学。
作者使用基于“往返”方法的智能模拟方法测试了总共 19 个不同的法学硕士,要求人工智能执行特定的编辑,然后执行精确的反向指令来撤消编辑。在理想的情况下,模型将按原样返回原始文档——完全完整。现实检验:即使是最聪明的模型,如 Gemini Pro、Claude Opus 和 GPT-5,在 20 次交互后也能损坏 25% 的原始文档内容;较弱的模型可以接近 50%。
为什么模型会损坏您的文档
我们来分析一下前面解释的结构内容衰减现象可能发生的几个原因。研究人员发现了发生这种情况的几个原因:
1. 错误复合
就像在传统的“电话游戏”中一样,法学硕士所犯的小错误可能会悄悄地复合并变得非常严重。一次编辑可能会增加一些稀疏的局部错误,但从长远来看,一系列复杂的编辑可能会使问题滚雪球般增加,随着时间的推移,导致文档急剧退化。
