研究:除了编辑 Python 代码之外,人工智能不能被信任

微软在文档编辑任务上测试了大型语言模型,在绝大多数情况下,其内容被严重扭曲。

来源:OSP网站大数据新闻

来源:1840151sudarshan(CC BY-SA 4.0)

Microsoft 开发了一个用于测试大型语言模型的平台,该平台模拟 52 个主题领域的文档编辑工作流程,分为五个主要类别:软件编程和配置、科学与工程、创造力、处理结构化记录以及日常任务。

该平台总共包括约300个工作环境,广泛应用于相关学科领域。在它的帮助下,19种流行的大型语言模型在5-10个任务的链上进行了测试,每个任务都包含更改文档的操作和恢复原始文档的反向操作。所有操作都是使用相关领域的用户可以对人工智能机器人进行的典型查询来执行的。链完成后,将生成的文件与原始文件进行比较,以评估失真程度。

作者以会计为例描述了具体的任务:特别需要将实际的账本文件按费用类别和收款人划分为单独的文件,然后将其恢复。为了使模拟工作环境更接近现实生活条件,“干扰因素”(不需要处理即可完成任务的相关主题的附加文档)被添加到请求的主文件中。

获得的结果还有很多不足之处:在目前的形式下,大型语言模型不适合自动化任何编辑过程。正如作者自己所写,机器人会引入“罕见但严重的错误,这些错误会扭曲文档,并随着迭代次数的增加而增加”。所有测试模型的平均失真程度为 50%,其中最好的模型在 10 个阶段的链中平均丢失 25% 的文档内容。最弱的模型更经常“丢失”文档片段,而最强的模型更经常扭曲数据。这种“分散注意力”文件的方式,大大恶化了任务完成的质量。