研究：除了编辑 Python 代码之外，人工智能不能被信任 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

研究：除了编辑 Python 代码之外，人工智能不能被信任

2026年5月19日 12:17 33 Comments

微软在文档编辑任务上测试了大型语言模型，在绝大多数情况下，其内容被严重扭曲。

来源:OSP网站大数据新闻

来源：1840151sudarshan（CC BY-SA 4.0）

Microsoft 开发了一个用于测试大型语言模型的平台，该平台模拟 52 个主题领域的文档编辑工作流程，分为五个主要类别：软件编程和配置、科学与工程、创造力、处理结构化记录以及日常任务。

该平台总共包括约300个工作环境，广泛应用于相关学科领域。在它的帮助下，19种流行的大型语言模型在5-10个任务的链上进行了测试，每个任务都包含更改文档的操作和恢复原始文档的反向操作。所有操作都是使用相关领域的用户可以对人工智能机器人进行的典型查询来执行的。链完成后，将生成的文件与原始文件进行比较，以评估失真程度。

作者以会计为例描述了具体的任务：特别需要将实际的账本文件按费用类别和收款人划分为单独的文件，然后将其恢复。为了使模拟工作环境更接近现实生活条件，“干扰因素”（不需要处理即可完成任务的相关主题的附加文档）被添加到请求的主文件中。

获得的结果还有很多不足之处：在目前的形式下，大型语言模型不适合自动化任何编辑过程。正如作者自己所写，机器人会引入“罕见但严重的错误，这些错误会扭曲文档，并随着迭代次数的增加而增加”。所有测试模型的平均失真程度为 50%，其中最好的模型在 10 个阶段的链中平均丢失 25% 的文档内容。最弱的模型更经常“丢失”文档片段，而最强的模型更经常扭曲数据。这种“分散注意力”文件的方式，大大恶化了任务完成的质量。

领域模拟工作干扰因素实际的生活条件人工智能语言完成的模型质量平台相关执行的 10 流行的扭曲自动化严重的任务完成单独的原始文件主题的任务失真最好的注意力工作环境不适合编辑模型的完成任务文档次数的具体的类别进行测试模型机器人操作文件

研究：除了编辑 Python 代码之外，人工智能不能被信任

其他外部链接

Tags

XiaoMi-AI