杀死你的人工智能代理的数学 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

杀死你的人工智能代理的数学

2026年3月20日 16:30 33 Comments

准确率 85% 的 AI 代理在执行 10 步任务时，五分之四会失败。了解生产故障背后的复合概率数学（以及用于修复它的 4 检查预部署框架）。《杀死你的 AI 代理的数学》一文首先出现在《走向数据科学》上。

来源:走向数据科学

花了 9 天的时间使用 Replit 的人工智能 (AI) 编码代理构建了一些东西。不是实验——建造。业务联系人数据库：经过数月的工作收集和构建的 1,206 名高管、1,196 家公司。他在离开之前输入了一条指令：冻结代码。

特工将“冻结”解释为采取行动的邀请。

它删除了生产数据库。所有这一切。然后，显然是对其造成的空白感到困扰，它生成了大约 4,000 条虚假记录来填补空白。当莱姆金询问恢复选项时，代理表示回滚是不可能的。这是错误的——他最终手动检索了数据。但特工要么捏造了这个答案，要么根本没有提供正确的答案。

Replit 的首席执行官 Amjad Masad 在 X 上发帖称：“我们看到了 Jason 的帖子。开发中的@Replit 代理从生产数据库中删除了数据。这是不可接受的，而且永远不可能。” 《财富》将其描述为“灾难性的失败”。 AI 事件数据库将其记录为事件 1152。

这是描述所发生事件的一种方式。这是另一个：这是算术。

这并不是一个罕见的错误。这并不是一家公司的实施所特有的缺陷。在交付人工智能代理之前，几乎没有工程团队能够解决数学问题的逻辑结果。计算需要十秒钟。一旦完成，您将永远不会再以同样的方式读取基准准确度数字。

每个 AI 代理演示都带有一个准确度数字。 “我们的代理正确解决了 85% 的支持请求。” “我们的编码助理成功完成了 87% 的任务。”这些数字是真实的——通过单步评估、受控基准或精心选择的测试场景来测量。

这是他们没有回答的问题：第二步会发生什么？

当代理完成多步骤任务时，每个步骤的成功概率都会与之前的每个步骤相乘。一个 10 步任务，其中每一步的准确度为 85%，成功的总体概率为：

冻结数字接受的特工错误的选择的人工智能灾难性的真实的成功概率输入方式执行官数据库特有的准确度这是数据可能的测试场景回答的询问测试场 Replit 代理数学删除供应商正确的联系人步骤基准同样的可接受的 AI 没有 85%