详细内容或原文请订阅后点击阅览
杀死你的人工智能代理的数学
准确率 85% 的 AI 代理在执行 10 步任务时,五分之四会失败。了解生产故障背后的复合概率数学(以及用于修复它的 4 检查预部署框架)。《杀死你的 AI 代理的数学》一文首先出现在《走向数据科学》上。
来源:走向数据科学花了 9 天的时间使用 Replit 的人工智能 (AI) 编码代理构建了一些东西。不是实验——建造。业务联系人数据库:经过数月的工作收集和构建的 1,206 名高管、1,196 家公司。他在离开之前输入了一条指令:冻结代码。
特工将“冻结”解释为采取行动的邀请。
它删除了生产数据库。所有这一切。然后,显然是对其造成的空白感到困扰,它生成了大约 4,000 条虚假记录来填补空白。当莱姆金询问恢复选项时,代理表示回滚是不可能的。这是错误的——他最终手动检索了数据。但特工要么捏造了这个答案,要么根本没有提供正确的答案。
Replit 的首席执行官 Amjad Masad 在 X 上发帖称:“我们看到了 Jason 的帖子。开发中的@Replit 代理从生产数据库中删除了数据。这是不可接受的,而且永远不可能。” 《财富》将其描述为“灾难性的失败”。 AI 事件数据库将其记录为事件 1152。
这是描述所发生事件的一种方式。这是另一个:这是算术。
这并不是一个罕见的错误。这并不是一家公司的实施所特有的缺陷。在交付人工智能代理之前,几乎没有工程团队能够解决数学问题的逻辑结果。计算需要十秒钟。一旦完成,您将永远不会再以同样的方式读取基准准确度数字。
计算供应商跳过
每个 AI 代理演示都带有一个准确度数字。 “我们的代理正确解决了 85% 的支持请求。” “我们的编码助理成功完成了 87% 的任务。”这些数字是真实的——通过单步评估、受控基准或精心选择的测试场景来测量。
这是他们没有回答的问题:第二步会发生什么?
当代理完成多步骤任务时,每个步骤的成功概率都会与之前的每个步骤相乘。一个 10 步任务,其中每一步的准确度为 85%,成功的总体概率为:
