为什么基础设施会导致大多数企业人工智能系统失败 - 以及 Abduaziz Abdukhalimov 在启动前做出的四个决定

在第一个用户到来之前,他为金融和医疗保健领域的 100,000 多个用户构建了容错基础设施。这是保持这些系统运行的排序框架,以及企业人工智能团队通过相反的做法所犯的错误。大多数企业人工智能系统不会因为模型错误而失败。他们失败是因为 [...]

来源:AI Time Journal

在第一个用户到来之前,他为金融和医疗保健领域的 100,000 多个用户构建了容错基础设施。这是保持这些系统运行的排序框架,以及企业人工智能团队通过相反的做法所犯的错误。

大多数企业人工智能系统不会因为模型错误而失败。它们之所以失败,是因为该模型下的基础设施从未针对生产实际创造的条件而设计。  Gartner 对 783 家基础设施和运营领导者的研究发现,只有 28% 的企业 AI 计划完全满足 ROI 预期,20% 彻底失败。失败的是它下面的操作层;基础设施团队资金不足、延期,并且在真正的用户已经到达之后才第一次遇到这种情况。

Abduaziz Abdukhalimov 花了十年时间解决了大多数团队都没有发现的问题,直到为时已晚。在 Barso LLC,他为金融、医疗保健和电信领域超过 100,000 名活跃用户构建了容错的云原生基础设施,在这种系统中,部署失败不是支持票,而是监管风险。他在 Apache Kafka 和 RabbitMQ 上设计了事件驱动平台、自动化 CI/CD 管道,将部署窗口缩短了 60%,并重组了系统架构,在持续生产负载下实现了 40% 的性能提升。他建造了什么并不重要,重要的是他何时以及以何种顺序建造了它。这个序列就是这篇文章的主题。

当基础设施处于次要地位时,什么首先会出现问题?

“容错能力不是你以后添加的东西,”Abduaziz 解释道。“当你为金融或医疗保健领域的 100,000 个用户进行构建时,每个架构决策要么包含故障,要么将故障扩散。你必须在开始时就做出决定,而不是在第一个事件发生之后。”

为什么基础设施层资金不足?

哪些紧急部署表明计划中的部署永远不会实现?