AWS 美国东部中断:对云弹性的警钟

AWS 美国东部地区五年内第四次中断是由于 DNS 解析故障影响了许多核心服务。了解您应该从技术和供应商风险管理方面采取哪些措施来提高云弹性。

来源:Forrester _云安全

我的女儿因为 Alexa 不播放歌曲而叫醒我、我的同事被困在戴高乐机场,以及登录英国 HMRC 网站时遇到问题,这些有什么共同点?

答案:AWS 美国东部地区五年内第四次中断,该地区是该地区历史最悠久、规模最大的 Web 服务中断。该问题可追溯到 DNS 解析失败,影响了许多核心服务,包括 DynamoDB、EC2、Lambda、IAM 和路由网关。虽然 AWS 在数小时内报告了缓解情况,但挥之不去的影响继续影响着消费者平台、金融服务、企业工具和政府门户网站等。

答案:

AWS 为数百万个网站和应用程序提供支持,将技术故障从带来不便升级为全球性破坏。这次特殊的中断暴露了云弹性的核心问题,这些问题源于对 DNS 等服务的过度依赖,而这些服务并不是为云时代的技术需求而设计的。它还强调了当所有行业的许多公司都依赖于单一云提供商,更具体地说,依赖于该供应商覆盖的单一区域时,集中风险(一种危险而强大但经常被忽视的系统性风险)是如何产生的。但问题超出了 AWS 内部区域依赖关系,而是跨平台的逻辑依赖关系。 DynamoDB 是第一个被确定受 DNS 问题影响的服务,在其他 AWS 分析、机器学习、搜索等服务中发挥着核心作用。

集中风险 系统性风险

责任共担模型将责任归咎于客户

集中风险和连锁问题使弹性工作变得阴云

你现在可以做什么,应该做什么

从云弹性的角度来看,企业技术领导者现在需要采取两条行动:构建工具以提高技术系统的可靠性,并解决与云(和 SaaS)供应商共享责任模型相关的合同灰色地带。

云弹性

技术方面:

数据弹性工具