降低风险:使用 GraphStorm 进行 AWS 主干网络流量预测

在本文中,我们展示了如何使用我们的企业图形机器学习 (GML) 框架 GraphStorm 来解决大规模复杂网络上的预测挑战,这些挑战受到我们探索 GML 以减轻 AWS 主干网络拥塞风险的实践的启发。

来源:亚马逊云科技 _机器学习

AWS 全球骨干网络是实现跨 AWS 区域可靠、安全的服务交付的关键基础。它连接了我们已推出的 34 个区域(拥有 108 个可用区)、600 多个 Amazon CloudFront POP、41 个本地区域和 29 个 Wavelength 区域,为 245 个国家和地区的任务关键型服务提供高性能、超低延迟连接。

Amazon CloudFront

此网络需要通过规划、维护和实时操作进行持续管理。虽然大多数变化都平安发生,但该系统的动态性质和全球规模可能会对性能和可用性产生不可预见的影响。网络组件之间复杂的相互依赖关系使得预测这些潜在影响的全部范围和时间变得具有挑战性,因此需要高级风险评估和缓解策略。

在这篇文章中,我们将展示如何使用我们的企业图机器学习 (GML) 框架 GraphStorm 来解决大规模复杂网络上的预测挑战,这些挑战的灵感来自我们探索 GML 以减轻 AWS 主干网络拥塞风险的实践。

问题陈述

从本质上讲,我们要解决的问题是如何安全地管理和修改复杂、动态的网络,同时最大限度地减少服务中断(例如拥塞、站点隔离或延迟增加的风险)。具体来说,我们需要预测对 AWS 全球主干网络的一部分所做的更改可能会如何影响整个系统的流量模式和性能。例如,在拥塞风险的情况下,我们希望确定在不同需求下将链接从服务中移除是否安全。关键问题包括:

    网络能否以剩余容量处理客户流量?拥塞出现之前需要多长时间?拥塞可能发生在哪里?有多少流量面临丢失的风险?
  • 网络能否以剩余容量处理客户流量?
  • 多久会出现拥塞?
  • T W T