Amazon EC2 P5e 实例已全面推出

在本文中,我们将讨论 Amazon Elastic Compute Cloud (Amazon EC2) P5e 实例的核心功能以及它们非常适合的用例。我们将通过一个示例向您介绍如何开始使用这些实例并在其上执行 Meta Llama 3.1 70B 和 405B 模型的推理部署。

来源:亚马逊云科技 _机器学习

最新的生成AI模型和高性能计算(HPC)应用程序正在推动对前所未有的计算水平的需求。客户正在推动这些技术的界限,以将更高的忠诚产品和体验带到整个行业的市场。

通过参数数量衡量的大语模型(LLM)的大小(LLMS)近年来呈指数增长,反映了AI领域的重要趋势。在5年内,模型尺寸从数十亿个参数增加到数十亿个参数。随着LLM的增长,它们在广泛的自然语言处理任务上的性能也有了显着改善,但是LLM的规模的增加导致了巨大的计算和资源挑战。培训和部署这些模型需要大量的计算能力,内存和存储。

LLM的大小对推理所需的计算的选择有重大影响。较大的LLM需要更多的GPU存储器来存储模型参数和中间计算,以及更大的计算能力来执行矩阵乘法和推理所需的其他操作。由于计算复杂性的增加,大型LLM需要更长的时间才能执行单个推理。这种增加的计算要求可能会导致更高的推理潜伏期,这是需要实时或接近实时响应的应用的关键因素。

HPC客户表现出类似的趋势。随着HPC客户数据收集的忠诚度增加,数据集达到了Exabyte量表,客户正在寻找方法来使更快的时间在越来越复杂的应用程序中解决。

亚马逊弹性计算云

EC2 P5E实例概述 P5E实例由NVIDIA H200 GPU提供动力,与NVIDIA H100 H100 Tensor Core GPU相比,GPU存储器容量增加了1.7倍,而GPU内存带宽更快1.5倍。 实例大小 vcpus gpu 192 2

EC2 P5E实例概述

P5E实例由NVIDIA H200 GPU提供动力,与NVIDIA H100 H100 Tensor Core GPU相比,GPU存储器容量增加了1.7倍,而GPU内存带宽更快1.5倍。 实例大小 vcpus gpu 1922