NVIDIA AI Enterprise 在 VMware 上进行了优化、认证和支持,通过在 Supermicro 的各种 NVIDIA 认证系统上虚拟化 AI 工作负载实现接近裸机的性能。这些系统支持基于 PCI-E Gen 4 的 NVIDIA A30、A40 和 A100,以及 NVIDIA HGX-A100™ 8 和 4-GPU 系统,使客户能够通过创新的服务器设计优化性能、能源使用和数据中心冷却。可容纳 NVIDIA GPU 的 Supermicro 服务器尺寸从 1U 到 4U 不等,支持 1 到 10 个 GPU,并可配置 NVIDIA 网络加速器、ConnectX 和 Blue-Field® 数据处理单元,实现快速、低延迟的网络连接。
随着深度学习网络和训练数据的复杂性呈指数级增长,人工智能研究人员的计算需求不断增加。过去的训练仅限于一个或几个 GPU,通常是在工作站中进行。如今的训练通常使用数十个、数百个甚至数千个 GPU 来评估和优化不同的模型配置和参数。此外,组织有多个人工智能研究人员,他们都需要同时训练多个模型。如此大规模的系统对人工智能研究人员来说可能很新奇,但这些设备传统上一直是世界上最重要的研究机构和学术界的标志,推动了几乎所有类型的科学研究的创新。
随着深度学习网络和训练数据的复杂性呈指数级增长,人工智能研究人员的计算需求也不断增加。过去的训练仅限于一台或几台 GPU,通常是在工作站中进行。如今的训练通常使用数十台、数百台甚至数千台 GPU 来评估和优化不同的模型配置和参数。此外,组织中有多名人工智能研究人员,他们都需要同时训练多个模型。这种大规模的系统对人工智能研究人员来说可能很新奇,但这些装置一直是世界上最重要的研究机构和学术界的标志,推动了几乎所有类型的科学研究的创新。
内存容量 32 个 DIMM 插槽,最高可达 8TB DDR4 内存 3200 MHz DIMM GPU 支持 8x A100 80GB SXM4 GPU,带有 NVLink
ThinkSystem SD650-I V3 服务器托架和 DW612S 机箱采用直接水冷,可提供数据中心冷却效率和性能的终极表现。在 ThinkSystem SD650-I V3 上,四个英特尔数据中心 GPU Max 1550 GPU 使用英特尔 X Links 互连,为高性能计算、人工智能训练和推理工作负载提供显著的性能改进。英特尔 Max 系列 1550 GPU 支持联想 HPC 理念,帮助客户实现从百亿亿次到万亿次级™ 的规模。单个 ThinkSystem SD650-I V3 节点机架在仅 0.72 平方米(不到 8 平方英尺)的占地面积上提供高达 2.8 PetaFLOPS HPC 或 45 PetaFLOPS AI 峰值性能。
A100 GPU。批处理大小设置为64,随机GRA-211 DIENT下降(SGD)[2]和基本学习率为0.05。212训练包括100个时期,队列大小为213,动量编码器为3,276,800。类似于Mocov2 [4]中描述的En-214 Hancements,我们利用了相同的215损耗函数和数据增强技术; (2)点216云预测阶段。在此阶段,我们在32 nvidia a100 gpus上训练217型。训练涉及218使用5帧的历史多视图图像和迭代219 219变压器解码器6次,以预测点云220,即接下来的3秒钟,每个框架间隔为0.5 sec-221 ONDS。为了保存GPU内存,我们在每个训练步骤中分离出222个其他预测的梯度。使用ADAMW [8] Opti-224 Mizer,初始学习速率为2E-4的系统223的系统进行了8个预训练时期,并通过余弦退火策略调整了225。226
企业内部 AI 的使用案例数量(包括语言建模、网络安全、自主系统和医疗保健等)持续快速增长。不仅使用案例数量在增长,模型复杂性和数据源也在增长。处理、训练和服务这些下一代模型所需的系统也必须增长。训练模型通常使用数十个 GPU 来评估和优化不同的模型配置和参数。对于这些新的工作负载,所有 GPU 都必须能够轻松访问训练数据。此外,组织有许多 AI 研究人员必须同时训练多个模型。企业需要灵活性,以便多个开发人员和研究人员在完善 AI 堆栈并将其投入生产时共享这些资源。
与前一代CPU相比,NUPIC对变压器结构的变化最小,在具有Intel AMX的CPU上的推理吞吐量的两个数量级提高了两个数量级的改善,与GPU相比,相比之下(表1)。对于Bert-Large来说,我们在Intel Xeon上的平台的表现优于Nvidia A100 GPU,最高可达17倍。GPU需要更高的批量大小才能达到最佳平行性能。但是,批处理导致更复杂的推理实现,并在实时应用程序中引入了不良延迟。相比之下,Nupic不需要批处理以进行高性能,从而使应用程序灵活,可扩展且易于管理。尽管批处理不利,但我们列出了批次8的NVIDIA A100的性能。批次1的nupic仍然比批处理的NVIDIA GPU实现超过2倍。