各种规模、用例和技术技能的组织都在寻找基础设施解决方案,以加速其人工智能 (AI)、机器学习 (ML) 和深度学习 (DL) 计划。WekaIO™ (Weka) 和 NVIDIA® 合作构建并验证了每个人都可以使用的高性能可扩展 AI 解决方案。本文档包含 Weka AI™ 参考架构 (RA) 解决方案的验证信息。该设计使用多达四个 NVIDIA DGX™ A100 系统、NVIDIA® Mellanox® Spectrum™ 以太网和 NVIDIA Mellanox Quantum™ InfiniBand 交换机实现。NVIDIA 和 Weka 使用行业标准基准测试工具验证了该系统的运行和性能。根据验证测试结果,该架构为训练工作负载提供了出色的线性扩展。组织可以从小规模开始,轻松独立地将计算和存储资源扩展到具有可预测性能的多机架配置,以满足任何 ML 工作负载要求。
A100 GPU 拥有 1.6 TB/s 的内存带宽,比上一代提升了 70% 以上。它还拥有更多片上内存,包括 40 MB 的二级缓存,几乎是上一代的 7 倍。DGX A100 还首次采用了第三代 NVIDIA ® NVLink ®,将 GPU 到 GPU 的直接带宽提高了一倍,达到 600 GB/s,几乎是 PCIe Gen 4 的 10 倍。这种前所未有的强大功能可以最快地解决问题,使用户能够应对以前不可能或不切实际的挑战,例如生成更快的风险计算或实现更高的欺诈检测率。
随着深度学习网络和训练数据的复杂性呈指数级增长,人工智能研究人员的计算需求也不断增加。过去的训练仅限于一台或几台 GPU,通常是在工作站中进行。如今的训练通常使用数十台、数百台甚至数千台 GPU 来评估和优化不同的模型配置和参数。此外,组织中有多名人工智能研究人员,他们都需要同时训练多个模型。这种大规模的系统对人工智能研究人员来说可能很新奇,但这些装置一直是世界上最重要的研究机构和学术界的标志,推动了几乎所有类型的科学研究的创新。
NVIDIA DGX™ A100 基于全新的 NVIDIA A100 Tensor Core GPU 构建,是第三代 DGX 系统。DGX A100 具有 5 petaFLOPS 的 AI 性能,在所有 AI 工作负载(分析、训练和推理)上均表现出色,使组织能够在单个系统上实现标准化,该系统可以快速完成任何类型的 AI 任务,并动态调整以适应随时间变化的计算需求。凭借所有 DGX 系统中最快的 I/O 架构,NVIDIA DGX A100 是大型 AI 集群(例如 NVIDIA DGX SuperPOD)的基础构建块,这是可扩展 AI 基础架构的企业蓝图,可扩展到数百或数千个节点以应对最大的挑战。这种无与伦比的灵活性降低了成本,提高了可扩展性,并使 DGX A100 成为 AI 基础架构的通用系统。
随着深度学习网络和训练数据的复杂性呈指数级增长,人工智能研究人员的计算需求不断增加。过去的训练仅限于一个或几个 GPU,通常是在工作站中进行。如今的训练通常使用数十个、数百个甚至数千个 GPU 来评估和优化不同的模型配置和参数。此外,组织有多个人工智能研究人员,他们都需要同时训练多个模型。如此大规模的系统对人工智能研究人员来说可能很新奇,但这些设备传统上一直是世界上最重要的研究机构和学术界的标志,推动了几乎所有类型的科学研究的创新。
© 2019 NVIDIA Corporation。保留所有权利。NVIDIA、NVIDIA 徽标、NVIDIA DGX-2 和 Jetson Nano 是 NVIDIA Corporation 在美国和/或其他国家/地区的商标或注册商标。其他公司和产品名称可能是其各自所有者的商标或注册商标。功能、价格、供货情况和规格如有变更,恕不另行通知。
深度学习 (DL) 是人工智能 (AI) 的一项突破,它利用经过训练的数据模型来比人类的表现水平更好、更快地解决问题。尽管最早的 DL 模型是在 20 世纪 60 年代开发的,但 DL 的广泛采用已经经历了几代人,部分原因是它需要大量的基础设施。DL 需要大量的计算资源来执行复杂的模型。此外,大型模型(尤其是涉及图像的模型)对物理存储系统以及计算和存储之间的数据移动提出了很高的要求。本文重点介绍了训练模型与高吞吐量、高带宽和低延迟数据访问之间的关系,这些访问是加速大规模获得新的 AI 洞察所需的。