Horovod 是一个开源框架,用于在数百个 GPU 上并行扩展深度学习训练。它是一种基于环式全归约算法的分布式可扩展深度学习训练框架,利用高性能计算 (HPC) 技术(例如 MPI、数据并行等)在本地和云部署中的多个设备和节点上高效扩展。此外,它还支持运行支持 GPU 的 AI/ML 框架,例如 TensorFlow、Keras、PyTorch 和 Apache MXNet。本文介绍了使用 ResNet50 基准在八台支持 GPU 的 Supermicro 8U SuperBlade 服务器上运行图像分类的测试,展示了跨多个节点的分布式工作负载的高吞吐量。
将这些新技术融入其中面临多项挑战,包括确定 AI 框架和工具、优化系统以及从开发到部署实施 IT 管理软件。NVIDIA AI Enterprise 是一款端到端云原生 AI 和分析软件套件,可解决这些挑战。NVIDIA AI Enterprise 将 AI 引入许多企业使用的现有 VMware vSphere 基础架构。开发人员和 IT 管理员可以分步整合 AI 训练和推理。借助随附的 AI 和数据科学工具和框架,企业可以从小额投资开始,并随着时间的推移发展这种能力。此外,企业可以部署经 NVIDIA 优化和认证的 NVIDIA AI Enterprise 软件,以在带有 Supermicro NVIDIA 认证系统™ 的 VMware vSphere 上运行。这些服务器也经过 VMware 认证,可支持 GPU。
© 2020 版权所有 Super Micro Computer, Inc. 保留所有权利。Super Micro Computer, Inc. 可能随时更改规格和产品描述,恕不另行通知。本文档中提供的信息仅供参考,可能包含技术上的不准确之处、遗漏和印刷错误。任何性能测试和评级均使用反映 Super Micro Computer, Inc. 产品大致性能的系统进行测量,这些性能由这些测试测得。本文中包含的信息可能会发生变化,并且可能由于多种原因而变得不准确,包括但不限于产品和/或路线图的任何变化、组件和硬件修订变化、新型号和/或产品发布、软件更改、固件更改等。Super Micro Computer, Inc. 不承担更新或以其他方式更正或修订此信息的义务。
白皮书 Supermicro® 系统采用 NVIDIA GPU,利用 NVIDIA TensorRT 实现最佳 AI 推理性能
©2018-2020 保留所有权利。Super Micro Computer, Inc. 可能随时更改规格和产品说明,恕不另行通知。本文档中提供的信息仅供参考,可能包含技术上的不准确之处、遗漏和印刷错误。任何性能测试和评级均使用反映 Super Micro Computer, Inc. 产品的大致性能的系统进行测量,这些性能由这些测试测得。本文包含的信息可能会发生变化,并且可能由于多种原因而变得不准确,包括但不限于产品和/或路线图的任何变化、组件和硬件修订变化、新型号和/或产品发布、软件更改、固件更改等。Super Micro Computer, Inc. 不承担更新或以其他方式更正或修订此信息的义务。