各种规模、用例和技术技能的组织都在寻找基础设施解决方案,以加速其人工智能 (AI)、机器学习 (ML) 和深度学习 (DL) 计划。WekaIO™ (Weka) 和 NVIDIA® 合作构建并验证了每个人都可以使用的高性能可扩展 AI 解决方案。本文档包含 Weka AI™ 参考架构 (RA) 解决方案的验证信息。该设计使用多达四个 NVIDIA DGX™ A100 系统、NVIDIA® Mellanox® Spectrum™ 以太网和 NVIDIA Mellanox Quantum™ InfiniBand 交换机实现。NVIDIA 和 Weka 使用行业标准基准测试工具验证了该系统的运行和性能。根据验证测试结果,该架构为训练工作负载提供了出色的线性扩展。组织可以从小规模开始,轻松独立地将计算和存储资源扩展到具有可预测性能的多机架配置,以满足任何 ML 工作负载要求。
主要关键词