解决方案 NetApp 和 Run:AI 合作简化了 AI 工作负载的编排,简化了深度学习 (DL) 的数据管道和机器调度流程。通过简化、加速和集成经过验证的 NetApp ONTAP AI 架构的数据管道,您可以充分实现 AI 和 DL 的前景。Run:AI 的 AI 工作负载编排增加了一个专有的基于 Kubernetes 的调度和资源利用率平台,以帮助研究人员管理和优化 GPU 利用率。这些产品共同支持在不同的计算节点上并行运行大量实验,并快速访问集中存储上的许多数据集。
人工智能 (AI) 已不再是一个技术流行词,而是将有价值的数据转化为可操作见解的关键驱动因素,为客户提供真正的商业价值和竞争优势。随着 2022 年末 ChatGPT 的出现以及随后大型语言模型 (LLM) 的发展,AI 在企业中获得了关注,为许多行业带来了新的用例、应用程序和工作负载。AI 已不再仅限于在云端训练 LLM,而是变得更加混合,推动了利用企业客户本地 AI 基础设施运行私有 AI 用例的需求。这些私有 AI 用例需要针对企业客户的新融合基础设施解决方案,以简化和加速大规模 AI 基础设施实施,以实现本地解决方案。但是,企业客户面临以下类型的挑战,这些挑战可能会限制本地 AI 部署:
存储管理员的负担越来越重,因为他们需要应对复杂的问题,既要支持现有基础设施效率低下的业务,又要部署新技术来支持创新业务计划,并遵守不断扩大的安全和合规措施。为了应对这些双重挑战,组织不得不探索创新的替代方案,寻求能够提供卓越性能、可扩展性和成本效益的解决方案。根据企业战略集团的研究结果,组织表达了迫切需要推进全闪存存储解决方案的采用。在确定的主要驱动因素中,51% 的受访组织希望提高现有应用程序的性能。此外,50% 的组织将寻求更好的“面向未来”的支持,42% 的组织强调提高资源利用率的重要性。预计会影响全闪存存储采用的其他因素包括改善总拥有成本 (TCO)、降低运营成本和降低功耗(见图 1)。1
NetApp AFF 和 FAS 集群使用主动-主动控制器架构,通过使用多种协议和光纤通道和以太网结构来提供统一的 SAN 和 NAS 存储。此架构将路由直接通告给托管 LUN 的控制器作为主动优化 (AO) 路径,而所有其他路径(间接路径)则通告为主动非优化 (ANO) 路径。除非不存在主动优化路径,否则不会使用主动非优化路径。选择此架构是为了让 HA 对中的两个控制器的性能能力为系统的整体日常性能做出贡献。其他供应商的主动-主动控制器架构将第二个控制器降级为更被动的状态,从而限制了 99% 日常操作的整体存储阵列性能。图 1 说明了 NetApp 优化/非优化的主动-主动控制器路径。