为企业本地 AI 构建 GPUaaS

Kubernetes 上的多租户、调度和成本建模《为企业 AI On-Prem 设计 GPUaaS》一文首先出现在《Towards Data Science》上。

来源:走向数据科学

人工智能正在快速发展,软件工程师不再需要记住语法。然而,像架构师一样思考并了解使系统能够大规模安全运行的技术变得越来越有价值。

我还想回顾一下我在思科担任人工智能解决方案工程师这一年的经历。我每天与不同行业的客户合作——医疗保健、金融服务、制造、律师事务所,他们都试图回答基本相同的问题:

  • 我们的人工智能战略是什么?
  • 哪些用例真正适合我们的数据?
  • 云、本地部署还是混合?
  • 成本是多少——不仅是今天,而且是大规模的?
  • 我们如何保护它?
  • 一旦您尝试在 POC 之外实施人工智能,这些都是真正的实际限制,它们会立即显现出来。

    最近,我们在其中一个实验室添加了一台 Cisco UCS C845A。它具有 2 个 NVIDIA RTX PRO 6000 Blackwell GPU、3.1TB NVMe、约 127 个可分配 CPU 核心和 754GB RAM。我决定在此基础上构建一个共享的内部平台,为团队提供一致的自助环境来运行实验、验证想法并构建 GPU 实践体验。

    我将该平台部署为单节点 OpenShift (SNO) 集群,并在其上分层提供多租户 GPUaaS 体验。用户通过日历 UI 预留容量,系统提供使用 PyTorch/CUDA、JupyterLab、VS Code 等预构建的隔离机器学习环境。在该环境中,用户可以运行按需推理、迭代模型训练和微调以及原型生产级微服务。

    这篇文章将介绍整个架构——如何制定调度决策、如何隔离租户以及平台如何进行自我管理。进入该实验室平台的决策与任何认真对待生产中的人工智能的组织所面临的决策相同。

    初始设置

    在有平台之前,有一个裸机服务器和一个空白屏幕。

    引导节点

    使用 NVIDIA GPU Operator 配置 GPU

    基础存储