- 采用敏捷方法,在不断增长的硬件基础上逐步构建全面的服务组合, - 在 IT 专业人员、科学家、供应商之间进行频繁、低门槛的互动,以促进资源和服务的快速采用和持续改进, - 开发并不断完善结构化咨询服务,让科学家发现最适合其任务的技术, - 构建一个高可用、高效、高性能、灵活和可演进的服务生态系统, - 在科学分析的任何步骤中提供一流的项目入职和咨询服务, - 实现工作负载层的高渗透性:用户应该能够几乎无缝地迁移和扩展(向上和向下)他们的工作负载(个人笔记本电脑 - 群组/部门服务器 - 组织基础设施 - 国家基础设施 - 国际基础设施), - 通过提供可在 NAIC 硬件基础设施之外安装的软件资源来支持上述渗透性, - 解决数据驱动科学的整个生命周期, - 通过现成的经过训练的网络和知识管理增强计算、存储和数据服务, - 实现与其他非数据科学电子基础设施的低门槛集成任务来促进使用最适合当前工作流程步骤的资源。
业务运营旨在通过专注于数字化和自动化来提高效率和生产力,同时满足特定的运营目标。新兴技术趋势使组织能够灵活地管理其资源和工作负载,同时实现可扩展性。主要目标是通过在运营实践中有效采用和使用这些趋势来充分利用这些趋势的潜力。
AI 工作负载分为两大类:训练和推理。训练工作负载用于训练 AI 模型,例如大型语言模型 (LLM)。我们在本文中提到的训练工作负载类型是大规模分布式训练(大量机器并行运行 6 ),因为它给当今的数据中心带来了挑战。这些工作负载需要将大量数据输入到带有处理器(称为加速器)的专用服务器。图形处理单元 (GPU) 就是加速器 7 的一个例子。加速器在执行并行处理任务方面非常高效,例如用于训练 LLM 的任务。除了服务器之外,训练还需要数据存储和网络来将它们连接在一起。这些元素被组装成一个机架阵列,称为 AI 集群,该集群本质上将模型训练为一台计算机。在设计良好的 AI 集群中,加速器的利用率在大部分训练持续时间内接近 100%,训练时间从几小时到几个月不等。这意味着训练集群的平均功耗几乎等于其峰值功耗(峰值与均值比 ≈ 1)。模型越大,所需的加速器就越多。大型 AI 集群的机架密度从 30 kW 到 100 kW 不等,具体取决于 GPU 型号和数量。集群可以从几个机架到数百个机架不等,通常通过使用的加速器数量来描述。例如,一个 22,000 H100 GPU 集群使用大约 700 个机架,需要大约 31 MW 的电力,平均机架密度为 44 kW。请注意,此功率不包括冷却等物理基础设施要求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断的地方继续。推理意味着将之前训练的模型投入生产以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间存在权衡。如果我是一名科学家,我可能愿意支付额外费用并在查询之间等待更长时间,以获得高度准确的输出。另一方面,如果我是一名正在寻找写作灵感的文案撰稿人,我想要一个可以立即回答问题的免费聊天机器人。简而言之,业务需求决定了推理模型的大小,但很少使用完整的原始训练模型。相反,部署模型的轻量级版本以减少推理时间,同时降低准确性。推理工作负载倾向于对大型模型使用加速器,并且根据应用程序的不同,可能还严重依赖 CPU。自动驾驶汽车、推荐引擎和 ChatGPT 等应用程序可能都有不同的 IT 堆栈,以“调整”其需求。根据模型的大小,每个实例的硬件要求可以从边缘设备(例如,智能手机)到几台服务器机架。这意味着机架密度可以从几台
Run:ai Atlas 平台位于基础设施和需要访问这些宝贵资源的 AI 工作负载之间。平台团队可以集中控制和查看所有 AI 基础设施(无论是本地还是云端)。AI/ML 团队可以使用他们喜欢的工具,在需要时以精简和自助的方式访问所需的所有计算。
这些功能可自动识别在本地数据中心运行的应用程序及其配置、使用数据(工作负载、网络、存储)、相关依赖关系及其性能配置文件,从而帮助快速可靠地规划应用程序迁移项目。所有这些信息都将进行分析和呈现,以构建适当的迁移解决方案,最终有助于降低迁移复杂性和规划时间。
AI-deck 通过 GAP8 扩展了计算能力,并将使基于人工智能的复杂工作负载能够在机上运行,并有可能实现完全自主导航功能。ESP32 增加了 wifi 连接,可以传输图像以及处理控制。我们相信,这种轻量级和低功耗的组合为微型 Crazyflie 2.X 无人机开辟了许多研发领域。
课程描述 本课程介绍与人工智能 (AI) 相关的基本概念,以及可用于创建 AI 解决方案的 Microsoft Azure 服务。本课程并非旨在教导参与者成为专业的数据科学家或软件开发人员,而是旨在提高对常见 AI 工作负载的认识以及识别 Azure 服务以支持它们的能力。目标受众 本课程适用于:
摘要随着大型深度学习模型的日益普及 - 服务工作量,迫切需要减少模型服务集群的能源消耗,同时对满足满足的吞吐量或模型服务的延迟需求。模型多路复用方法,例如模型阶段性,模型放置,复制和批处理旨在优化模型服务性能。但是,它们没有利用GPU频率缩放机会来节省。在本文中,我们证明了(1)GPU频率缩放在功率节省中用于模型服务的好处; (2)对细粒度模型多路复用和GPU频率缩放的共同设计和优化的必要性。我们探索了共同设计的空间,并提出了一种新型的功能感知模型服务系统µ-Serve。µ-Serve是一个模型服务框架,可优化在均质GPU群集中有效使用多个ML模型的功耗和吞吐量/吞吐量。生产工作负载的评估结果表明,通过动态GPU频率缩放(降低61%)而无需违反SLO的动态频率缩放(最多减少61%),可节省1.2–2.6倍的功率。
为了评估新款 PowerEdge XE9680 上每个 GPU 选项的推理性能,戴尔 CET AI 性能实验室和戴尔 HPC 和 AI 创新实验室选择了几种流行的 AI 模型进行基准测试。此外,为了提供比较的基础,他们还在我们上一代 PowerEdge XE8545 上运行了基准测试。选择了以下工作负载进行评估: