摘要 本文全面分析了人工智能和机器学习在实时云系统优化中的集成。当前的研究和新兴技术研究了人工智能驱动的算法如何增强云计算环境中的动态资源分配、工作负载管理和自动决策过程。本文研究了工作负载预测的预测分析、基于机器学习的异常检测和自主系统优化的强化学习方法的实现。研究结果表明,与传统的基于规则的方法相比,资源利用效率、负载平衡效率和系统响应时间都有显著提高。本文还揭示了人工智能驱动的自动扩展机制大大增强了云系统对不同工作负载模式的适应性,同时最大限度地降低了运营成本。此外,它还确定了实施这些技术的关键挑战,包括集成复杂性和性能开销考虑,并提出了企业采用的实用解决方案。本文有助于丰富云计算优化方面的知识,并为云基础设施管理的研究人员和从业者提供宝贵的见解。
为 AI 工作负载集成新的基础设施可能是一项艰巨的任务,需要大量费用和持续的管理投入。大量且多样化的 AI 工作负载的苛刻先决条件可能会给传统的 IT 计算、网络和存储架构带来压力,使其达到极限。此外,AI 应用程序经常处理敏感的企业数据,这更加凸显了对强大安全性和严格遵守监管合规标准的必要性。因此,许多组织都在努力应对新兴 AI 工作负载对其 IT 基础设施的巨大需求,这并不令人意外。
在数据中心和应用程序现代化活动(尤其是针对新数据密集型工作负载(例如AI和Genai)的那些时代,都可以满足客户和利益相关者的不断发展的期望,这是每个地区和行业中每个企业的首要任务。这些工作负载涉及组织在现代化之旅中面临的许多因素和压力 - 它们通常是云的本地,需要在多个云和本地环境之间进行无缝的移动性,因为它们从建模到调整到微调和检索,并需要大量的数据(经常使用Edge),并需要大量的数据,并且需要大量的数据。
摘要 — 加密流量分析和未知恶意软件检测等复杂的流量分析强调了对分析网络流量的高级方法的需求。使用固定模式、签名匹配和规则来检测网络流量中已知模式的传统方法正在被 AI(人工智能)驱动的算法所取代。然而,由于缺乏高性能 AI 网络专用框架,因此无法在网络工作负载中部署基于 AI 的实时处理。在本文中,我们描述了流量分析开发工具包 (TADK) 的设计,这是一个专门用于基于 AI 的网络工作负载处理的行业标准框架。TADK 可以在从数据中心到边缘的网络设备中提供基于 AI 的实时网络工作负载处理,而无需专门的硬件(例如 GPU、神经处理单元等)。我们已在商用 WAF 和 5G UPF 中部署了 TADK,评估结果表明,TADK 可实现高达 35 的吞吐量。流量特征提取每核 3 Gbps,流量分类每核 6 Gbps,并且可将 SQLi/XSS 检测时间降低至 4 。每个请求 5 µs,准确率高于固定模式解决方案。
AI 工作负载分为两大类:训练和推理。训练工作负载用于训练 AI 模型,例如大型语言模型 (LLM)。我们在本文中提到的训练工作负载类型是大规模分布式训练(大量机器并行运行 6 ),因为它给当今的数据中心带来了挑战。这些工作负载需要将大量数据输入到带有处理器(称为加速器)的专用服务器。图形处理单元 (GPU) 就是加速器 7 的一个例子。加速器在执行并行处理任务方面非常高效,例如用于训练 LLM 的任务。除了服务器之外,训练还需要数据存储和网络来将它们连接在一起。这些元素被组装成一个机架阵列,称为 AI 集群,该集群本质上将模型训练为一台计算机。在设计良好的 AI 集群中,加速器的利用率在大部分训练持续时间内接近 100%,训练时间从几小时到几个月不等。这意味着训练集群的平均功耗几乎等于其峰值功耗(峰值与均值比 ≈ 1)。模型越大,所需的加速器就越多。大型 AI 集群的机架密度从 30 kW 到 100 kW 不等,具体取决于 GPU 型号和数量。集群可以从几个机架到数百个机架不等,通常通过使用的加速器数量来描述。例如,一个 22,000 H100 GPU 集群使用大约 700 个机架,需要大约 31 MW 的电力,平均机架密度为 44 kW。请注意,此功率不包括冷却等物理基础设施要求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断的地方继续。推理意味着将之前训练的模型投入生产以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间存在权衡。如果我是一名科学家,我可能愿意支付额外费用并在查询之间等待更长时间,以获得高度准确的输出。另一方面,如果我是一名正在寻找写作灵感的文案撰稿人,我想要一个可以立即回答问题的免费聊天机器人。简而言之,业务需求决定了推理模型的大小,但很少使用完整的原始训练模型。相反,部署模型的轻量级版本以减少推理时间,同时降低准确性。推理工作负载倾向于对大型模型使用加速器,并且根据应用程序的不同,可能还严重依赖 CPU。自动驾驶汽车、推荐引擎和 ChatGPT 等应用程序可能都有不同的 IT 堆栈,以“调整”其需求。根据模型的大小,每个实例的硬件要求可以从边缘设备(例如,智能手机)到几台服务器机架。这意味着机架密度可以从几台
大规模人工智能的挑战 DGXA100 和 Selene 关于 Selene 存储架构的讨论 合成和真实应用性能 客户端缓存:工作负载性能的新功能?
