处理器 QS 预生产版(40 核,2.0 GHz)、1 个英特尔® 服务器主板(QuantaGrid D54Q-2U)、总内存:512 GB(16x 32 GB 4800 MHz DDR5 DIMM)、英特尔® 超线程技术 = 开启、英特尔® 睿频加速技术 = 开启、BIOS = SE5C741.86B.01.01.0002.2212220608、微码 = 0x2b0001b0 存储(启动):1 个 Solidigm DC S4610(960 GB)、存储:6 个 Solidigm D7-P5510 系列(3.84 TB)、网络设备:1 个 25 GbE 英特尔® 以太网网络适配器 E810-XXV-4 @ 25 GbE、1 个 10 GbE 英特尔® 以太网融合网络适配器 X550-T2 @ 1 GbE、操作系统/软件:带有 Ubuntu Server 2022 的 Microsoft Azure Stack HCI 版本 20385。
这些复杂的高性能环境需要强大的集群管理工具来管理 HPC 硬件、软件和消耗。例如,在 AI 训练中,您可以从性能和成本的角度测试各种解决方案。市场瞬息万变,因此您必须保持敏捷才能不断优化。这就是为什么组织与了解当前市场状况及其发展方式的合作伙伴合作如此重要。这可以帮助您更好地将您的部署与未来技术相结合,从而实现更大的性能提升和不断变化的成本结构。任何技术解决方案都必须考虑各种形式的风险,尤其是财务风险。HPC 计算可能是一项昂贵的投资。组织需要严格管理前期投资,而不会限制 HPC 的能力和功率。
摘要 — 科学应用越来越多地采用人工智能 (AI) 技术来推动科学发展。高性能计算中心正在评估新兴的新型硬件加速器,以有效运行 AI 驱动的科学应用。由于这些系统的硬件架构和软件堆栈种类繁多,因此很难理解这些加速器的性能。深度学习工作负载评估的最新进展主要集中在 CPU 和 GPU 上。在本文中,我们概述了 SambaNova、Cerebras、Graphcore 和 Groq 的基于数据流的新型 AI 加速器。我们首次对这些加速器进行了评估,评估内容包括深度学习 (DL) 原语、基准模型和科学机器学习应用程序等多种工作负载。我们还评估了集体通信的性能,这对于分布式 DL 实现至关重要,同时还研究了扩展效率。然后,我们讨论将这些新型 AI 加速器集成到超级计算系统中的关键见解、挑战和机遇。
“在 Shopify,我们的数据和计算需求每年都在呈指数级增长,而我们以前的工具却难以跟上。我们选择 Ray 来支持我们的机器学习平台,事实证明,它对我们加速和扩展整个 ML 生命周期的能力至关重要。Ray 的简单、Pythonic API 和丰富的库生态系统,加上其开放且可扩展的设计,使我们的工程师和数据科学家能够更轻松、更快地为全球 170 多万商家创造价值。”
高性能计算机 (HPC) 用户受益于数十年来 HPC 性能的持续显著提升,以满足他们最复杂的计算需求,包括传统建模和仿真工作、大数据分析以及最近的高级 AI 问题(包括机器学习和深度学习)。然而,由于 HPC 系统成本上升、芯片和系统级电源和冷却要求越来越严格、半导体逻辑和内存设计和生产越来越复杂,以及管理越来越多不同类型的工作负载所需的 HPC 架构越来越复杂,这些因素限制了该领域的持续性能提升。为此,HPC 供应商和最终用户都在积极探索新技术,以帮助他们满足当前和预计的计算需求,其中许多技术都集中在前景光明但尚处于起步阶段的量子计算领域。
评估混合倡议团队中人类互动人的认知工作量是自主互动系统的关键能力,可以使适应能够改善团队绩效。然而,由于证据的分歧,仍然尚不清楚,这种传感方式可能最适合确定人类工作量。在本文中,我们报告了一项实证研究的结果,该研究旨在通过收集眼睛注视和脑脑脑(EEG)数据来回答这个问题,该数据来自人类受试者,执行交互式多模式驾驶任务。通过介绍驾驶过程中的对话,制动事件和触觉刺激(例如对话,刹车事件和触觉刺激)来产生不同级别的认知工作量。我们的结果表明,瞳孔直径比脑电图更可靠的工作量预测指标。,更重要的是,结合了提取的脑电图和学生直径功能的五种不同的机器学习模型都能仅仅显示了工作负载分类的任何改进,而不是眼神凝视,这表明眼睛凝视是一种足够的方式,可以评估人类的认知工作负载,以评估人类的互动,多模式,多任务,多任命,多任务设置。
通过提高深度学习工作负载的利用率来降低成本是云提供商的关键杠杆。我们推出了 Singularity,这是微软的全球分布式调度服务,可高效可靠地执行深度学习训练和推理工作负载。Singularity 的核心是一种新颖的工作负载感知调度程序,它可以透明地抢占和弹性扩展深度学习工作负载,以提高利用率,而不会影响它们在全球 AI 加速器(如 GPU、FPGA)中的正确性或性能。默认情况下,Singularity 中的所有作业都是可抢占、可迁移和动态调整大小(弹性)的:实时作业可以动态且透明地 (a) 被抢占并迁移到不同的节点、集群、数据中心或区域集,并从抢占点准确恢复执行,以及 (b) 在给定类型的不同加速器集上调整大小(即弹性地扩大/缩小)。我们的机制是透明的,因为它们不需要用户对其代码进行任何更改,也不需要使用任何可能限制灵活性的自定义库。此外,我们的方法显著提高了深度学习工作负载的可靠性。我们表明,使用 Singularity 可以获得效率和可靠性的提升,而对稳态性能的影响可以忽略不计。最后,我们的设计方法与 DNN 架构无关,并且可以处理各种并行策略(例如数据/管道/模型并行)。
摘要 — GPU 被广泛用于加速机器学习工作负载的训练。随着现代机器学习模型变得越来越大,它们需要更长的时间来训练,从而导致更高的 GPU 能耗。本文介绍了 GPOEO,这是一种用于机器学习训练工作负载的在线 GPU 能量优化框架。GPOEO 通过采用新颖的在线测量、多目标预测建模和搜索优化技术来动态确定最佳能量配置。为了表征目标工作负载行为,GPOEO 使用 GPU 性能计数器。为了减少性能计数器分析开销,它使用分析模型来检测训练迭代变化,并且仅在检测到迭代偏移时收集性能计数器数据。GPOEO 采用基于梯度提升的多目标模型和局部搜索算法来找到执行时间和能耗之间的权衡。我们通过将 GPOEO 应用于在 NVIDIA RTX3080Ti GPU 上运行的两个 AI 基准测试套件中的 71 个机器学习工作负载来评估它。与 NVIDIA 默认调度策略相比,GPOEO 平均节能 16.2%,平均执行时间略有增加 5.1%。
●服务器过程基线和行为偏差:Cisco Secure Workload收集并基线在每个服务器上运行的过程详细信息。此信息包括过程ID,过程参数,与之关联的用户,过程启动时间和过程哈希(签名)信息。该平台维护一个最新的过程哈希判决feed,其中包括已知的良性和标记过程哈希,并比较跨工作负载的过程哈希以检测异常。您可以搜索运行特定过程或进程哈希信息的服务器,并获取服务器上运行的所有过程的树视图快照。Cisco安全工作负载平台具有可用于跟踪行为模式的算法,并找到与恶意软件行为模式的相似之处,例如,特权升级,然后是外壳代码执行。安全工作负载增加了此类行为偏差的安全事件。安全操作团队可以通过使用简单定义规则来自定义这些事件,其严重性和相关操作。使用此信息,安全操作可以快速识别IOC并采取补救步骤以最大程度地减少影响。
结论云原生技术的基础是 Kubernetes,部署、维护和升级可能很复杂。将 GPU 添加到组合中可能会带来另一层复杂性。但是,借助 Supermicro AS-1114S-WTRT WIO 系统、NVIDIA GPU 设备和 NVIDIA DeepOps 工具,组织可以更直接地构建私有云原生平台以及 MLOps 应用程序。从设计角度来看,AS-1114S-WTRT 作为灵活的云节点,可以满足硬件基础设施的计算、存储和虚拟化要求;从运营角度来看,DeepOps 使本地云原生平台更易于部署、维护和扩展。本文还展示了 Kubernetes POD 如何加速深度学习过程,从而缩短上市时间。参考 https://docs.nvidia.com/datacenter/cloud-native/index.html https://www.kubeflow.org/docs/started/kubeflow-overview/ AMD、AMD 箭头徽标、EPYC 及其组合是 Advanced Micro Devices, Inc. 的商标。