• 优先级 • 服务类别 • 配额 • 任务、作业、用户、组织、服务……? • 您在哪个级别排队、分配资源、抢占…… • 当 1000 个 POD 处于待处理状态时,您的调度程序会发生什么情况?
摘要 — 神经符号人工智能是人工智能研究的一个新领域,旨在将传统的基于规则的人工智能方法与现代深度学习技术相结合。神经符号模型已经证明了在图像和视频推理等领域超越最先进的深度学习模型的能力。它们还被证明能够以比传统模型少得多的训练数据获得高精度。由于该领域出现的时间较晚,且已发表的结果相对稀少,这些模型的性能特征尚不清楚。在本文中,我们描述和分析了三种近期神经符号模型的性能特征。我们发现,由于复杂的控制流和低操作强度运算(例如标量乘法和张量加法),符号模型的潜在并行性低于传统神经模型。然而,在它们明显可分离的情况下,计算的神经方面主导着符号部分。我们还发现数据移动会造成潜在的瓶颈,就像在许多 ML 工作负载中一样。索引术语 — 神经符号、机器学习、性能、推理
通过提高深度学习工作负载的利用率来降低成本是云提供商的关键杠杆。我们推出了 Singularity,这是微软的全球分布式调度服务,可高效可靠地执行深度学习训练和推理工作负载。Singularity 的核心是一种新颖的工作负载感知调度程序,它可以透明地抢占和弹性扩展深度学习工作负载,以提高利用率,而不会影响它们在全球 AI 加速器(如 GPU、FPGA)中的正确性或性能。默认情况下,Singularity 中的所有作业都是可抢占、可迁移和动态调整大小(弹性)的:实时作业可以动态且透明地 (a) 被抢占并迁移到不同的节点、集群、数据中心或区域集,并从抢占点准确恢复执行,以及 (b) 在给定类型的不同加速器集上调整大小(即弹性地扩大/缩小)。我们的机制是透明的,因为它们不需要用户对其代码进行任何更改,也不需要使用任何可能限制灵活性的自定义库。此外,我们的方法显著提高了深度学习工作负载的可靠性。我们表明,使用 Singularity 可以获得效率和可靠性的提升,而对稳态性能的影响可以忽略不计。最后,我们的设计方法与 DNN 架构无关,并且可以处理各种并行策略(例如数据/管道/模型并行)。
摘要 — 机器学习 (ML) 技术的快速发展推动了专用硬件加速器的发展,旨在促进更高效的模型训练。本文介绍了 CARAML 基准测试套件,该套件用于评估在一系列硬件加速器上训练基于 Transformer 的大型语言模型和计算机视觉模型时的性能和能耗,包括 NVIDIA、AMD 和 Graphcore 的系统。CARAML 提供了一个紧凑、自动化、可扩展和可重复的框架,用于评估各种新型硬件架构中 ML 工作负载的性能和能耗。本文详细讨论了 CARAML 的设计和实现,以及一个名为 jpwr 的自定义功率测量工具。索引术语 — 机器学习、能量、NLP、计算机视觉、AI、性能测量、基准、GPU、IPU、加速器
摘要 — GPU 被广泛用于加速机器学习工作负载的训练。随着现代机器学习模型变得越来越大,它们需要更长的时间来训练,从而导致更高的 GPU 能耗。本文介绍了 GPOEO,这是一种用于机器学习训练工作负载的在线 GPU 能量优化框架。GPOEO 通过采用新颖的在线测量、多目标预测建模和搜索优化技术来动态确定最佳能量配置。为了表征目标工作负载行为,GPOEO 使用 GPU 性能计数器。为了减少性能计数器分析开销,它使用分析模型来检测训练迭代变化,并且仅在检测到迭代偏移时收集性能计数器数据。GPOEO 采用基于梯度提升的多目标模型和局部搜索算法来找到执行时间和能耗之间的权衡。我们通过将 GPOEO 应用于在 NVIDIA RTX3080Ti GPU 上运行的两个 AI 基准测试套件中的 71 个机器学习工作负载来评估它。与 NVIDIA 默认调度策略相比,GPOEO 平均节能 16.2%,平均执行时间略有增加 5.1%。
druvaistheIndustry'sleadingsaasplatforffordfordataSecurity和Theonlyvendor,以确保由1000万美元保证支持的最常见数据风险进行数据保护。Druva的备份和恢复的创新方法已通过数以千计的数据被保护,保护和利用,并通过数以千计的数据改变了Enterprises.thedruvadatasecurityCloudeliminateStheneedForCostlyHardware,软件和服务通过简单的,AndagileCloud-NativearchItecturethat deliversaunMatchedSecurity,ableabilitoysage andscale andscale.visit andscale.visit druva.com和fackeriat druva.com和faceplolluson linkedin,twitter,twitter和facebook。
摘要 — 科学应用越来越多地采用人工智能 (AI) 技术来推动科学发展。高性能计算中心正在评估新兴的新型硬件加速器,以有效运行 AI 驱动的科学应用。由于这些系统的硬件架构和软件堆栈种类繁多,因此很难理解这些加速器的性能。深度学习工作负载评估的最新进展主要集中在 CPU 和 GPU 上。在本文中,我们概述了 SambaNova、Cerebras、Graphcore 和 Groq 的基于数据流的新型 AI 加速器。我们首次对这些加速器进行了评估,评估内容包括深度学习 (DL) 原语、基准模型和科学机器学习应用程序等多种工作负载。我们还评估了集体通信的性能,这对于分布式 DL 实现至关重要,同时还研究了扩展效率。然后,我们讨论将这些新型 AI 加速器集成到超级计算系统中的关键见解、挑战和机遇。
在不同 NUMA 节点中的多个 GPU 上运行 NCCL 多年来,随着越来越多的计算、内存和加速集成到一台机器中,计算节点的复杂性日益增加。现在,单个主机通常具有多个 GPU 和 CPU 插槽,并且设备之间具有连接层次,并排列在多个 NUMA 节点中。为确保工作负载与 CPU、GPU 和内存一起放置在同一个 PCIe 总线上,PBS Professional 可以根据 NUMA 拓扑将计算节点划分为 vnode。通过这种方式,PBS Professional 可以保证在使用部分主机时将较小的作业最佳地放置在拓扑上彼此接近的资源上,但又可以灵活地将整个主机分配给较大的作业(如果需要)。
摘要:商用飞机驾驶舱是一个自然的多任务工作环境,其中经常以各种形式出现中断,在许多情况下导致航空事故报告。自动表征飞行员的工作负荷对于防止此类事故至关重要。此外,尽可能最小化生理传感器网络仍然是一项挑战和要求。脑电图 (EEG) 信号与特定的认知和心理状态(例如工作负荷)显示出高度相关性。但是,文献中没有足够的证据来验证模型在新的受试者执行与模型训练期间的工作负荷相似的任务的情况下的泛化能力。在本文中,我们提出了一个卷积神经网络,用于在连续性能任务测试中对不同心理负荷的 EEG 特征进行分类,该测试部分测量工作记忆和工作记忆容量。我们的模型在一般人群层面有效,并且能够将任务学习转移到模拟作战环境中的飞行员心理工作量识别。