在不同 NUMA 节点中的多个 GPU 上运行 NCCL 多年来,随着越来越多的计算、内存和加速集成到一台机器中,计算节点的复杂性日益增加。现在,单个主机通常具有多个 GPU 和 CPU 插槽,并且设备之间具有连接层次,并排列在多个 NUMA 节点中。为确保工作负载与 CPU、GPU 和内存一起放置在同一个 PCIe 总线上,PBS Professional 可以根据 NUMA 拓扑将计算节点划分为 vnode。通过这种方式,PBS Professional 可以保证在使用部分主机时将较小的作业最佳地放置在拓扑上彼此接近的资源上,但又可以灵活地将整个主机分配给较大的作业(如果需要)。
摘要 — 机器学习 (ML) 技术的快速发展推动了专用硬件加速器的发展,旨在促进更高效的模型训练。本文介绍了 CARAML 基准测试套件,该套件用于评估在一系列硬件加速器上训练基于 Transformer 的大型语言模型和计算机视觉模型时的性能和能耗,包括 NVIDIA、AMD 和 Graphcore 的系统。CARAML 提供了一个紧凑、自动化、可扩展和可重复的框架,用于评估各种新型硬件架构中 ML 工作负载的性能和能耗。本文详细讨论了 CARAML 的设计和实现,以及一个名为 jpwr 的自定义功率测量工具。索引术语 — 机器学习、能量、NLP、计算机视觉、AI、性能测量、基准、GPU、IPU、加速器
1 简介................................................................................................................................ 4 1.1 企业 AI ................................................................................................................................ 4 2 商业问题与商业价值 .......................................................................................................... 5 2.1 商业问题 ................................................................................................................................ 5
摘要 — 近年来深度学习 (DL) 模型的爆炸式增长使得人们迫切需要在 GPU 集群中对混合并行分布式深度学习训练 (DDLwMP) 进行高效的作业调度。本文提出了一种自适应最短剩余处理时间优先 (A-SRPT) 调度算法,这是一种新颖的预测辅助在线调度方法,旨在缓解与 DL 集群调度相关的挑战。通过将每个作业建模为与异构深度神经网络 (DNN) 模型及其相关的分布式训练配置相对应的图,A-SRPT 策略性地将作业分配给可用的 GPU,从而最大限度地减少服务器间的通信开销。观察到大多数 DDLwMP 作业会重复出现,A-SRPT 结合随机森林回归模型来预测训练迭代。至关重要的是,A-SRPT 将复杂的调度问题映射到单机实例中,该实例通过抢占式“最短剩余处理时间优先”策略得到最佳解决。该优化解决方案可作为 GPU 集群内实际作业调度的指南,从而实现理论上可证明的竞争性调度效率。我们进行了广泛的真实测试平台和模拟实验来验证我们提出的算法。
摘要 — 近年来深度学习 (DL) 模型的爆炸式增长使得人们迫切需要在 GPU 集群中对混合并行分布式深度学习训练 (DDLwMP) 进行高效的作业调度。本文提出了一种自适应最短剩余处理时间优先 (A-SRPT) 调度算法,这是一种新颖的预测辅助在线调度方法,旨在缓解与 DL 集群调度相关的挑战。通过将每个作业建模为与异构深度神经网络 (DNN) 模型及其相关的分布式训练配置相对应的图,A-SRPT 策略性地将作业分配给可用的 GPU,从而最大限度地减少服务器间的通信开销。观察到大多数 DDLwMP 作业会重复出现,A-SRPT 结合随机森林回归模型来预测训练迭代。至关重要的是,A-SRPT 将复杂的调度问题映射到单机实例中,该实例通过抢占式“最短剩余处理时间优先”策略得到最佳解决。该优化解决方案可作为 GPU 集群内实际作业调度的指南,从而实现理论上可证明的竞争性调度效率。我们进行了广泛的真实测试平台和模拟实验来验证我们提出的算法。
由于您的 PC 能够从云端卸载工作负载,因此它可以决定每个工作负载的处理位置,以便为您提供最佳性能。中央处理器 (CPU) 响应速度快,非常适合处理不需要太多计算能力的小型工作负载。图形处理器 (GPU) 专门处理需要高吞吐量的大型工作负载,并且可以在并行路径上处理多个任务。神经处理单元 (NPU) 非常适合并行任务和对功率敏感的工作负载,并且可以帮助节省能源。
由于您的 PC 能够从云端卸载工作负载,因此它可以决定每个工作负载的处理位置,以便为您提供最佳性能。中央处理器 (CPU) 提供快速响应,非常适合不需要太多计算能力的小型工作负载。图形处理器 (GPU) 专门处理需要高吞吐量的大型工作负载,并且可以在并行路径上处理多个任务。神经处理单元 (NPU) 非常适合并行任务和功率敏感型工作负载,并有助于节省能源。
公司越来越多地在网络边缘生成大量数据。为了从智能传感器和物联网数据中获得最大的商业价值,组织正在寻找支持边缘计算的实时事件流解决方案。计算要求高的工作越来越多地在数据中心之外的边缘执行。人工智能 (AI) 推理是这一趋势的驱动因素之一。边缘服务器为这些工作负载提供了足够的计算能力,尤其是在使用加速器时,但有限的存储通常是一个问题,尤其是在多服务器环境中。在这里,我们展示了如何在边缘环境中部署共享存储,以及它如何在不影响性能的情况下使 AI 推理工作负载受益。
评估混合倡议团队中人类互动人的认知工作量是自主互动系统的关键能力,可以使适应能够改善团队绩效。然而,由于证据的分歧,仍然尚不清楚,这种传感方式可能最适合确定人类工作量。在本文中,我们报告了一项实证研究的结果,该研究旨在通过收集眼睛注视和脑脑脑(EEG)数据来回答这个问题,该数据来自人类受试者,执行交互式多模式驾驶任务。通过介绍驾驶过程中的对话,制动事件和触觉刺激(例如对话,刹车事件和触觉刺激)来产生不同级别的认知工作量。我们的结果表明,瞳孔直径比脑电图更可靠的工作量预测指标。,更重要的是,结合了提取的脑电图和学生直径功能的五种不同的机器学习模型都能仅仅显示了工作负载分类的任何改进,而不是眼神凝视,这表明眼睛凝视是一种足够的方式,可以评估人类的认知工作负载,以评估人类的互动,多模式,多任务,多任命,多任务设置。
知道在某些任务中,一个人的总体工作量水平在不同领域很有帮助。为预防精神障碍,例如由于永久性压力和超负荷而倦怠,知道一个人的整体工作量水平(Greif&Bertino,2022)是一个优势,因为过去的精神障碍趋势(世界卫生组织,2023年,2023年),必须尽可能地避免这种情况。尤其需要在工作量方面更好地监控安全 - 关键环境,以保护在其中工作的人。例如,在太空飞行中,重要的是要了解每个宇航员的工作量水平,因为更高的工作量水平与犯错的风险更高有关(Morris&Leung,2006年),这可能会迅速致命地结束。此外,由于宇航员一般不使用宇航员,因此ISS和太空中的微重力(ESA,2023)可能会影响整体工作量。Wickens(2008)的多重资源模型定义了影响工作负载的不同维度。微重力的对象的行为与地球重力中的物体显着不同。因此,视觉处理和特殊活动消耗了更多资源,因为宇航员会看到行为