内存容量 32 个 DIMM 插槽,最高可达 8TB DDR4 内存 3200 MHz DIMM GPU 支持 8x A100 80GB SXM4 GPU,带有 NVLink
Applied Digital 认为,最适合其用户的系统是 Supermicro SYS- 821GE-TNHR,它配备双第四代英特尔® 至强® 铂金处理器 8462Y+。这些服务器使用 NVIDIA HGX H100 GPU,每个 GPU 配备 80GB 内存。NVIDIA H100 为 HPC 提供 67 万亿次浮点运算的 FP64 Tensor Core 计算,而融合 AI 的 HPC 应用程序可以利用 H100 的 TF32 精度实现单精度矩阵乘法运算的 1 千万亿次浮点运算吞吐量。该系统在计算节点内托管八个 H100 Tensor Core GPU 和 900GB/s NVSwitch,用于 GPU 到 GPU 的通信。Applied Digital 选择 2TB 的系统 RAM 来在转移到 GPU 内存之前暂存工作负载。对于网络,Applied Digital 使用 100GbE 进行带内管理和对象存储,并使用 NDR 结构进行 GPU Direct 和融合闪存文件系统流量。利用 NVIDIA DGX 参考架构,Applied Digital 可扩展到在单个并行计算集群中工作的数千个 H100 GPU。
随着 GPU 逐渐脱离其传统领域(游戏、多媒体和消费市场),其可靠性引起了人们的关注和质疑 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由 GPU 拥有的大量可用资源和采用的先进半导体技术造成的。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。GPU 的并行性在性能方面提供了无可置疑的优势,因此,它是该设备最脆弱的特性之一。 GPU 制造商已提供了有效的可靠性对策,例如改进存储单元设计[39]、添加纠错码[15]、用于故障测试的硬件结构[25],以及提出软件校验和[21]或多线程冗余[49]。现有的大多数 GPU 可靠性研究都针对瞬态故障及其作为软件错误的影响,而永久性故障基本上未被探究。这是有道理的,因为在大多数应用中,GPU 的预期寿命不超过两年。然而,用于汽车、航空航天和军事应用的 GPU 预计可以使用很多年。此外,HPC 级 GPU 的典型工作条件,例如过载、高温、高频率运行和技术节点缩小,都会加速老化[23],甚至会使设备暴露于地面辐射引起的永久性故障[20]。延长的使用时间和过早的老化突然引发了人们对 GPU 及其应用程序在出现永久性故障时如何表现的疑问。至关重要的是,只有少数初步研究针对 GPU 中的永久性故障 [ 17 , 26 , 46 ],而没有一项研究关注并行性管理单元。在本文中,我们旨在通过提出一种方法来针对一个完全未探索的方面显著提高对 GPU 可靠性的理解:负责并行性管理的 GPU 电路中永久性故障的影响。我们决定专注于调度器、提取和解码器单元,因为 (a) 它们是主要针对并行操作进行优化的特殊 GPU 资源,(b) 影响它们的永久性故障将对代码执行产生不小的影响,(c) 它们无法轻易通过纠错码或硬件冗余进行保护,(d) 它们很可能
使用指标(例如平均平均精度(MAP,标准度量测量检测准确性)在整个交叉点(IOU)阈值从50%到95%(定义了预测和地面实现框之间的重叠),精度,召回和GPU和CPU的跨越速度。The results highlight trade-offs between model complexity and performance: smaller variants like YOLOv11-n achieved faster inference speeds (170.74 FPS on GPU and 5.86 ms on GPU), while larger models like YOLOv11-x excelled in detection accuracy and recall but at the cost of slower speeds (240.03 FPS on GPU and 4.17 ms on GPU).yolov11-s提供了最高FPS(1120.46 GPU FPS)的平衡,但准确性和回忆为中等。这些发现证明了Yolov11变体对应用程序要求的适应性,从高速实时系统到优先级检测准确性的场景。这项研究通过为yolov11变体提供详细的性能基准来推进对象检测。它提供了在不同领域中部署Yolov11的实用见解,包括物流,交付跟踪和其他需要有效且准确的对象检测的域。关键字:Yolo; Yolov11;对象检测模型;深度学习计算机视觉;神经网络;
AI 效能是指 AI 模型的预期执行程度,而 AI 训练效率是指训练 AI 模型以达到其所需性能水平所需的时间和资源量。例如,Meta 的 Llama 2 模型的预训练时间范围从 70 亿参数模型的 184K GPU 小时到 700 亿参数模型的 1.7M GPU 小时。任何降低 GPU 处理速度的低效率都会增加模型训练时间。同样,增加或减少参数或 GPU 的数量都会影响训练时间。增加计算是减少训练时间的合理方法,但 GPU 价格昂贵,占 AI 训练成本的 80%。研究这些成本的瞻博网络团队估计,由 8 个 GPU 驱动的 AI 训练服务器的成本可能超过 400,000 美元。
NVIDIA 加速计算技术解决了远远超出普通计算机能力的计算挑战。加速计算需要的不仅仅是强大的 GPU。NVIDIA® CUDA® 通用可编程 GPU 与众多 GPU 加速 SDK、API 和算法相结合,提供了全栈计算解决方案,可在多个领域提供令人难以置信的应用程序加速。分布式 GPU 计算系统和软件可在整个数据中心扩展处理。全球云数据中心越来越多地使用 NVIDIA GPU 加速系统和架构进行扩展和扩展,运行各种 AI、HPC 和数据分析应用程序。
摘要随着大型深度学习模型的日益普及 - 服务工作量,迫切需要减少模型服务集群的能源消耗,同时对满足满足的吞吐量或模型服务的延迟需求。模型多路复用方法,例如模型阶段性,模型放置,复制和批处理旨在优化模型服务性能。但是,它们没有利用GPU频率缩放机会来节省。在本文中,我们证明了(1)GPU频率缩放在功率节省中用于模型服务的好处; (2)对细粒度模型多路复用和GPU频率缩放的共同设计和优化的必要性。我们探索了共同设计的空间,并提出了一种新型的功能感知模型服务系统µ-Serve。µ-Serve是一个模型服务框架,可优化在均质GPU群集中有效使用多个ML模型的功耗和吞吐量/吞吐量。生产工作负载的评估结果表明,通过动态GPU频率缩放(降低61%)而无需违反SLO的动态频率缩放(最多减少61%),可节省1.2–2.6倍的功率。
Dell XE9680 6U服务器是Dell的第一个8X GPU平台。通过推动最复杂的Genai,机器学习,深度学习(ML/DL)和高性能计算工作负载(HPC)来显着提高应用程序性能。该服务器最多可容纳64核第5代Intel Xeon处理器,并提供了当前可用的GPU内存能力和带宽最高的,使其能够管理非常大且复杂的模型和数据集。使用您选择的GPU模块来量身定制配置
由于 HL-LHC 和探测器升级对 HEP 提出的计算挑战可能无法完全通过使用传统中央处理器 (CPU) 来解决,LHC 实验、WLCG 和 CERN openlab 也开始研究新方法来适应所需的大量计算。他们投入了研发工作,以利用 GPU 进行传统的 HEP 数据处理和分析。ALICE 实验已经在运行 2 期间率先将 GPU 用于其高级触发器 (HLT)。在 2015 年进行初步研究后,ATLAS 恢复了对 GPU 用于数据重建和分析的潜在用途的研究。CMS 实验开始了研发,证明了占运行 HLT 事件过滤序列所需时间约三分之一的代码可以卸载到 GPU 上。LHCb 合作证明了在 GPU 上移植专用于其新开发的触发系统的软件第一阶段的可行性,该系统能够确定事件是否包含与进一步处理相关的物理特征。 GPU 资源也已通过批处理系统在 CERN 数据中心提供,并显著加速某些应用程序。