Loading...
机构名称:
¥ 1.0

摘要 — 在生产高性能计算 (HPC) 数据中心,许多因素(包括工作负载计算强度、冷却基础设施故障和使用节能冷却)都会大幅提高 CPU 温度。与 CPU 热设计相关的研究表明,工作温度的细微变化会严重影响 CPU 的寿命、耐用性和性能。因此,监控和控制 CPU 的工作温度至关重要。在本研究中,我们设计了一种自动且连续的 CPU 热监控和控制方法来维持和控制健康的 CPU 热状态。本研究利用 Redfish 协议监控 CPU 温度,并使用动态电压频率调整来控制温度。我们开发了一个参考实现,并使用 150 个 Raspberry Pi3 节点集群评估了我们的方法。我们在不同场景中执行了广泛的 CPU 热分析。我们分析了 CPU 在室温下 100% 负载下达到最高温度的速度。根据我们的实验,在最低和最高 CPU 频率配置下,100% 负载的 CPU 的温度分别可升至 ∼ 72°C (161.6°F) 和 ∼ 86°C (186.8°F)。我们分析了在八种温度配置下应用热控制对 CPU 的热和频率缩放行为的影响。我们观察到,在较低温度配置(例如 70°C (158°F))下应用热控制是修复过热 CPU 的更好配置。根据所提出的模型,在正常温度下运行的 CPU 将消耗相对较少的能量,提供更高的性能并增强其耐用性。索引术语 —CPU 温度、自动化、HPC、数据中心、Kraken、动态电压和频率缩放、省电、性能、动态热控制、Redfish、DVFS、Kraken、计算集群动态热控制、动态电压和频率缩放、数据中心自动化、高性能计算

实现高性能计算的 CPU 动态热控制自动化

实现高性能计算的 CPU 动态热控制自动化PDF文件第1页

实现高性能计算的 CPU 动态热控制自动化PDF文件第2页

实现高性能计算的 CPU 动态热控制自动化PDF文件第3页

实现高性能计算的 CPU 动态热控制自动化PDF文件第4页

实现高性能计算的 CPU 动态热控制自动化PDF文件第5页

相关文件推荐