摘要。在本文中,我们提出了一种通过将传统 CFD 求解器与我们的 AI 模块集成来加速 CFD(计算流体动力学)模拟的方法。所研究的现象负责化学混合。所考虑的 CFD 模拟属于一组稳态模拟,并使用基于 OpenFOAM 工具箱的 MixIT 工具。所提出的模块被实现为 CNN(卷积神经网络)监督学习算法。我们的方法通过为模拟现象的每个数量创建单独的 AI 子模型来分发数据。然后可以在推理阶段对这些子模型进行流水线处理以减少执行时间,或者逐个调用以减少内存需求。我们根据 CPU 或 GPU 平台的使用情况检查所提出方法的性能。对于具有不同数量条件的测试实验,我们将解决时间缩短了约 10 倍。比较基于直方图比较法的模拟结果显示所有数量的平均准确率约为 92%。
摘要 — 在生产高性能计算 (HPC) 数据中心,许多因素(包括工作负载计算强度、冷却基础设施故障和使用节能冷却)都会大幅提高 CPU 温度。与 CPU 热设计相关的研究表明,工作温度的细微变化会严重影响 CPU 的寿命、耐用性和性能。因此,监控和控制 CPU 的工作温度至关重要。在本研究中,我们设计了一种自动且连续的 CPU 热监控和控制方法来维持和控制健康的 CPU 热状态。本研究利用 Redfish 协议监控 CPU 温度,并使用动态电压频率调整来控制温度。我们开发了一个参考实现,并使用 150 个 Raspberry Pi3 节点集群评估了我们的方法。我们在不同场景中执行了广泛的 CPU 热分析。我们分析了 CPU 在室温下 100% 负载下达到最高温度的速度。根据我们的实验,在最低和最高 CPU 频率配置下,100% 负载的 CPU 的温度分别可升至 ∼ 72°C (161.6°F) 和 ∼ 86°C (186.8°F)。我们分析了在八种温度配置下应用热控制对 CPU 的热和频率缩放行为的影响。我们观察到,在较低温度配置(例如 70°C (158°F))下应用热控制是修复过热 CPU 的更好配置。根据所提出的模型,在正常温度下运行的 CPU 将消耗相对较少的能量,提供更高的性能并增强其耐用性。索引术语 —CPU 温度、自动化、HPC、数据中心、Kraken、动态电压和频率缩放、省电、性能、动态热控制、Redfish、DVFS、Kraken、计算集群动态热控制、动态电压和频率缩放、数据中心自动化、高性能计算
公共公用事业中心很幸运能拥有出色的课程讲师,每个人都在监管领域拥有多年的实践经验。这些教师的专家不仅是他们领域的专家,而且具有丰富的教学经验,而且非常平易近人。这些教师中有许多在公共事业中心工作了16年以上。CPU课程讲师作为一个团队共同工作,并不断重新评估和重新确定其单独的材料集以及整个课程的所有组织和流程。每个成员都充分意识到自己的一组材料如何融入课程的整体情况。以这种方式,每个一周的课程都是真正的整合,这为与会者提供了最佳的产品。
●配置可编程控制器外部的安全电路,以确保即使在外部电源或可编程控制器中发生故障时,整个系统也可以安全运行。未能这样做可能会导致由于输出不正确或故障而导致事故。(1)必须将紧急停止电路,保护电路和用于冲突操作的保护性互锁电路(例如向前/反向旋转或上限/下限定位),必须配置为可编程控制器的外部。(2)当可编程控制器检测到异常情况时,它会停止操作,所有输出均为:•如果激活电源模块的过电流或过电压保护,则关闭。•如果CPU模块的自诊断功能检测到错误,例如看门狗计时器错误,则根据参数设置保持或关闭。(3)如果在零件中发生错误,例如I/O控制部件,CPU模块无法检测到任何错误,则所有输出都可以打开。为确保在这种情况下的安全操作,提供安全机制或可编程控制器外部的故障安全电路。有关故障安全电路示例,请参阅Melsec IQ-R模块配置手册中的“一般安全要求”。(4)由于组件的故障,例如输出电路中的继电器和晶体管,因此输出可能会打开或关闭。配置外部电路,以监视可能导致严重事故的输出信号。为了防止这种情况,请配置外部安全电路,例如保险丝。有关手册,请咨询您当地的三菱代表。●在输出电路中,当负载电流超过额定电流或由载荷短路流动引起的过电流时,可能会导致烟雾和火灾。●配置电路,以便首先打开可编程控制器,然后打开外部电源。如果首先打开外部电源,则可能由于输出或故障而发生事故。●配置电路,以便首先关闭外部电源,然后关闭可编程控制器。如果首先关闭可编程控制器,则可能由于输出或故障而导致事故。●对于通信故障后每个站的操作状态,请参阅使用的网络手册。由于通信故障而导致的不正确输出或故障可能导致事故。●使用CPU模块或智能功能模块连接外部设备以修改运行的可编程控制器的数据,请配置程序中的互锁电路,以确保整个系统始终安全地运行。对于运行可编程控制器的其他形式的控件(例如程序修改,参数更改,强制输出或操作状态更改),请仔细阅读相关手册,并确保操作在继续之前安全。不当操作可能会损坏机器或造成事故。
具有高计算性能的 CPU 的发热问题一直是一个非常严重的问题,会降低其性能。为了确保 CPU 发挥最大潜能,必须将其温度保持在 80°C 以下。由散热器和风扇组成的强制对流冷却器被认为是满足 CPU 工作温度要求以确保其最大性能的最有效方法。使用计算流体动力学 (CFD) 数值方法和拓扑优化(使用 ANSYS Mechanical 和 ANSYS Fluent)开发了一款 CPU 冷却器的散热器设计,该设计搭配了气流速度为 80 立方英尺/分钟 (CFM) 的风扇,适用于在 25°C 环境温度下工作时最大发热量为 380 瓦的 CPU。对各种翅片轮廓、翅片排列、翅片数量和散热器材料进行了比较分析。将比较分析的最佳结果结合起来,提出了一种能够将 CPU 温度保持在 80°C 以下的基本设计,这是确保最大计算性能的要求。确定采用弧形布置配置的带覆盖矩形板翅片的 30 片散热器来提供最大的冷却性能。在材料方面,碳化硅的最低 CPU 温度为 78°C,其次是铜,为 84°C。碳化硅散热器成功满足了最大 CPU 性能的要求。铜散热器不太可能导致 CPU 故障,但它不符合最大 CPU 性能的条件。此外,然后使用拓扑优化优化此基础设计以降低材料成本,结果材料成本降低了 13%,而冷却性能仅降低了 0.32%。在未来的研究中,可以通过将风扇设计和各种 CPU 负载条件纳入设计参数来改进冷却器的整体设计。
在我们最近的工作11中,我们引入了一种基于离散优化的密集图像配准方法,即带有 α 扩展的最小图割。12 其他人之前已经提出过使用最小图割进行图像配准,13、14 但由于该方法的计算成本高,在实践中采用有限。通过将图像划分为子区域,并将每个 α 扩展一次限制在一个子区域,我们能够大幅减少这种配准方法的计算时间,而质量方面仅有很小的损失。处理一个子区域涉及两个步骤:计算体素匹配标准(即构建图形)并通过求解最小图割问题执行离散优化。早期的分析实验表明,对于较小的子区域,大部分计算时间都花在计算匹配标准上,而不是执行图割优化上。当使用计算密集度更高的相似性度量(例如互相关 (CC))时,这种效果更加明显,这已被证明在图像配准中很有价值。15
广泛采用大型语言模型(LLM)需要快速扩展云LLM推理群集,从而导致体现碳的积累 - 制造和提供IT资产的排放 - 主要集中在推理服务器CPU上。本文深入研究了Cloud LLM推论的可持续增长的挑战,强调了在寿命增加的情况下体现的CPU的扩展摊销。鉴于硅老化的可靠性风险,我们提出了一种衰老的CPU核心管理技术来延迟CPU衰老效应,从而使群集操作员可以安全地提高CPU寿命。我们的技术利用了我们在云LLM推理中发现的CPU不足的模式,通过在未使用的核心中停止衰老,并通过选择性深层闲置和衰老的推理任务分配来停止衰老,并在活跃内核中均匀衰老。通过使用现实世界的Azure推理轨迹和来自微软的扩展LLM群集模拟器的大量模拟,我们显示出与现有技术相比,估计通过管理CPU AGING AGING AGIND效果的P99效果,估计较小的cpu inderiation cppy in verne cppy cpputization cppy and cpputiation and cputiation and cputiation and and cpus质量较小,估计降低了年度体现的碳排放量的37.67%。
本文档可能包含初步信息,IBM 可能会随时更改,恕不另行通知。IBM 不保证使用本文中的信息或应用程序不会受到第三方知识产权索赔,也不承担因使用本文中包含的信息而产生的任何责任或义务。本文档中的任何内容均不构成 IBM 或第三方知识产权的明示或暗示许可或赔偿。
摘要:针对高热流密度电子散热需求,提出了一种采用脉动热管(PHP)进行CPU散热的散热装置。通过分析PHP的壁面温度分布和蒸发器与冷凝器的分布,分析了散热器的传热性能和表面温度分布。实验结果表明:风速的变化对PHP散热器的运行有明显的影响,PHP散热器表面温度分布非常均匀,尤其有利于CPU的散热;PHP的传热性能较好,最小平均热阻为0.19k/W。此外,当温度达到120℃左右时,没有出现干涸现象,表明脉动热管具有很高的传热极限。
我们提出了玛格拉(Marghera),这是一种系统设计,可防止云中的跨VM微构造侧通道攻击。Marghera是基于隔离合同的,对于给定的CPU,它描述了物理线程和内存的分区,以防止通过共享的微构造资源来防止信息泄漏。我们为AMD EPYC 7543P(Modern Cloud CPU)开发了隔离合同。为此,我们首先确定如何在其物理线程之间共享微体系结构资源,包括缓存,cache-coherence目录和DRAM银行。然后,我们使用以前未知的,反向工程的索引功能开发着着色方案 - 全面分区这些资源。我们在Microsoft Hyper-V中实现Marghera,并使用云基准进行评估。我们的结果表明,我们的方法有效地消除了由共享的微构造资源造成的侧向通道,其性能较小。