摘要。在本文中,我们提出了一种通过将传统 CFD 求解器与我们的 AI 模块集成来加速 CFD(计算流体动力学)模拟的方法。所研究的现象负责化学混合。所考虑的 CFD 模拟属于一组稳态模拟,并使用基于 OpenFOAM 工具箱的 MixIT 工具。所提出的模块被实现为 CNN(卷积神经网络)监督学习算法。我们的方法通过为模拟现象的每个数量创建单独的 AI 子模型来分发数据。然后可以在推理阶段对这些子模型进行流水线处理以减少执行时间,或者逐个调用以减少内存需求。我们根据 CPU 或 GPU 平台的使用情况检查所提出方法的性能。对于具有不同数量条件的测试实验,我们将解决时间缩短了约 10 倍。比较基于直方图比较法的模拟结果显示所有数量的平均准确率约为 92%。
深度神经网络 (DNN) 的训练每年都变得越来越耗费资源和能源。遗憾的是,现有的研究主要侧重于优化 DNN 训练以加快完成速度,而往往不考虑对能源效率的影响。在本文中,我们观察到,提高训练性能的常见做法往往会导致能源使用效率低下。更重要的是,我们证明了能耗和性能优化之间存在权衡。为此,我们提出了 Zeus,这是一个优化框架,可通过自动为重复的 DNN 训练作业找到最佳的作业和 GPU 级配置来解决这一权衡。Zeus 使用在线探索-利用方法结合即时能源分析,避免了昂贵的离线测量,同时适应数据随时间的变化。我们的评估表明,Zeus 可以将不同工作负载的 DNN 训练能源效率提高 15.3%–75.8%。
摘要。Opticks是一个开源项目,它通过集成通过NVIDIA OPTIX 7 + API访问的GPU射线跟踪来加速光光子仿真,并具有基于GEANT4的仿真。已经测量了第一个RTX生成的单个NVIDIA Turing GPU,以提供超过1500倍单线GEANT4的光子光子模拟速度因子,并具有完整的Juno Analytic GPU几何形状自动从GEANT4 GEOM-ETRY转换。基于GEANT4的CUDA程序,实施了散射,吸收,闪烁体再发射和边界过程的光学物理过程。波长依赖性的材料和表面特性以及重新发射的反向分布函数被交织成GPU纹理,从而提供快速插值的属性查找或波长产生。在这项工作中,我们描述了采用全新的NVIDIA OPTIX 7 + API所需的几乎完整的重新实现,现在实现了基于OPTIX使用的CUDA,仅限于提供相交。重新实现具有模块化的许多小型标头设计,可在GPU和CPU上进行细粒度测试,并从CPU / GPU共享中减少大量代码。增强的模块化已使CSG树的通用 - 类似于G4Multiunion的“列表节点”,从而改善了复杂CSG固体的表现。还支持对多个薄层(例如抗反射涂层和光阴道)的边界的影响,并使用CUDA兼容传递矩阵方法(TMM)计算反射,透射率和吸收性的计算。
签名和验证过程。我们为 SPHINCS+ 提出了一种适应性并行化策略,分析其签名和验证过程以确定高效并行执行的关键部分。利用 CUDA,我们执行自下而上的优化,重点关注内存访问模式和超树计算,以提高 GPU 资源利用率。这些努力与内核融合技术相结合,显著提高了吞吐量和整体性能。大量实验表明,我们优化的 SPHINCS+ CUDA 实现具有卓越的性能。具体而言,与最先进的基于 GPU 的解决方案相比,我们的 GRASP 方案可将吞吐量提高 1.37 倍到 3.45 倍,并比 NIST 参考实现高出三个数量级以上,凸显了显著的性能优势。
摘要 — 近年来深度学习 (DL) 模型的爆炸式增长使得人们迫切需要在 GPU 集群中对混合并行分布式深度学习训练 (DDLwMP) 进行高效的作业调度。本文提出了一种自适应最短剩余处理时间优先 (A-SRPT) 调度算法,这是一种新颖的预测辅助在线调度方法,旨在缓解与 DL 集群调度相关的挑战。通过将每个作业建模为与异构深度神经网络 (DNN) 模型及其相关的分布式训练配置相对应的图,A-SRPT 策略性地将作业分配给可用的 GPU,从而最大限度地减少服务器间的通信开销。观察到大多数 DDLwMP 作业会重复出现,A-SRPT 结合随机森林回归模型来预测训练迭代。至关重要的是,A-SRPT 将复杂的调度问题映射到单机实例中,该实例通过抢占式“最短剩余处理时间优先”策略得到最佳解决。该优化解决方案可作为 GPU 集群内实际作业调度的指南,从而实现理论上可证明的竞争性调度效率。我们进行了广泛的真实测试平台和模拟实验来验证我们提出的算法。
摘要 — 近年来深度学习 (DL) 模型的爆炸式增长使得人们迫切需要在 GPU 集群中对混合并行分布式深度学习训练 (DDLwMP) 进行高效的作业调度。本文提出了一种自适应最短剩余处理时间优先 (A-SRPT) 调度算法,这是一种新颖的预测辅助在线调度方法,旨在缓解与 DL 集群调度相关的挑战。通过将每个作业建模为与异构深度神经网络 (DNN) 模型及其相关的分布式训练配置相对应的图,A-SRPT 策略性地将作业分配给可用的 GPU,从而最大限度地减少服务器间的通信开销。观察到大多数 DDLwMP 作业会重复出现,A-SRPT 结合随机森林回归模型来预测训练迭代。至关重要的是,A-SRPT 将复杂的调度问题映射到单机实例中,该实例通过抢占式“最短剩余处理时间优先”策略得到最佳解决。该优化解决方案可作为 GPU 集群内实际作业调度的指南,从而实现理论上可证明的竞争性调度效率。我们进行了广泛的真实测试平台和模拟实验来验证我们提出的算法。
在我们最近的工作11中,我们引入了一种基于离散优化的密集图像配准方法,即带有 α 扩展的最小图割。12 其他人之前已经提出过使用最小图割进行图像配准,13、14 但由于该方法的计算成本高,在实践中采用有限。通过将图像划分为子区域,并将每个 α 扩展一次限制在一个子区域,我们能够大幅减少这种配准方法的计算时间,而质量方面仅有很小的损失。处理一个子区域涉及两个步骤:计算体素匹配标准(即构建图形)并通过求解最小图割问题执行离散优化。早期的分析实验表明,对于较小的子区域,大部分计算时间都花在计算匹配标准上,而不是执行图割优化上。当使用计算密集度更高的相似性度量(例如互相关 (CC))时,这种效果更加明显,这已被证明在图像配准中很有价值。15
对于需要比最大的 16-GPU 系统更多的 CUDA 核心和 GPU 内存的 AI 模型和数据批次,GPUDirect RDMA 和 NCCL 用于通过 100Gigabit InfiniBand 或以太网结构扩展 GPU 核心和内存。NGC 软件使部署多个 GPU 系统变得容易。可以聚合数十或数百个这样的系统来运行最大的 AI 模型和数据批次。结合高性能 NVMe 结构存储和网络,这些系统可以轻松快速地构建复杂的 AI 系统。
GPU 在多个领域得到日益广泛的应用,包括高性能计算 (HPC)、自主机器人、汽车和航空航天应用。GPU 在传统领域之外的应用(游戏、多媒体和消费市场)突然引起了人们的兴趣,也提出了有关其可靠性的问题 [3]。目前,活跃的 GPU 研究旨在评估可靠性并确定可行的改进方法。大多数研究都强调 GPU 对瞬态故障的高度敏感性 [11、13、16、24、27、32、44、47、51],这是由于 GPU 拥有大量可用资源且采用了先进的半导体技术。此外,GPU 的并行管理和控制单元已被证明尤为关键,因为它们的损坏会影响多个线程 [24、38]。 GPU 的并行性在性能方面提供了无可置疑的优势,但它也是该设备最脆弱的特性之一。GPU 制造商通过改进存储单元设计 [ 39 ]、添加纠错码 [ 15 ] 等措施提供了有效的可靠性对策,
通信系统通过在各个节点之间发送和接收无线电信号来发挥作用。这些无线电信号携带数据内容,例如视频、音频或互联网流量。随着物联网设备和支持 LTE/5G 的手机的最近激增,频谱拥塞会降低网络性能和可靠性。从历史上看,频谱的管理方式是强制每个通信系统在特定的预定义固定频率范围内运行。这种系统使频谱管理变得简单,但可能会导致大量频谱利用不足。例如,一组频率可能分配给很少使用频谱的一组用户,而另一组用户可能被困在比他们所需的带宽更少的带宽中。提前计划并确定此类用例的优先级通常很困难。一种更先进的方法是允许动态频谱分配以最大限度地提高利用率并确定使用优先级。这种方法通常称为频谱共享。虽然完全自主的频谱共享仍然是一个研究课题,但涉及 DARPA 频谱协作挑战赛 (SC2) 的演示已经显示出令人鼓舞的结果。