图形处理单元 (GPU) 承受着过大的压力,以加速高性能计算应用程序,并用于加速多个领域的深度神经网络,这些领域的预期寿命长达数年。这些条件使 GPU 硬件面临(过早)老化,导致在通常的制造结束测试之后出现永久性故障。因此,迫切需要评估 GPU 永久性故障影响的技术,从而可以估计可靠性风险并可能减轻它。在本文中,我们提出了一种评估永久性故障对 GPU 调度器和控制单元(最特殊、压力最大的资源)的影响的方法,以及可以量化这些影响的第一个数字。我们描述了门级 GPU 模型的调度器和控制器中超过 5.83x10 5 个永久性故障效应。然后,我们通过检测 13 个应用程序和两个卷积神经网络的代码,在软件中映射观察到的错误类别,注入超过 1.65x105
我们提出了一个开源软件包Travolta(用于加速,验证和优化大的时间依赖性算法的曲目),用于对GPU进行大规模平行的量子最佳控制计算。Travolta软件包是对我们以前的NIC-CAGE算法的重要大修,还包括对梯度上升程序的算法改进,以实现更快的收敛速度。我们检查了GPU并行化的三种不同变体,以评估它们在构建各种量子系统中构建最佳控制场的性能。此外,我们还提供了几个示例,这些示例具有GPU增强的Travolta代码的广泛基准,以表明它与以前基于CPU的算法相同的结果,但加速速度快十倍以上。我们的GPU增强功能和算法改进实现了大型量子最佳控制计算,可以在现代的多核计算硬件上有效地执行。
AI由于成本,集成复杂性和部署时间而无法实现。以前,组织依靠最新数据依靠llms来验证其LLM,这是一个昂贵且耗时的过程。NETAPP AIPOD与Lenovo一起使用NVIDIA OVX结合了NVIDIA认证的OVX Lenovo Thinksystem SR675 V3服务器,具有经过验证的NetApp存储,以创建专门为AI工作负载设计的融合基础架构。使用此解决方案,客户将能够为聊天机器人,知识管理和对象识别等用例进行AI抹布和推理操作。
摘要 - 计算pangenomics是一种新兴领域,使用图形结构封闭多个基因组研究遗传变异。可视化Pangenome图对于理解基因组多样性至关重要。然而,由于图布局过程的高计算需求,处理大图可能具有挑战性。在这项工作中,我们对最先进的pangenome图布局算法进行了彻底的性能特征 - 揭示了显着的数据级并行性,这使GPU成为计算加速度的有前途的选项。但是,不规则的数据访问和算法的内存性质具有重大障碍。为了克服这些挑战,我们开发了一种实施三个关键优化的解决方案:对缓存友好的数据布局,合并的随机状态和经纱合并。另外,我们提出了一个定量度量标准,用于可扩展对Pangenome布局质量的评估。对24个人类全染色体pangenomes进行了评估,我们的基于GPU的解决方案在没有布局的质量损失的情况下,在the-Art MultineReaded CPU基线上实现了57.3倍的速度,从而将执行时间从数小时减少到数分钟。索引术语 - Pangenomics,生物信息学,图形布局,GPU加速度
电子老虎机的第二个关键特性是可靠性。任何赌场运营商都会告诉你,机器停机就等于收入损失。地面空间非常宝贵,运营商不能让任何一个角落闲置。游戏机(以及许多其他类型的计算机设备)的常见故障点是机械设备,例如存储游戏数据的硬盘驱动器,以及保持 CPU 和 GPU 等电子元件冷却的风扇。从本质上讲,机械设备包括最终会磨损的移动部件。领先的设备制造商已经通过用由内存芯片构建的固态介质替换旋转硬盘驱动器来帮助解决这些问题。他们还使用更大、高可靠性且使用寿命长的风扇来帮助避免故障,但必须格外小心,以阻止无处不在的灰尘和碎屑,因为灰尘和碎屑会迅速堵塞进气过滤器、风扇和冷却组件。选择设备供应商需要了解他们的设计选择以及这些选择如何影响系统可靠性。
抽象的机上计算机学习(ML)推理可以在无需向远程服务器揭示的用户设备上使用私人用户数据。但是,对于依靠嵌入太大而无法存储在设备上的许多应用程序的应用程序,纯粹的私人ML推理解决方案是不切实际的。特别是,建议模型通常在1-10 GB的数据下使用多个嵌入式表,这使得它们不切实际地存储在设备上。为了超越这个障碍,我们建议使用私人信息检索(PIR)有效,私人地从服务器中嵌入嵌入,而无需共享任何私人信息。由于现成的PIR算法通常过于计算,因此很密集,无法直接用于潜伏敏感的推理任务,我们1)提出了基于GPU的新型PIR加速度,以及2)与下游ML的pir共同设计PIR,以获得进一步的加速。我们的GPU加速策略将系统吞吐量提高了20倍以上,超过了CPU PIR实现,而我们的PIR-ML共同设计在固定模型质量下提供了超过5倍的额外吞吐量改进。,对于各种设备上的ML插图,例如建议和语言建模,我们的单个V100 GPU上的系统每秒可提供高达100,000的查询 - 基于CPU的基线,A> 100×吞吐量改进 - 在基于CPU的基线上 - 维护模型准确性。
在过去十年中,图形处理单元 (GPU) 的进步推动了人工智能 (AI)、高性能计算 (HPC) 和数据分析领域的重大发展。要在这些领域中的任何一个领域继续保持这一趋势,就需要能够不断扩展 GPU 性能。直到最近,GPU 性能一直是通过跨代增加流式多处理器 (SM) 的数量来扩展的。这是通过利用摩尔定律并在最先进的芯片技术节点中使用尽可能多的晶体管数量来实现的。不幸的是,晶体管的缩放速度正在放缓,并可能最终停止。此外,随着现代 GPU 接近光罩极限(约 800 平方毫米),制造问题进一步限制了最大芯片尺寸。而且,非常大的芯片会导致产量问题,使大型单片 GPU 的成本达到不理想的水平。GPU 性能扩展的解决方案是将多个物理 GPU 连接在一起,同时向软件提供单个逻辑 GPU 的抽象。一种方法是在印刷电路板 (PCB) 上连接多个 GPU。由于提供的 GPU 间带宽有限,在这些多 GPU 系统上扩展 GPU 工作负载非常困难。封装内互连(例如通过中介层技术)比封装外互连提供更高的带宽和更低的延迟,为将 GPU 性能扩展到少数 GPU 提供了一个有希望的方向 [1]。晶圆级集成更进一步,通过将预制芯片粘合在硅晶圆上,为具有数十个 GPU 的晶圆级 GPU 提供了途径 [2]。不幸的是,使用电互连在长距离上以低功耗提供高带宽密度从根本上具有挑战性,从而限制了使用电中介层技术进行 GPU 扩展。在本文中,我们提出了光子晶圆网络 (NoW) GPU 架构,其中预先制造和预先测试的 GPU 芯片和内存芯片安装在晶圆级中介层上,该中介层通过光子网络层连接 GPU 芯片,同时将每个 GPU 芯片与其本地内存堆栈电连接,如图 1 所示。光子-NoW GPU 架构的关键优势在于能够在相对较长的晶圆级距离(高达数十厘米)内以低功耗实现高带宽密度。本文的目标是展示光子-NoW 的愿景
摘要 — 超维计算 (HDC) 已成为深度神经网络的替代轻量级学习解决方案。HDC 的一个关键特性是高度并行,可以促进硬件加速。然而,以前的 HDC 硬件实现很少关注 GPU 设计,这也导致效率低下,部分原因是在 GPU 上加速 HDC 的复杂性。在本文中,我们提出了 OpenHD,这是一个灵活且高性能的 GPU 驱动框架,用于自动将包括分类和聚类在内的一般 HDC 应用程序映射到 GPU。OpenHD 利用专门针对 HDC 的内存优化策略,最大限度地缩短对不同内存子系统的访问时间,并消除冗余操作。我们还提出了一种新颖的训练方法,以实现 HDC 训练中的数据并行性。我们的评估结果表明,所提出的训练方法可以快速达到目标准确率,将所需的训练周期减少了 4 × 。借助 OpenHD,用户无需领域专家知识即可部署 GPU 加速的 HDC 应用程序。与最先进的 GPU 驱动的 HDC 实现相比,我们在 NVIDIA Jetson TX2 上的评估表明,OpenHD 在基于 HDC 的分类和聚类方面分别快了 10.5 倍和 314 倍。与 GPU 上的非 HDC 分类和聚类相比,由 OpenHD 驱动的 HDC 在准确度相当的情况下快了 11.7 倍和 53 倍。