GPU(图形处理单元)通常使用CUDA或OPENCL等低级语言进行编程。尽管这些语言允许实现非常优化的软件,但由于其低级性质,它们很难编程,在该软件中,程序员必须将协调代码(即如何创建和分发)与实际的计算代码混合在一起。在本文中,我们介绍了霍克(Hok),这是一种延伸到长生不老药功能性语言的信息,该语言允许促进高阶GPU内核,从而使程序能够明确地将协调与计算分开。HOK系统为编写可以使用计算代码参数化的低级GPU内核提供了DSL(特定领域的语言)。HOK允许在主机代码中创建和引用范围的功能,包括匿名功能,以便在启动内核之前配置它们。我们证明HOK可用于实施高级抽象,例如算法 - 麦克骨骼和数组综合。我们还提出了证明HOK当前实施的可用性的实验,并表明与纯长生不老药相比,可以获得高速加速,特别是在具有大量输入的集体密集型程序中。
版权所有 © 2023,Oracle 和/或其附属公司。本文档仅供参考,其内容如有更改,恕不另行通知。本文档不保证无错误,也不受任何其他保证或条件的约束,无论是口头表达还是法律暗示,包括适销性或特定用途适用性的暗示保证和条件。我们明确声明对本文档不承担任何责任,本文档不直接或间接形成任何合同义务。未经我们事先书面许可,不得以任何形式或任何电子或机械手段出于任何目的复制或传播本文档。
摘要 - 计算pangenomics是一种新兴领域,使用图形结构封闭多个基因组研究遗传变异。可视化Pangenome图对于理解基因组多样性至关重要。然而,由于图布局过程的高计算需求,处理大图可能具有挑战性。在这项工作中,我们对最先进的pangenome图布局算法进行了彻底的性能特征 - 揭示了显着的数据级并行性,这使GPU成为计算加速度的有前途的选项。但是,不规则的数据访问和算法的内存性质具有重大障碍。为了克服这些挑战,我们开发了一种实施三个关键优化的解决方案:对缓存友好的数据布局,合并的随机状态和经纱合并。另外,我们提出了一个定量度量标准,用于可扩展对Pangenome布局质量的评估。对24个人类全染色体pangenomes进行了评估,我们的基于GPU的解决方案在没有布局的质量损失的情况下,在the-Art MultineReaded CPU基线上实现了57.3倍的速度,从而将执行时间从数小时减少到数分钟。索引术语 - Pangenomics,生物信息学,图形布局,GPU加速度
摘要。数字签名是各种协议中提供完整性和真实性的基本构建块。量子计算的发展引发了人们对传统签名方案所提供的安全保障的担忧。CRYSTALS-Dilithium 是一种基于格密码学的高效后量子数字签名方案,已被美国国家标准与技术研究所选为标准化的主要算法。在这项工作中,我们提出了 Dilithium 的高吞吐量 GPU 实现。对于单个操作,我们采用一系列计算和内存优化来克服顺序约束、减少内存使用和 IO 延迟、解决银行冲突并缓解管道停顿。这为每个操作带来了高且平衡的计算吞吐量和内存吞吐量。在并发任务处理方面,我们利用任务级批处理来充分利用并行性并实现内存池机制以实现快速内存访问。我们提出了一种动态任务调度机制来提高多处理器占用率并显着缩短执行时间。此外,我们采用异步计算并启动多个流来隐藏数据传输延迟,并最大限度地发挥 CPU 和 GPU 的计算能力。在所有三个安全级别中,我们的 GPU 实现在商用和服务器级 GPU 上实现了超过 160 倍的签名加速和超过 80 倍的验证加速。这为每个任务实现了微秒级的摊销执行时间,提供了一种适用于实际系统中各种应用的高吞吐量和抗量子解决方案。
摘要 - 传统的卷积神经网络(CNN)通常在捕获各种数据集中的复杂空间关系和细微的模式方面遇到困难。为了克服这些限制,这项工作先驱,使视觉变压器(VIT)模型的应用在计算机视觉领域引起了显着关注,因为它们能够通过自我意见机制在图像中捕获图像中的长期依赖性的能力。然而,培训大量参数的大规模VIT模型会带来计算挑战。在本文中,我们提出了一种优化的方法,用于培训VIT模型,该模型利用图形处理单元(GPU)的并行处理功能,并使用多线程优化了计算工作负载分布。在CIFAR-10数据集上对所提出的模型进行了训练和测试,并在100个时期后达到了99.92%的出色精度。与现有方法相比,实验结果揭示了我们方法在优化训练效率方面的有效性。这强调了VIT模型的出色性能及其革新图像分类任务的潜力。索引术语 - CIFAR-10数据集,卷积神经网络(CNN),GPU,图像分类,多线程,视觉变压器(VIT),注意机制
摘要 - 基因组分析是对基因的研究,其中包括对基因组特征的识别,测量或比较。基因组学研究对我们的社会至关重要,因为它可以用于检测疾病,创建疫苗和开发药物和治疗方法。作为具有大量并行处理能力的一种通用加速器,GPU最近用于基因组学分析。开发基于GPU的硬件和软件框架用于基因组分析正在成为一个有希望的研究领域。为了支持这种类型的研究,需要基准,以具有代表性,并发和多种应用程序的应用程序。在这项工作中,我们创建了一个名为Genomics-GPU的基准套件,其中包含10种广泛使用的基因组分析应用。它涵盖了DNA和RNA的基因组比较,匹配和聚类。我们还调整了这些应用程序来利用CUDA动态并行性(CDP),这是一个支持动态GPU编程的最新高级功能,以进一步提高性能。我们的基准套件可以作为算法优化的基础,也可以促进GPU架构开发进行基因组学分析。索引术语 - 基因组学,生物信息学,基准测试,GPU,加速计算,基因组分析,计算机体系结构。I。研究基因组序列分析是指组织ISM的DNA序列的研究。该程序具有许多重要的应用,例如大流行爆发追踪,早期癌症检测[79],药物发育[43]和遗传疾病鉴定[87]。要通过通过四个字母(A,C,T和G)(也称为碱基或核苷酸)的字符串的形式将DNA分子通过分析生物体的基因组构成分析。确定碱基序列的过程称为基因组测序[30]。比较和发现生物学序列之间差异的过程称为序列比对[67]。过去十年中,基因组数据库的指数增长,需要在计算工具的帮助下进行大量数据。结果,已经开发了几种用于基因组分析的工具,例如BLAST [57]和GATK [58]。为了提高性能,某些基因组测序框架(例如Parasail [31]和KSW2 [53])采用了具有SIMD能力的CPU。他们利用SIMD指令提供的并行性来执行矩阵计算,通过在多个操作数中运行同一矢量命令。FPGASW [39]使用FPGA中的大量执行单元创建线性收缩期
抽象的机上计算机学习(ML)推理可以在无需向远程服务器揭示的用户设备上使用私人用户数据。但是,对于依靠嵌入太大而无法存储在设备上的许多应用程序的应用程序,纯粹的私人ML推理解决方案是不切实际的。特别是,建议模型通常在1-10 GB的数据下使用多个嵌入式表,这使得它们不切实际地存储在设备上。为了超越这个障碍,我们建议使用私人信息检索(PIR)有效,私人地从服务器中嵌入嵌入,而无需共享任何私人信息。由于现成的PIR算法通常过于计算,因此很密集,无法直接用于潜伏敏感的推理任务,我们1)提出了基于GPU的新型PIR加速度,以及2)与下游ML的pir共同设计PIR,以获得进一步的加速。我们的GPU加速策略将系统吞吐量提高了20倍以上,超过了CPU PIR实现,而我们的PIR-ML共同设计在固定模型质量下提供了超过5倍的额外吞吐量改进。,对于各种设备上的ML插图,例如建议和语言建模,我们的单个V100 GPU上的系统每秒可提供高达100,000的查询 - 基于CPU的基线,A> 100×吞吐量改进 - 在基于CPU的基线上 - 维护模型准确性。
摘要ML的广泛采用导致对GPU硬件的需求很高,因此,公共云中GPU的严重短缺。通常很难在单个云区域分配足够数量的GPU来训练或微调当今的大型ML模型。如果用户愿意使用不同地理区域的设备进行ML培训工作,则可以访问更多的GPU。但是,GPU节点与较低的网络带宽连接,并且云提供商为跨地理区域的数据传输提供了额外的费用。在这项工作中,我们探讨了何时以及如何有意义地利用跨区域和地区进行分布式ML培训的GPU。我们根据不同模型并行性策略的计算和通信模式分析了跨区域培训的吞吐量和成本影响,开发了一种基于配置文件的分析模型,用于估计培训吞吐量和成本,并为有效分配地理分配资源提供指南。我们发现,尽管在节点跨越地理区域时,ML训练吞吐量和成本会显着降低,但使用管道等级的跨区域训练是实用的。
英特尔 Arc GPU 代表了设备边缘图形技术的一次飞跃,它将先进的人工智能、卓越的图形和高效的媒体处理功能融合在单个 GPU 中。英特尔 Arc GPU 可与部分英特尔® 酷睿™ CPU 处理器无缝配对,形成完整的解决方案。英特尔 Arc GPU 基于英特尔先进的 X e 图形架构构建,可在从集成显卡到高性能独立显卡的各种计算环境中提供可扩展的性能。英特尔 X e HPG 架构为关键边缘用途和工作负载提供专用加速,包括用于加速推理的英特尔® X e 矩阵扩展 (英特尔® XMX) 人工智能引擎和用于加快转码和其他媒体处理任务的 X e 媒体引擎。英特尔 Arc GPU 专门针对边缘,提供五年的长期可用性和支持、多样化的边缘外形尺寸以及对边缘受限使用条件的支持。