异构计算表示针对特定应用使用不同计算平台的场景 (Danovaro 等人,2014)。随着对大数据量和速率的查询和分析需求不断增长,对计算资源的需求也随之增长,但能源效率限制了传统方法,即通过在现有基础设施中添加数千台最先进的 x86 机器来提高数据中心的计算能力,转而采用节能设备 (Cesini 等人,2017;D'Agostino 等人,2019)。因此,数据中心的计算节点具有不同的执行模型,从传统的 x68 架构到 GPU、FPGA(Papadimitriou 等人,2020 年)和其他处理器类型,如 ARM 或更专业的处理器,如 TPU(Albrecht 等人,2019 年;Cass,2019 年)。例如,GPU 用于许多基于常规领域的科学应用中,并且提供的性能比传统内核高出几个数量级。它们也广泛用于深度学习,尤其是机器学习训练阶段。FPGA 是一种可以由程序员配置以实现特定功能的集成电路,它试图缩小硬件和软件之间的差距。在此背景下,该研究主题收集了五篇论文,展示了在高能物理中采用异构架构进行 AI 和大数据应用的非常有趣的经验。在 GPU 加速机器学习推理作为中微子实验计算服务 (Wang 等人) 中作者讨论了通过利用 GPU 资源作为服务为在深层地下中微子实验 (DUNE) 背景下开发的 ProtoDUNE-SP 重建链所实现的性能。这篇文章代表了在中微子软件框架中使用 GPU 加速机器学习的首次体验之一。最耗时的任务,即轨迹和粒子簇射命中识别,已加速 17 倍。在使用 CMS 像素跟踪器对轨迹和主顶点进行异构重建(Bocci 等人)中作者描述了一种在 GPU 上实现像素轨迹和顶点重建链的异构实现,能够实现高性能加速值。在 FPGA 上用于高能物理实时粒子重建的距离加权图神经网络(Iiyama 等人)中所开发的框架已集成到 CMS 粒子探测器重建软件 CMSSW (http://cms-sw.github.io) 中,CMSSW 用于检测 CMS 实验中 LHC 高能碰撞产生的粒子和现象。作者提出了一种新方法,将图神经网络从复杂的现代机器学习包导出到高效的 FPGA 实现中。
大规模训练和运行 AI/ML 模型需要大量昂贵的计算能力。此外,需要异构计算来使用 AI/ML 获取实时洞察,确保在与全球客户互动时触发即时推理。在内部构建此类计算资源需要高昂的前期成本,并且在模型构建、训练和执行阶段利用率不均衡。
对于 PEDA 工具,基于 RL 的设计方法的总体架构如图 3 所示。该框架以独特的方式集成了各种计算平台,例如 FPGA 和 CPU。FPGA 的领域特定设计主要提高了电路仿真的速度,解决了当前最先进的基于 ML 的设计工具的瓶颈问题。同样重要的是创新的软件/硬件集成,它促进了快速的基于 FPGA 的电路模拟器和通用计算平台 (CPU) 上易于编程的 RL 代理之间的快速交互。从根本上说,这种异构计算平台允许不同的计算模式(领域特定和通用)利用其独特的优势并协同工作,以确保快速的 ML 驱动的 PCS 设计和优化。拟议的框架预计将作为服务部署在云托管的异构计算平台上,使全球的电力电子工程师能够从快速、高质量的培训和设计中受益。他们只需提供根据其特定应用需求定制的 ML 算法的设计目标和约束即可实现这一点。
轨道 1 - 数据和元数据组织、管理和访问 轨道 2 - 在线计算 轨道 3 - 离线计算 轨道 4 - 分布式计算 轨道 5 - 可持续和协作软件工程 轨道 6 - 物理分析工具 轨道 7 - 设施和虚拟化 轨道 8 - 协作、重新解释、推广和教育 轨道 9 - 人工智能和机器学习 轨道 10 - 百亿亿次级科学 轨道 11 - 异构计算和加速器 轨道 12 - 量子计算
由于高性能商用现货 (COTS) 计算平台的技术进步,空间计算正在蓬勃发展。太空环境复杂且具有挑战性,具有尺寸、重量、功率和时间限制、通信限制和辐射效应。本论文提出的研究旨在研究和支持在空间系统中使用 COTS 异构计算平台进行智能机载数据处理。我们研究在同一芯片上至少有一个中央处理器 (CPU) 和一个图形处理单元 (GPU) 的平台。本论文提出的研究的主要目标有两个。首先,研究异构计算平台,提出一种解决方案来应对空间系统中的上述挑战。其次,使用新颖的调度技术补充所提出的解决方案,用于在恶劣环境(如太空)中在 COTS 异构平台上运行的实时应用程序。所提出的解决方案基于考虑使用并行任务段的替代执行的系统模型。虽然将并行段卸载到并行计算单元(如 GPU)可以改善大多数应用程序的最佳执行时间,但由于过度使用 GPU,它可能会延长某些应用程序中任务的响应时间。因此,使用所提出的任务模型是减少任务响应时间和提高系统可调度性的关键。基于服务器的调度技术通过保证 CPU 上并行段的执行时隙来支持所提出的任务模型。我们的实验评估表明,与应用程序的静态分配相比,所提出的分配可以将实时系统的可调度任务集数量增加高达 90%。我们还提出了一种使用基于服务器的调度和所提出的任务模型的动态分配方法,该方法可以将可调度性提高高达 16%。最后,本文提出了一个模拟工具,支持设计人员使用所提出的任务模型选择异构处理单元,同时考虑处理单元的不同辐射耐受性水平。
多媒体应用和系统越来越成为我们日常生活的一部分——新兴的可以显示图片和视频数据的移动终端、家庭中的 DVD 播放器、可下载的游戏、互联网上的流媒体、万维网上的广播电台——只是其中的几个例子。这些应用程序和系统正在成为我们异构计算和通信环境不可或缺的一部分。在过去十年中,我们经历了多媒体计算、通信和应用(万维网、会议、数字娱乐等)的爆炸式增长。它们不仅提供文本和图像,还提供视频、音频和其他连续媒体。未来,所有计算机和网络都将包含多媒体设备。它们还需要适当的处理和通信支持,以便为相关的多媒体应用提供无缝和无处不在的服务和协议。
武装部队可以通过多种方式从异构计算中获益。例如,尽管雷达处理系统通常部署在大型巡洋舰、潜艇和类似平台上,但这些车辆仍必须应对与军队其他部分相同的尺寸、重量和功率 (SWaP) 限制。传统的雷达处理系统可能需要四立方英尺的空间来容纳一台重量超过 50 公斤、功耗为 2000W 的 18 刀片服务器,才能实现 576 GFLOPS 的峰值处理速度。将其与现代 VITA-75 系统(例如 ADLINK 的 HPERC 系列平台之一)进行比较。为了达到几乎相同的 574 GFLOPS,ADLINK 的无风扇 HPERC 仅占 0.8 立方英尺,重量不到 5 公斤,功耗仅为 200W。这在一定程度上是由于板载 GPU 承担了大部分雷达信号处理工作负载。
在追求这一目标的过程中,消除不可预测的行为已被视为一项必要的工程费用。消除计算噪声的努力涵盖了整个微电子技术堆栈,从研究高可靠性材料和设备到纠错电路和架构,再到容错系统和算法。确定性计算显然取得了令人难以置信的成功——在不到四分之三个世纪的时间里,我们已经从大约一千个只能进行相对简单计算的阴极管阵列过渡到每秒能够处理 10 18 次浮点运算的高性能计算百亿亿次系统。[2,3] 然而,能耗已日益成为传统处理器面临的挑战。人工智能 (AI) 和机器学习 (ML) 在多种应用中的采用越来越广泛,以及对更多计算的需求不断增长,导致对结合多种技术(图形处理单元 (GPU)、中央处理单元 (CPU) 等)的异构计算平台的需求更高。随着越来越多的处理器被整合,未使用的处理器需要关闭以处理散热问题(即“暗硅”)。[4] 这些问题加上大量新设备、内存计算、高效的芯片间通信、3D 堆叠和集成技术
混合物理-机器学习模型越来越多地用于传输过程的模拟。许多与科学和工程应用相关的复杂多物理系统包括多个时空尺度,并包含一个多保真度问题,该问题在各种公式或异构计算实体之间共享一个接口。为此,我们提出了一种强大的混合分析和建模方法,结合基于物理的全阶模型 (FOM) 和数据驱动的降阶模型 (ROM),形成混合保真度描述中面向预测数字孪生技术的集成方法的构建块。在界面上,我们引入了一个长短期记忆网络,以各种形式的界面误差校正或延长来桥接这些高保真度和低保真度模型。所提出的界面学习方法被测试为一种解决 ROM-FOM 耦合问题的新方法,使用双保真度设置解决非线性平流扩散流情况,该设置可以捕捉广泛传输过程的本质。