摘要。大规模脉冲神经网络模型模拟是提高我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少有一个浮点值。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN 的扩展——我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器——使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与在超级计算机上获得的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
高保真计算流体力学模拟通常与大量计算需求相关,而每一代超级计算机的出现都对计算能力提出了更高的要求。然而,需要进行大量的研究工作才能释放基于日益复杂的架构的前沿系统(目前称为前百亿亿次级系统)的计算能力。在本文中,我们介绍了在计算力学代码 Alya 中实现的方法。我们详细描述了为充分利用不同级别的并行性而实施的并行化策略,以及一种用于有效利用异构 CPU/GPU 架构的新型共执行方法。后者基于具有动态负载平衡机制的多代码共执行方法。已针对使用 NVIDIA Volta V100 GPU 加速的 POWER9 架构上的飞机模拟对所有提出的策略的性能进行了评估。
大规模脉冲神经网络模型模拟是增进我们对大脑动态和最终功能理解的重要工具。然而,即使是像老鼠这样的小型哺乳动物也具有大约 1 × 10 12 个突触连接,在模拟中,每个突触连接通常至少由一个浮点值表示。这相当于几 TB 的数据——对于一台台式机来说,这是不切实际的内存要求。因此,大型模型通常在分布式超级计算机上进行模拟,这很昂贵,并且将大规模建模限制在少数特权研究小组中。在这项工作中,我们描述了 GeNN(我们的图形处理单元 (GPU) 加速脉冲神经网络模拟器)的扩展,使其能够在触发脉冲时“即时”生成连接和突触权重,而不是存储和从内存中检索它们。我们发现 GPU 非常适合这种方法,因为它们具有原始计算能力,但由于内存带宽限制,在模拟脉冲神经网络时,这种能力通常未得到充分利用。我们用最新的 Macaque 视觉皮层模型证明了我们方法的价值,该模型由 4.13×106 个神经元和 24.2×109 个突触组成。使用我们的新方法,它可以在单个 GPU 上进行模拟 - 这是使更多研究人员能够进行大规模大脑建模的重要一步。我们的结果与超级计算机上的结果相符,并且模拟在单个高端 GPU 上的运行速度比以前在 1000 多个超级计算机节点上的运行速度快 35%。
武装部队可以通过多种方式从异构计算中获益。例如,尽管雷达处理系统通常部署在大型巡洋舰、潜艇和类似平台上,但这些车辆仍必须应对与军队其他部分相同的尺寸、重量和功率 (SWaP) 限制。传统的雷达处理系统可能需要四立方英尺的空间来容纳一台重量超过 50 公斤、功耗为 2000W 的 18 刀片服务器,才能实现 576 GFLOPS 的峰值处理速度。将其与现代 VITA-75 系统(例如 ADLINK 的 HPERC 系列平台之一)进行比较。为了达到几乎相同的 574 GFLOPS,ADLINK 的无风扇 HPERC 仅占 0.8 立方英尺,重量不到 5 公斤,功耗仅为 200W。这在一定程度上是由于板载 GPU 承担了大部分雷达信号处理工作负载。
对于需要比最大的 16-GPU 系统更多的 CUDA 核心和 GPU 内存的 AI 模型和数据批次,GPUDirect RDMA 和 NCCL 用于通过 100Gigabit InfiniBand 或以太网结构扩展 GPU 核心和内存。NGC 软件使部署多个 GPU 系统变得容易。可以聚合数十或数百个这样的系统来运行最大的 AI 模型和数据批次。结合高性能 NVMe 结构存储和网络,这些系统可以轻松快速地构建复杂的 AI 系统。
摘要 — 布局是现代超大规模集成电路 (VLSI) 设计中的重要步骤。详细布局是整个设计流程中被密集调用的布局细化程序,因此其效率对设计收敛至关重要。然而,由于大多数详细布局技术本质上是贪婪和顺序的,因此它们通常难以并行化。在这项工作中,我们提出了一个并发详细布局框架 ABCDPlace,利用多线程和 GPU 加速。我们为广泛采用的顺序详细布局技术提出了基于批处理的并发算法,例如独立集匹配、全局交换和局部重新排序。实验结果表明,在 ISPD 2005 竞赛基准上,ABCDPlace 可以比使用多线程 CPU 的顺序实现快 2 × - 5 × 的运行时间,使用 GPU 可以比顺序实现快 10 × 以上,而不会降低质量。在更大的工业基准测试中,我们展示了比最先进的顺序详细布局器快 16 倍以上的 GPU 加速。 ABCDPlace 在一分钟内完成一千万个单元的工业设计的详细布局。
通信系统通过在各个节点之间发送和接收无线电信号来发挥作用。这些无线电信号携带数据内容,例如视频、音频或互联网流量。随着物联网设备和支持 LTE/5G 的手机的最近激增,频谱拥塞会降低网络性能和可靠性。从历史上看,频谱的管理方式是强制每个通信系统在特定的预定义固定频率范围内运行。该系统允许频谱管理变得简单,但可能会导致大量未充分利用的频谱。例如,一组频率可能分配给很少使用频谱的一组用户,而另一组用户可能被困在比他们所需的带宽更少的带宽中。提前计划并优先考虑此类用例通常很困难。更先进的方法是允许动态频谱分配以最大限度地提高利用率并优先使用。这种方法通常称为频谱共享。虽然完全自主的频谱共享仍然是一个研究课题,但涉及 DARPA 频谱协作挑战赛 (SC2) 的演示已经显示出令人鼓舞的结果。
通信系统通过在各个节点之间发送和接收无线电信号来发挥作用。这些无线电信号携带数据内容,例如视频、音频或互联网流量。随着物联网设备和支持 LTE/5G 的手机的最近激增,频谱拥塞会降低网络性能和可靠性。从历史上看,频谱的管理方式是强制每个通信系统在特定的预定义固定频率范围内运行。这种系统使频谱管理变得简单,但可能会导致大量频谱利用不足。例如,一组频率可能分配给很少使用频谱的一组用户,而另一组用户可能被困在比他们所需的带宽更少的带宽中。提前计划并确定此类用例的优先级通常很困难。一种更先进的方法是允许动态频谱分配以最大限度地提高利用率并确定使用优先级。这种方法通常称为频谱共享。虽然完全自主的频谱共享仍然是一个研究课题,但涉及 DARPA 频谱协作挑战赛 (SC2) 的演示已经显示出令人鼓舞的结果。
摘要 有多种原因使得脑癌识别成为神经外科医生在手术过程中的一项艰巨任务。由于脑肿瘤具有弥漫性,会渗透到周围的健康组织中,因此外科医生的肉眼有时不足以准确描绘脑肿瘤的位置和扩散范围。因此,为了改善手术效果并提高患者的生活质量,提供准确癌症界定的支持系统至关重要。作为欧洲“高光谱成像癌症检测”(HELICoiD)项目的一部分,开发的脑癌检测系统满足了这一要求,它利用了一种适合医学诊断的非侵入性技术:高光谱成像 (HSI)。该系统必须满足的一个关键约束是提供实时响应,以免延长手术时间。表征高光谱图像的大量数据以及分类系统执行的复杂处理使得高性能计算 (HPC) 系统对于提供实时处理至关重要。本工作中开发的最有效的实现利用了图形处理单元(GPU)技术,能够在不到三秒的时间内对数据库中最大的图像(最坏情况)进行分类,基本上满足了外科手术 1 分钟的实时约束,成为在不久的将来实现高光谱视频处理的潜在解决方案。
2.7.1 制定评估计划 ................................................................................................ 18 2.7.2 确定环境大小 ................................................................................................ 18 2.7.3 选择硬件 ................................................................................................ 19 2.7.4 一般先决条件 ................................................................................................ 20 2.7.5 当前版本 ................................................................................................ 22 2.7.6 安装前准备 ................................................................................................ 22 2.7.7 服务器 BIOS 设置 ............................................................................................. 22